JP4844670B2

JP4844670B2 - 映像処理装置および映像処理方法

Info

Publication number: JP4844670B2
Application number: JP2009260364A
Authority: JP
Inventors: 康彦寺西
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2009-11-13
Filing date: 2009-11-13
Publication date: 2011-12-28
Anticipated expiration: 2029-11-13
Also published as: CN102172014A; WO2011058807A1; JP2011109275A; US20110199505A1

Description

本発明は、被写体を特定すべく顔画像の特徴量を記憶する映像処理装置および映像処理方法に関する。

近年、ユーザが指定した人物の顔画像（顔の画像）を、生成した映像中から特定し、特定した顔画像に対して焦点や露光を自動的に調節するデジタルスチルカメラやデジタルビデオカメラ等の映像処理装置が普及している。このような映像処理装置は、予め、ユーザが指定した顔画像から顔画像の特徴量を導出し、後に顔画像を特定するため記憶している。しかし、顔画像の特徴量は、顔の向きの影響を受けるため、被写体が同一人物であっても、顔の向きが変わり過ぎると、異なる人物であると誤判断してしまう場合がある。

そこで、顔の代表的な特徴点を使って顔の向きを推定した後、顔の平均的な３次元モデルを用いて、人毎に違いが顕著に表れるその他の特徴位置を特定の姿勢へ変換し、かかる変換後の位置で特徴量を比較することで人物の判断を行う技術が提案されている（例えば、特許文献１）。

特開２００９−５３９１６号公報

上述した特許文献１の技術を用いると、顔画像を特定する際にその顔の向きに対してある程度のロバスト性を持たせることができるが、姿勢（顔の向き）を変えた顔画像をあくまで予測によって生成しているため、顔の向きや表情の変化が大きくなると、顔の認証処理において誤判断が生じるおそれがある。

また、映像処理装置が、予め、同一人物について顔の向きや表情が異なる複数の顔画像を取得し特徴量を導出および記憶しておけば、顔の認証処理において、顔画像を特定する精度を向上させることができる。しかし、そのためには、被写体の人物にその都度顔の向きや表情を変えてもらいながら、撮像および登録の操作を繰り返す必要がある。これでは、ユーザのみならず被写体の人物までもが煩わしい思いをすることとなってしまう。さらに、この撮像および登録の操作において、顔の向きや表情に十分に差異がある顔画像を、撮像および登録できているか否かは、ユーザの判断にまかせられるため、同じような特徴量を複数登録してしまい、顔画像を特定する際の精度が悪化する場合がある。

そこで本発明は、このような課題に鑑み、ユーザが煩わしい思いをすることなく、顔画像を確実に特定することができる適切な特徴量を導出可能な、映像処理装置および映像処理方法を提供することを目的としている。

上記課題を解決するために、本発明の映像処理装置は、映像を取得する映像取得部と、映像から１の顔画像を特定する位置特定部と、特定された顔画像と、記憶部に記憶された、１または複数の特徴量をまとめた顔情報とを関連付ける顔関連付部と、特定された顔画像の特徴量を導出する特徴量導出部と、導出された特徴量と、特定された顔画像に関連付けられた顔情報の１または複数の特徴量とを比較し、導出された特徴量と、特定された顔画像に関連付けられた顔情報の１または複数の特徴量全てとの類似度が所定値未満である場合に、導出された特徴量を顔情報に追加して記憶部に記憶させる記憶制御部と、を備えることを特徴とする。

上記映像処理装置は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数を示す画像を表示部に表示させる表示制御部を備えてもよい。

上記課題を解決するために、本発明の他の映像処理装置は、映像を取得する映像取得部と、映像から１の顔画像を特定する位置特定部と、特定された顔画像と、記憶部に記憶された、１または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付ける顔関連付部と、特定された顔画像の顔の向きを導出する顔向き導出部と、特定された顔画像の特徴量を導出する特徴量導出部と、導出された顔の向きと、特定された顔画像に関連付けられた顔情報の１または複数の顔の向きとを比較し、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、特定された顔画像に関連付けられた顔情報の顔の向きが含まれる１または複数の範囲のいずれにも導出された顔の向きが含まれない場合に、導出された特徴量と導出された顔の向きとを顔情報に追加して記憶部に記憶させる記憶制御部と、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数、もしくは、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている顔の向きが含まれる範囲、のいずれか一方または両方を示す画像を表示部に表示させる表示制御部と、を備えることを特徴とする。

上記課題を解決するために、本発明の映像処理方法は、映像を取得し、映像から１の顔画像を特定し、特定された顔画像と、１または複数の特徴量をまとめた顔情報とを関連付け、特定された顔画像の特徴量を導出し、導出した特徴量と、特定された顔画像に関連付けられた顔情報の１または複数の特徴量とを比較し、導出された特徴量と、特定された顔画像に関連付けられた顔情報の１または複数の特徴量全てとの類似度が所定値未満である場合に、導出した特徴量を顔情報に追加して記憶することを特徴とする。

さらに、記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数を示す画像を表示してもよい。

上記課題を解決するために、本発明の他の映像処理方法は、映像を取得し、映像から１の顔画像を特定し、特定した顔画像と、１または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付け、特定した顔画像の顔の向きを導出し、導出した顔の向きと、特定した顔画像に関連付けられた顔情報の１または複数の顔の向きとを比較し、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、特定された顔画像に関連付けられた顔情報の顔の向きが含まれる１または複数の範囲のいずれにも導出された顔の向きが含まれない場合に、特定した顔画像の特徴量と導出した顔の向きとを顔情報に追加して記憶し、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数、もしくは、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている顔の向きが含まれる範囲、のいずれか一方または両方を示す画像を表示することを特徴とする。

以上説明したように本発明は、ユーザが煩わしい思いをすることなく、顔画像を確実に特定することができる適切な特徴量を導出することが可能となる。

映像処理装置の一例を示した外観図である。第１の実施形態における映像処理装置の概略的な構成を示した機能ブロック図である。顔の向きを説明するための説明図である。第１の実施形態における特徴量の特徴量記憶部への記憶の制御を説明するための説明図である。第１の実施形態における映像処理方法の処理の流れを示すフローチャートである。第２の実施形態における映像処理装置の概略的な構成を示した機能ブロック図である。第２の実施形態における顔の向きに基づく顔画像の分類を説明するための説明図である。特徴量の数を示す画像と顔の向きが含まれる範囲を示す画像を説明するための説明図である。外部機器から特徴量を取得した場合の処理を説明するための説明図である。第２の実施形態における映像処理方法の処理の流れを示すフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。

（第１の実施形態：映像処理装置１００）
図１は、映像処理装置１００の一例を示した外観図である。図１（ａ）は、映像処理装置１００としてデジタルスチルカメラを、図１（ｂ）は、映像処理装置１００としてビデオカメラを示している。映像処理装置１００は、携帯性を有すものもあり、本体１０２と、撮像レンズ１０４と、操作部１０６と、表示部として機能するビューファインダ１０８を含んで構成される。

図２は、第１の実施形態における映像処理装置１００の概略的な構成を示した機能ブロック図である。ここでは、映像処理装置１００として図１（ｂ）に示すビデオカメラを挙げている。本実施形態の映像処理装置１００は、撮像した映像データ上の１の顔画像を特定し、その顔画像に関して記憶されている特徴量と異なる特徴量を新たに導出して記憶すること、すなわち、同一人物の顔の向きや表情の異なる様々な顔画像の特徴量を導出して記憶することを目的としている。このように導出して記憶された様々な顔画像の特徴量は、その後で、映像中の任意の顔画像を認証するため（認証モード）用いることができる。

映像処理装置１００は、操作部１０６と、撮像部１２０と、データ処理部１２２と、映像保持部１２４と、ビューファインダ１０８と、圧縮伸長部１２８と、記憶読取部１３０と、外部入出力部１３２と、特徴量記憶部１３４と、中央制御部１３６と、を含んで構成される。

操作部１０６は、レリーズスイッチを含む操作キー、十字キー、ジョイスティック等のスイッチから構成され、ユーザの操作入力を受け付ける。また、後述するビューファインダ１０８の表示面にタッチパネルを配し、操作部１０６としてもよい。

撮像部１２０は、焦点調整に用いられるフォーカスレンズ１５０と、露光調整に用いられる絞り１５２と、撮像レンズ１０４を通じて入射する光を光電変換し映像データにＡ／Ｄ変換する撮像素子１５６と、フォーカスレンズ１５０および絞り１５２を駆動させる駆動回路１５８とを含んで構成され、撮像方向の被写体の映像（映像データ）を取得する映像取得部として機能し、取得した映像データをデータ処理部１２２に出力する。

データ処理部１２２は、撮像部１２０から出力された映像データに、ホワイトバランス調節、ノイズ軽減処理、レベル補正処理、Ａ／Ｄ変換処理および色彩補正処理（ガンマ補正処理、ニー処理）等の所定の処理を施し、処理後の映像データを映像保持部１２４に出力する。

映像保持部１２４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）等で構成され、データ処理部１２２、圧縮伸長部１２８、および外部入出力部１３２から入力された映像データを一時的に保持する。

ビューファインダ１０８は、液晶ディスプレイ、有機ＥＬ(Electro Luminescence)ディスプレイ等で構成され、データ処理部１２２および圧縮伸長部１２８が出力し映像保持部１２４に保持された映像データや、操作部１０６と連動した指示項目を表示する表示部として機能する。ユーザは、撮像時においてビューファインダ１０８に表示された映像（画像）や、後述する記憶読取部１３０によって記憶される映像データの映像を確認することができる。また、ユーザは、ビューファインダ１０８に表示された映像を視認しつつ操作部１０６を操作することで、被写体を、所望する位置および占有面積で捉えることが可能となる。さらに、ビューファインダ１０８は、後述する、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数を示す画像を表示する。

圧縮伸長部１２８は、データ処理部１２２から出力された映像データを、Ｍ−ＪＰＥＧ（モーションJPEG）やＭＰＥＧ（Moving Picture Experts Group）−２、Ｈ．２６４などの所定の符号化方式で符号化した符号データとし、符号データを記憶読取部１３０に出力する。

また、圧縮伸長部１２８は、記憶読取部１３０が記憶媒体２００から読み取った、所定の符号化方式で符号化された符号データを復号した映像データを、映像保持部１２４に出力する。

記憶読取部１３０は、圧縮伸長部１２８が符号化した符号データを任意の記憶媒体２００に記憶させる。任意の記憶媒体２００としては、ＤＶＤ（Digital Versatile Disc）やＢＤ（Blu-ray Disc）といった光ディスク媒体や、ＲＡＭ、ＥＥＰＲＯＭ、不揮発性ＲＡＭ、フラッシュメモリ、ＨＤＤ等の媒体を適用することができる。ここで、記憶媒体２００は、着脱可能とするが、映像処理装置１００と一体であってもよい。また、記憶読取部１３０は、映像データを所定の符号化方式で符号化した符号化データが記憶された任意の記憶媒体２００から符号化データを読み取り、圧縮伸長部１２８に出力する。

外部入出力部１３２は、映像保持部１２４に保持された映像データを、例えば、映像処理装置１００に接続された表示装置２０４に出力する。また、外部入出力部１３２は、例えば、ＤＶＤプレーヤ、ＢＤプレーヤ、ＨＤＤプレーヤ等の外部の映像再生装置２０６に接続され、映像再生装置が出力した映像データを受け取り、映像保持部１２４に出力する。

特徴量記憶部１３４は、ＲＡＭ、フラッシュメモリ、ＨＤＤ等で構成され、後述する記憶制御部の指示に従って、同一人物の顔画像から導出された１または複数の特徴量をまとめた顔情報を、同一人物の数だけ記憶する記憶部として機能する。

中央制御部１３６は、中央処理装置（ＣＰＵ）や信号処理装置（ＤＳＰ：Digital Signal Processor）を含む半導体集積回路で構成され、所定のプログラムを用いて映像処理装置１００全体を管理および制御する。

また、中央制御部１３６は、位置特定部１７０、顔向き導出部１７２、顔関連付部１７４、特徴量導出部１７６、記憶制御部１７８、表示制御部１８０としても機能する。

本実施形態の映像処理装置１００は、登録モードにおいて、撮像した映像データ上の１の顔画像を特定し、その顔に関して記憶されている特徴量と異なる特徴量を新たに導出して記憶し、認証モードにおいて、この特徴量を映像中の顔を認証するために用いる。以下、映像処理装置１００について、登録モードと認証モードに分けて説明する。

（登録モード）
位置特定部１７０は、登録モードにおいて、撮像部１２０が取得し、映像保持部１２４に保持された映像から、操作部１０６を通じたユーザ入力に応じて、１の顔画像を特定（選択）し、その顔画像を既存の画像処理技術を用いて追尾し、フレーム毎の顔画像に関する画像情報を顔向き導出部１７２および特徴量導出部１７６に出力する。位置特定部１７０は、複数の顔画像が検出された場合には各顔画像について同様に追尾し、その全ての顔画像に関する画像情報を特徴量導出部１７６に出力する。

また、ここでは、映像取得部として撮像部１２０を用いているが、それに限らず、記憶読取部１３０や外部入出力部１３２を映像取得部として機能させ、位置特定部１７０は、記憶読取部１３０や外部入出力部１３２が取得した映像に基づいて１の顔画像を特定してもよい。

このような１の顔画像の特定は、映像保持部１２４に保持された映像をビューファインダ１０８に表示させ、操作部１０６の操作を通じてユーザに１の顔画像を選択させることで遂行される。また、操作部１０６として、ビューファインダ１０８の表示面にタッチパネルが重畳されている場合、タッチパネルを通じて１の顔画像の位置に相当する部位をユーザに接触させることで、１の顔画像の特定を遂行してもよい。さらに、画面内に存在する全ての顔画像を自動的に選択し、選択された全ての顔画像を囲うように複数の枠を表示させた状態で、「どの人を登録しますか？」と画面に表示させ、そのうちの１の顔画像をユーザに選択させてもよい。

また、位置特定部１７０は、画面内の例えば中央部の所定領域に顔が映るように被写体の人物を位置させ、ユーザの操作入力による任意のタイミングで、その所定領域に対応する映像中の領域の顔画像を特定してもよい。かかる所定領域は、ユーザが画面内で任意に指定可能なものとしてもよい。この場合、後述する表示制御部１８０は、ビューファインダ１０８に表示させているこの所定領域の境界線に、例えば、四角い枠等の指標を重畳して表示させる。

本実施形態において、位置特定部１７０は、顔画像を追尾するため、映像中の所定の大きさの検索領域を走査し、目、鼻、口といった顔を構成する器官の特徴を示す特徴点を検出することで顔画像を抽出しているが、かかる検出処理に限られず、肌色領域を検出したり、パターンマッチングしたりして、顔画像を抽出してもよい。

位置特定部１７０は、顔画像の座標、顔画像の大きさを少なくとも含む画像情報を顔向き導出部１７２に、顔画像の座標、顔画像の大きさ、顔画像の確からしさを少なくとも含む画像情報を特徴量導出部１７６にそれぞれ出力する。顔画像の座標は、映像サイズに対する顔領域の相対的な座標を示し、顔画像の大きさは、映像サイズに対する顔領域の相対的な大きさを示し、顔画像の確からしさは、顔画像が顔の映像であることの確実性を示し、例えば、標準的な顔画像との類似の度合いを示す類似度として導出してもよい。また、この類似度を肌色領域の検出結果で重み付けしてもよく、例えば、肌色領域が少なければ類似度を低い値に修正してもよい。

図３は、顔の向きを説明するための説明図である。画像情報には、上述した顔画像の座標、顔画像の大きさ、顔画像の確からしさと共に、顔画像の回転補正のため顔画像のロール角も含んでいる。ここで、特徴量導出部１７６に出力する顔画像のロール角は、図３（ａ）で定義されるロール軸回りの顔画像の回転角である。また、後述するピッチ角（ピッチ軸回りの回転角）やヨー角（ヨー軸回りの回転角）の定義も図３（ｂ）、図３（ｃ）に示す。

顔向き導出部１７２は、位置特定部１７０が出力した画像情報に示される顔画像の座標と顔画像の大きさとに基づいて、映像保持部１２４に保持されている映像データから位置特定部１７０が特定した顔画像を読み出し、顔画像の特徴点である目や口と顔の輪郭情報等から、ロール角以外の顔の向きを、すなわち顔のピッチ角とヨー角を導出する（図３（ｂ）、（ｃ）参照）。

特徴量導出部１７６は、位置特定部１７０から出力された画像情報に示される顔画像の座標、顔画像の大きさに基づいて、映像保持部１２４に保持されている映像から顔画像を読み出す。そして、読み出された顔画像について、画像情報に示される顔画像の大きさ、顔画像のロール角に基づき、解像度変換やロール角方向の回転補正を行い、正規化した（所定の大きさで正立した）顔画像に変換する。

また、特徴量導出部１７６は、自体が変換した顔画像と、顔向き導出部１７２が導出した顔の向きであるピッチ角およびヨー角に基づいて、位置特定部１７０が特定した顔画像の特徴量を導出する。具体的に、まず、特徴量導出部１７６は、顔向き導出部１７２が導出した顔のピッチ角とヨー角から、正規化後の顔画像に対してさらにアフィン変換を施し、正面を向いた顔の顔画像に修正する。

そして、特徴量導出部１７６は、アフィン変換後の顔画像に関する特徴点を、アフィン変換後の顔画像から検出することを試みるが、ここでは、その検出に費やす処理負荷が大きくなるため、事前に検出されているアフィン変換前の顔画像に関する特徴点をアフィン変換することで導出する。アフィン変換後の顔画像の特徴点から、それぞれの特徴点が顔の各部分の特徴点であることの確実さを示す、特徴点であることの確からしさ、を特徴点毎にそれぞれ導出する。ここで、例えば、被写体の人物が目を閉じていた場合、目の特徴点であることの確実さは低くなる。

さらに、特徴量導出部１７６は、その顔画像が処理するに値する顔画像か否かを判定し、例えば、顔画像のピッチ角が−１５°〜＋１５°の範囲であり、顔画像のヨー角が−３０°〜＋３０°の範囲であり、画像情報に示された顔画像の確からしさ、特徴点であることの確からしさが、予め設定されたそれぞれに対応する所定の条件を満たす場合に、顔画像の特徴量として、例えば、ガボア・ジェットを導出する。

ガボア・ジェットを求めるために用いる、ガボア・フィルタは方向選択性と周波数特性の両方を持ったフィルタである。特徴量導出部１７６が、方向と周波数をそれぞれ異ならせた複数のガボア・フィルタを用いて顔画像の畳み込みを行い、得られた複数のスカラ値の組をガボア・ジェットと呼ぶ。特徴量導出部１７６は、顔画像上の特徴点の近傍で、局所的な特徴量としてガボア・ジェットを求める。

そして、特徴量導出部１７６は、アフィン変換後の顔画像の特徴点に基づいて導出した特徴量を顔関連付部１７４に出力する。ここで、特徴量は、複数のスカラ値の組（ガボア・ジェット）の集合としてのベクトル量として表される。１枚の顔画像から１つのベクトル量が導出される。

顔関連付部１７４は、まず、位置特定部１７０がユーザ入力に応じて特定した顔画像と、同一人物の顔画像から導出された特徴量をまとめた顔情報（以下、単に同一人物の顔情報と称する）がすでに特徴量記憶部１３４に記憶されているか否かを、例えば、特徴量同士の類似度に基づいて判断する。

そして、顔関連付部１７４は、位置特定部１７０がユーザ入力に応じて特定した顔画像と、同一人物の顔情報がまだ特徴量記憶部１３４に記憶されていなければ、その特徴量を新たな顔情報として特徴量記憶部１３４に記憶させる。

また、顔関連付部１７４は、位置特定部１７０がユーザ入力に応じて特定した顔画像と、同一人物の顔情報がすでに特徴量記憶部１３４に記憶されていれば、特定した顔画像と、特徴量記憶部１３４に記憶された、その同一人物の顔情報とを関連付ける。以下、顔関連付部１７４の具体的な処理を説明する。

特徴量記憶部１３４には、１の人物に関する複数の顔画像から導出された複数の特徴量をまとめた顔情報が人物の数に応じて複数記憶されている。顔関連付部１７４は、特徴量導出部１７６が導出した特徴量と、特徴量記憶部１３４から読み出した複数の顔情報の複数の特徴量それぞれについて、類似度を導出する。

すなわち、１の顔情報について１つしか特徴量が記憶されていなければ、特徴量導出部１７６が導出した特徴量と特徴量記憶部１３４に記憶されている１の顔情報の１つの特徴量との類似度を導出し、１の顔情報に複数の特徴量がまとめられ記憶されている場合には、特徴量導出部１７６が導出した特徴量と特徴量記憶部１３４に記憶されている１の顔情報の複数の特徴量との類似度をそれぞれ導出し、導出された１または複数の類似度のうち最も高い類似度を、特徴量導出部１７６が出力した特徴量と、その１の顔情報の複数の特徴量との類似度とする。特徴量記憶部１３４に複数の顔情報が記憶されている場合、顔関連付部１７４は、上述した１の顔情報に対する類似度の導出処理を複数の顔情報全てに対して施すこととなる。

具体的な類似度の導出処理として、顔関連付部１７４は、まず特徴量導出部１７６から出力された特徴量と、特徴量記憶部１３４から読み出した例えば１の顔情報の１の特徴量とで、正規化相関演算等の手法によって、特徴点毎の類似度ｄ０、ｄ１、ｄ２、…、ｄｎ（ｎは正数）を求める。

続いて、顔関連付部１７４は、正規化相関演算で得られた各特徴点の類似度ｄ０、ｄ１、ｄ２、…、ｄｎを要素として類似度ベクトル（類似度の集合）Ｄ＝（ｄ０、ｄ１、ｄ２、…、ｄｎ）を導出する。

類似度ベクトルＤから、例えば、アダブースト・アルゴリズムやサポート・ベクタ・マシーン（ＳＶＭ）を使用して顔全体としての類似度Ｆｉを導出する。この類似度Ｆｉを１の顔情報の複数の特徴量全てに関して導出し、そのうちの最大値を、特徴量導出部１７６から出力された特徴量と、その１の顔情報の複数の特徴量との類似度Ｆとする。

顔関連付部１７４は、このような類似度Ｆを全ての顔情報に関して導出し、導出した類似度Ｆのうちの最大のものが、所定の第１閾値よりも小さい場合、位置特定部１７０が特定した顔画像と、同一人物の顔情報がまだ特徴量記憶部１３４に記憶されていないと判断する。

そして、顔関連付部１７４は、特徴量導出部１７６から出力された特徴量を新たな顔情報の特徴量として特徴量記憶部１３４に記憶させる。そして、顔関連付部１７４は、位置特定部１７０が特定した顔画像と、新たに特徴量記憶部１３４に記憶した顔情報とを同一人物として関連付ける。

また、顔関連付部１７４は、全ての顔情報に関して導出した類似度Ｆのうちの最大のものが、所定の第１閾値以上であった場合、顔関連付部１７４は、その最大の類似度Ｆとなった顔情報が、位置特定部１７０が特定した顔画像と、同一人物のものであり、同一人物の顔情報がすでに特徴量記憶部１３４に記憶されていると判断する。そして、顔関連付部１７４は、位置特定部１７０が特定した顔画像と特徴量記憶部１３４に記憶された、類似度Ｆが最大となった顔情報とを同一人物として関連付ける。

さらに、顔関連付部１７４は、位置特定部１７０が特定した顔画像と特徴量記憶部１３４に記憶されている顔情報とを、例えば、操作部１０６を通じたユーザの操作入力に基づいて関連付けてもよい。具体的には、上述したように、ユーザが、映像保持部１２４に保持された映像から１の顔画像を特定（選択）し、同時に、予め特徴量記憶部１３４に特徴量が記憶されている顔情報のうちから、これから特徴量を記憶させようとしている被写体の人物の顔情報を選択すると、顔関連付部１７４は、類似度の導出を通じた同一人物の判断処理を実行することなく、位置特定部１７０が特定した顔画像と、特徴量記憶部１３４におけるユーザによって選択された顔情報とを同一人物として関連付けることができる。

この場合、位置特定部１７０が特定した顔画像は、類似度の導出なしに顔情報と関連付けられており、位置特定部１７０が特定し追尾する顔画像のうち、１枚目（１フレーム目）の顔画像から、特徴量の記憶の対象とすることができる。さらに、例えば、映像が１フレームのみの場合（写真撮影の場合）であっても、位置特定部１７０が顔画像を特定するが追尾をせずに、その１枚目の顔画像を特徴量の記憶の対象とすることもできる。

そして、特徴量導出部１７６は、位置特定部１７０が特定した顔画像について、継続して取り込まれた画像情報からそれぞれ特徴量を導出する。

記憶制御部１７８は、特徴量導出部１７６が導出した特徴量と、特定された顔画像に関連付けられた顔情報の１または複数の特徴量とを比較し、所定条件を満たす場合、その導出された特徴量を顔情報に追加して特徴量記憶部１３４に記憶させる。

かかる記憶制御部１７８の構成により、特定された顔画像のうちでも所定条件を満たす顔画像の特徴量のみが自動的に特徴量記憶部１３４に記憶されるので、認証モードにおいても適切に顔を特定することができ、ユーザの操作性が向上する。

上述したように、顔関連付部１７４によって、位置特定部１７０が特定した顔画像と、特徴量記憶部１３４における顔情報とが同一人物として関連付けられた後、今度は、同一人物の顔情報に関してまだ登録されていない（異なる）顔画像を抽出して、その抽出された顔画像の特徴量を特徴量記憶部１３４に記憶する。

かかる同一人物の異なる顔画像を抽出するため、特徴量導出部１７６が新たに導出した特徴量と、特徴量記憶部１３４に記憶されている、位置特定部１７０が特定した顔画像に関連付けられた顔情報の１または複数の特徴量との類似度が所定値未満であることを所定条件とする。

ここで、類似度Ｆが所定値（第２閾値）未満となった場合、現在の顔画像と先に登録した顔画像とが、同一人物ではあるが、顔の向きが異なる、または表情が異なる場合であると考えられる。したがって、記憶制御部１７８は、このような顔の向きや表情が異なる顔画像の特徴量を特徴量記憶部１３４に記憶させる。

一方、類似度Ｆが第２閾値以上である場合は、現在の顔画像と先に登録した顔画像が同じ様な顔の向き、表情であると考えられる。この場合には、現在の顔画像を登録しても、後述する映像中の顔が登録されているか否かを判断する認証モードにおいて、認証の精度の向上にあまり貢献しないため、記憶制御部１７８は、このような顔画像の特徴量を特徴量記憶部１３４に記憶させない。

図４は、第１の実施形態における特徴量の特徴量記憶部１３４への記憶の制御を説明するための説明図である。図４（ａ）に示すように、特徴量記憶部１３４には、任意の顔情報の特徴量２３０ａ〜２３０ｄについて、指標Ｍ１、Ｍ２、Ｍ３、Ｍ４と、各特徴点の値ｍ１ａ、ｍ１ｂ、…が記憶されている。ここで、特徴量導出部１７６から新たに、同一人物として顔情報に関連付けられた顔画像から導出された特徴量２３０ｅが出力されたとする。

この場合、記憶制御部１７８は、その顔情報のそれぞれの特徴量２３０ａ〜２３０ｄと新たに導出された特徴量２３０ｅとの類似度を導出し、最も高い特徴量、ここでは例えば特徴量２３０ｄについて、第２閾値と比較し、第２閾値以上である場合、その特徴量を特徴量記憶部１３４に記憶させない。また、第２閾値未満である場合、図４（ｂ）に示すように、その特徴量２３０ｅを、特徴量記憶部１３４にその顔情報の特徴量として記憶させる。

特徴量記憶部１３４に記憶された顔画像の特徴量は、認証モードにおいて、撮像部１２０で生成された映像に含まれる顔画像から導出した特徴量との類似度を導出する際に用いられる。本実施形態の映像処理装置１００は、これから記憶させる特徴量の候補が、既に記憶されている特徴量と異なるか否かを、認証モードと同一の判断基準である類似度によって判断しているため、認証モードでも有効な同一人物に関する複数の異なる特徴量を確実に抽出することができ、少ない比較処理で、認証の精度を向上させることができる。

上述した特徴量の記憶は、例えば、ユーザの操作入力を契機に、特定された顔画像の特徴量を登録するための登録モードにおいて実行される。ユーザが登録モードを開始する操作入力を行い、登録したい顔を撮像し続けると、特徴量導出部１７６は、顔関連付部１７４が顔情報と関連付けた、特定された顔画像について順次特徴量を導出し、記憶制御部１７８は、導出された特徴量のうち、所定条件を満たす特徴量を随時登録していく。

このとき、表示制御部１８０は、特徴量記憶部１３４に記憶されている、特定された顔画像と関連付けられた顔情報の特徴量の数を示す画像を、生成された被写体の映像に重畳してビューファインダ１０８に表示させる。例えば、一人の人物の顔情報について、特徴量は最大８つまで記憶する場合、ある人物の顔情報について、特徴量がすでに３つ記憶されているとする。この場合、３／８が塗りつぶされた円グラフを表示する。このように、表示制御部１８０は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数を示す画像をビューファインダ１０８に表示させる。

かかる構成により、ユーザは、表示された顔情報の特徴量の数を示す画像を視認し、顔画像の特徴量の記憶の進捗具合を確認することができ、ユーザの操作性を向上することが可能となる。

登録モードにおいて、登録の対象の人物の顔に関し、最大数、例えば８つの特徴量の登録が完了したり、ユーザの操作入力によって、登録モードが終了されたりすると、登録した特徴量の登録対象の個人情報を入力する入力モードに遷移する。

表示制御部１８０は、ビューファインダ１０８に「登録した人の名前を入力してください」、「登録した人の生年月日を入力してください」等のメッセージを表示させる。そして、ユーザが操作部１０６を通じて、特徴量の登録対象の名前や生年月日等の個人情報を入力する。記憶制御部１７８は、これらの個人情報や登録時点の日時を示す日時情報を特徴量に関連付けて、特徴量記憶部１３４に記憶させる。また、ユーザは、個人情報についてすぐに入力を行わず事後的に入力することができる。

さらに、通常の撮影時に、被写体の人物の中で、すでに特徴量が特徴量記憶部１３４に記憶されており、かつ記憶済みの特徴量の数が最大数未満である場合や日時情報が示す日時から所定の時間が経過しているような場合に、自動的に登録モードに遷移してもよい。その場合、表示制御部１８０は「Ａさんの登録を継続しますか」といったメッセージをビューファインダ１０８に表示させ、ユーザに特徴量の登録の対象となる顔情報の確認と登録モードへの遷移の可否を選択させる。

また、特徴量記憶部１３４は、顔情報毎に特徴量を記憶するものとしたが、かかる場合に限定されず、特徴量を導出する際に用いた顔画像自体を記憶してもよい。このように顔画像も記憶することで、認証モードにおいて、顔の認証に用いられる顔画像をユーザが実際に視認できるため、ユーザは、極端な表情の顔画像等、不要と思われる顔画像を、特徴量記憶部１３４から削除することができる。この場合、特徴量記憶部１３４は、特徴量を記憶せず、顔画像のみを記憶し、特徴量導出部１７６は、特徴量記憶部１３４から顔画像を読み出す際に、その顔画像に基づいて特徴量を導出するとしてもよい。

（認証モード）
上述した登録モードにおいて、特徴量記憶部１３４に記憶された特徴量は、認証モードにおいて、被写体の顔を認証する際に用いられる。ユーザの操作入力によって認証モードに遷移する指示があると、表示制御部１８０は、ビューファインダ１０８に特徴量記憶部１３４に記憶されている１または複数の顔情報を表示させる。ユーザが、所望する顔情報を選択した後、撮像を開始すると、位置特定部１７０は、撮像部１２０が取得し、映像保持部１２４に保持された映像に含まれる顔画像全てについて、顔画像を追尾し、フレーム毎の顔画像の座標を含む画像情報を特徴量導出部１７６に出力する。

特徴量導出部１７６は、位置特定部１７０から出力された顔画像の座標に基づいて、位置特定部１７０が特定した顔画像の特徴量を導出する。記憶制御部１７８は、特徴量記憶部１３４に記憶された特徴量のうち、ユーザが選択した顔情報における特徴量と、特徴量導出部１７６が導出した特徴量との類似度を導出する。

そして、導出された類似度が所定閾値、例えば、上述した第１閾値以上である場合、駆動回路１５８は、フォーカスレンズ１５０および絞り１５２を駆動させ、対応する被写体に合わせて焦点や露光を調節する。また、表示制御部１８０は、ビューファインダ１０８に表示させている映像中の、対応する顔画像に、例えば、四角い枠等の指標を重畳して表示させる。

上述したように、本実施形態においては、記憶制御部１７８は、顔情報と同一人物と見なすことができる被写体の顔画像の特徴量について、顔の向きや表情が異なり類似度が第２閾値未満となる場合に、自動的に特徴量記憶部１３４に記憶させる。そのため、特徴量の登録において、ユーザが煩わしい思いをすることなく、顔を確実に認証することができる適切な特徴量を導出することが可能となる。

（映像処理方法）
さらに、上述した映像処理装置１００を用いた映像処理方法も提供される。図５は、第１の実施形態における映像処理方法の処理の流れを示すフローチャートである。図５においては、特に、上述した登録モードの処理の流れについて示している。

撮像部１２０は、映像を取得し（Ｓ３００）、位置特定部１７０は、映像保持部１２４に保持された映像から１の顔画像を特定できたか否かを判断する（Ｓ３０２）。位置特定部１７０が１の顔画像を特定できない場合（Ｓ３０２のＮＯ）、映像取得ステップ（Ｓ３００）に戻る。

位置特定部１７０が１の顔画像を特定できた場合（Ｓ３０２のＹＥＳ）、その顔画像を追尾し、フレーム毎の顔画像に関する画像情報を特徴量導出部１７６に出力する（Ｓ３０４）。特徴量導出部１７６は、位置特定部１７０が追尾した顔画像について、顔向き導出部１７２が導出した顔の向きが、例えば、ピッチ角が−１５°〜＋１５°の範囲であり、ヨー角が−３０°〜＋３０°の範囲であり、画像情報に示された顔画像の確からしさ、特徴点であることの確からしさが予め設定されたそれぞれに対応する所定の条件を満たす場合に、特徴量を導出する（Ｓ３０６）。

顔関連付部１７４は、位置特定部１７０が特定した顔画像が、特徴量記憶部１３４に記憶された顔情報に関連付けられているか否かを判定する（Ｓ３０８）。関連付けられていない場合（Ｓ３０８のＮＯ）、顔関連付部１７４は、特徴量導出部１７６が導出した特徴量と、特徴量記憶部１３４から読み出した複数の顔情報のうちの１つの顔情報における複数の特徴量のうちの１つについて、類似度を導出する（Ｓ３１０）。そして、顔関連付部１７４は、そのとき類似度を導出した特徴量に関する顔情報について、それまでに導出された類似度の最大値と、そのとき導出した類似度とを比較し（Ｓ３１２）、それまでに導出された類似度の最大値よりも、そのとき導出した類似度が大きい場合（Ｓ３１２のＹＥＳ）、対象の顔情報について、類似度の最大値を、そのとき導出した類似度に置換する（Ｓ３１４）。

顔関連付部１７４は、特徴量記憶部１３４から読み出した１つの顔情報の全ての特徴量について、類似度の導出が完了しているか否かを判断する（Ｓ３１６）。完了していない場合（Ｓ３１６のＮＯ）、類似度導出ステップ（Ｓ３１０）に戻ってまだ類似度を導出していない特徴量について同様の処理を行う。

特徴量記憶部１３４から読み出した１つの顔情報の全ての特徴量について、類似度の導出が完了している場合（Ｓ３１６のＹＥＳ）、顔関連付部１７４は、特徴量記憶部１３４から読み出した全ての顔情報の特徴量について、類似度の導出が完了しているか否かを判断する（Ｓ３１８）。完了していない場合（Ｓ３１８のＮＯ）、類似度導出ステップ（Ｓ３１０）に戻ってまだ類似度を導出していない他の顔情報の特徴量について同様の処理を行う。

特徴量記憶部１３４から読み出した全ての顔情報の特徴量について、類似度の導出が完了している場合（Ｓ３１８のＹＥＳ）、顔関連付部１７４は、導出された顔情報毎の類似度の最大値のうち、最大となる類似度が第１閾値以上であるか否かを判断する（Ｓ３２０）。第１閾値以上である場合（Ｓ３２０のＹＥＳ）、顔関連付部１７４は、位置特定部１７０が特定した顔画像と同一人物の顔情報がすでに特徴量記憶部１３４に記憶されていると判断し、位置特定部１７０が特定した顔画像を対応する顔情報とを関連付ける（Ｓ３２４）。第１閾値未満である場合（Ｓ３２０のＮＯ）、顔関連付部１７４は、位置特定部１７０が特定した顔画像と同一人物の顔情報が特徴量記憶部１３４に記憶されていないと判断し、導出された特徴量を特徴量記憶部１３４に新規の顔情報の特徴量として記憶させ（Ｓ３２２）、位置特定部１７０が特定した顔画像をその新規の顔情報に関連付ける（Ｓ３２４）。そして、映像取得ステップ（Ｓ３００）に戻る。

関連付判定ステップ（Ｓ３０８）において、位置特定部１７０が特定した顔画像が、特徴量記憶部１３４に記憶された顔情報に関連付けられている場合（Ｓ３０８のＹＥＳ）、記憶制御部１７８は、特徴量導出部１７６が導出した特徴量と、同じ顔情報の他の特徴量のうちの１つとの類似度を導出する（Ｓ３２６）。そして、記憶制御部１７８は、同じ顔情報の他の特徴量について、それまでに導出された類似度の最大値と、そのとき導出した類似度とを比較し（Ｓ３２８）、それまでに導出された類似度の最大値よりも、そのとき導出した類似度が大きい場合（Ｓ３２８のＹＥＳ）、対象の顔情報について、類似度の最大値を、そのとき導出した類似度に置換する（Ｓ３３０）。

記憶制御部１７８は、同じ顔情報の他の特徴量について、類似度の導出が完了しているか否かを判断する（Ｓ３３２）。完了していない場合（Ｓ３３２のＮＯ）、類似度導出ステップ（Ｓ３２６）に戻ってまだ類似度を導出していない特徴量について同様の処理を行う。

同じ顔情報の他の全ての特徴量について、類似度の導出が完了している場合（Ｓ３３２のＹＥＳ）、記憶制御部１７８は、導出された類似度の最大値が所定条件を満たすか、すなわち、第２閾値未満であるか否かを判断する（Ｓ３３４）。第２閾値未満である場合（Ｓ３３４のＹＥＳ）、記憶制御部１７８は、特徴量導出部１７６が新たに導出した特徴量を、既存の同一人物の顔情報の特徴量として特徴量記憶部１３４に記憶させる（Ｓ３３６）。そして、中央制御部１３６は、特徴量記憶部１３４に記憶されている、対象の顔情報に関する特徴量の数が、すでに最大数に達しているか否かを判断する（Ｓ３３８）。特徴量の数が最大数に達している場合（Ｓ３３８のＹＥＳ）、表示制御部１８０は、１つの顔情報について記憶させる特徴量の最大数に到達したことをビューファインダ１０８に表示させ、登録モードの終了を促す（Ｓ３４０）。

所定条件判定ステップ（Ｓ３３４）において、所定条件を満たさない場合（Ｓ３３４のＮＯ）、最大数判定ステップ（Ｓ３３８）において、特徴量の数が最大数に達していない場合（Ｓ３３８のＮＯ）、および最大数到達表示ステップ（Ｓ３４０）の後、中央制御部１３６は、ユーザによる操作入力で登録モードの終了の指示があるか否かを判断する（Ｓ３４２）。終了の指示が無かった場合（Ｓ３４２のＮＯ）、映像取得ステップ（Ｓ３００）に戻る。終了の指示があった場合（Ｓ３４２のＹＥＳ）、登録モードを終了する。

上述したように、映像処理装置１００を用いた映像処理方法によれば、ユーザが煩わしい思いをすることなく、顔を確実に認証することができる適切な特徴量を導出することが可能となる。

（第２の実施形態）
上述した第１の実施形態では、記憶制御部１７８は、新たに導出された特徴量を、特徴量記憶部１３４に記憶させるか否かの判断に、類似度を導出して第２閾値と比較していた。第２の実施形態では、特徴量に対して影響が大きい、顔の角度に絞って判断する映像処理装置４００について説明する。なお、上述した映像処理装置１００と実質的に等しい構成要素については、同一の符号を付して説明を省略する。

（映像処理装置４００）
図６は、第２の実施形態における映像処理装置４００の概略的な構成を示した機能ブロック図である。映像処理装置４００は、操作部１０６と、撮像部１２０と、データ処理部１２２と、映像保持部１２４と、ビューファインダ１０８と、圧縮伸長部１２８と、記憶読取部１３０と、外部入出力部１３２と、記憶部として機能する特徴量記憶部１３４と、中央制御部４３６と、を含んで構成される。第１の実施形態における構成要素として既に述べた操作部１０６と、撮像部１２０と、データ処理部１２２と、映像保持部１２４と、ビューファインダ１０８と、圧縮伸長部１２８と、記憶読取部１３０と、外部入出力部１３２と、特徴量記憶部１３４とは、実質的に機能が同一なので重複説明を省略し、ここでは、構成が相違する中央制御部４３６を主に説明する。

中央制御部４３６は、中央処理装置（ＣＰＵ）や信号処理装置（ＤＳＰ）を含む半導体集積回路で構成され、所定のプログラムを用いて映像処理装置４００全体を管理および制御する。また、中央制御部４３６は、位置特定部１７０、顔向き導出部１７２、顔関連付部４７４、特徴量導出部４７６、記憶制御部４７８、表示制御部４８０としても機能する。

顔関連付部４７４は、第１の実施形態の顔関連付部１７４と同様の処理を行い、特定された顔画像と、顔情報とを関連付ける。このとき、特徴量記憶部１３４に記憶された顔情報には、特徴量のみならず、その顔の向きも含まれるので、顔関連付部４７４は、そのような１または複数の特徴量とその顔の向きとをまとめた顔情報を、特定された顔画像に関連付けている。

特徴量導出部４７６は、顔向き導出部１７２が導出した顔の向きと、位置特定部１７０が特定した顔画像に関連付けられた顔情報の１または複数の顔の向きとを比較し、所定条件を満たす場合に、特定された顔画像の特徴量を導出する。本実施形態において、特徴量導出部４７６は、所定条件を満たす場合のみ、特定された顔画像の特徴量を導出することとするが、かかる場合に限定されず、特定された顔画像全ての特徴量を導出することとしてもよい。

記憶制御部４７８は、顔向き導出部１７２が導出した顔の向きと、位置特定部１７０が特定した顔画像に関連付けられた顔情報の１または複数の顔の向きとを比較し、所定条件を満たす場合に、特徴量導出部４７６が新たに導出した特徴量と顔向き導出部１７２が導出した顔の向きとを顔情報に追加して特徴量記憶部１３４に記憶させる。

また、本実施形態において、上記所定条件は、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、位置特定部１７０が特定した顔画像に関連付けられた顔情報の顔の向きが含まれる１または複数の範囲のいずれにも、顔向き導出部１７２が導出した顔の向きが含まれないこととする。

図７は、第２の実施形態における顔の向きに基づく顔画像の分類を説明するための説明図である。図７（ａ）は、ある顔情報について、特徴量の記憶の状態を説明するための説明図であり、図７（ｂ）は、図７（ａ）において、新たに特徴量が記憶された後の状態を説明するための説明図である。本実施形態において、特徴量記憶部１３４は、特徴量のかわりに顔画像（例えば、図７（ａ）、図７（ｂ）に示す、顔の向きが異なる顔画像４１０）を記憶している。図７（ａ）、（ｂ）において、テーブル４１２は、特徴量記憶部１３４に記録されている顔画像自体を、テーブル４１４は、所定の顔の向きの範囲に含まれる顔画像の記録の有無を示す。

第１の実施形態と同様、第２の実施形態においても、顔向き導出部１７２は、顔画像のピッチ角およびヨー角を導出し、特徴量導出部４７６は、ピッチ角が＋１５°〜１５°の範囲であり、ヨー角が＋３０°〜−３０°の範囲外にある場合には特徴量を導出しない。

特徴量導出部４７６は、顔向き導出部１７２が新たに導出した顔画像の顔の向きであるピッチ角、ヨー角が、図７（ａ）に示す範囲（ピッチ角について−１５°〜−５°、−５°〜５°、５°〜１５°、ヨー角について−３０°〜−１０°、−１０°〜１０°、１０°〜３０°）のうち、どの範囲に含まれるかを判断する。そして、特徴量導出部４７６は、同一人物の顔情報について、特徴量に関連付けて記憶されている複数のフラグのうち、その範囲に対応する、図７（ａ）に示すテーブル４１４のフラグがすでに特徴量が記憶されていることを示す「１」である場合、その顔画像の特徴量を導出しない。

また、特徴量導出部４７６は、図７（ａ）に示すフラグがまだ特徴量が記憶されていないことを示す「０」である場合、すなわち、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数（本実施形態においては９つ）の範囲のうち、特徴量記憶部１３４に記憶されている、位置特定部１７０が特定した顔画像に関連付けられた顔情報の顔の向きが含まれる１または複数の範囲のいずれにも、顔向き導出部１７２が新たに導出した顔画像の顔の向きが含まれない場合、特徴量導出部４７６は位置特定部１７０が特定した顔画像の特徴量を導出し、記憶制御部４７８は、特徴量導出部４７６が導出した特徴量と顔向き導出部１７２が導出した顔の向きとを顔情報に追加して記憶させ、テーブル４１４の対応するフラグを「１」に変更する。

例えば、顔向き導出部１７２が新たに導出した顔画像の顔の向きのピッチ角、ヨー角が、図７（ａ）に示すＮ７の位置４１６（ピッチ角−１５°〜−５°、ヨー角１０°〜３０°）であると、図７（ｂ）に示すように、新たに特徴量が記憶され、フラグが「０」から「１」に変更される。

図８は、特徴量の数を示す画像４１８ａと顔の向きが含まれる範囲を示す画像４１８ｂを説明するための説明図である。図８（ａ）、（ｂ）に示すように、表示制御部４８０は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数もしくはピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている顔の向きが含まれる範囲のいずれか一方または両方を示す画像をビューファインダ１０８に表示させる。

例えば、図７（ｂ）に示すテーブル４１２が特徴量記憶部１３４に記録されている場合、表示制御部４８０は、第１の実施形態の表示制御部１８０と同様、記憶可能な特徴量の上限数（ここでは９つ）に対する実際に記憶されている特徴量の数（ここでは６つ）を示す、６／９が塗りつぶされた（ハッチングされた）円グラフ（例えば、図８（ａ）に示す画像４１８ａ）をビューファインダ１０８に表示させることができる。

また、本実施形態において、表示制御部４８０は、顔の向きに関する上述した所定数の範囲に対する実際に記憶されている顔の向きの範囲として、Ｎ１、Ｎ２、Ｎ５、Ｎ６、Ｎ７、Ｎ８の位置に相当するマス目が塗りつぶされた縦横３×３のマス目の画像（例えば図８（ｂ）に示す画像４１８ｂ）をビューファインダ１０８に表示させる。この場合、３×３の９つのマス目のうち６つのマス目が塗りつぶされているため、記憶可能な特徴量の上限数である９に対して、実際に記憶されている特徴量の数が６つであることが示されたこととなる。ユーザは、画像４１８ａと画像４１８ｂのどちらの画像を表示させるかを操作入力で設定できる。

本実施形態では、特徴量の数を示す画像のみならず、実際に特徴量が記憶されている顔の向きの範囲と記憶されていない顔の向きの範囲まで分かるように画像が表示される。したがって、ユーザは、例えば、撮像すべき顔の向きや撮像する必要性が低い顔の向きはどの向きか等の状況を把握しやすいという利点がある。

顔画像の特徴量の導出には、顔の向きの影響が大きい。本実施形態の映像処理装置４００は、顔の向きが異なる顔画像に限定して特徴量を記憶しておくため、顔の表情の影響を除外して、顔の向きについてのみ差異のある顔画像の特徴量を記憶することができる。

また、特徴量に対して影響が大きい顔の向きは、ピッチ角とヨー角とで分類できる。本実施形態においては、所定のピッチ角とヨー角の範囲の枠で、認証を容易にするために必要な顔の向きが予め決められており、記憶制御部４７８は、同じ顔の向きに分類される特徴量については記憶させず、異なる顔の向きに分類される特徴量については記憶させる。そのため、認証モードにおいて影響の大きい顔の向きに関して、幅広い顔の向きの特徴量を参照できる。

さらに、当該映像処理装置４００以外の機器で生成された顔画像の特徴量を内部に取り込むこともできる。例えば、外部入出力部１３２が、他の映像処理装置や、顔画像から特徴量を導出できる外部機器４２０から出力された特徴量を受け付けると、記憶制御部４７８は、受け付けた特徴量を、特徴量記憶部１３４に記憶させる。同様に、記憶読取部１３０が、特徴量が記憶された記憶媒体４２２から特徴量を読み出すと、記憶制御部４７８は、読み出された特徴量を、特徴量記憶部１３４に記憶させる。

図９は、外部機器４２０から特徴量を取得した場合の処理を説明するための説明図である。特に、図９（ａ）は、特徴量記憶部１３４に記憶されている任意の顔情報の特徴量が分類される顔の向きの範囲を示すテーブル４１４ａであり、図９（ｂ）は、外部機器４２０から取得された任意の顔情報と同一人物の顔画像の特徴量が分類される顔の向きの範囲を示すテーブル４１４ｂであり、図９（ｃ）は、外部機器４２０から取得された特徴量を反映した後の、特徴量記憶部１３４に記憶されている任意の顔情報の特徴量が分類される顔の向きの範囲を示すテーブル４１４ｃである。図９（ａ）〜（ｃ）におけるＮ１〜Ｎ９のそれぞれのフラグは、図７（ａ）、（ｂ）におけるＮ１〜Ｎ９のそれぞれのフラグと同様、所定の顔の向きの範囲の特徴量の有無に対応しているものとする。

記憶制御部４７８は、外部機器４２０から受け付けた（記憶媒体４２２から読み出された）特徴量について、特徴量記憶部１３４に記憶されている顔情報の特徴量との類似度が第１閾値以上であったり、ユーザの操作入力によって顔情報が選択されたりすると、対象の顔情報の特徴量と、特徴量の導出元の顔画像の顔の向きの比較を行う。

この比較において、記憶制御部４７８は、図９（ａ）に示すフラグが「１」となっている顔の向きの範囲については特徴量を更新せず、フラグが「０」となっている顔の向きの範囲（図９（ａ）におけるＮ５〜Ｎ９）について、外部機器４２０から受け付けた特徴量に、対応する顔の向きの特徴量があれば、その特徴量を特徴量記憶部１３４に記憶させる。図９（ｂ）においては、Ｎ５の顔の向きの特徴量があるため、記憶制御部４７８は、この特徴量を、特徴量記憶部１３４に記憶させる。その結果、図９（ｃ）に示すように、Ｎ５のフラグも図９（ａ）に示す「０」から「１」に変更される。また、例えば、特徴量記憶部１３４には、特徴量の導出の時点を補助情報として併せて記憶されており、すでに同じ顔の向きの範囲の特徴量が記憶されている場合、より最近導出された特徴量を優先して記憶することとしてもよい。

外部機器４２０から受け付けた特徴量を、特徴量記憶部１３４に記憶させる際に、顔の向きに基づいて、記憶させるか否かを判断する構成により、記憶制御部４７８は、記憶している特徴量を増やし過ぎずに、画一的かつ効率的に特徴量を記憶させることができる。

上記のように、本実施形態の映像処理装置４００によれば、認証モードに影響の大きい顔の向きに関して、幅広い顔の向きの特徴量を記憶しておくことができ、認証モードにおいて、認証の精度を向上することが可能となる。

（映像処理方法）
さらに、上述した映像処理装置４００を用いた映像処理方法も提供される。図１０は、第２の実施形態における映像処理方法の処理の流れを示すフローチャートである。図１０においても、図５と同様、特に、登録モードの処理の流れについて示している。上述した第１の実施形態の映像処理方法と実質的に等しい処理については、同一の符号を付して説明を省略する。

本実施形態では、第１の実施形態と異なり、顔画像追尾ステップ（Ｓ３０４）の後、特徴量導出ステップ（図５のＳ３０６）を行う前に、顔関連付部１７４は、位置特定部１７０が特定した顔画像が、特徴量記憶部１３４に記憶された顔情報に関連付けられているか否かを判定する（Ｓ５００）。

関連付けられていない場合（Ｓ５００のＮＯ）、特徴量導出部４７６は、位置特定部１７０が特定した顔画像の特徴量を導出する（Ｓ５０２）。以下、類似度導出ステップ（Ｓ３１０）から顔情報関連付ステップ（Ｓ３２４）までの処理は、第１の実施形態において説明した映像処理方法と実質的に等しいため、同一の符号を付して説明を省略する。

関連付判定ステップ（Ｓ５００）において、位置特定部１７０が特定した顔画像が、特徴量記憶部１３４に記憶されている顔情報に関連付けられている場合（Ｓ５００のＹＥＳ）、顔向き導出部１７２は、位置特定部１７０が特定した顔画像の顔の向きを導出する（Ｓ５０４）。

特徴量導出部４７６は、顔向き導出部１７２が導出した顔の向きと、位置特定部１７０が特定した顔画像に関連付けられた顔情報の１または複数の顔の向きとを比較し、所定条件を満たすか否か、すなわち、顔向き導出部１７２が導出した顔の向きが、特定された顔画像に関連付けられた顔情報のピッチ角とヨー角とに基づいて分けられる所定数の顔の向きのいずれでもないか（未登録の顔の向きか）否かを判断する（Ｓ５０６）。いずれでもない場合（Ｓ５０６のＹＥＳ）、特徴量導出部４７６は、位置特定部１７０が特定した顔画像の特徴量を導出し（Ｓ５０８）、記憶制御部４７８は、特徴量導出部４７６が導出した特徴量と顔向き導出部１７２が導出した顔の向きとを、既存の同一人物の顔情報に追加して特徴量記憶部１３４に記憶させる（Ｓ３３６）。顔向き導出部１７２が導出した顔の向きが、特定された顔画像に関連付けられた顔情報のピッチ角とヨー角とに基づいて分けられる所定数の顔の向きのいずれかである場合（Ｓ５０６のＮＯ）、最大数判定ステップ（Ｓ３３８）に移る。

以下、最大数判定ステップ（Ｓ３３８）からモード遷移ステップ（Ｓ３４２）までは、第１の実施形態において説明した映像処理方法と実質的に等しいため、同一の符号を付して説明を省略する。

上述したように、映像処理装置４００を用いた映像処理方法によれば、幅広い顔の向きの特徴量を記憶しておくことができ、認証モードにおいて、認証の精度を向上することが可能となる。

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

なお、本明細書の映像処理方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。

本発明は、被写体を特定すべく顔画像の特徴量を記憶する映像処理装置および映像処理方法に利用することができる。

１００、４００ …映像処理装置
１０８ …ビューファインダ（表示部）
１２０ …撮像部（映像取得部）
１３０ …記憶読取部（映像取得部）
１３２ …外部入出力部（映像取得部）
１３４ …特徴量記憶部（記憶部）
１７０ …位置特定部
１７２ …顔向き導出部
１７４、４７４ …顔関連付部
１７６、４７６ …特徴量導出部
１７８、４７８ …記憶制御部
１８０、４８０ …表示制御部

Claims

映像を取得する映像取得部と、
前記映像から１の顔画像を特定する位置特定部と、
特定された前記顔画像と、記憶部に記憶された、１または複数の特徴量をまとめた顔情報とを関連付ける顔関連付部と、
前記特定された顔画像の特徴量を導出する特徴量導出部と、
導出された前記特徴量と、前記特定された顔画像に関連付けられた前記顔情報の１または複数の特徴量とを比較し、前記導出された特徴量と、前記特定された顔画像に関連付けられた顔情報の１または複数の特徴量全てとの類似度が所定値未満である場合に、導出された前記特徴量を前記顔情報に追加して前記記憶部に記憶させる記憶制御部と、
を備えることを特徴とする映像処理装置。
記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数を示す画像を表示部に表示させる表示制御部を備えることを特徴とする請求項１に記載の映像処理装置。
映像を取得する映像取得部と、
前記映像から１の顔画像を特定する位置特定部と、
特定された前記顔画像と、記憶部に記憶された、１または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付ける顔関連付部と、
前記特定された顔画像の顔の向きを導出する顔向き導出部と、
前記特定された顔画像の特徴量を導出する特徴量導出部と、
導出された前記顔の向きと、前記特定された顔画像に関連付けられた前記顔情報の１または複数の顔の向きとを比較し、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、前記特定された顔画像に関連付けられた顔情報の顔の向きが含まれる１または複数の範囲のいずれにも前記導出された顔の向きが含まれない場合に、導出された前記特徴量と前記導出された顔の向きとを前記顔情報に追加して前記記憶部に記憶させる記憶制御部と、
記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数、もしくは、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている前記顔の向きが含まれる範囲、のいずれか一方または両方を示す画像を表示部に表示させる表示制御部と、
を備えることを特徴とする映像処理装置。
映像を取得し、前記映像から１の顔画像を特定し、
特定された前記顔画像と、１または複数の特徴量をまとめた顔情報とを関連付け、
前記特定された顔画像の特徴量を導出し、
導出した前記特徴量と、前記特定された顔画像に関連付けられた前記顔情報の１または複数の特徴量とを比較し、前記導出された特徴量と、前記特定された顔画像に関連付けられた顔情報の１または複数の特徴量全てとの類似度が所定値未満である場合に、導出した前記特徴量を前記顔情報に追加して記憶することを特徴とする映像処理方法。
記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数を示す画像を表示することを特徴とする請求項４に記載の映像処理方法。
映像を取得し、前記映像から１の顔画像を特定し、
特定した前記顔画像と、１または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付け、
前記特定した顔画像の顔の向きを導出し、
導出した前記顔の向きと、前記特定した顔画像に関連付けられた前記顔情報の１または複数の顔の向きとを比較し、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、前記特定された顔画像に関連付けられた顔情報の顔の向きが含まれる１または複数の範囲のいずれにも前記導出された顔の向きが含まれない場合に、前記特定した顔画像の特徴量と前記導出した顔の向きとを前記顔情報に追加して記憶し、
記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数、もしくは、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている前記顔の向きが含まれる範囲、のいずれか一方または両方を示す画像を表示することを特徴とする映像処理方法。