JP4591215B2

JP4591215B2 - 顔画像データベース作成方法及び装置

Info

Publication number: JP4591215B2
Application number: JP2005166327A
Authority: JP
Inventors: 義則武者
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-06-07
Filing date: 2005-06-07
Publication date: 2010-12-01
Anticipated expiration: 2025-06-07
Also published as: JP2006343791A

Description

本発明は、映像内容からカット検出と映像に含まれる顔領域を追跡することによる顔画像データベースの作成方法または作成装置に関する。

映像に出現する顔画像の判別に基づいて映像の検索や分類を行う方法に、人物の顔画像から顔特徴量を抽出して顔画像データベースに格納しておき、映像内の各フレームから検出された顔画像に対して顔画像データベースを使用した顔識別を行って識別された人物のフレームを収集する方法がある。なお、ここで説明する顔画像データベースは、単に顔画像を保存して検索を可能にするだけでなく、顔識別用の学習を行う際に使用される情報も格納して必要に応じて引き出すことが出来るものとする。
ここで、顔画像データベースの構築に人物の顔特徴量の学習を導入することで、顔識別性能が向上する可能性がある。したがって、人物の顔判別性能の向上のためには顔画像データベースの構築する手法が有利である。しかし、顔画像データベースを構築するためには、同一人物の顔画像であることが分かっている顔画像サンプルを学習データとして収集する必要があり、人手による学習データの収集作業が大きな負担となっていた。

特許文献１では、顔特徴量として画素値を用い、事前に大量の顔画像サンプルから生成しておいた固有空間上や既知顔の顔画像サンプルから生成された判別空間上における顔画像間の距離で判定する方法が例示されている。そのような顔判別手法に基づき、入力動画像から静止画像を抽出し、静止画像をショット単位で区分し、各ショットにおいて所定の映像が撮影されているか否かを判定し、撮影されていれば、それが動画像中に既に撮影されているか否かを判定し、異なる所定の映像毎に分類すると共に登場回数を計測し、その回数に基づいて、登場一覧を作成する動画像表示装置を開示している。顔と分かっている顔画像サンプルや既知顔の顔画像サンプルは、人手で用意する必要がある。

特許文献２は、映像からシーンの切れ目を検出し、シーン毎に代表画像である顔が含まれているフレームを検出し、そのフレームから顔画像を抽出し、抽出した全ての顔画像から同一登場人物の顔をグループ化し、登場人物別に代表顔画像を抽出して登場人物の顔を識別することによって、映像中に登場する人物の顔を区別して表示する画像検索装置を開示している。同一登場人物の顔のグループ化は、顔画像データベースを事前に構築し、それを用いた顔識別を行うことによって実現する。一方、登場人物が既知でない場合、教師なしクラスタリングを映像全体の顔領域検出結果の顔画像に対して行うことによって実現する。

特許文献３は、人手による顔画像データベースの構築を支援するものであり、入力画像中の人物の顔が所定の向きを示すフレームを手動によって選択し、推定された顔領域の複数の特徴点の近傍で前記人物の顔の特徴量を計測することで、入力画像中の人物のデータベース成分を計算する顔画像データベース新規登録装置を開示している。事前に顔画像が同一人物であることが分かっている必要があり、同一人物か否かは人手により判断する必要がある。

特開平10-234004号公報

特開2001-167110号公報特開2002-133423号公報

前述のように、顔識別性能の向上のためには、顔特徴量の学習を伴う顔画像データベースの構築が重要である。しかし、顔識別性能の向上が期待できる一方で、人手による作業負担を伴うという問題があった。特許文献２では、登場人物が既知ではない場合に、教師なしクラスタリングを行う。これは教師なし分類手法であるため人手による作業負担はないが、顔識別精度の向上を図るためには教師情報を与えた学習方法が必要である。
本発明は、この問題点に鑑みてなされたものであり、同一人物の顔画像と、異なる人物の顔画像を教師情報として自動的に収集し、顔画像データベースの人手による構築作業が不要という長所と顔識別性能の向上という利点の両立を図ったものである。

本願で開示する代表的な発明は以下の通りである。

入力された動画像を上記動画像をカット分割し、動画像を構成する各フレームから顔領域を検出し、上記カットを構成するフレームについて上記顔領域を追跡して、抽出された顔領域をグループ化する。特にフレーム内に存在する複数の顔領域それぞれに互いに別人であることを示す別人情報を用いて上記複数の顔領域グループ間での該顔領域の特徴量を互いに区別するように学習する顔画像データベース作成方法及び装置。

本発明によれば、入力された映像をカットの変わり目で分割し、カット内に含まれる各フレームから顔領域検出を行い、顔領域を追跡することにより、同一人物の複数の顔画像が得られる。これらをグループ化することで、同一人物の顔画像のグループ（顔グループ）を生成することができる。また、同一フレームに複数の顔領域が検出されていた場合において、それぞれの顔領域を追跡して得られる顔グループは、多くの場合、互いに別人の顔グループであるとみなすことができる。顔グループ内の各顔画像を同一人物の学習データとして用い、これと別人である顔グループの顔画像は反学習データとして用いることによって、顔画像データベースを自動的に構築することができる。この発明により、顔画像データベースの人手による構築作業が不要という長所と顔識別性能の向上という利点の両立を図ることができる。カット内に１名しか存在しない場合には別人の顔グループは利用できないが、事前に別の映像コンテンツからの顔グループを用意しておくことで対応することができる。あるいは、顔から抽出された特徴量をそのまま用いることで別人の情報を利用できる場合のみ利用することになり、１フレームから検出される顔領域の数に依らず、シームレスに本手法を用いることができる。

以下、本発明の実施の形態について図面を参照して説明する。
図１は、本発明の一実施例を説明する機能ブロック図である。本ブロック図を大別すると、動画像処理を行う102〜106の部分と、顔グループ（各カット内において連続したフレームに対し顔領域検出と領域追跡を行い、顔領域をまとめたもの）を生成する部分107,108、データを生成する部分109〜114、顔識別情報を生成する部分115〜117、全顔識別情報に対して顔グループ単位で顔識別処理をする部分118, 119とで構成されている。また、図中の正学習用顔データ(113)、反学習用顔データ(114)、顔識別情報(117)、別人情報(122)、顔領域情報(124)、メタデータ（126）は、顔画像データベース内に高速アクセス可能な状態で蓄積される。この顔画像データベースは、一つのデータベースで構成されていてもよいし、複数のデータベースで構成されて連携して機能していても良い。

以下に、データフローに沿って説明する。本ブロック図の処理は主にコンテンツプロバイダ側で行うことを想定しているが、本ブロック図の処理を視聴者側の端末で行ってもよい。各処理はコンピュータがプログラムを読み込むことによって各処理を実行する手段となることで実現される。
101は映像コンテンツである。主に、編集意図によるカットが存在する映像コンテンツを対象としている。
102で映像コンテンツの映像と音声を分離し、106で映像フォーマットを判別してコーデックを選択し、103にて映像をデコードする。104で映像から各フレームが抽出され、107の顔領域検出処理と105のカット分割処理へ送られる。
105は、カット分割処理であり、公知の技術等を用いて映像のカットの変わり目を検出する。映像の切り替わり効果であるディゾルブ（前後二つのカットの画面が二重写しとなりつつ、前カットから後カットへ徐々に移り変わる効果）とワイプ（ある画面に他の画面が割り込んでくるような形で次のカットへ置き換わる効果）の特殊効果も検出する。
107の顔領域検出では、後述の顔の回転処理を考慮して顔領域の対角線を一辺とする顔領域より大きな正方領域を抽出する。
108は、カット内の各フレームで検出された顔領域を追跡し、グループ化する処理であり、顔グループ化された結果は121別人情報生成処理、123顔領域情報生成処理へ送られ使用される。また、顔画像データ(127)は顔画像データベースへ格納されて必要に応じて読み出され、109顔画像サイズの正規化処理と110顔画像左右反転処理で使用される。
109では、フレームの中の顔領域で指定される顔画像の部分のみを正規化、すなわち、拡大や縮小を行って一定のサイズへ変換する。

121では、一つのフレームに複数の顔領域が存在した場合に、それぞれの顔領域を追跡して生成された顔グループは別人のものであるという別人情報(122)を生成する。この別人情報は、112の正規化処理の後、学習データと反学習データを振り分ける際に使用される。
123では、顔グループ毎に顔領域が含まれているフレームと、顔領域の位置およびサイズの情報を含む顔領域情報(124)を生成する。その顔領域情報は、125で人物毎にフレームと顔領域を分類してメタデータを生成する際に参照される。また、顔グループ単位の処理を行う際にも必要に応じて参照される。

110は、顔画像を中央の縦軸を中心として左右に反転した画像を必要に応じて出力する。これは、人物の顔が左右対称だと仮定して、例えば、右向きの顔から左向きの顔を生成するための処理である。
111は、入力された画像について、必要に応じて顔画像の中心を軸として時計回り、反時計回りに回転した画像を出力する。顔画像のモーメントを算出することで長軸を見出して回転角度を決めることで、顔の傾きがどのような画像が入力されても、顔の傾きを一定にそろえることができる。あるいは、傾きにロバストな学習を行う場合には、110の左右反転と111の回転の組み合わせで多くの傾きや顔の向きの画像サンプルを生成することも可能である。
112は、109と同じで顔画像サイズの正規化処理である。さらに、顔画像を顔グループに応じて正学習用顔画像データ(113)と反学習用顔画像データ(114)に振り分ける。同一フレームに複数の顔領域が存在する場合、一つのカット内に複数の顔グループが生成される。それらの顔グループのうち、一つの顔グループを取り上げ、その顔グループの顔画像を正学習用顔データとして扱い、他の顔グループの顔画像を反学習用顔データとして扱う。これらの処理は別人情報(122)を参照して行われる。

また、114には、人物が１名のカットにおいても学習が可能なように、別の映像コンテンツからの顔データを事前に格納しておく。あるいは、人物が１名の場合には、抽出された顔の特徴量をそのまま用いることで対応する方法も可能である。115にて、顔の特徴量が抽出され、116で、顔識別部において使用される顔識別情報(117)が生成される。そして、113から117までの流れを顔グループを入れ替えつつ、全ての顔グループについて処理する。
118では、116で生成された顔識別情報(117)を用い、109でサイズが正規化された顔画像を判別し、顔領域情報(124)を参照して顔グループ毎に判別できた顔画像数を集計する。これを全ての顔判別部で繰り返す。
119は、リジェクト機能、すなわち、顔識別された結果のうち、ある条件を満たすものを却下することで信頼性の高い結果を残す機能である。例えば、顔グループに含まれる顔画像を対象として、顔識別で同一人物であると判別した画像の枚数を計数し、事前に設定されたしきい値以下の場合にリジェクトする。
118と119で全てのが行われ、さらに、顔グループ毎に生成されたフレームとフレーム内の顔領域に関する顔領域情報(124)を参照して、人物の指定により人物が登場するフレームとフレーム内の顔領域が参照可能とする情報と、フレーム内の顔領域から人物を参照可能とする情報をメタデータ(126)として出力する。

本発明の顔画像データベース作成方法または顔画像データベース作成装置によれば、入力映像の場面の変化点を検出して映像を分割し、分割された映像中に含まれるフレームを同一カットのフレーム群としてまとめる手段と、映像中のフレームから人物の顔領域を検出する手段と、前記検出された顔領域を、前記同一カットのフレーム群の各フレームに渡って追跡する顔領域追跡手段と、前記顔領域追跡手段によって追跡することで特定される顔画像群を同一人物の顔グループとする顔グループ化手段と、同一フレーム内において複数の顔領域が存在した場合、それぞれを含む前記顔画像群が互いに異なる人物の顔であるという別人情報を付与する手段と、前記別人情報を付与された複数の顔画像群の間で、顔画像から抽出された顔特徴量を学習する顔特徴量学習手段とを備えることを特徴とする。

本発明のメタデータ出力方法または装置において、顔グループと、その顔グループに含まれる顔画像が抽出されたフレームと、その顔画像が抽出されたフレーム内の位置とサイズとを対応付ける顔領域情報を顔グループ毎に生成する顔領域情報生成手段と、抽出された顔画像の特徴量を用いて異なる顔グループ間の顔画像同士を照合することにより顔グループ同士を対応付ける顔グループ対応付け手段と、前記対応付けられた各顔グループに対応する前記顔領域情報を用いて、映像中の各フレームに含まれる顔画像を人物ごとに分類する手段とを備えることを特徴とする。

本発明の顔画像データベースの学習方法または学習装置において、一つの顔グループを学習データとして用い、別人情報を参照して、その顔グループに対して別人である顔グループがもし１つ以上あれば反学習データとして用い、あるいは、事前に用意された顔グループも反学習データとして追加で用い、それら各顔グループに含まれる顔画像から抽出された顔特徴量を学習することを特徴とする。

本発明の別のメタデータ作成方法またはメタデータ作成装置において、顔グループと、その顔グループに含まれる顔画像が抽出されたフレームと、その顔画像が抽出されたフレーム内の位置とサイズとを対応付ける顔領域情報を顔グループ毎に生成する顔領域情報生成手段と、顔グループ毎に顔識別情報を作成し、その顔識別情報を用いて異なる顔グループの顔画像を顔識別することにより顔グループ同士を対応付ける顔グループ対応付け手段とを備えることを特徴とする。

図２は、顔グループの生成を説明した模式図である。本願は、顔グループの生成と別人情報の生成に特徴を有する。
カット(201)は、二つの映像変化点（202）によって分割された映像の一部である。その中にフレームが時系列として右方向へ並んでいる。その中に二つの顔領域が含まれている。一つの顔領域について、顔領域検出手段によって203の顔領域が検出されたとする。その後、顔領域追跡手段によってフレーム間における近傍探索を色情報や輝度変化方向情報のヒストグラム等の照合で行い、対応する領域を見つけることによって、時系列方向に向かってフレーム内を追跡し、特定される顔画像をグループ化し、顔グループI(205)を得る。こうして得られた顔グループ内には同一人物の顔が集められている。

一方、他方の顔領域について、顔領域検出手段によって時系列の最初のフレームから順に顔領域検出を試みるが、204の位置で顔領域が検出されたとする。ここで、時系列逆方向に顔領域追跡を行うと、顔領域検出では発見できなかった顔領域を見出す可能性がある。その理由を簡単に説明する。一般に、顔領域検出手段として顔テンプレートなどに基づくフレーム内検索による方法を用い、顔領域追跡手段として色情報や輝度変化方向情報のヒストグラム等の照合によりフレーム間の近傍探索による方法を用いている。前者は、顔の表情や撮影条件などによって顔領域の検出に影響を受け易いのに対し、後者は、比較的それらの環境変動にロバストな領域追跡が可能である。すなわち、一度フレーム内において顔領域が検出できれば、照明条件や撮影条件、顔の表情の変化などの環境変動によって顔領域検出ができないフレームが存在したとしても顔領域の追跡を行うことが出来る可能性があるためである。そこで、時系列方向の顔領域追跡を行うと共に、時系列の逆向きにも顔領域の追跡を行い、特定される顔画像をグループ化することで206の顔グループJを得る。

また、顔グループI(205)と顔グループJ(206)は、同じフレーム内に同時に存在する顔領域をそれぞれ含んでいる。その場合、この二つの顔グループは別人であるとみなし、別人情報生成手段によって顔グループI(205)と顔グループJ(206)は別人であるという情報が別人情報生成手段により生成される。このように生成された顔グループのペアが別人であるという別人情報は、主に次のように使用される。（１）同一人物の顔グループ同士を対応付けるための顔識別情報を生成する学習において、識別対象である学習データとそれ以外である反学習データとして用いられる（図4）。（２）同一人物の顔グループ同士を対応付ける際に、あらかじめ別人であるとして対応付け処理を省略するために用いられる（図5）。

本発明の別の顔画像データベース作成方法または顔画像データベース作成装置によれば、同一カット内の時系列であるフレーム群の中で２枚目以降のフレームで初めて顔領域が検出された場合に、時系列をさかのぼって顔領域を追跡することを特徴とする。
本発明によれば、このような性質を活かして、前述の顔領域検出手段と顔領域追跡手段を用いて、顔領域が検出できないフレームが続いたとしても、一度顔領域が検出できれば、カット内において時系列をさかのぼって顔領域を追跡することができるので、カット内のフレームからの顔画像の抽出漏れを少なくすることができる。

図３は、顔領域情報生成手段によって生成される顔領域情報のデータ構造を示した模式図である。図が顔領域情報の全体である。301に顔グループを区別する顔グループIDが格納され、302には顔グループ単位での分類を示す分類ラベルである。同じ分類ラベルを持つ顔グループは、顔グループ対応付け手段によって同一人物であると対応付けられたものであることを示す。303には顔グループIDに含まれる顔領域数、その後、顔領域数で示された数だけ、304の顔領域情報が続く。顔領域情報の中は、310のフレームを区別するフレーム番号、顔領域の左上の角の座標を示したX座標(311)とY座標(312)、およびサイズを示すwidth(313)とheight(314)が格納されている。分類ラベルは、初期状態においては、各顔グループで異なる値を保持するが、対応付けによって同じ値に統合されてゆく。例えば、分類ラベルの総数が一定の数以下になった時点で対応付けを停止することにより、顔分類を完了することができる。顔分類が完了すると、本データ構造はメタデータとして出力される。

本発明の一実施例では、顔識別として、例えば、識別対象である顔画像とそれ以外の顔画像を識別する２群線形判別が使用される。その２群線形判別は、事前の学習を図1の116で顔識別情報（117）を生成することによって実現される。この学習において識別対象の顔画像は正学習データ（図1の113正学習用顔データ）であり、識別対象ではないデータとして収集された顔画像が反学習データ（図1の114反学習用顔データ）である。本実施例のように学習として線形判別分析を用いる場合には、反学習データから学習データが識別できるように特徴量空間が変換される。図４は、学習データと反学習データを用いて線形判別分析を行った場合を説明した模式図である。例えば、顔画像から抽出された特徴量空間が401であったとする。そこに、402の学習データＡの分布と403の反学習データＢの分布が図のようになっていたとする。線形判別分析は、群内の主成分分析によって404のように各データにおける分散が大きい軸が主軸となるように空間を回転させ、更に、各データにおいて分散が等方的となるように分布が正規化される（405）。このとき、もし未知のデータ406が図の位置に入力された場合、それぞれのデータの平均値からの距離を計測して、最も近いデータＢに属すると判定する。このときの距離はマハラノビス距離と等価である。この場合、学習によって生成される顔識別情報として、空間を変換するための行列の各要素が顔画像データベースへ格納される。

また、学習方法はこれに限ったものではない。例えば、ニューラルネットワークの学習によって学習データと反学習データを判別する超平面を算出し、その超平面を決めるパラメータを、顔識別情報として顔画像データベースに格納してもよい。また、例えば、特徴量を用いたルール学習を用い、分析して得られた決定木を顔識別情報として顔画像データベースに格納してもよい。

図５は、異なる顔グループ間の顔画像の特徴量同士を照合することによる顔グループ対応付け方法を示した模式図である。本処理は、図1の120顔グループ対応付け処理にて行われる。501と504はそれぞれ異なる顔グループIDをもった顔グループである。各顔グループの顔画像から顔特徴量抽出を行うと、503と505に示すように顔グループに対応した顔特徴量が得られる。この両者の間で照合を行うことによって、501と504の顔グループが同一人物か否かを判定する。照合方法は、例えば、総当りで距離を求め、最も短い距離が事前に設定されたしきい値より近かった場合に、両者を同一人物とみなすという方法がある。または、事前に設定されたしきい値より近かった顔特徴量同士のペアの数が事前に設定された割合を超えた場合に両者を同一人物とみなすという方法もある。また、この際、別人情報により別人であると関連付けられた顔グループ同士については、前述の照合を省略することができる。

本発明によれば、顔グループの顔画像から抽出された顔特徴量の照合により顔グループ同士を対応付けることができ、顔グループ毎に顔画像が抽出されたフレームと、フレームの位置およびサイズを対応付ける顔領域情報によって、フレーム内の顔領域を人物ごとに分類することができる。

図６は、顔識別情報を用いた顔グループ対応付け方法を示した模式図である。602は顔グループIであり、含まれる顔画像を用いて前述の学習に従って顔識別情報（601）を生成する。この顔識別情報を用いて、別人情報において顔グループIの別人とはなっていない顔グループIとは異なる顔グループK(603)を用意し、その各顔画像を識別する。その結果、604で同一人物であると識別できた顔画像の枚数を算出し、605の顔画像数リジェクト処理を行い、606のしきい値判定によって事前に設定された固定数あるいは割合によるしきい値を超えた場合に、607で顔グループIと顔グループKが同一人物とみなす方法である。

本発明は、顔特徴量の学習により顔識別情報を生成してから顔識別を行うため、各顔画像から直接顔特徴量を抽出して顔画像同士を照合する方法に比べ、汎化能力が向上し学習によって学習サンプルとは異なる顔画像が入力された場合の識別精度を向上させることができる。

図７は、図６の処理の607の同一人物判定を行う前に、更に、603の顔グループKを用いて学習した顔識別情報701を構築し、それを用いて元の顔グループI(602)を識別する。同一人物と判定した顔画像数を計数し(702)、前述同様に、703の顔画像数リジェクト処理を行い、704のしきい値判定によって事前に設定された固定数あるいは割合によるしきい値を超えた場合、双方から識別を行って両方とも相手が同一人物と判定したときに限って、705で顔グループIと顔グループKが同一人物とみなす方法である。
片側のみ識別する図６の方法に比べて、識別の信頼性の低い顔グループのペアはリジェクトされやすくなるため、顔識別精度を高めることができる。

図６および図７の方法において、前処理を置き、別人情報(122)とそれまでに判別できた顔グループの対応付け結果(120)を参照して、別人であると判断できた場合、顔グループ対応付け処理を省略して別人と判定してもよい。

本発明のメタデータ作成方法またはメタデータ作成装置において、顔グループと、その顔グループに含まれる顔画像が抽出されたフレームと、その顔画像が抽出されたフレーム内の位置とサイズとを対応付ける顔領域情報を顔グループ毎に生成する顔領域情報生成手段と、顔グループ毎に顔識別情報を作成し、その顔識別情報を用いて異なる顔グループの顔画像を顔識別することにより顔グループ同士を対応付ける顔グループ対応付け手段と、一方の顔グループの顔識別情報を用いて他方の顔グループの顔画像を顔識別し、さらに、後者の顔グループの顔識別情報を用いて前者の顔グループの顔画像を顔識別し、両者が互いに同一人物であると顔識別された場合に、それらの顔グループ同士を対応付ける顔グループ対応付け手段と、前記対応付けられた各顔グループに対応する前記顔領域情報を用いて、映像中の各フレームに含まれる顔画像を人物ごとに分類する手段とを備えることを特徴とする。これにより、片方向のみを用いた顔グループ対応付け手段よりも、対応付けの精度を向上させたメタデータを生成することができる。

また、本発明によれば、顔グループ対応付け手段において、別人の顔グループを学習して作成された顔識別情報を用いて、それ以外の顔グループの顔画像を顔識別するので、学習を行わない特徴量同士の照合による顔グループ対応付け手段よりも、対応付けの精度を向上させたメタデータを生成することができる。

以下に、前述のように作成された顔領域のサイズと座標等を含むメタデータの活用方法を説明する。メタデータは通常、映像再生端末によって受信され、利用されるのが一般的である。したがって、下記は映像再生端末側の動作の例を示す。

図８は、メタデータを利用した人物一覧の生成方法を示したＰＡＤ図である。映像再生端末において、人物一覧の作成(801)が呼び出されると、まず802にてメタデータが既に読み込まれているか否かが確認される(802)。もし、読み込まれていなければ、メタデータの読込み(803)が行われる。この処理(803)には、メタデータをネットワーク経由で受信する動作を含んでいてもよい。読み込まれたメタデータは、メタデータの要素データへ高速にアクセス可能とするためにデータベース（ＤＢ）へ格納される(804)。データベースから人物を区別する分類ラベルごとにループを行う(805)。さらに、ループ内で同一分類ラベルを持つ顔グループでループを行う(806)。さらに、顔グループ内の顔領域情報を変えながらループする(807)。顔領域情報のサイズを比較してその時点までの最大サイズの顔領域情報を保存する(808)。このとき、１フレーム内に複数の顔領域が含まれる場合には、比較対象から除外する処理を含めてもよい。次に、一つの分類ラベルを持つ全ての顔領域情報の中で最大サイズを持つフレームをその人物の画像として抽出する(809)。全ての分類ラベルについて処理したのち、各分類ラベルで最大サイズの顔領域を持つ人物画像を画面上に並べて一覧表示を作成する(810)。
こうして人物一覧表示画面が生成される。人物ごとに最も大きな顔領域を持つ画像が表示されているので、ユーザにとって人物が見やすく選択し易くする効果がある。

図９は、メタデータを利用した人物指定による映像要約方法を示したＰＡＤ図である。映像再生端末において指定人物の要約再生(901)が呼び出されると、まずユーザに画面表示の選択が要求され、選択を行う(902)。選択肢は、図８で説明した人物一覧モードと通常の映像の中のフレームから人物を選択するフレームモードである。
人物一覧モードを選択した場合、903で人物一覧モードと判定され、904へ処理が移る。904では、一覧からの人物画像選択がユーザに要求され、ユーザが選択を行う。この処理の中で、図８の人物一覧の作成(801)が呼び出される。次に、905にてユーザによって選択された人物画像に対応する分類ラベルが、データベース化されたメタデータを参照することによって、取得される。

一方、フレームモードを選択した場合、903でフレームモードと判定され、906へ処理が移る。906では、ユーザが映像中からフレームを選ぶ(906)。すると、そのフレーム中に含まれる顔領域が、データベース化されたメタデータを参照することによって取得され、表示される(907)。フレーム中に複数の顔領域が含まれている場合には、ユーザに908の顔領域の選択を促し、もし単一の顔領域しか含まれない場合には自動的にその顔領域が選択される。次に、データベースアクセスによりその顔領域に対応する分類ラベルが取得される(909)。
910では分類ラベルに対応するフレーム番号の範囲が、データベースアクセスにより取得され、911でそのフレーム番号の範囲が次々と再生される。
こうして、指定した人物の映像が再生されるので、ユーザは好みの人物の映像のみを視聴することができる。

図１０は、人物一覧画面を示した模式図である。図８の810にて画面上に人物画像が表示された様子を示す。1001がグラフィックユーザインタフェースの画面を示し、図では1002のように９つの領域が用意されている。この領域には、それぞれ分類ラベルが異なる（すなわち、異なる人物と判定された）人物画像が表示される。例えば、1003のように人物の顔が表示されており、端末がテレビであればリモコン操作によって、端末がＰＣであればマウス操作などによって人物画像が選択された様子を示している。1003では、選択された人物画像が太枠あるいは異なる色の枠で強調されており、枠の左上の角を埋めるように三角の印が表示されている。これによって選択されたことが分かり易くなり、選択操作がし易くなる。

本発明は、映像コンテンツに対するメタデータの生成・配信によって映像ナビゲーションを実現するメタデータ配信サービスに利用することができる。

本発明の一実施例を説明する機能ブロック図。顔グループの生成を説明した模式図。顔領域情報のデータ構造を示した模式図。学習データと反学習データを用いて判別分析を行った場合を説明した模式図。異なる顔グループ間の顔画像同士を照合することによる顔グループ対応付け方法を示した模式図。顔識別情報を用いた顔グループ対応付け方法を示した模式図。顔識別情報を用いた相互チェックによる顔グループ対応付け方法を示した模式図。メタデータを利用した人物一覧の生成方法を示したＰＡＤ図。メタデータを利用した人物指定による映像要約方法を示したＰＡＤ図。人物一覧画面を示した模式図。

符号の説明

101: 映像コンテンツ
102: 映像音声分離部
103: 映像デコード部
104: フレーム抽出部
105: カット分割処理部
106: コーデック自動選択部
107: 顔領域検出部
108: 顔グループ生成部
109: 顔画像サイズ正規化部
110: 顔画像左右反転部
111: 顔画像回転部
112: 顔画像サイズ正規化部
113: 正学習用画像データ
114: 反学習用画像データ
115: 顔特徴量抽出部
116: 顔識別情報作成部
117: 顔識別情報
118: 顔グループ単位で同一人物の顔識別数を出力
119: リジェクト処理部
120: 顔グループ対応付け処理
121: 別人情報生成部
122: 別人情報
123: 顔領域情報生成部
124: 顔領域情報
125: フレーム領域分類処理
126: メタデータ
127: 顔画像データ
201: カット
202: 映像変化点
203: 検出された顔領域
204: カットの途中で検出された顔領域
205: 顔グループ
206: 顔グループ
301: 顔グループID
302: 分類ラベル
303: 顔領域数
304: 顔領域情報
310: フレーム番号
311: 顔領域のx座標
312: 顔領域のy座標
313: 顔領域の幅
314: 顔領域の高さ
401: 顔画像から抽出された顔特徴量空間
402: 学習データAの分布
403: 学習データBの分布
404: 分布の分散が大きい軸が主軸にとなるように回転した空間
405: 擾乱済み分割データA1
406: 各分布が等方的となるように正規化した空間
407: 未知サンプル
501: 顔グループ
502: 含まれる顔画像を特徴抽出
503: 特徴抽出された顔グループ
504: 異なる顔グループ
505: 特徴抽出された顔グループ
506: 顔特徴量同士の照合
601: 顔識別情報（顔グループI）
602: 顔グループIの顔画像群
603: 顔グループKの顔画像群
604: 同一人物と識別された顔画像数の計数
605: 顔画像数リジェクト
606: しきい値判定
607: 顔グループIと顔グループJは同一人物判定
701: 顔識別情報（顔グループK）
702: 同一人物と識別された顔画像数の計数
703: 顔画像数リジェクト
704: しきい値判定
705: 顔グループIと顔グループJは同一人物判定。

Claims

動画像が、顔画像データベース作成装置に入力されるステップと、
前記顔画像データベース作成装置のカット分割処理部にて、前記入力された動画像を、複数のフレームからなるカットに分割するステップと、
前記顔画像データベース作成装置の顔領域検出部にて、前記複数のフレームから顔領域を検出するステップと、
前記顔画像データベース作成装置の顔グループ生成部にて、前記複数のフレームについて前記顔領域を追跡して、抽出された顔領域をグループ化するステップと、
前記顔画像データベース作成装置の別人情報生成部にて、前記フレーム内に存在する複数の顔領域それぞれに互いに別人であることを示す別人情報を付すステップと、
前記別人情報を用いて前記複数の顔領域グループのうちの１つの顔領域グループの顔画像を正学習用顔データとして、他の顔領域グループの顔画像を反学習用顔データとして扱い、前記顔画像データベース作成装置の特徴量抽出部にて、前記正学習用顔データと前記反学習用顔データそれぞれの特徴量を抽出するステップと、
前記顔画像データベース作成装置の顔識別情報生成部にて、前記抽出された特徴量に基づいて、顔識別情報を生成するステップと、
前記顔画像データベース作成装置の顔領域グループ対応付け部にて、前記顔識別情報を用いて、前記反学習用顔データは用いずに、同一人物かどうかが判定されるための顔領域グループ同士を対応づけ、顔分類を行うステップと、
前記顔分類されたデータを、メタデータとして出力するステップと
を有することを特徴とする顔画像データベース作成方法。
前記顔グループ生成部は、前記複数のフレームの何れかにおいて顔領域が検出された場合に、時系列をさかのぼって顔領域を追跡することを特徴とする請求項１記載の顔画像データベース作成方法。
前記顔画像データベース作成装置の顔領域情報生成部は、前記検出された顔領域のフレーム中の位置及びサイズ情報を含む顔領域情報を、前記顔領域グループ毎に生成し、前記顔領域情報を用いて、前記フレームに含まれる顔領域を人物ごとに分類することを特徴とする請求項１又は２に記載の顔画像データベース作成方法。
前記顔領域グループ同士の対応付けは、顔画像の特徴量を用いて、異なる前記顔領域グループ間の顔画像同士を照合することにより行われることを特徴とする請求項１の顔画像データベース作成方法。
前記顔領域グループ同士の対応付けは、顔画像識別情報データベースを用いて別の顔グループの顔画像を顔識別することにより、その顔グループと別の顔グループとの対応付けを行うことを特徴とする請求項１の顔画像データベース作成方法。
前記顔領域グループ同士の対応付けは、一方の顔グループの顔識別情報を用いて他方の顔グループの顔画像を顔識別し、さらに、前記他方の顔グループの顔識別情報を用いて前記一方の顔グループの顔画像を顔識別し、両者が互いに同一人物であると顔識別された場合に、それらの顔領域グループ同士を対応付けることにより行われることを特徴とする請求項１の顔画像データベース作成方法。
動画像が入力される入力部と、
前記入力された動画像を、複数のフレームからなるカットに分割するカット分割処理部と、
前記複数のフレームから顔領域を検出する顔領域検出部と、
前記複数のフレームについて前記顔領域を追跡して、抽出された顔領域をグループ化する顔グループ生成部と、
前記フレーム内に存在する複数の顔領域それぞれに互いに別人であることを示す別人情報を付す別人情報生成部と、
前記別人情報を用いて前記複数の顔領域グループのうちの１つの顔領域グループの顔画像を正学習用顔データとして、他の顔領域グループの顔画像を反学習用顔データとして扱い、前記正学習用顔データと前記反学習用顔データそれぞれの特徴量を抽出する特徴量抽出部と、
前記抽出された特徴量に基づいて、顔識別情報を生成する顔識別情報生成部と、
前記顔識別情報を用いて、前記反学習用顔データは用いずに、同一人物かどうかが判定されるための顔領域グループ同士を対応づける顔領域グループ対応付け部と、
前記対応づけられた顔領域グループの顔分類を行う顔分類部と、
前記顔分類されたデータを、メタデータとして出力する出力部と
を有することを特徴とする顔画像データベース作成装置。