JP2007072520A

JP2007072520A - 映像処理装置

Info

Publication number: JP2007072520A
Application number: JP2005255487A
Authority: JP
Inventors: Mototsugu Abe; 素嗣安部; Masayuki Nishiguchi; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-09-02
Filing date: 2005-09-02
Publication date: 2007-03-22
Also published as: CN1925609A; US20070053660A1; EP1760633A3; US8103062B2; KR20070026228A; EP1760633A2; CN100534175C

Abstract

【課題】顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報を生成する。
【解決手段】顔領域検出部４１０において検出されたフレームにおける顔領域の位置および属性と、顔領域予測部４２３において予測された所定のトレースにおけるフレーム中の顔領域の位置および属性とがトレース判断部４２４で比較される。比較の結果、顔領域検出部４１０において検出されたフレームが所定のトレースに含まれると判断された場合、そのフレームはその所定のトレースに加えられる。トレースの終了フレームは終了フレーム判断部４２５で判断される。代表顔領域情報生成部４３０においてトレースを構成するフレーム中に含まれる顔領域より代表顔領域が選択され代表顔領域情報が生成される。トレースおよび代表顔領域に基づいて映像データ付随情報が映像データ付随情報生成部４５０で生成される。
【選択図】図２

Description

本発明は、映像データより顔領域を検出する映像処理装置に関し、特に、顔領域の出現から消滅までを追跡する映像処理装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

映像データは、静止画データとは異なり、短時間でその内容を把握することは難しい。映像データの内容を短時間で把握するために、例えば３倍速再生等の高速再生や、映像データ中における所定の場面をサムネイル表示にして複数表示させる等の手法が用いられている。

しかしながら、高速再生といっても３倍速再生程度では映像データの内容を短時間で把握できるとは言い難い。一方、再生速度を上げても人の目がついていける再生速度には限度がある。また、映像データ中における所定の場面をサムネイル表示にする手法においては、必ずしも映像データの特徴を表す場面がサムネイル表示されるわけではないため、映像データの内容を把握させるには不十分である。

このような映像データの内容を把握するために、映像データの登場人物に着目することは有効である。一般に、映像データには人物が登場することが多いからである。近年においては顔検出技術に関する研究が盛んであり、この顔検出技術を用いて映像データの登場人物を把握しようとする技術開発が行われている。

例えば、映像データより移動物体を検出してその移動物体に対して顔検出技術により人物か否かの判断を行い、その人物を含む映像データのうちから所定数のフレームを選択して表示させる技術がある（例えば、特許文献１参照。）。また、映像データを構成するフレームより顔領域を抽出して抽出した全ての顔領域を人物毎にグループ化してそのグループ化した顔領域の中からその人物の代表顔領域を表示させる技術もある（例えば、特許文献２参照。）。
特開２０００−２３２６３８号公報（図１）特開２００１−１６７１１０号公報（図１）

しかしながら、上記の移動物体に関する技術は、移動しない物体は検出しないため、一般的な映像データ全てに関してそのまま利用できる技術ではない。また、一般的には、フレームから顔領域を検出するのに、図１５（ａ）に示すようにフレームに顔領域が含まれている場合には顔検出技術によって漏れなく検出できることが理想であるが、現段階における顔検出技術では、図１５（ｂ）に示すようにフレームに顔領域が含まれていても検出漏れが発生し得る。上記グループ化した顔領域の中からその人物の代表顔領域を表示させる技術では、フレームから顔領域を抽出する前提としてフレームより顔領域を検出するが、顔領域の検出漏れについての対策については施されていない。したがって、このままでは顔領域の時間方向のつながりを十分に把握することができず、映像データの内容を把握することが困難になるという問題がある。

そこで、本発明は、顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報を生成する映像処理装置を提供することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、映像データを構成するフレームに含まれる顔領域を検出する顔領域検出手段と、上記検出に基づいて上記顔領域が出現してから消滅するまでのフレームの集合を一つの単位とするトレースの開始および終了に対応するフレーム識別子を生成するトレース生成手段と、上記トレースを構成するフレームに含まれる上記顔領域より代表顔領域を選択して上記代表顔領域の内容を表す代表顔領域情報を生成する代表顔領域情報生成手段と、上記映像データに付随する映像データ付随情報として上記映像データに対して上記トレースの開始および終了に対応するフレーム識別子と上記代表顔領域情報とを対応付けた情報を生成する映像データ付随情報生成手段とを具備することを特徴とする映像処理装置である。これにより、顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報を生成させるという作用をもたらす。したがって、膨大なフレーム中に登場する多数の人物を効率良く管理することができる。

また、この第１の側面において、上記トレース生成手段は、上記顔領域が出現してから消滅するまでのフレームに対して同一のトレース識別子を付与するトレース識別子付与手段と、上記同一のトレース識別子を付与された以前のフレームにおける上記顔領域に基づいて現フレームにおける上記顔領域を予測する顔領域予測手段と、上記予測された現フレームにおける上記顔領域に基づいて上記顔領域検出手段において検出された上記現フレームにおける上記顔領域が上記トレースに含まれるか否かを判断して上記トレースに含まれると判断した場合に上記トレースに上記現フレームを加えるトレース判断手段と、上記顔領域検出手段において検出された上記現フレームにおける上記顔領域が上記トレースに含まれないと判断された場合に何れのフレームを上記トレースの終了フレームとするかを判断する終了フレーム判断手段とを具備することを特徴とするものである。これにより、映像データを供給することによって自動的に顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報を生成させるという作用をもたらす。

また、上記顔領域予測手段は、上記同一のトレース識別子を付与された以前のフレームにおける上記顔領域に基づいて上記現フレームにおける上記顔領域を線形予測により予測することを特徴とするものである。これにより、精度の良い顔領域の位置等の予測値が得られるという作用をもたらす。

また、上記トレース判断手段は、上記予測された現フレームにおける上記顔領域と上記顔領域検出手段において検出された上記現フレームにおける上記顔領域とを比較して位置の差および属性の差が所定の閾値内にあるか否かを判断し、上記閾値内にある場合には上記現フレームにおける上記顔領域が上記トレースに含まれると判断して上記トレースに上記現フレームを加えることを特徴とするものである。これにより、実際の検出値と予測値に誤差がある場合にも顔領域の出現から消滅までの情報を生成させるという作用をもたらす。

また、上記トレース判断手段は、上記属性として上記顔領域の大きさ、上記顔領域の輝度分布、上記顔領域の色分布、上記顔領域の形状、上記顔領域の模様のうち少なくとも一つの要素に基づいて上記属性の差が所定の閾値内にあるか否かを判断することを特徴とするものである。これにより、顔領域における大きさ、輝度分布、色分布、形状、模様等の要素によって実際の検出値と予測値を比較させるという作用をもたらす。

また、上記終了フレーム判断手段は、上記顔領域検出手段において検出された上記現フレームにおける上記顔領域が上記トレースに含まれないと判断された場合に後に続くフレームに対する上記トレース判断手段の判断結果に基づいて何れのフレームを上記終了フレームとするかを判断することを特徴とするものである。これにより、顔領域の検出漏れがある場合にも顔領域の出現から消滅までの情報を生成させるという作用をもたらす。

また、この第１の側面において、上記代表顔領域情報生成手段は、上記トレースを構成するフレームにおける上記顔領域の大きさ、上記顔領域における周波数分布、上記顔領域における色の濃淡分布および上記顔領域の色分布のうちの少なくとも一つの要素に基づいて上記代表顔領域を選択することを特徴とするものである。これにより、ユーザーによって見やすい顔領域を代表顔領域として選択させるという作用をもたらす。

また、この第１の側面において、上記代表顔領域情報生成手段は、上記代表顔領域を含むフレームのフレーム番号と上記代表顔領域を含むフレームにおける上記代表顔領域の位置および大きさとを上記代表顔領域情報として生成することを特徴とするものである。これにより、映像データ付随情報における代表顔領域情報の情報量を低減させるという作用をもたらす。

また、この第１の側面において、上記代表顔領域情報生成手段は、上記代表顔領域を含むフレームから切り出した上記代表顔領域を上記代表顔領域情報として生成することを特徴とするものである。これにより、顔領域を映像データ付随情報に含めて生成させるという作用をもたらす。

また、所定の顔領域の特徴を記述した顔領域特徴データと上記顔領域特徴データを識別する顔特徴識別子とを対応付けて保持する顔領域特徴データ保持手段と、上記顔領域情報生成手段において切り出された上記代表顔領域より顔領域特徴データを抽出する顔領域特徴データ抽出手段と、上記抽出された顔領域特徴データに類似する上記顔領域特徴データを上記顔領域特徴データ保持手段より検索して上記抽出された顔領域データに上記顔特徴識別子を付与する顔領域特徴データ検索手段とを具備し、上記映像データ付随情報生成手段は、上記映像データ付随情報に上記顔特徴識別子を含めて生成することを特徴とするものである。これにより、類似する顔領域を関連付けた顔特徴識別子を映像データ付随情報に含めて生成させるという作用をもたらす。

また、上記顔領域特徴データ検索手段において上記抽出された顔領域特徴データに類似する上記顔領域特徴データを上記顔領域特徴データ保持手段より検索されなかった場合に上記抽出された顔領域データに新たな顔特徴識別子を付与することを特徴とするものである。これにより、類似する顔領域がなくても新たに顔特徴識別子を付与させるという作用をもたらす。すなわち、全ての顔領域に顔特徴識別子が付与されることになる。

また、本発明の第２の側面は、映像データに対して顔領域が連続して出現するフレームの集合であるトレースの開始および終了に対応するフレーム識別子と上記トレースを構成するフレームに含まれる上記顔領域より選択された代表顔領域の内容を表す代表顔領域情報とを対応付けた情報である映像データ付随情報を保持する映像データ付随情報保持手段と、上記映像データ付随情報に基づいて操作メニューの一覧を生成する操作メニュー一覧生成手段と、上記操作メニューを表示する表示手段と、上記操作メニューに対する選択を受け付ける操作入力手段とを具備することを特徴とする映像処理装置である。これにより、顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報に基づいて映像データを管理させるという作用をもたらす。

また、この第２の側面において、上記映像データの一覧のうち所定の映像データが上記操作手段より選択されるとその選択された映像データに関する上記映像データ付随情報を取得して上記映像データ付随情報に含まれる上記代表顔領域情報に基づいて上記顔領域を表示させる顔領域取得手段をさらに具備することを特徴とするものである。これにより、映像データにおいて顔領域が連続して出現する場面毎にその場面を代表する顔領域を表示させるという作用をもたらす。

また、上記映像データ付随情報保持手段は、上記映像データに対して所定の顔領域の特徴を記述した顔領域特徴データに付与された顔特徴識別子を上記代表顔領域情報と対応付けて保持し、上記顔領域取得手段によって表示された上記顔領域の何れかが上記操作手段により選択されるとその選択された上記顔領域と同じ上記顔特徴識別子を有する映像データ付随情報を検索してその結果を表示させる類似顔領域検索手段をさらに具備することを特徴とするものである。これにより、類似する顔領域に基づいて映像データを検索させるという作用をもたらす。

また、この第２の側面において、上記映像データの一覧のうち所定の映像データが上記操作手段より選択されるとその選択された映像データに関する上記映像データ付随情報を取得して上記トレースに対応する時間表示および上記代表顔領域情報に対応する上記顔領域を含む顔タイムライン表示を生成する顔タイムライン生成手段をさらに具備することを特徴とするものである。これにより、映像データにおいて顔領域が連続して出現する場面毎にその場面を代表する顔領域およびその場面の時間を表示させるという作用をもたらす。

また、この第３の側面は、映像データを構成するフレームに含まれる顔領域を検出する顔領域検出手順と、上記検出に基づいて上記顔領域が出現してから消滅するまでのフレームの集合を一つの単位とするトレースの開始および終了に対応するフレーム識別子を生成するトレース生成手順と、上記トレースを構成するフレームに含まれる上記顔領域より代表顔領域を選択して上記代表顔領域の内容を表す代表顔領域情報を生成する代表顔領域情報生成手順と、上記映像データに付随する映像データ付随情報として上記映像データに対して上記トレースの開始および終了に対応するフレーム識別子と上記代表顔領域情報とを対応付けた情報を生成する映像データ付随情報生成手順とを具備することを特徴とする処理方法またはこれらの手順をコンピュータに実行させるプログラムである。これにより、顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報を生成させるという作用をもたらす。

本発明によれば、顔領域と顔領域の出現から消滅までの情報とを対応付けた映像データ付随情報を生成することができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態における映像処理装置１００の構成の一例を示す図である。映像処理装置１００は、アンテナ１０と、受信部２０と、記録再生処理部３０と、システム制御部４０と、ハードディスク（Hard disk）５０と、入出力制御部６０と、表示部７０と、音声出力部８０と、操作入力部９０とを備える。

アンテナ１０は、空間を伝わって来た電波をとらえる役割を果たす。受信部２０は、アンテナ１０から供給されてきた受信データに対して復調処理およびＤ／Ａ変換などの処理を行うものである。

記録再生処理部３０は、受信部２０から供給されたデータを、例えば、ＭＰＥＧ−２（Moving Picture Expert Group-2）規格に従って符号化などを行うものである。符号化されたデータは、ハードディスク５０またはディスクインターフェース６４に供給される。また、記録再生処理部３０は、ハードディスク５０またはディスクインターフェース６４から供給されたデータに対して復号処理などを行う。この復号されたデータは、表示制御部６１や、音声制御部６２に供給される。

システム制御部４０は、データ処理部４１と、ＲＡＭ（Random Access Memory）４２とを備える。データ処理部４１は、本発明の実施の形態における映像処理装置１００全体の処理を司るものであり、作業領域としてＲＡＭ４２を使用する。ハードディスク５０は、記録再生処理部３０において所定の処理を施されたデータを記憶しておくものである。

入出力制御部６０は、表示制御部６１と、音声制御部６２と、操作制御部６３と、ディスクインターフェース６４とを備える。表示制御部６１は、記録再生処理部３０等から供給された映像データを、例えばＬＣＤ（Liquid Crystal Display）などにより構成された表示部７０に供給する。表示部７０において映像データは出力される。

音声制御部６２は、記録再生処理部３０等から供給された音声データを音声出力部８０に供給する。この音声出力部８０から音声データは出力される。操作制御部６３は、操作入力部９０からの操作信号をデータ処理部４１に伝える。データ処理部４１は、操作入力部９０においていずれの操作が行われたかを判別し、その判別結果に応じた制御処理を行う。

ディスクインターフェース６４は、記録再生処理部３０において所定の処理を施されたデータをディスク６５に書き込む。また、ディスクインターフェース６４は、ディスク６５からデータを読み出して記録再生処理部３０に供給する。なお、ディスク６５は、ＣＤ、ＤＶＤなどの光ディスク（optical disk）が想定される。また、ディスク以外の記憶媒体を利用することもできる。

本発明の実施の形態においては、（図示しない）放送局から供給された映像データはアンテナ１０により受信され、ハードディスク５０において保持される。このハードディスク５０に保持された映像データを構成するフレームに含まれる顔領域はデータ処理部４１において検出される。この顔領域の検出に基づいて、同一人物の顔領域がフレームに出現してから消滅するまでを一つの単位（以下、トレースと呼ぶ。）として同一人物の顔領域が連続して出現する場面に関する情報（以下、トレース情報と呼ぶ。）を映像データについての映像データ付随情報に含める。なお、トレース情報には、後述するトレースの開始および終了に対応するフレーム番号と、代表顔領域情報と、顔特徴識別子とが含まれる。

なお、上記において映像データとして放送局より供給された映像データを例に挙げて説明したがこれに限るものではなく、映像データとして、例えば家庭用のビデオカメラにより撮像された映像データであってもよい。この場合は、例えば家庭用のビデオカメラにより撮像された映像データが記録されたディスクをディスクインターフェース６４より読み出して上記処理が行われることが想定される。

図２は、本発明の実施の形態における映像データについての映像データ付随情報を生成する機能構成の一例を示す図である。この機能は、顔領域検出部４１０と、トレース生成部４２０と、代表顔領域情報生成部４３０と、顔特徴識別子付与部４４０と、映像データ付随情報生成部４５０と、映像データ付随情報保持部４６０とを備える。

顔領域検出部４１０は、供給されたフレームより顔領域を検出するものである。具体的には、顔領域検出部４１０は、フレーム中の顔領域の有無と、顔領域の位置と、顔領域の大きさ、輝度分布、色分布、模様および形状等の顔領域の属性とを検出する。また、顔領域検出部４１０は、顔領域の属性として顔領域周辺の輝度分布、色分布、模様および形状等を検出してもよい。なお、以下の説明において、上記のフレーム中の顔領域の有無と、顔領域の位置と、顔領域の属性とを総称して「顔領域情報」と適宜呼ぶ。顔領域検出部４１０は、顔領域情報およびフレームをトレース生成部４２０に供給する。

トレース生成部４２０は、顔領域情報に基づいてトレースの開始および終了に対応するフレーム番号の組みを生成するものであり、トレース識別子付与部４２１と、顔領域情報保持部４２２と、顔領域予測部４２３と、トレース判断部４２４と、終了フレーム判断部４２５とを備える。

トレース識別子付与部４２１は、トレース判断部４２４より供給された顔領域の位置および属性に対してトレース識別子を付与するものである。トレース識別子とは、それぞれのトレースに付与される各トレースを区別するためのユニークな識別子である。トレース識別子付与部４２１においてトレース識別子を付与された顔領域の位置および属性は、顔領域情報保持部４２２に供給される。顔領域情報保持部４２２は、トレース識別子付与部４２１より供給された顔領域の位置および属性をトレース識別子毎に保持するものである。

顔領域予測部４２３は、顔領域情報保持部４２２においてトレース識別子毎に保持された顔領域の位置および属性に基づいて、トレース識別子毎に次フレームにおける顔領域の位置および属性を予測するものである。なお、顔領域予測部４２３において、線形予測により顔領域の位置および属性を予測することが想定される。ここで、線形予測とは、ｎ番目の値を（ｎ−１）番目以前の値から推定するものである。

トレース判断部４２４は、顔領域予測部４２３より供給されたトレース識別子毎の次フレームにおける顔領域の位置および属性の予測値に基づいて、顔領域検出部４１０において検出された現フレームにおける顔領域が何れのトレースに含まれるかを判断するものである。

具体的には、顔領域予測部４２３より供給されたトレース識別子毎の次フレームにおける顔領域の位置および属性の予測値と、顔領域検出部４１０において検出された現フレームにおける顔領域の位置および属性との差が所定の閾値内にあれば、現フレームはそのトレースを構成する次フレームであると判断され、現フレームはそのトレースに加えられる。

そして、トレース判断部４２４は、その現フレームにおける顔領域の位置および属性をトレース識別子付与部４２１に供給する。現フレームが予測内にある場合、トレース識別子付与部４２１は、予測されたトレースに付与されているトレース識別子を現フレームに付与して、顔領域情報保持部４２２に保持させる。

一方、顔領域予測部４２３より供給されたトレース識別子毎の次フレームにおける顔領域の位置および属性の予測値と、顔領域検出部４１０において検出された現フレームにおける顔領域の位置および属性との差が所定の閾値内になければ、現フレームは何れのトレースをも構成するものでないと判断され、現フレームはそのトレースに加えられない。この場合、その現フレームは新たに出現した顔領域として扱われ、トレース判断部４２４は、その現フレームにおける顔領域の位置および属性をトレース識別子付与部４２１に供給する。そして、トレース識別子付与部４２１は、新たなトレース識別子を現フレームに付与して、顔領域情報保持部４２２に保持させる。

また、トレース判断部４２４は、顔領域予測部４２３より供給されたトレース識別子毎の次フレームにおける顔領域の位置および属性の予測値に対応する現フレームにおける顔領域の位置および属性がない場合には、その予測値に対応するトレースが終了する可能性があると判断して、その旨の通知および現フレームを終了フレーム判断部４２５に供給する。

終了フレーム判断部４２５は、トレース判断部４２４から上記その旨の通知を受けるとトレースにおける終了フレームを判断する。終了フレーム判断部４２５は、例えば現フレームから所定時間（例えば、０．５秒程度）経過する間のフレームにおいてそのトレースに対応する顔領域が存在しなかった場合に、上記その旨の通知を受けた際のフレームを終了フレームと判断する。

顔領域予測部４２３より供給されたトレース識別子毎の次フレームにおける顔領域の位置および属性の予測値に対応する現フレームにおける顔領域の位置および属性がない場合には、その時点におけるフレームを終了フレームとすることも考えられるが、顔領域検出部４１０において顔領域の検出漏れが生じることもあり得るため、現フレームから所定時間経過する間のフレームにおける顔領域も対象としている。

また、終了フレーム判断部４２５は、トレース判断部４２４から供給された現フレームより顔領域の位置の予測値付近の輝度分布、色分布、模様および形状等を算出して、その算出値とトレースを構成する他のフレームに含まれる顔領域の輝度分布、色分布、模様および形状等における値とを比較して、両者が類似しない場合にその現フレームを終了フレームと判断するようにしてもよい。両者を比較した結果が類似すると判断された場合は、何らかの理由で顔領域が検出されなかったと見なして、トレース判断部４２４から供給された現フレームは終了フレームと判断されない。

代表顔領域情報生成部４３０は、トレース判断部４２４から供給されたトレースを構成するフレームに含まれる顔領域より代表顔領域を選択して代表顔領域の内容を表す代表顔領域情報を生成するものである。なお、代表顔領域は、二以上あってもよい。この代表顔領域情報は、映像データ付随情報生成部４５０および顔特徴識別子付与部４４０に供給される。

代表顔領域の選択は、顔領域の大きさ、顔領域における周波数分布、顔領域における濃淡分布および顔領域における色分布等の要素に基づいて行われる。なお、顔領域における周波数分布は顔領域のボケ具合を表す指標として用いられ、顔領域における濃淡分布は顔領域のコントラストを表す指標として用いられ、顔領域における色分布は色調を表す指標として用いられる。

代表顔領域情報としては、具体的には上記要素に基づいて選択された代表顔領域をフレームから切り出したもの、すなわち代表顔領域部分の映像データそのものが想定される。また、代表顔領域情報としては、代表顔領域を含むフレームのフレーム番号および代表顔領域のフレームにおける位置および大きさ等の情報も想定される。この代表顔領域を含むフレームのフレーム番号および代表顔領域のフレームにおける位置および大きさ等の情報に基づいて、代表顔領域部分の映像データを取得することができる。

代表顔領域情報のうち前者は、代表顔領域情報に基づいて顔領域の映像データを表示させる場合には、毎回映像データより代表顔領域部分の映像データを切り出す必要がないという利点がある。一方、代表顔領域情報のうち後者は、映像データではないため記憶領域の効率的な利用が可能であるという利点がある。

顔特徴識別子付与部４４０は、顔領域特徴データ抽出部４４１と、顔領域特徴データ保持部４４２と、顔領域特徴データ検索部４４３とを備える。顔領域特徴データ抽出部４４１は、代表顔領域情報生成部４３０より供給された代表顔領域情報に基づいて代表顔領域より顔領域についての特徴データ（以下、顔領域特徴データと呼ぶ。）を抽出するものである。抽出された顔領域特徴データは、顔領域特徴データ検索部４４３に供給される。

なお、顔領域特徴データとしては、例えば目、鼻、口といった造作を表す特徴点を抽出することによって各造作の形状や位置関係等を数値的に記述した特徴ベクトルが想定されるが、これに限るものではない。

顔領域特徴データ保持部４４２は、顔特徴識別子と顔領域特徴データとを対応付けて保持するものである。顔特徴識別子とは、顔領域特徴データの識別子であり、同じ顔特徴識別子を付与された顔領域特徴データは互いに類似する顔領域の特徴を有する。

顔領域特徴データ検索部４４３は、顔領域特徴データ保持部４４２に保持された顔領域特徴データにおいて、顔領域特徴データ抽出部４４１から供給された顔領域特徴データと類似する顔領域特徴データを検索するものである。

顔領域特徴データ保持部４４２に保持された顔領域特徴データにおいて、顔領域特徴データ抽出部４４１から供給された顔領域特徴データと類似する顔領域特徴データが検索された場合、顔領域特徴データ抽出部４４１から供給された顔領域特徴データには、上記検索された顔領域特徴データと同じ顔特徴識別子が付与され、映像データ付随情報生成部４５０に供給される。一方、顔領域特徴データ保持部４４２に保持された顔領域特徴データにおいて、顔領域特徴データ抽出部４４１から供給された顔領域特徴データと類似する顔領域特徴データが検索されなかった場合、新たな顔特徴識別子が付与されて映像データ付随情報生成部４５０に供給される。

なお、顔領域特徴データ検索部４４３に供給されて顔特徴識別子を付与された顔領域特徴データは、顔領域特徴データ保持部４４２にも供給され、顔特徴識別子と対応付けられて保持される。これにより、顔領域特徴データ保持部４４２には、顔特徴識別子と対応付けられた顔領域特徴データが蓄積される。

映像データ付随情報生成部４５０は、映像データに対してトレースの開始および終了に対応するフレーム番号と、代表顔領域情報と、顔特徴識別子とを対応付けた映像データ付随情報を生成するものである。すなわち、映像データ付随情報とは、映像データに図１で説明したトレース情報を対応付けた情報である。この生成された映像データ付随情報は、映像データ付随情報保持部４６０において保持される。

なお、これら図２における機能は、例えば図１におけるシステム制御部４０において実現されるものである。

図３は、図２において生成された映像データ付随情報を用いた操作機能の構成の一例を示す図である。この操作機能は、操作メニュー一覧生成部４７０と、映像データ付随情報保持部４６０と、映像データ保持部５００と、顔タイムライン生成部４８１と、類似顔領域検索部４８２と、顔領域取得部４８３と、再生映像データ取得部４８４とを備える。

操作メニュー一覧生成部４７０は、映像データ付随情報保持部４６０に保持された映像データ付随情報に基づいて映像データに関する操作メニューの一覧を生成するものである。また、操作メニュー一覧生成部４７０は、映像データに関する操作メニューに対する操作入力部９０からの選択に応じて操作メニューの何れかに対応する機能を備えた顔タイムライン生成部４８１、類似顔領域検索部４８２、顔領域取得部４８３および再生映像データ取得部４８４に対して指示を行う。

顔タイムライン生成部４８１は、操作メニュー一覧生成部４７０からの指示を受けて、指示に対応する映像データ付随情報を映像データ付随情報保持部４６０より取得してその映像データ付随情報に基づいて表示部７０に表示させる顔タイムライン表示を生成するものである。

ここで、顔タイムライン表示とは、所定の映像データにおけるトレースに対応する時間表示および代表顔領域情報に対応する顔領域を対応付けた表示を言う。映像データ付随情報に含まれるトレースの開始および終了に対応するフレーム番号によってトレースに対応する時間表示を生成し、代表顔領域情報に基づいて代表顔領域が生成される。

顔領域取得部４８３は、操作メニュー一覧生成部４７０または類似顔領域検索部４８２からの指示を受けて、指示に対応する映像データ付随情報を映像データ付随情報保持部４６０より取得してその映像データ付随情報に基づいて表示部７０に表示させる代表顔領域を取得するものである。具体的には、顔領域取得部４８３は、映像データ付随情報に含まれる代表顔領域情報に基づいて代表顔領域を取得する。

代表顔領域情報の内容が顔領域の映像データそのものである場合は、顔領域取得部４８３は、顔領域を映像データ付随情報保持部４６０より取得する。一方、代表顔領域情報の内容が代表顔領域を含むフレームのフレーム番号および代表顔領域のフレームにおける位置および大きさ等の情報である場合には、顔領域取得部４８３は、映像データ保持部５００より対応するフレームを取得してそのフレームより顔領域を取得する。

類似顔領域検索部４８２は、操作メニュー一覧生成部４７０からの指示を受けて、映像データ付随情報保持部４６０に保持された映像データ付随情報における顔特徴識別子に基づいて、指示に対応する顔領域と類似する顔領域を映像データ付随情報保持部４６０において検索するものである。具体的には、類似顔領域検索部４８２は、操作メニュー一覧生成部４７０から指示された顔領域の顔特徴識別子と同じ顔特徴識別子を有する映像データ付随情報を映像データ付随情報保持部４６０において検索する。そして、検索された映像データ付随情報中の代表顔領域情報に基づいて対応する顔領域を表示部７０に表示させる。

なお、本発明の実施の形態において代表顔領域情報の内容が顔領域の映像データそのものである場合、類似顔領域検索部４８２は検索された顔特徴識別子に対応する顔領域を映像データ付随情報保持部４６０より取得して表示部７０に表示させる。一方、代表顔領域情報の内容が代表顔領域を含むフレームのフレーム番号および代表顔領域のフレームにおける位置および大きさ等の情報である場合、類似顔領域検索部４８２は顔領域取得部４８３に指示を行い、映像データ保持部５００より対応するフレームを顔領域取得部４８３に取得させてそのフレームより顔領域を切り出して表示部７０に表示させる。

再生映像データ取得部４８４は、操作メニュー一覧生成部４７０からの指示を受けて指示に対応する映像データを映像データ保持部５００より取得して表示制御部６１に供給するものである。

図４は、本発明の実施の形態におけるトレースの生成の様子を示す図である。なお、図４において顔領域２１３乃至２１５は顔領域が点線で表されている。これは実際には顔領域が存在するが、顔領域検出部４１０で検出されなかったことを表しているものとする。また、実線で表された顔領域は、顔領域検出部４１０で検出されたことを表しているものとする。

まず、フレーム２０１において顔領域２１１が顔領域検出部４１０で検出され、トレースＡの生成が開始される。次に、フレーム２０１における顔領域２１１の位置および属性に基づいて、次フレーム２０２での顔領域の位置および属性が顔領域予測部４２３において予測される。

フレーム２０２において顔領域２１２および２２１が顔領域検出部４１０で検出され、顔領域予測部４２３において予測された顔領域の位置および属性とフレーム２０２において検出された顔領域２１２および２２１の位置および属性とが比較される。両者の位置および属性の差が閾値内であれば、フレーム２０２はトレースＡに加えられる。

図４においては、顔領域予測部４２３において予測された顔領域の位置および属性と、フレーム２０２において検出された顔領域２１２の位置および属性との差は閾値内にあると考えられるため、フレーム２０２はトレースＡに加えられる。

一方、顔領域予測部４２３において予測された顔領域の位置および属性と、フレーム２０２において検出された顔領域２２１の位置および属性との差は閾値内にないと考えられるため、新たに出現した顔領域として扱われ、トレースＢの生成が開始される。

次に、顔領域予測部４２３において、トレースＡにおける次フレーム２０３での顔領域の位置および属性の予測およびトレースＢにおける次フレーム２０３での顔領域の位置および属性の予測が行われる。

フレーム２０３において顔領域２２２が顔領域検出部４１０で検出され、トレースＢにおける次フレーム２０３での顔領域の位置および属性の予測とフレーム２０３における顔領域２２２の位置および属性とが比較される。図４においては、トレースＢにおける次フレーム２０３での顔領域の位置および属性の予測と、フレーム２０３における顔領域２２２の位置および属性との差は、閾値内にあると考えられるため、フレーム２０３はトレースＢに加えられる。

トレースＢについては、フレーム２０４および２０５についても同様の取り扱いがされ、顔領域が存在しなくなるフレーム２０６の前のフレーム２０５がトレースＢの終了フレームとなる。したがって、トレースＢの開始フレームはフレーム２０２で、トレースＢの終了フレームは、フレーム２０５となる。

一方、トレースＡに対応する顔領域２１３がフレーム２０３においては検出されていない。このため、トレースＡにおける次フレーム２０３での顔領域の位置および属性の予測と比較すべき対象が存在しない。この場合、トレースＡにおける終了フレームは、２０２とすべきと考えられる。しかしながら、顔領域検出部４１０における顔検出の確率は１００パーセントではないため、実際にはフレーム２０３に顔領域２１３が存在する可能性もある。したがって、本発明の実施の形態においては、フレーム２０３においてトレースＡに対応するはずの顔領域２１３が検出されなくても、この時点で直ぐにトレースＡの終了フレームを判断しない。さらに先のフレームにおける顔領域も加味してトレースＡの終了フレームを判断する。

トレースＡについては、フレーム２０３乃至２０５まで顔領域検出部４１０において顔領域２１３乃至２１５が検出されていない。フレーム２０６においては、顔領域２１６が検出されている。顔領域予測部４２３でのフレーム２０６における顔領域の位置および属性の予測と、フレーム２０６において検出された顔領域２１６の位置および属性とを比較すると、両者の差は閾値内にあると考えられ、顔領域２１６を含むフレーム２０６はトレースＡに加えられる。この場合、本発明の実施の形態においてはフレーム２０３乃至２０５において顔領域２１３乃至２１５は検出されたものとして扱われ、フレーム２０３乃至２０５もトレースＡに加えられる。なお、何フレーム先の顔領域の状況まで上記のように扱うかの限定はないが、例えば０．５秒程度先のフレームまで上記のように扱うことが想定される。

トレースＡについては、フレーム２０７および２０８についても同様のことが行われ、顔領域が存在しなくなるフレーム２０８の前のフレーム２０７がトレースＡの終了フレームとなる。したがって、トレースＡの開始フレームはフレーム２０１で、トレースＡの終了フレームは、フレーム２０７となる。

図５は、図４とは別のトレースにおける終了フレームの判断方法を示すものである。図４においては、顔領域が検出されなかった場合は、数フレーム先までの顔領域の検出結果を加味するが、図５においては、顔領域が検出されなかったフレームを解析することによってトレースにおける終了フレームを判断する。

図５に示したのは、図４におけるフレーム２０２および２０３である。フレーム２０３においては顔領域検出部４１０において顔領域が検出されていないが、フレーム２０３より前のフレーム２０１またはフレーム２０２に基づいて、フレーム２０３における顔領域の位置および属性が顔領域予測部４２３によって予測されている。この予測された位置がフレーム２０３の領域２３１である。

このフレーム２０３がトレースＡにおける終了フレームであるか否かを判断するため、領域２３１における輝度分布、色分布、模様および形状等を終了フレーム判断部４２５において算出する。そして、上記算出された輝度分布、色分布、模様および形状等と、フレーム２０１またはフレーム２０２に基づいて予測されたフレーム２０３における顔領域における輝度分布、色分布、模様および形状等からなる属性とを終了フレーム判断部４２５において比較する。

両者を比較した結果、両者の輝度分布、色分布、模様および形状等が類似すると判断された場合は、何らかの理由で顔領域が検出されなかったと見なして、フレーム２０３は終了フレームと判断されない。一方、両者の輝度分布、色分布、模様および形状等が類似しないと判断された場合は、フレーム２０３は終了フレームと判断される。

なお、終了フレームの判断の精度を上げるために、上記領域２３１における周辺領域である周辺領域２３２も比較対象として上記のように周辺領域２３２における輝度分布、色分布、模様および形状等を算出するようにしてもよい。

図６は、本発明の実施の形態における顔領域情報保持部４２２の保持内容を示す図である。顔領域情報保持部４２２は、顔領域情報テーブル４２２０を保持しており、顔領域情報テーブル４２２０は、トレース識別子４２２１と、顔領域情報４２２２とを備える。

トレース識別子４２２１は、それぞれのトレースに付与される各トレースを区別するためのユニークな識別子であり、図２において説明したものと同様のトレース識別子である。また、顔領域情報４２２２は、所定のフレームにおける顔領域の位置および属性を表す情報である。図６においては、フレーム２０２（位置２０２、属性２０２）というように示されているが、これはフレーム２０２における顔領域の位置と属性を意味するものである。トレースは複数のフレームで構成されることもあるため、一つのトレース識別子に対して複数のフレームにおける顔領域の位置と属性が顔領域情報４２２２において保持されている。

図７は、本発明の実施の形態における顔領域特徴データ保持部４４２の保持内容を示す図である。顔領域特徴データ保持部４４２は、顔領域特徴データテーブル４４２０を保持しており、顔領域特徴データテーブル４４２０は、顔特徴識別子４４２１と、顔領域特徴データ４４２２とを備える。

顔特徴識別子４４２１は、顔領域特徴データの識別子であり、図２において説明したように同じ顔特徴識別子を付与された顔領域特徴データは互いに類似する顔領域の特徴を有する。図７において顔特徴識別子は、「特徴Ａ」、「特徴Ｂ」とされている。顔領域特徴データ４４２２は、図２において説明した顔領域特徴データと同様のものである。

図８は、本発明の実施の形態における映像データ付随情報保持部４６０において保持された映像データ付随情報を示す図である。映像データ付随情報４６００は、映像データのタイトル４６０１と、トレース情報４６０２とを備える。映像データにおいては、一般的に顔領域の出現から消滅までの状況が多数存在する。このため、映像データのタイトル一つにつき多数のトレース情報が保持されている。トレース情報の具体的な内容については図９で説明する。

図９は、本発明の実施の形態におけるトレース情報の内容を示す図である。図８（ａ）は、本発明の実施の形態におけるトレース情報の一例を示す図である。図９（ａ）に示すトレース情報４６１０は、トレース識別子４６１１と、開始フレーム番号４６１２と、終了フレーム番号４６１３と、顔特徴識別子４６１４と、代表顔領域情報４６１５とを備える。

トレース識別子４６１１は、それぞれのトレースに付与される各トレースを区別するためのユニークな識別子であり、図２において説明したものと同様のトレース識別子である。開始フレーム番号４６１２は、トレースを開始したフレーム番号である。また、終了フレーム番号４６１３は、トレースを終了したフレーム番号である。

顔特徴識別子４６１４は、顔領域特徴データの識別子であり、図２において説明したように同じ顔特徴識別子を付与された顔領域特徴データは互いに類似する顔領域の特徴を有する。すなわち、同じ顔特徴識別子４６１４を有するトレース情報は、類似する特徴を有する顔領域を有しているとされ、この顔特徴識別子４６１４は、類似する特徴を有する顔領域を検索する際に参照される。代表顔領域情報４６１５は、代表顔領域の内容を表す情報であり、図９（ａ）においてはフレーム中から切り出された顔領域そのものが代表顔領域情報とされている。なお、代表顔領域情報４６１５における代表顔領域の内容を表す情報は、２以上あってもよい。図９（ａ）においては、代表顔領域の内容を表す情報として「代表顔領域情報＃１」の他に「代表顔領域情報＃２」が示されている。

図９（ｂ）に示すトレース情報４６２０は、トレース識別子４６２１と、開始フレーム番号４６２２と、終了フレーム番号４６２３と、顔特徴識別子４６２４と、代表顔領域情報４６２５とを備える。図９（ｂ）と図９（ａ）におけるトレース情報の相違点は、代表顔領域情報である。その他の点については同じ内容であるため、説明を省略する。図９（ｂ）における代表顔領域情報４６２５は、図９（ｃ）に示すように代表顔領域を含むフレーム番号４６２６と、顔領域における所定の座標４６２７と、顔領域の高さおよび幅４６２８とから成る。これらにより、フレーム中の顔領域が特定されて、代表顔領域として取得されることになる。

図１０は、本発明の実施の形態における操作メニューの表示を示すものである。図１０（ａ）に示すように表示部７０の表示画面７００には、映像データのタイトルの集合である映像データタイトル表示群７１０と、顔列挙ボタン７２１と、顔タイムラインボタン７２２とから成る操作メニューが表示される。顔列挙ボタン７２１は、カーソルが位置する映像データにおける代表顔領域を列挙して表示させるためのボタンである。また、顔タイムラインボタン７２２は、カーソルが位置する映像データにおける図３で説明した顔タイムライン表示を表示させるためのボタンである。

例えば、所定の映像データタイトルにカーソルを合わせた後に顔列挙ボタン７２１を選択すると、表示画面７００には図１０（ｂ）に示すように表示される。図１０（ｂ）に示す表示画面７００には、選択映像データ表示７３０と、代表顔領域の集合である代表顔列挙群７４０と、類似タイトルボタン７５１と、再生ボタン７５２とが表示される。

選択映像データ表示７３０は、図１０（ａ）においてカーソルによって選択された映像データのタイトル表示である。代表顔列挙群７４０は、カーソルによって選択された映像データにおける代表顔領域が表示される。類似タイトルボタン７５１は、図１０（ｂ）において選択された代表顔領域と類似する代表顔領域を含む映像タイトルを検索するためのボタンである。また、再生ボタン７５２は、図１０（ｂ）において選択された代表顔領域に対応するトレースを構成する映像データを再生させるためのボタンである。

図１０（ｂ）に示す表示画面７００において代表顔領域「顔Ｃ」にカーソルを移動させて、類似タイトルボタン７５１を選択すると、図１０（ｃ）に示すような表示になる。一方、図１０（ｂ）に示す表示画面７００において代表顔領域「顔Ｃ」にカーソルを移動させて、再生ボタン７５２を選択すると、代表顔領域「顔Ｃ」に対応するトレースを構成する映像データが再生され図１０（ｄ）に示すような表示になる。

図１０（ｃ）における表示画面７００には、図１０（ｂ）においてカーソルによって選択された代表顔領域「顔Ｃ」と類似する代表顔領域を含む映像データタイトル表示である類似代表顔領域映像データタイトル表示群７６０と、図１０（ａ）で示した顔列挙ボタン７２１と、顔タイムラインボタン７２２が表示される。類似代表顔領域映像データタイトル表示群７６０のうちの何れかを選択して顔列挙ボタン７２１を選択すると、表示画面７００には図１０（ｂ）に示すような表示がされる。

図１１は、図１０において顔タイムラインボタン７２２を選択した場合の表示画面７００を示す図である。図１１における表示画面７００には、選択映像データ表示７３０と、映像データ時間表示７７０と、顔タイムライン表示群７８０と、類似タイトルボタン７５１と、再生ボタン７５２とが表示される。

選択映像データ表示７３０は、図１０で説明したものと同様である。映像データ時間表示７７０は、映像データの再生時間を表示するものである。図１１においては、タイトルＢの映像データの再生時間は３０分である。顔タイムライン表示群７８０は、顔タイムライン表示の集合である。

顔タイムライン表示は、トレース時間表示７８１と、代表顔領域７８２とから成る。トレース時間表示７８１は、トレースを構成する映像データの再生時間である。代表顔領域７８２は、トレースを構成するフレームに含まれる顔領域より選択された顔領域である。顔タイムライン表示を見れば、映像データ中におけるトレースの位置がわかるため、映像データの内容を把握するのに便利である。なお、類似タイトルボタン７５１と、再生ボタン７５２については、図１０で説明したものと同様である。

次に、本発明の実施の形態における映像処理装置１００の動作について図面を参照して説明する。

図１２は、本発明の実施の形態における映像データ付随情報を生成するまでの流れを示す図である。

映像データを構成するフレームが顔領域検出部４１０に入力されると（ステップＳ９１１）、顔領域検出部４１０においてフレームに含まれる顔領域の検出が行われる（ステップＳ９１２）。次に、ステップＳ９１２において未処理のトレースが存在するか否かが判断される（ステップ９１３）。

未処理のトレースが存在しないと判断されると、ステップＳ９１２において新たな顔領域が存在するか否かが判断される（ステップＳ９１４）。新たな顔領域が存在すると判断されると、新規のトレースの生成を開始する（ステップＳ９１５）。

ステップＳ９１３において、未処理のトレースが存在すると判断されると、顔の位置および属性が予測される（ステップＳ９１６）。次に、ステップＳ９１３において予測された顔の位置および属性と、ステップＳ９１２において検出された顔領域の位置および属性とを比較して、ステップＳ９１２において検出された顔領域の位置および属性がトレースに含まれるか否かが判断される（ステップＳ９１７）。ステップＳ９１２において検出された顔領域の位置および属性がトレースに含まれると判断されると、その検出された顔領域はトレースに加えられる（ステップＳ９１８）。

一方、ステップＳ９１２において検出された顔領域の位置および属性がトレースに含まれないと判断されると、次に、そのトレースを終了するか否かが判断される（ステップＳ９１９）。トレースを終了するか否かは、図２において説明したように、例えば現フレームから所定時間経過する間のフレームにおいてそのトレースに対応する顔領域が検出されなかった場合に、上記その旨の通知を受けた際のフレームを終了フレームと判断する。

そのトレースを終了しないと判断されると、そのフレームにおいては、顔領域が存在するものとされ、さらにトレースが継続される（ステップＳ９２０）。一方、そのトレースを終了すると判断されると、次に、そのトレース内における顔領域より代表顔領域を選択して代表顔領域情報を生成する（ステップＳ９２１）。トレースに対応するフレームの開始および終了に対応するフレーム番号および代表顔領域情報に基づいて映像データ付随情報が生成される（ステップＳ９２２）。

図１３は、本発明の実施の形態における代表顔領域に対して顔特徴識別子を付与するまでの流れを示す図である。まず、顔領域特徴データ抽出部４４１に代表顔領域情報が供給される（ステップＳ９３１）。顔領域特徴データ抽出部４４１は、代表顔領域情報が供給されると、代表顔領域情報に基づいて代表顔領域における顔領域特徴データを抽出する（ステップＳ９３２）。そして、顔領域特徴データ抽出部４４１において抽出された顔領域特徴データは、顔領域特徴データ検索部４４３に供給される。

顔領域特徴データ検索部４４３は、供給された顔領域特徴データと類似する顔領域特徴データを顔領域特徴データ保持部４４２より検索する（ステップＳ９３３）。そして、顔領域特徴データ検索部４４３は、供給された顔領域特徴データと類似する顔領域特徴データが顔領域特徴データ保持部４４２に保持されているか否かを判断する（ステップＳ９３４）。

ステップＳ９３４において、供給された顔領域特徴データと類似する顔領域特徴データが顔領域特徴データ保持部４４２に保持されていると判断されると、顔領域特徴データ検索部４４３は、顔領域特徴データ保持部４４２に保持されているその顔領域特徴データに対応する顔特徴識別子を、供給された顔領域特徴データに対して付与する（ステップＳ９３５）。

一方、ステップＳ９３４において、供給された顔領域特徴データと類似する顔領域特徴データが顔領域特徴データ保持部４４２に保持されていないと判断されると、顔領域特徴データ検索部４４３は、供給された顔領域特徴データに対して新たな顔特徴識別子を付与する（ステップＳ９３６）。

ステップＳ９３５およびステップＳ９３６において、供給された顔領域特徴データに顔特徴識別子が付与されると、顔領域特徴データ保持部４４２において供給された顔領域特徴データと顔特徴識別子が対応付けられて保持される（ステップＳ９３７）。また、供給された顔領域特徴データに付与された顔特徴識別子は、映像データ付随情報生成部４５０に供給され、映像データ付随情報に顔特徴識別子が含められる（ステップＳ９３８）。

図１４は、本発明の実施の形態における操作メニューにおける操作の流れを示す図である。まず、表示部７０に操作メニューを表示させる（ステップＳ９４１）。なお、操作メニューとしては、図１０に示した操作メニューが想定される。以下において、図１０における操作メニューを想定して説明する。

操作メニューより所定の映像データのタイトルを選択する（ステップＳ９４２）。次に、顔列挙ボタン７２１および顔タイムラインボタン７２２の何れかのボタンを選択する（ステップＳ９４３）。顔列挙ボタン７２１を選択すると、代表顔列挙群７４０が表示される（ステップＳ９４４）。一方、顔タイムラインボタン７２２を選択すると、顔タイムライン表示群７８０が表示される（ステップＳ９４５）。

次に、代表顔列挙群７４０または顔タイムライン表示群７８０の何れかより代表顔領域を選択する（ステップＳ９４６）。代表顔領域を選択した後に、類似タイトルボタン７５１および再生ボタン７５２の何れかを選択する（ステップＳ９４７）。

類似タイトルボタン７５１を選択すると、ステップＳ９４６において選択した代表顔領域と類似する代表顔領域を含む映像データのタイトルの集合である類似代表顔領域映像データタイトル表示群７６０が表示され、ステップ９４２に戻る（ステップＳ９４８）。一方、再生ボタン７５２を選択すると、ステップＳ９４６において選択した代表顔領域に対応するトレースを構成する映像データが再生される（ステップＳ９４９）。

このように、本発明の実施の形態によれば、映像データに対して顔領域と顔領域が連続して出現する情報とを対応付けた映像データ付随情報を生成するため、膨大なフレーム中に多数登場する人物を効率良く管理することができる。また、本発明の実施の形態においては、顔領域の検出において検出漏れがあっても顔領域が連続して出現する情報を生成することができる。これにより、映像データの内容を短時間でユーザーに把握させることができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

すなわち、請求項１において、顔領域検出手段は、例えば顔領域検出部４１０に対応する。また、トレース生成手段は、例えばトレース生成部４２０に対応する。また、代表顔領域情報生成手段は、例えば代表顔領域情報生成部４３０に対応する。また、映像データ付随情報生成手段は、例えば映像データ付随情報生成部４５０に対応する。

また、請求項２において、トレース識別子付与手段は、例えばトレース識別子付与部４２１に対応する。また、顔領域予測手段は、例えば顔領域予測部４２３に対応する。また、トレース判断手段は、例えばトレース判断部４２４に対応する。また、終了フレーム判断手段は、例えば終了フレーム判断部４２５に対応する。

また、請求項１０において、顔領域特徴データ保持手段は、例えば顔領域特徴データ保持部４４２に対応する。また、顔領域特徴データ抽出手段は、例えば顔領域特徴データ抽出部４４１に対応する。また、顔領域特徴データ検索手段は、例えば顔領域特徴データ検索部４４３に対応する。

また、請求項１２において、映像データ付随情報保持手段は、たとえば映像データ付随情報保持部４６０に対応する。また、操作メニュー一覧生成手段は、例えば操作メニュー一覧生成部４７０に対応する。また、表示手段は、例えば表示部７０に対応する。また、操作入力手段は、例えば操作入力部９０に対応する。

また、請求項１３において、顔領域取得手段は、例えば顔領域取得部４８３に対応する。

また、請求項１４において、類似顔領域検索手段は、例えば類似顔領域検索部４８２に対応する。

また、請求項１５において、顔タイムライン生成手段は、例えば顔タイムライン生成部４８１に対応する。

また、請求項１６および請求項１７において、顔領域検出手順は、例えばステップＳ９１２に対応する。また、トレース生成手順は、例えばステップＳ９１３乃至ステップＳ９２０に対応する。また、代表顔領域情報生成手順は、例えばステップＳ９２１に対応する。また、映像データ付随情報生成手順は、例えばステップＳ９２２に対応する。

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。

本発明の実施の形態における映像処理装置１００の構成の一例を示す図である。本発明の実施の形態における映像データについての映像データ付随情報を生成する機能構成の一例を示す図である。図２において生成された映像データ付随情報を用いた操作機能の構成の一例を示す図である。本発明の実施の形態におけるトレースの生成の様子を示す図である。図４とは別のトレースにおける終了フレームの判断方法を示すものである。本発明の実施の形態における顔領域情報保持部４２２の保持内容を示す図である。本発明の実施の形態における顔領域特徴データ保持部４４２の保持内容を示す図である。本発明の実施の形態における映像データ付随情報保持部４６０において保持された映像データ付随情報を示す図である。本発明の実施の形態におけるトレース情報の内容を示す図である。本発明の実施の形態における操作メニューの表示を示すものである。図１０において顔タイムラインボタン７２２を選択した場合の表示画面７００を示す図である。本発明の実施の形態における映像処理装置１００において映像データ付随情報を生成するまでの流れを示す図である。本発明の実施の形態における代表顔領域に対して顔特徴識別子を付与するまでの流れを示す図である。本発明の実施の形態における操作メニューにおける操作の流れを示す図である。映像データにおける顔領域の検出の様子を表す図である。

符号の説明

１０アンテナ
２０受信部
３０記録再生処理部
４０システム制御部
４１データ処理部
４２ＲＡＭ
５０ハードディスク
６０入出力制御部
６１表示制御部
６２音声制御部
６３操作制御部
６４ディスクインターフェース
６５ディスク
７０表示部
８０音声出力部
９０操作入力部
１００映像処理装置
４１０顔領域検出部
４２０トレース生成部
４２１トレース識別子付与部
４２２顔領域情報保持部
４２３顔領域予測部
４２４トレース判断部
４２５終了フレーム判断部
４３０代表顔領域情報生成部
４４０顔特徴識別子付与部
４４１顔領域特徴データ抽出部
４４２顔領域特徴データ保持部
４４３顔領域特徴データ検索部
４５０映像データ付随情報生成部
４６０映像データ付随情報保持部
４７０操作メニュー一覧生成部
４８１顔タイムライン生成部
４８２類似顔領域検索部
４８３顔領域取得部
４８４再生映像データ取得部
５００映像データ保持部

Claims

映像データを構成するフレームに含まれる顔領域を検出する顔領域検出手段と、
前記検出に基づいて前記顔領域が出現してから消滅するまでのフレームの集合を一つの単位とするトレースの開始および終了に対応するフレーム識別子を生成するトレース生成手段と、
前記トレースを構成するフレームに含まれる前記顔領域より代表顔領域を選択して前記代表顔領域の内容を表す代表顔領域情報を生成する代表顔領域情報生成手段と、
前記映像データに対して前記トレースの開始および終了に対応するフレーム識別子と前記代表顔領域情報とを対応付けた映像データ付随情報を生成する映像データ付随情報生成手段と
を具備することを特徴とする映像処理装置。
前記トレース生成手段は、
前記顔領域が出現してから消滅するまでのフレームに対して同一のトレース識別子を付与するトレース識別子付与手段と、
前記同一のトレース識別子を付与された以前のフレームにおける前記顔領域に基づいて現フレームにおける前記顔領域を予測する顔領域予測手段と、
前記予測された現フレームにおける前記顔領域に基づいて前記顔領域検出手段において検出された前記現フレームにおける前記顔領域が前記トレースに含まれるか否かを判断して前記トレースに含まれると判断した場合に前記トレースに前記現フレームを加えるトレース判断手段と、
前記顔領域検出手段において検出された前記現フレームにおける前記顔領域が前記トレースに含まれないと判断された場合に何れのフレームを前記トレースの終了フレームとするかを判断する終了フレーム判断手段と
を具備することを特徴とする請求項１記載の映像処理装置。
前記顔領域予測手段は、前記同一のトレース識別子を付与された以前のフレームにおける前記顔領域に基づいて前記現フレームにおける前記顔領域を線形予測により予測することを特徴とする請求項２記載の映像処理装置。
前記トレース判断手段は、前記予測された現フレームにおける前記顔領域と前記顔領域検出手段において検出された前記現フレームにおける前記顔領域とを比較して位置の差および属性の差が所定の閾値内にあるか否かを判断し、前記閾値内にある場合には前記現フレームにおける前記顔領域が前記トレースに含まれると判断して前記トレースに前記現フレームを加えることを特徴とする請求項２記載の映像処理装置。
前記トレース判断手段は、前記属性として前記顔領域の大きさ、前記顔領域の輝度分布、前記顔領域の色分布、前記顔領域の形状、前記顔領域の模様のうち少なくとも一つの要素に基づいて前記属性の差が所定の閾値内にあるか否かを判断することを特徴とする請求項４記載の映像処理装置。
前記終了フレーム判断手段は、前記顔領域検出手段において検出された前記現フレームにおける前記顔領域が前記トレースに含まれないと判断された場合に後に続くフレームに対する前記トレース判断手段の判断結果に基づいて何れのフレームを前記終了フレームとするかを判断することを特徴とする請求項２記載の映像処理装置。
前記代表顔領域情報生成手段は、前記トレースを構成するフレームにおける前記顔領域の大きさ、前記顔領域における周波数分布、前記顔領域における色の濃淡分布および前記顔領域の色分布のうちの少なくとも一つの要素に基づいて前記代表顔領域を選択することを特徴とする請求項１記載の映像処理装置。
前記代表顔領域情報生成手段は、前記代表顔領域を含むフレームのフレーム番号と前記代表顔領域を含むフレームにおける前記代表顔領域の位置および大きさとを前記代表顔領域情報として生成することを特徴とする請求項１記載の映像処理装置。
前記代表顔領域情報生成手段は、前記代表顔領域を含むフレームから切り出した前記代表顔領域を前記代表顔領域情報として生成することを特徴とする請求項１記載の映像処理装置。
所定の顔領域の特徴を記述した顔領域特徴データと前記顔領域特徴データを識別する顔特徴識別子とを対応付けて保持する顔領域特徴データ保持手段と、
前記顔領域情報生成手段において切り出された前記代表顔領域より顔領域特徴データを抽出する顔領域特徴データ抽出手段と、
前記抽出された顔領域特徴データに類似する前記顔領域特徴データを前記顔領域特徴データ保持手段より検索して前記抽出された顔領域データに前記顔特徴識別子を付与する顔領域特徴データ検索手段と
を具備し、
前記映像データ付随情報生成手段は、前記映像データ付随情報に前記顔特徴識別子を含めて生成することを特徴とする請求項９記載の映像処理装置。
前記顔領域特徴データ検索手段において前記抽出された顔領域特徴データに類似する前記顔領域特徴データを前記顔領域特徴データ保持手段より検索されなかった場合に前記抽出された顔領域データに新たな顔特徴識別子を付与することを特徴とする請求項１０記載の映像処理装置。
映像データに対して顔領域が出現してから消滅するまでのフレームの集合を一つの単位とするトレースの開始および終了に対応するフレーム識別子と前記トレースを構成するフレームに含まれる前記顔領域より選択された代表顔領域の内容を表す代表顔領域情報とを対応付けた情報である映像データ付随情報を保持する映像データ付随情報保持手段と、
前記映像データ付随情報に基づいて前記映像データに関する操作メニューの一覧を生成する操作メニュー一覧生成手段と、
前記映像データに関する操作メニューを表示する表示手段と、
前記映像データに関する操作メニューに対する選択を受け付ける操作入力手段と
を具備することを特徴とする映像処理装置。
前記映像データの一覧のうち所定の映像データが前記操作手段より選択されるとその選択された映像データに関する前記映像データ付随情報を取得して前記映像データ付随情報に含まれる前記代表顔領域情報に基づいて前記顔領域を表示させる顔領域取得手段をさらに具備することを特徴とする請求項１２記載の映像処理装置。
前記映像データ付随情報保持手段は、前記映像データに対して所定の顔領域の特徴を記述した顔領域特徴データに付与された顔特徴識別子を前記代表顔領域情報と対応付けて保持し、
前記顔領域取得手段によって表示された前記顔領域の何れかが前記操作手段により選択されるとその選択された前記顔領域と同じ前記顔特徴識別子を有する映像データ付随情報を検索してその結果を表示させる類似顔領域検索手段をさらに具備することを特徴とする請求項１３記載の映像処理装置。
前記映像データの一覧のうち所定の映像データが前記操作手段より選択されるとその選択された映像データに関する前記映像データ付随情報を取得して前記トレースに対応する時間表示および前記代表顔領域情報に対応する前記顔領域を含む顔タイムライン表示を生成する顔タイムライン生成手段をさらに具備することを特徴とする請求項１２記載の映像処理装置。
映像データを構成するフレームに含まれる顔領域を検出する顔領域検出手順と、
前記検出に基づいて前記顔領域が出現してから消滅するまでのフレームの集合を一つの単位とするトレースの開始および終了に対応するフレーム識別子を生成するトレース生成手順と、
前記トレースを構成するフレームに含まれる前記顔領域より代表顔領域を選択して前記代表顔領域の内容を表す代表顔領域情報を生成する代表顔領域情報生成手順と、
前記映像データに付随する映像データ付随情報として前記映像データに対して前記トレースの開始および終了に対応するフレーム識別子と前記代表顔領域情報とを対応付けた情報を生成する映像データ付随情報生成手順と
を具備することを特徴とする処理方法。
映像データを構成するフレームに含まれる顔領域を検出する顔領域検出手順と、
前記検出に基づいて前記顔領域が出現してから消滅するまでのフレームの集合を一つの単位とするトレースの開始および終了に対応するフレーム識別子を生成するトレース生成手順と、
前記トレースを構成するフレームに含まれる前記顔領域より代表顔領域を選択して前記代表顔領域の内容を表す代表顔領域情報を生成する代表顔領域情報生成手順と、
前記映像データに付随する映像データ付随情報として前記映像データに対して前記トレースの開始および終了に対応するフレーム識別子と前記代表顔領域情報とを対応付けた情報を生成する映像データ付随情報生成手順と
を実行することを特徴とするプログラム。