JP2008083877A

JP2008083877A - 情報処理装置及び情報処理方法

Info

Publication number: JP2008083877A
Application number: JP2006261644A
Authority: JP
Inventors: Masahiro Kato; 加藤雅弘; Yasuhide Mori; 森靖英
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2008-04-10

Abstract

【課題】
ＴＶ映像などに登場する人物の顔画像を検索キーとして映像シーンを検索する場合に、検索キーに使う人物の特徴が網羅される様に複数枚の顔画像を撮影することができない場合でも、情報検索の精度を向上する方法を提供する。
【解決手段】
ステップ1001でカメラ利用シーンを想定した撮影条件を決定する。ステップ1002で撮影計画表を作成する。ステップ1003で撮影しデータの整理を行う。ステップ1004で顔画像データベース1005を作成する。ステップ1006で顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を０以上１以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。
【選択図】図１

Description

本発明は、顔画像を検索キーとした映像検索の精度を向上する方法に関する発明であり、情報検索技術の分野に分類される。

人物の顔画像を検索キーとして用いてＴＶ映像などから前記検索キーを含む特定のシーンを検索する技術は、検索キーとＴＶ映像との顔画像照合により実現するため、顔画像照合の精度を向上すれば検索精度が向上することになる。顔画像照合の精度を向上する目的で実施された従来例が、例えば特許文献１に開示されている。この例では検索キーに使う人物の顔の特徴が網羅される様に複数枚の顔画像を撮影して事前に登録している。また、特許文献１に複数枚の顔画像を効率良く撮影する目的で複数個のカメラを用いて一人の人物の顔画像を同時に撮影する方法も開示されている。
また、別の方法としては、公開された顔画像データベースを用いて顔画像照合に用いるパラメータを最適化する方法もある。公開された顔画像データベースとこれを用いた最適化方法は非特許文献１に詳しく記載されている。

特開２００４−１９２３７８号公報「顔画像処理装置およびその方法」岩井、他３名、画像処理による顔検出と顔照合、情報処理学会研究報告、２００５−ＣＶＩＭ−１４９

しかしながら、上記の方法はいずれも顔画像照合を行う人物（例えば、俳優）を事前に顔画像照合に適した撮影条件で撮影する必要があるという点で現実的ではなく、高精度な検索が要求されるＴＶ映像などに登場する人物の顔を映像シーンの検索に用いることには適していない。

そのため、本発明では、例えば、ＴＶのドラマなどに登場する人物の顔画像を検索キーとして映像シーンを検索する場合などにおいて、情報検索の検索精度を向上する検索方法及びその検索方法を実現可能な情報処理装置及び情報処理方法を提供することを目的とする。

上記課題を解決するために、本願発明を実施すればよい。本願発明の代表的な発明の概要は、以下の通りである。まず全体的な処理流れについて述べてから、本願発明の代表的な部分について説明する。
状況設定としては、例えば、録画したドラマ番組の中で主人公が主に登場しているシーンを集めて視聴する場合を想定する。全体的な処理の流れとしては、『主人公の特定』→『番組内における主人公登場シーン検索』→『検索シーンを表示（あるいは保存）』、である。以下、順々に説明する。なお、以下では、対象となる画像を主人公に関する画像として説明するが、これに限定せず他の登場人物（キャスト）であってもよい。
１．『主人公の特定』
まず、主人公を特定する方法について説明する。特定方法の一つとして、登場人物の顔画像を表示させてユーザにその中から主人公を選択させるように構成する場合について説明する。ここで、登場人物の顔画像データは、予め録画されたドラマの映像データから登場人物ごとに所定のワンシーンを抽出して所定の記憶領域に記憶させていても構わない。所定のワンシーンとは、例えば、登場人物が正面を向いているシーンなどが考えられる。また、主人公を選択させる際に、インターネット通信部（図示しない）を介してインターネットに自動的に接続して番組ＨＰ（ホームページ）などから主要な登場人物の顔画像を表示するようにしても構わない。

そして、リモコンやタッチペン等の入力手段を用いて主人公の顔画像を少なくとも１つ選択する。ユーザが複数選択できるように構成してもよい。選択する際に表示するのは顔画像の方が俳優名などの文字情報より直感的にその俳優を特定することができるので好ましい。
しかし、登場人物が多いドラマなどは、そのドラマに出演している俳優の顔画像を表示すると、一人あたりの顔の大きさが小さくなるため見辛くなる場合もある。その問題を解消するためとして、表示する顔画像の数を選択できるようにしてもよいし、文字データで俳優名を表示するか、顔画像データで顔画像を表示するか、といったことを選択できるよう構成すると更に使い勝手は向上する。ここで、俳優名と上記顔画像をリンクさせて記憶しておけば、顔画像ではなく俳優名の文字データを選択することでその俳優名とリンクした主人公の顔画像データを選択することができる。こうした方法で選択された顔画像データがドラマの中から所望の人物を検索するためのキーデータとなる。
２．『番組内における主人公登場シーン検索』
次に、録画されたドラマ番組の中から選択された主人公が登場しているシーンを検索する。ここで、主人公が登場しているシーン全てを抽出することは、現状の技術レベルでは容易ではない。人物認識に関する技術においては、通常、目や鼻や口などの顔情報が重んじられる。これは、目や鼻や口、すなわち顔が個人の特徴・個性を表現していることに起因する。そのため、例えば、主人公が後ろ向きになっている場合などの顔が映っていないシーンなどは、たとえ主人公がそのシーンに登場していたとしても顔画像の特徴量が取得できないため、抽出できないことになる。
しかも、所望の登場人物（上記の例では主人公）の顔が映っていないシーンは、ユーザにとってさほど重要視しない場合もあるため、そのシーンが抜けていたとしてもそれほど問題ではないと考えられる。無論、ユーザの希望は色々と考えられるため、服装などや体格などを特徴量としてそれに基づいてその人物を識別することも考えられるが、ここでは詳述しない。
該当シーンを抽出する際には、上述した検索キーとなる顔画像データを用いて、録画ドラマ番組内に上記顔画像データと同じ、もしくは、似ている顔画像データを含むシーンがあるかないかを検索する。ここで、検索キーの顔画像データを用いて検索する方法としては、顔画像データの特徴量をベクトル数値化してその特徴量ベクトルを利用した数値計算によって判断するようにして検索する。
３．『検索シーンを表示（あるいは保存）』
次に、上記検索方法によって抽出されたシーンの映像フレームを集めてディスプレイ等に表示させるように構成すればよい。また、そうして集めた「主人公登場シーン集」なるものを一つのコンテンツデータ（１ファイル）として所定の記憶領域等に保存するようにしてもよい。このようにすれば、ユーザは、録画したドラマ番組の中で主人公が主に登場しているシーンを集めて視聴することができる。
以上が、全体的な処理流れを簡単に説明したが、本願発明は、例えば、上記一連の処理の中において、２．『番組内における主人公登場シーン検索』における「シーン検索」の検索精度技術に関する。
本願発明の構成の概要としては、検索キーとして使われる人物がＴＶ映像などに登場するシーンと等価な撮影条件で「その人物以外」の人物を集めた顔画像データベース（一般的顔画像データベース）を作成しておき、この顔画像データベースから算出した「顔照合への寄与率」という新しい照合パラメータを用いて、そのパラメータに重みを付けて顔照合に適用することにより、上記の課題を解決する。
つまり、例えば、俳優などを事前に顔照合に適した撮影条件で撮影することが困難であるため、一般人の顔画像データベースを用いて、所定の条件ごとにそれぞれの顔を区別するためには顔のどの特徴量が顔の区別を行うために寄与しているのか（寄与率）を検出し、その寄与率を用いてシーン検索の検索精度を向上させる、というのが本願の発明思想となる。
上記顔画像データベースは、例えば、家庭内で撮影された場合には、家庭内のカメラ使用条件を考慮して、カメラの設置位置や人物の姿勢とカメラへの振り向き方の違いや窓の位置などを考慮して作成する。
検索キーとＴＶ映像に出現した顔画像の照合は、検索キーとＴＶ映像から顔領域を検出した後、例えば両目、鼻頭、口の４つの顔器官を検出し、各器官の特徴量を抽出して形成される特徴空間に最近傍法を適用することにより行う。
顔器官の特徴量は、前記４つの顔器官の検出位置に、例えば８方向、５周波数の２次元ウェーブレットフィルタを適用して得られる合計１６０次元の空間周波数のスペクトル強度を対応づけることができる。この１６０次元の特徴量の顔器官への寄与の程度を個々の次元毎に分解して下記の方法で算出する。
まず、作成した顔画像データベースを分析して、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量の標準偏差との差を０以上１以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。寄与率を求めるにあたり、顔領域と顔器官の検出に失敗したデータは顔画像データベースから取り除くことを特徴とする。求めた寄与率を、顔器官から抽出される特徴量に乗じた値を改善後の特徴量として最近傍法を用いて照合する。
これにより、例えば、ＴＶ映像などに登場する人物（例えば、俳優）の顔画像を検索キーとして映像シーンを検索する場合に、その人物の特徴が網羅される様に顔画像を撮影できない場合でも、情報検索の検索精度を向上することができる。

本発明によれば、画像データの認識精度を向上させることができる。

以下に、本発明の実施の形態を説明する。

図１０は、本実施例に係る動画再生装置１０１０のハードウェア構成の一例である。ここでは、動画再生装置１０１０として、主にPC(Personal Computer)を想定して説明するが、これに限定するものではない。動画や静止画などを組み合わせて作成したスライドショー的なデータを再生できるものであれば、レコーダ、TV、携帯電話等であってもよい。例えば、デジタル放送を記録可能なTVやレコーダにおいては、後述する構成の他に、トランスポートストリーム（TS）を分離するためのデマルチプレクサやその分離されたデータを復号するためのデコーダなどを備えるようにすればよい。
また、動画データの具体例としては、ＨＤＤ(Hard Disk Drive)などに記録された映像、地上波として放送される地上波テレビ番組の映像、あるいは、インターネットを経由して配信される映像などが考えられる。

図１０に示す通り、本実施例に係る動画再生部は、動画データ入力部１０００と、制御部１００１と、入力部１００２と、表示部１００３と、音声出力部１００４と、記憶部１００５と、二次記憶部１００６を有して構成される。そして、各部は、バス１００７によって接続され、各部の間で、相互にデータの送受信が可能なように構成されている。

動画データ入力部１０００は、動画データを入力する。本動画データ入力部１０００は、例えば後述する記憶部１００５あるいは二次記憶部１０６に記憶されている動画データを読み込む部としたり、テレビ放送等を受信する場合には、テレビのチューナユニットとして構成する。チューナユニットには、例えば、放送信号を復調する復調部と放送信号のチャンネルを選局する選局部などが含まれる。また、ネットワーク経由で動画データを入力する場合には、本動画データ入力部１０００をLANカード等のネットワークカードとすることが出来る。

制御部１００１は、マイクロプロセッサを主体に構成されており、例えば、記憶手段や二次記憶手段に格納されているプログラムを実行したり、上述した各部に対して各種の指示信号の出力を行う。

入力部１００２は、例えば、リモコン、あるいはキーボードや、マウス等のポインティングデバイスによって実現される。

表示部１００３は、例えばディスプレイアダプタと液晶パネルやプロジェクタ等によって実現され、画像を再生する場合は画像データを表示し、また、種々の機能をGUI経由で実施する場合にはこのGUIを表示する。

音声出力部１００４は、例えばサウンドカードとスピーカ等によって実現され、音声データを出力する。

記憶部１００５は、例えばランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)等によって実現され、制御部１００１によって処理されるデータ等を格納する。例えば、番組の映像データや後述する本願特有の顔画像データベースもこの記憶部１００５に記憶される。

二次記憶部１００６は、例えばハードディスクやDVDあるいはCDとそれらのドライブ、あるいはフラッシュメモリ等の不揮発性メモリにより構成され、制御部１００１によって実行されるプログラムや本動画再生部において処理されるデータ、あるいは再生対象の動画データや重要シーンのデータ等を格納する。なお、本二次記憶部１０６は、必ずしも必要ではない。

また、レコーダやＳＴＢ（ＳＥＴＴＯＰＢＯＸ）のような表示部を設けていない場合には、表示部１００３へ出力する表示出力部（図示しない）を介して外部のディスプレイやモニタ等にデータを出力するように構成すればよい。

次に、図１０の構成の下、映像検索の検索精度を向上するプロセスを図１のフローを用いて説明する。主に、前述した制御部１００１において処理される。

ステップ101でカメラ利用シーンを想定した撮影条件を決定する。ステップ102で撮影計画表を作成する。ステップ103で撮影したデータの整理を行う。ステップ104で顔画像データベース105を作成する。ステップ106で顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を０以上１以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。

以下でこのプロセスをさらに詳細に説明する。顔画像データベースを用いて顔照合の照合パラメータを最適化するためには、使用目的を考慮した顔画像データベースが必要である。本実施例では、顔画像データベースを卓上ロボットとTVとPCに取り付けられた照合用カメラの利用シーンを想定して作成した例を説明するがTVドラマやバラエティー番組から人物照合を行う場合であっても人物が登場するシーンを想定して撮影条件を設定して顔画像データベースを作成する手順は本実施例と同様に行うことができる。本実施例の場合には下記の３種類のシーンを想定することができる。

(a)卓上ロボットとの対話によりAV機器を操作するシーン
(b)TVのユーザを識別してユーザに適応したサービスを行うシーン
(c)PCのユーザを識別してユーザに適応したサービスを行うシーン
図２に想定シーンを示す。図２ａは椅子2001aに腰掛けたユーザ2004aが机2003aに設置したＰＣモニタ2002aに向かっているシーンである。図２ｂは椅子2001bに腰掛けたユーザ2004bがTV2006bを見ているシーンである。

図２ｃは椅子2001cに腰掛けたユーザ2004cが机2002cに設置された卓上ロボット2003cやTV2006cをみているシーンである。卓上ロボット2003cはユーザ2004cの前方でＴＶ2006cの視聴の妨げにならない場所に設置し、ＴＶ2006cは４２型ＴＶをモデルケースとした。
上記のカメラ利用シーンを想定し、以下の(1)〜(6)を考慮して撮影条件を決定する。
(1)窓に対するユーザとカメラの位置関係の違い
窓に対するユーザとカメラの位置関係は、部屋の一方に窓がある部屋で被写体から向かって以下の４通りの位置関係で撮影する。
(a)窓が左側に見える位置
(b)窓が正面に見える位置
(c)窓が右側に見える位置
(d)窓が背後になる位置
図３に撮影現場の概略図を示す。図に示す様に４つの椅子3001〜3004を窓3000との位置関係を配慮して配置し、この椅子に腰掛けた姿勢で撮影する。

(2)機器を操作する時のユーザのカメラの見方の違い
ユーザがカメラを見るときの顔の向きと瞳位置の変化を考慮して、カメラへの顔の向け方を以下の３通りに設定する。
(a)カメラを見ずにＴＶ画面などをまっすぐ見ている場合
(b)目だけでカメラを見る場合
(c)カメラに向かって振り向く場合
図４に顔画像の例を示す。4001〜4003はそれぞれ上記(a)〜（ｃ）の場合に対応している。図４は図２ｃのシーンで撮影した顔画像である。すなわちカメラ2005cを卓上ロボット2003cに取付て、被写体2004cから見た窓位置を左側にして、被写体2004cから見たカメラ位置を左下側にして、撮影時刻を１４時にして、部屋の明るさを５５０ｌｘにした場合の例である。

(3)カメラ搭載機器の違いによるユーザとカメラの位置関係の違い
ユーザとカメラとの位置関係は、視野角５０度の標準的なカメラの視野内にユーザの顔が入ることを前提条件として、個々の機器とユーザとの標準的な位置関係で定義する。
ＰＣモニタ2002aのカメラ位置は目の高さと同じ高さに設定する。ＰＣモニタ2002aと人2004aとの距離は0.75ｍ（ＶＧＡ画質で1.5ｍ離れて撮影した場合に相当）に設定する。
ＴＶ2006bのカメラ位置は、水平位置をＴＶ中心と仮定し、垂直位置はＴＶ2006bの上面と下面の２箇所を仮定する。４２型ＴＶをモデルケースに仮定し、身長１７０ｃｍの人物2004bの目の高さをＴＶ中心としたときに、上面に取り付けた場合を目の高さより0.3ｍ高く設定し、下面に取り付けた場合を0.3ｍ低く設定する。テレビ2006bと人2004bとの距離は1.5ｍに設定する。

卓上ロボット2003cのカメラ位置は、身長１７０ｃｍの人物2004cの目の高さより0.3ｍ低く設定し、左右方向は中心位置、及び左右に0.3ｍ並行移動した位置を設定する。卓上ロボット2003cと人2004cとの距離は１.0ｍに設定する。

(4)撮影時刻による窓採光の違い
窓からの採光の変化を考慮して、昼（１４時）と夜（１８時）に撮影を行う。

(5)昼と夜の部屋の明るさの違い
部屋の明るさは、撮影位置や時刻によりばらつくが、ＪＩＳ規格の居間の照度基準（１５０〜２０００ｌｘ）に入る３５０〜６５０ｌｘの範囲に入るように設定する。
(6)カメラ搭載機器の違いによるカメラの画質の違い
カメラの画質は、顔画像照合には、被写体の顔幅１００画素以上が必要になることを考慮して、卓上ロボット2005cとＴＶ2006b、2006cは共にＶＧＡ画質（６４０×４８０画素）とする。ＰＣモニタ2002aは、カメラ2005aと被写体2004aとの距離が小さいのでＱＶＧＡ画質（３２０×２４０画素）とする。撮影は全てＶＧＡ画質で行うと、ＰＣモニタ2002aについては被写体2004aとカメラ2005aの距離を実際の距離の２倍にして顔の画質はＱＶＧＡ相当にすることができる。

図５に、想定シーンごとに窓位置、カメラ位置、被写体とカメラとの距離を記入した撮影条件を示す。図５の２４通りの条件で、カメラへの顔の向け方（３通り）、撮影時間（２通り）、撮影人数（１０名）で撮影して、合計１４４０枚の顔の撮影を行うことができる。
作成した顔画像データベースを用いて、顔検出、及び顔器官検出精度の評価を行うために、顔画像データに対して顔領域と顔器官位置を手作業で付与した。現状の顔検出プログラムの出力に合わせて、顔領域の付与は、横幅を顔輪郭を含み少し広め、上は眉毛の上、下はあごと接する位置とした。また、顔器官の付与は、目を瞳の中心、鼻は鼻頭、口は口の中心位置とした。図６に顔領域と顔器官の付与例を示す。図６は顔領域として四角の枠6001を付与し、顔器官として右目6002、左目6003、鼻6004、口6005に十字マーカを付与した例である。

顔画像照合の処理の流れを説明する。
顔画像照合手法は、顔領域を検出した後、両目、鼻頭、口の４顔器官を検出し、特徴量を抽出し、最近傍法により照合する方式を採用する。特徴量は、顔器官の検出位置（４箇所）に、８方向、５周波数の２次元ウェーブレットフィルタを適用して得られる合計１６０次元の空間周波数のスペクトル強度である。

図７のフロー図で顔画像照合の処理の流れを説明する。
はじめにTV映像などから１フレームを取り出して入力画像7001とする。ステップ7002で入力画像から顔領域を検出する。ステップ7003で顔領域を切り出す。ステップ7004で顔領域を正規化する。ステップ7005で顔領域から顔特徴量を抽出する。ステップ7006で顔画像記憶装置7007に記憶された顔画像から抽出した特徴量とステップ7005の出力である特徴量との間で照合処理を行い照合結果7008を出力する。顔画像記憶装置7007に記憶された顔画像は検索キーに対応し、この画像からの特徴量抽出プロセスは、ステップ7002〜ステップ7005で行うプロセスと同じである。

次に、図７のフロー図を図１０の構成図を踏まえて説明する。制御部1001は動画データ入力部1000から取り込まれた動画データから１フレームを取り出す。このフレームを入力画像7001として記憶部1005に記憶する。ステップ7002で記憶部1005から入力画像7001を読み出して顔領域を検出する。ステップ7003で検出した顔領域を記憶部1005に記憶する。ステップ7004で記憶部1005に記憶した顔領域を正規化して記憶部1005に記憶する。ステップ7005で顔領域から顔特徴量を抽出して記憶部1005に記憶する。
ステップ7006で記憶部1005の中の顔画像記憶装置7007内に記憶された顔画像から抽出した特徴量と、ステップ7005の出力である特徴量との間で照合処理を行う。照合結果7008を記憶部1005に記憶する。顔画像記憶装置7007に記憶された顔画像は検索キーに対応し、この画像からの特徴量抽出プロセスは、ステップ7002〜ステップ7005で行うプロセスと同じである。

図８に２次元ウェーブレットフィルタの例を示す。図８は空間周波数の方向θと空間周波数１／αをそれぞれ３レベル描画した例である。

図９は、顔器官が右目の場合を例として取り上げて、右目に３方向の２次元ウェーブレットフィルタ9001〜9003を適用した例を説明する図である。
本実施例では、顔器官への寄与の程度を数値化することができる以下の方式を用いる。
まず、作成した顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を０以上１以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。寄与率を求めるにあたり、顔領域と顔器官の検出に失敗したデータは顔画像データベースから取り除く。求めた寄与率を、顔器官から抽出される特徴量に乗じた値を改善後の特徴量として最近傍法による照合を行う。

次に、特徴量の照合への寄与率の算出方法を説明する。
１人の顔画像を顔画像データベースと照合する場合を考える。この場合の照合規則を、顔画像から抽出された特徴量間の距離が閾値以下となるものを照合成功とすることにする。この場合には、全員の特徴量間の距離の平均に対して１人の特徴量のばらつきが小さいほど照合誤り率が低くなる。そこで、１６０次元の特徴量間の距離の平均に対する１人の特徴量のばらつきの大きさを比較した結果から、特徴量の照合への寄与率を求める。
そこで、特徴量間の距離の平均と同一人物の顔画像から抽出された特徴量の標準偏差の差を０以上１以下の数値に規格化したものを特徴量の照合結果への寄与率とする。

寄与率を特徴量に乗じた値を改善後の特徴量にして、顔画像データベースを用いた照合誤り率の評価方法を説明する。

照合誤り率を以下のように定義する。まず、１０人、１４４０枚の顔画像データベースを被写体１人に対応する１４４枚と残りの９名に対応する１２９６枚に２分割し、両データ群の間で総当り照合実験を行う。この実験を全被写体１０名に対して行った結果、誤って照合に成功した割合が他人受け入れ率となる。次に、被写体１人に対応する１４４枚のデータで総当り照合実験を行った結果、照合に失敗した割合が本人拒否率となる。照合成功の条件となる閾値を移動して、他人受け入れ率と本人拒否率が同じになるところを照合誤り率と定義する。

本発明による映像検索及び精度向上方法は、顔画像照合を適用した情報検索と検索精度向上方法に関する発明であり、例えば、顔画像を検索キーとして用いた映像シーン検索やＡＶ機器類操作インタフェースなどの分野で利用される可能性がある。

映像検索の検索精度を向上するプロセスを説明する図卓上ロボットとの対話によりAV機器を操作するシーンを示す図 TVのユーザを識別してユーザに適応したサービスを行うシーンを示す図 PCのユーザを識別してユーザに適応したサービスを行うシーンを示す図撮影現場の概略図撮影された顔画像の例撮影条件を示す図顔領域と顔器官の付与例顔画像照合の処理の流れを説明するフロー図２次元ウェーブレットフィルタの例２次元ウェーブレットフィルタの適用の仕方を説明する図動画再生装置のブロック構成図例。

符号の説明

1001 カメラ利用シーンを想定した撮影条件を決定するプロセス
1002 撮影計画表を作成するプロセス
2004a 被写体となる人物
2005a カメラ
2006b ＴＶ
2003c 卓上ロボット
3000 窓
4001 カメラを見ずにＴＶ画面などをまっすぐ見ている場合
4002 目だけでカメラを見る場合
4003 カメラに向かって振り向く場合
9000 瞳の中心

Claims

番組に関する動画データを入力する番組データ入力部と、
該動画データ内の特定の人物を選択する特定人物選択部と、
顔画像に関するデータベースを記憶するデータベース記憶部と、
該特定人物選択部により選択された該特定の人物を含むフレームを該データベース記憶部により記憶された該データベースを用いて該動画データの中から抽出する特定人物フレーム抽出部とを備え、
該データベースは、該特定の人物以外の、複数の人物の顔画像データから構成され、
該特定人物フレーム抽出部は、該特定の人物以外の複数の人物を区別する際に算出された寄与率を用いて抽出処理を行うことを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記特定人物フレーム抽出部は、顔画像の中の少なくとも両目、鼻頭、口の４つの顔器官に関するデータを特徴量データとして検出し、各顔器官の特徴量データに最近傍法を適用して動画データの中から前記特定の人物を含むシーンを抽出することを特徴とする情報処理装置。
請求項２記載の情報処理装置において、
前記特定人物フレーム抽出部は、前記顔器官に関する特徴量データは、前記４つの顔器官の検出位置に、８方向、５周波数の２次元ウェーブレットフィルタを用いて得られる１６０次元の空間周波数のスペクトル強度を対応づけて、該１６０次元の特徴量データの顔器官への寄与の程度を次元毎に分解して算出することを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記番組データを表示する表示部とを備え、
前記表示部は、前記特定人物選択部により前記特定の人物を選択するための表示画面を表示することを特徴とする。
請求項１記載の情報処理装置において、
前記番組データを表示する表示部と、
インターネットと接続する通信部とを備え、
前記表示部は、前記番組データに登場する人物の顔画像データを、前記通信部を介してインターネットより入手し表示することを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記記憶部は、前記特定人物フレーム抽出部により抽出された前記特定の人物を含む映像シーンを記憶することを特徴とする情報処理装置。
所定の人物を選択する選択部と、
動画データを入力する動画データ入力部と、
前記動画データ入力部により入力された前記動画データを出力する出力部と、
前記所定の人物とは異なる人物の複数の顔画像から構成されるデータベースを記憶する記憶部と、
前記動画データを出力する出力部と、
前記各部に各種の指示信号を出力して各部を制御する制御部と、
前記制御部は、前記動画データ入力部により入力した動画データから前記選択部により選択された前記所定の人物を含む映像フレームを前記データベースから算出される寄与率を用いて抽出することを特徴とする情報処理装置。
請求項７記載の情報処理装置において、
前記制御は、顔画像の中の少なくとも両目、鼻頭、口の４つの顔器官に関するデータを特徴量データとして検出し、各顔器官の特徴量データに最近傍法を適用して動画データの中から前記所定の人物を含むシーンを抽出することを特徴とする情報処理装置。
請求項８記載の情報処理装置において、
前記制御部は、前記顔器官に関する特徴量データは、前記４つの顔器官の検出位置に、８方向、５周波数の２次元ウェーブレットフィルタを用いて得られる１６０次元の空間周波数のスペクトル強度を対応づけて、該１６０次元の特徴量データの顔器官への寄与の程度を次元毎に分解して算出することを特徴とする情報処理装置。
請求項７記載の情報処理装置において、
前記出力部は、前記選択部により前記所定の人物を選択するための表示画面を出力することを特徴とする情報処理装置。
請求項７記載の情報処理装置において、
インターネットと接続する通信部を備え、
前記出力部は、前記通信部を介して取得した前記動画データに登場する人物の顔画像データを出力することを特徴とする情報処理装置。
請求項７記載の情報処理装置において、
前記記憶部は、前記制御部により抽出された前記所定の人物を含む映像シーンを記憶することを特徴とする情報処理装置。
特定の人物の顔画像を検索キーとして用いてＴＶ映像から特定の人物が登場するシーンを検索する情報処理方法において、
前記特定の人物の顔画像が最低１枚は入手できたとして、入手した１枚もしくは少数の顔画像を検索キーとしたシーン検索の精度を向上するために、検索キーとして使われる人物がＴＶ映像に登場するシーンと等価な撮影条件でその人物以外の人物を撮影した顔画像データベースを作成し、この顔画像データベースから算出した「顔照合への寄与率」で照合パラメータに重みを付けて顔画像の照合に用いることを特徴とする情報処理方法。
請求項１３記載の情報処理方法において、
前記特定の人物が家庭内で撮影された場合には、家庭内のカメラ使用条件を考慮して、少なくともカメラの設置位置と人物の姿勢とカメラへの振り向き方の違いと窓の位置を考慮して顔画像データベースを作成することを特徴とする情報処理方法。
請求項１３記載の情報処理方法において、
検索キーとＴＶ映像から顔領域を検出した後、少なくとも両目、鼻頭、口の４つの顔器官に関するデータを検出し、各顔器官の特徴量を抽出して形成される特徴空間に最近傍法を適用することにより行い、顔器官の特徴量は、前記４つの顔器官の検出位置に、８方向、５周波数の２次元ウェーブレットフィルタを用いて得られる合計１６０次元の空間周波数のスペクトル強度を対応づけて、この１６０次元の特徴量の顔器官への寄与の程度を個々の次元毎に分解して算出することを特徴とする情報処理方法。