JP2008083877A - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP2008083877A JP2008083877A JP2006261644A JP2006261644A JP2008083877A JP 2008083877 A JP2008083877 A JP 2008083877A JP 2006261644 A JP2006261644 A JP 2006261644A JP 2006261644 A JP2006261644 A JP 2006261644A JP 2008083877 A JP2008083877 A JP 2008083877A
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- unit
- person
- processing apparatus
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】
TV映像などに登場する人物の顔画像を検索キーとして映像シーンを検索する場合に、検索キーに使う人物の特徴が網羅される様に複数枚の顔画像を撮影することができない場合でも、情報検索の精度を向上する方法を提供する。
【解決手段】
ステップ1001でカメラ利用シーンを想定した撮影条件を決定する。ステップ1002で撮影計画表を作成する。ステップ1003で撮影しデータの整理を行う。ステップ1004で顔画像データベース1005を作成する。ステップ1006で顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。
【選択図】 図1
TV映像などに登場する人物の顔画像を検索キーとして映像シーンを検索する場合に、検索キーに使う人物の特徴が網羅される様に複数枚の顔画像を撮影することができない場合でも、情報検索の精度を向上する方法を提供する。
【解決手段】
ステップ1001でカメラ利用シーンを想定した撮影条件を決定する。ステップ1002で撮影計画表を作成する。ステップ1003で撮影しデータの整理を行う。ステップ1004で顔画像データベース1005を作成する。ステップ1006で顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。
【選択図】 図1
Description
本発明は、顔画像を検索キーとした映像検索の精度を向上する方法に関する発明であり、情報検索技術の分野に分類される。
人物の顔画像を検索キーとして用いてTV映像などから前記検索キーを含む特定のシーンを検索する技術は、検索キーとTV映像との顔画像照合により実現するため、顔画像照合の精度を向上すれば検索精度が向上することになる。顔画像照合の精度を向上する目的で実施された従来例が、例えば特許文献1に開示されている。この例では検索キーに使う人物の顔の特徴が網羅される様に複数枚の顔画像を撮影して事前に登録している。また、特許文献1に複数枚の顔画像を効率良く撮影する目的で複数個のカメラを用いて一人の人物の顔画像を同時に撮影する方法も開示されている。
また、別の方法としては、公開された顔画像データベースを用いて顔画像照合に用いるパラメータを最適化する方法もある。公開された顔画像データベースとこれを用いた最適化方法は非特許文献1に詳しく記載されている。
また、別の方法としては、公開された顔画像データベースを用いて顔画像照合に用いるパラメータを最適化する方法もある。公開された顔画像データベースとこれを用いた最適化方法は非特許文献1に詳しく記載されている。
しかしながら、上記の方法はいずれも顔画像照合を行う人物(例えば、俳優)を事前に顔画像照合に適した撮影条件で撮影する必要があるという点で現実的ではなく、高精度な検索が要求されるTV映像などに登場する人物の顔を映像シーンの検索に用いることには適していない。
そのため、本発明では、例えば、TVのドラマなどに登場する人物の顔画像を検索キーとして映像シーンを検索する場合などにおいて、情報検索の検索精度を向上する検索方法及びその検索方法を実現可能な情報処理装置及び情報処理方法を提供することを目的とする。
上記課題を解決するために、本願発明を実施すればよい。本願発明の代表的な発明の概要は、以下の通りである。まず全体的な処理流れについて述べてから、本願発明の代表的な部分について説明する。
状況設定としては、例えば、録画したドラマ番組の中で主人公が主に登場しているシーンを集めて視聴する場合を想定する。全体的な処理の流れとしては、『主人公の特定』→『番組内における主人公登場シーン検索』→『検索シーンを表示(あるいは保存)』、である。以下、順々に説明する。なお、以下では、対象となる画像を主人公に関する画像として説明するが、これに限定せず他の登場人物(キャスト)であってもよい。
1.『主人公の特定』
まず、主人公を特定する方法について説明する。特定方法の一つとして、登場人物の顔画像を表示させてユーザにその中から主人公を選択させるように構成する場合について説明する。ここで、登場人物の顔画像データは、予め録画されたドラマの映像データから登場人物ごとに所定のワンシーンを抽出して所定の記憶領域に記憶させていても構わない。所定のワンシーンとは、例えば、登場人物が正面を向いているシーンなどが考えられる。また、主人公を選択させる際に、インターネット通信部(図示しない)を介してインターネットに自動的に接続して番組HP(ホームページ)などから主要な登場人物の顔画像を表示するようにしても構わない。
状況設定としては、例えば、録画したドラマ番組の中で主人公が主に登場しているシーンを集めて視聴する場合を想定する。全体的な処理の流れとしては、『主人公の特定』→『番組内における主人公登場シーン検索』→『検索シーンを表示(あるいは保存)』、である。以下、順々に説明する。なお、以下では、対象となる画像を主人公に関する画像として説明するが、これに限定せず他の登場人物(キャスト)であってもよい。
1.『主人公の特定』
まず、主人公を特定する方法について説明する。特定方法の一つとして、登場人物の顔画像を表示させてユーザにその中から主人公を選択させるように構成する場合について説明する。ここで、登場人物の顔画像データは、予め録画されたドラマの映像データから登場人物ごとに所定のワンシーンを抽出して所定の記憶領域に記憶させていても構わない。所定のワンシーンとは、例えば、登場人物が正面を向いているシーンなどが考えられる。また、主人公を選択させる際に、インターネット通信部(図示しない)を介してインターネットに自動的に接続して番組HP(ホームページ)などから主要な登場人物の顔画像を表示するようにしても構わない。
そして、リモコンやタッチペン等の入力手段を用いて主人公の顔画像を少なくとも1つ選択する。ユーザが複数選択できるように構成してもよい。選択する際に表示するのは顔画像の方が俳優名などの文字情報より直感的にその俳優を特定することができるので好ましい。
しかし、登場人物が多いドラマなどは、そのドラマに出演している俳優の顔画像を表示すると、一人あたりの顔の大きさが小さくなるため見辛くなる場合もある。その問題を解消するためとして、表示する顔画像の数を選択できるようにしてもよいし、文字データで俳優名を表示するか、顔画像データで顔画像を表示するか、といったことを選択できるよう構成すると更に使い勝手は向上する。ここで、俳優名と上記顔画像をリンクさせて記憶しておけば、顔画像ではなく俳優名の文字データを選択することでその俳優名とリンクした主人公の顔画像データを選択することができる。こうした方法で選択された顔画像データがドラマの中から所望の人物を検索するためのキーデータとなる。
2.『番組内における主人公登場シーン検索』
次に、録画されたドラマ番組の中から選択された主人公が登場しているシーンを検索する。ここで、主人公が登場しているシーン全てを抽出することは、現状の技術レベルでは容易ではない。人物認識に関する技術においては、通常、目や鼻や口などの顔情報が重んじられる。これは、目や鼻や口、すなわち顔が個人の特徴・個性を表現していることに起因する。そのため、例えば、主人公が後ろ向きになっている場合などの顔が映っていないシーンなどは、たとえ主人公がそのシーンに登場していたとしても顔画像の特徴量が取得できないため、抽出できないことになる。
しかも、所望の登場人物(上記の例では主人公)の顔が映っていないシーンは、ユーザにとってさほど重要視しない場合もあるため、そのシーンが抜けていたとしてもそれほど問題ではないと考えられる。無論、ユーザの希望は色々と考えられるため、服装などや体格などを特徴量としてそれに基づいてその人物を識別することも考えられるが、ここでは詳述しない。
該当シーンを抽出する際には、上述した検索キーとなる顔画像データを用いて、録画ドラマ番組内に上記顔画像データと同じ、もしくは、似ている顔画像データを含むシーンがあるかないかを検索する。ここで、検索キーの顔画像データを用いて検索する方法としては、顔画像データの特徴量をベクトル数値化してその特徴量ベクトルを利用した数値計算によって判断するようにして検索する。
3.『検索シーンを表示(あるいは保存)』
次に、上記検索方法によって抽出されたシーンの映像フレームを集めてディスプレイ等に表示させるように構成すればよい。また、そうして集めた「主人公登場シーン集」なるものを一つのコンテンツデータ(1ファイル)として所定の記憶領域等に保存するようにしてもよい。このようにすれば、ユーザは、録画したドラマ番組の中で主人公が主に登場しているシーンを集めて視聴することができる。
以上が、全体的な処理流れを簡単に説明したが、本願発明は、例えば、上記一連の処理の中において、2.『番組内における主人公登場シーン検索』における「シーン検索」の検索精度技術に関する。
本願発明の構成の概要としては、検索キーとして使われる人物がTV映像などに登場するシーンと等価な撮影条件で「その人物以外」の人物を集めた顔画像データベース(一般的顔画像データベース)を作成しておき、この顔画像データベースから算出した「顔照合への寄与率」という新しい照合パラメータを用いて、そのパラメータに重みを付けて顔照合に適用することにより、上記の課題を解決する。
つまり、例えば、俳優などを事前に顔照合に適した撮影条件で撮影することが困難であるため、一般人の顔画像データベースを用いて、所定の条件ごとにそれぞれの顔を区別するためには顔のどの特徴量が顔の区別を行うために寄与しているのか(寄与率)を検出し、その寄与率を用いてシーン検索の検索精度を向上させる、というのが本願の発明思想となる。
上記顔画像データベースは、例えば、家庭内で撮影された場合には、家庭内のカメラ使用条件を考慮して、カメラの設置位置や人物の姿勢とカメラへの振り向き方の違いや窓の位置などを考慮して作成する。
検索キーとTV映像に出現した顔画像の照合は、検索キーとTV映像から顔領域を検出した後、例えば両目、鼻頭、口の4つの顔器官を検出し、各器官の特徴量を抽出して形成される特徴空間に最近傍法を適用することにより行う。
顔器官の特徴量は、前記4つの顔器官の検出位置に、例えば8方向、5周波数の2次元ウェーブレットフィルタを適用して得られる合計160次元の空間周波数のスペクトル強度を対応づけることができる。この160次元の特徴量の顔器官への寄与の程度を個々の次元毎に分解して下記の方法で算出する。
まず、作成した顔画像データベースを分析して、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量の標準偏差との差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。寄与率を求めるにあたり、顔領域と顔器官の検出に失敗したデータは顔画像データベースから取り除くことを特徴とする。求めた寄与率を、顔器官から抽出される特徴量に乗じた値を改善後の特徴量として最近傍法を用いて照合する。
これにより、例えば、TV映像などに登場する人物(例えば、俳優)の顔画像を検索キーとして映像シーンを検索する場合に、その人物の特徴が網羅される様に顔画像を撮影できない場合でも、情報検索の検索精度を向上することができる。
しかし、登場人物が多いドラマなどは、そのドラマに出演している俳優の顔画像を表示すると、一人あたりの顔の大きさが小さくなるため見辛くなる場合もある。その問題を解消するためとして、表示する顔画像の数を選択できるようにしてもよいし、文字データで俳優名を表示するか、顔画像データで顔画像を表示するか、といったことを選択できるよう構成すると更に使い勝手は向上する。ここで、俳優名と上記顔画像をリンクさせて記憶しておけば、顔画像ではなく俳優名の文字データを選択することでその俳優名とリンクした主人公の顔画像データを選択することができる。こうした方法で選択された顔画像データがドラマの中から所望の人物を検索するためのキーデータとなる。
2.『番組内における主人公登場シーン検索』
次に、録画されたドラマ番組の中から選択された主人公が登場しているシーンを検索する。ここで、主人公が登場しているシーン全てを抽出することは、現状の技術レベルでは容易ではない。人物認識に関する技術においては、通常、目や鼻や口などの顔情報が重んじられる。これは、目や鼻や口、すなわち顔が個人の特徴・個性を表現していることに起因する。そのため、例えば、主人公が後ろ向きになっている場合などの顔が映っていないシーンなどは、たとえ主人公がそのシーンに登場していたとしても顔画像の特徴量が取得できないため、抽出できないことになる。
しかも、所望の登場人物(上記の例では主人公)の顔が映っていないシーンは、ユーザにとってさほど重要視しない場合もあるため、そのシーンが抜けていたとしてもそれほど問題ではないと考えられる。無論、ユーザの希望は色々と考えられるため、服装などや体格などを特徴量としてそれに基づいてその人物を識別することも考えられるが、ここでは詳述しない。
該当シーンを抽出する際には、上述した検索キーとなる顔画像データを用いて、録画ドラマ番組内に上記顔画像データと同じ、もしくは、似ている顔画像データを含むシーンがあるかないかを検索する。ここで、検索キーの顔画像データを用いて検索する方法としては、顔画像データの特徴量をベクトル数値化してその特徴量ベクトルを利用した数値計算によって判断するようにして検索する。
3.『検索シーンを表示(あるいは保存)』
次に、上記検索方法によって抽出されたシーンの映像フレームを集めてディスプレイ等に表示させるように構成すればよい。また、そうして集めた「主人公登場シーン集」なるものを一つのコンテンツデータ(1ファイル)として所定の記憶領域等に保存するようにしてもよい。このようにすれば、ユーザは、録画したドラマ番組の中で主人公が主に登場しているシーンを集めて視聴することができる。
以上が、全体的な処理流れを簡単に説明したが、本願発明は、例えば、上記一連の処理の中において、2.『番組内における主人公登場シーン検索』における「シーン検索」の検索精度技術に関する。
本願発明の構成の概要としては、検索キーとして使われる人物がTV映像などに登場するシーンと等価な撮影条件で「その人物以外」の人物を集めた顔画像データベース(一般的顔画像データベース)を作成しておき、この顔画像データベースから算出した「顔照合への寄与率」という新しい照合パラメータを用いて、そのパラメータに重みを付けて顔照合に適用することにより、上記の課題を解決する。
つまり、例えば、俳優などを事前に顔照合に適した撮影条件で撮影することが困難であるため、一般人の顔画像データベースを用いて、所定の条件ごとにそれぞれの顔を区別するためには顔のどの特徴量が顔の区別を行うために寄与しているのか(寄与率)を検出し、その寄与率を用いてシーン検索の検索精度を向上させる、というのが本願の発明思想となる。
上記顔画像データベースは、例えば、家庭内で撮影された場合には、家庭内のカメラ使用条件を考慮して、カメラの設置位置や人物の姿勢とカメラへの振り向き方の違いや窓の位置などを考慮して作成する。
検索キーとTV映像に出現した顔画像の照合は、検索キーとTV映像から顔領域を検出した後、例えば両目、鼻頭、口の4つの顔器官を検出し、各器官の特徴量を抽出して形成される特徴空間に最近傍法を適用することにより行う。
顔器官の特徴量は、前記4つの顔器官の検出位置に、例えば8方向、5周波数の2次元ウェーブレットフィルタを適用して得られる合計160次元の空間周波数のスペクトル強度を対応づけることができる。この160次元の特徴量の顔器官への寄与の程度を個々の次元毎に分解して下記の方法で算出する。
まず、作成した顔画像データベースを分析して、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量の標準偏差との差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。寄与率を求めるにあたり、顔領域と顔器官の検出に失敗したデータは顔画像データベースから取り除くことを特徴とする。求めた寄与率を、顔器官から抽出される特徴量に乗じた値を改善後の特徴量として最近傍法を用いて照合する。
これにより、例えば、TV映像などに登場する人物(例えば、俳優)の顔画像を検索キーとして映像シーンを検索する場合に、その人物の特徴が網羅される様に顔画像を撮影できない場合でも、情報検索の検索精度を向上することができる。
本発明によれば、画像データの認識精度を向上させることができる。
以下に、本発明の実施の形態を説明する。
図10は、本実施例に係る動画再生装置1010のハードウェア構成の一例である。ここでは、動画再生装置1010として、主にPC(Personal Computer)を想定して説明するが、これに限定するものではない。動画や静止画などを組み合わせて作成したスライドショー的なデータを再生できるものであれば、レコーダ、TV、携帯電話等であってもよい。例えば、デジタル放送を記録可能なTVやレコーダにおいては、後述する構成の他に、トランスポートストリーム(TS)を分離するためのデマルチプレクサやその分離されたデータを復号するためのデコーダなどを備えるようにすればよい。
また、動画データの具体例としては、HDD(Hard Disk Drive)などに記録された映像、地上波として放送される地上波テレビ番組の映像、あるいは、インターネットを経由して配信される映像などが考えられる。
また、動画データの具体例としては、HDD(Hard Disk Drive)などに記録された映像、地上波として放送される地上波テレビ番組の映像、あるいは、インターネットを経由して配信される映像などが考えられる。
図10に示す通り、本実施例に係る動画再生部は、動画データ入力部1000と、制御部1001と、入力部1002と、表示部1003と、音声出力部1004と、記憶部1005と、二次記憶部1006を有して構成される。そして、各部は、バス1007によって接続され、各部の間で、相互にデータの送受信が可能なように構成されている。
動画データ入力部1000は、動画データを入力する。本動画データ入力部1000は、例えば後述する記憶部1005あるいは二次記憶部106に記憶されている動画データを読み込む部としたり、テレビ放送等を受信する場合には、テレビのチューナユニットとして構成する。チューナユニットには、例えば、放送信号を復調する復調部と放送信号のチャンネルを選局する選局部などが含まれる。また、ネットワーク経由で動画データを入力する場合には、本動画データ入力部1000をLANカード等のネットワークカードとすることが出来る。
制御部1001は、マイクロプロセッサを主体に構成されており、例えば、記憶手段や二次記憶手段に格納されているプログラムを実行したり、上述した各部に対して各種の指示信号の出力を行う。
入力部1002は、例えば、リモコン、あるいはキーボードや、マウス等のポインティングデバイスによって実現される。
表示部1003は、例えばディスプレイアダプタと液晶パネルやプロジェクタ等によって実現され、画像を再生する場合は画像データを表示し、また、種々の機能をGUI経由で実施する場合にはこのGUIを表示する。
音声出力部1004は、例えばサウンドカードとスピーカ等によって実現され、音声データを出力する。
記憶部1005は、例えばランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)等によって実現され、制御部1001によって処理されるデータ等を格納する。例えば、番組の映像データや後述する本願特有の顔画像データベースもこの記憶部1005に記憶される。
二次記憶部1006は、例えばハードディスクやDVDあるいはCDとそれらのドライブ、あるいはフラッシュメモリ等の不揮発性メモリにより構成され、制御部1001によって実行されるプログラムや本動画再生部において処理されるデータ、あるいは再生対象の動画データや重要シーンのデータ等を格納する。なお、本二次記憶部106は、必ずしも必要ではない。
また、レコーダやSTB(SET TOP BOX)のような表示部を設けていない場合には、表示部1003へ出力する表示出力部(図示しない)を介して外部のディスプレイやモニタ等にデータを出力するように構成すればよい。
次に、図10の構成の下、映像検索の検索精度を向上するプロセスを図1のフローを用いて説明する。主に、前述した制御部1001において処理される。
ステップ101でカメラ利用シーンを想定した撮影条件を決定する。ステップ102で撮影計画表を作成する。ステップ103で撮影したデータの整理を行う。ステップ104で顔画像データベース105を作成する。ステップ106で顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。
以下でこのプロセスをさらに詳細に説明する。顔画像データベースを用いて顔照合の照合パラメータを最適化するためには、使用目的を考慮した顔画像データベースが必要である。本実施例では、顔画像データベースを卓上ロボットとTVとPCに取り付けられた照合用カメラの利用シーンを想定して作成した例を説明するがTVドラマやバラエティー番組から人物照合を行う場合であっても人物が登場するシーンを想定して撮影条件を設定して顔画像データベースを作成する手順は本実施例と同様に行うことができる。本実施例の場合には下記の3種類のシーンを想定することができる。
(a)卓上ロボットとの対話によりAV機器を操作するシーン
(b)TVのユーザを識別してユーザに適応したサービスを行うシーン
(c)PCのユーザを識別してユーザに適応したサービスを行うシーン
図2に想定シーンを示す。図2aは椅子2001aに腰掛けたユーザ2004aが机2003aに設置したPCモニタ2002aに向かっているシーンである。図2bは椅子2001bに腰掛けたユーザ2004bがTV2006bを見ているシーンである。
(b)TVのユーザを識別してユーザに適応したサービスを行うシーン
(c)PCのユーザを識別してユーザに適応したサービスを行うシーン
図2に想定シーンを示す。図2aは椅子2001aに腰掛けたユーザ2004aが机2003aに設置したPCモニタ2002aに向かっているシーンである。図2bは椅子2001bに腰掛けたユーザ2004bがTV2006bを見ているシーンである。
図2cは椅子2001cに腰掛けたユーザ2004cが机2002cに設置された卓上ロボット2003cやTV2006cをみているシーンである。卓上ロボット2003cはユーザ2004cの前方でTV2006cの視聴の妨げにならない場所に設置し、TV2006cは42型TVをモデルケースとした。
上記のカメラ利用シーンを想定し、以下の(1)〜(6)を考慮して撮影条件を決定する。
(1)窓に対するユーザとカメラの位置関係の違い
窓に対するユーザとカメラの位置関係は、部屋の一方に窓がある部屋で被写体から向かって以下の4通りの位置関係で撮影する。
(a)窓が左側に見える位置
(b)窓が正面に見える位置
(c)窓が右側に見える位置
(d)窓が背後になる位置
図3に撮影現場の概略図を示す。図に示す様に4つの椅子3001〜3004を窓3000との位置関係を配慮して配置し、この椅子に腰掛けた姿勢で撮影する。
上記のカメラ利用シーンを想定し、以下の(1)〜(6)を考慮して撮影条件を決定する。
(1)窓に対するユーザとカメラの位置関係の違い
窓に対するユーザとカメラの位置関係は、部屋の一方に窓がある部屋で被写体から向かって以下の4通りの位置関係で撮影する。
(a)窓が左側に見える位置
(b)窓が正面に見える位置
(c)窓が右側に見える位置
(d)窓が背後になる位置
図3に撮影現場の概略図を示す。図に示す様に4つの椅子3001〜3004を窓3000との位置関係を配慮して配置し、この椅子に腰掛けた姿勢で撮影する。
(2)機器を操作する時のユーザのカメラの見方の違い
ユーザがカメラを見るときの顔の向きと瞳位置の変化を考慮して、カメラへの顔の向け方を以下の3通りに設定する。
(a)カメラを見ずにTV画面などをまっすぐ見ている場合
(b)目だけでカメラを見る場合
(c)カメラに向かって振り向く場合
図4に顔画像の例を示す。4001〜4003はそれぞれ上記(a)〜(c)の場合に対応している。図4は図2cのシーンで撮影した顔画像である。すなわちカメラ2005cを卓上ロボット2003cに取付て、被写体2004cから見た窓位置を左側にして、被写体2004cから見たカメラ位置を左下側にして、撮影時刻を14時にして、部屋の明るさを550lxにした場合の例である。
ユーザがカメラを見るときの顔の向きと瞳位置の変化を考慮して、カメラへの顔の向け方を以下の3通りに設定する。
(a)カメラを見ずにTV画面などをまっすぐ見ている場合
(b)目だけでカメラを見る場合
(c)カメラに向かって振り向く場合
図4に顔画像の例を示す。4001〜4003はそれぞれ上記(a)〜(c)の場合に対応している。図4は図2cのシーンで撮影した顔画像である。すなわちカメラ2005cを卓上ロボット2003cに取付て、被写体2004cから見た窓位置を左側にして、被写体2004cから見たカメラ位置を左下側にして、撮影時刻を14時にして、部屋の明るさを550lxにした場合の例である。
(3)カメラ搭載機器の違いによるユーザとカメラの位置関係の違い
ユーザとカメラとの位置関係は、視野角50度の標準的なカメラの視野内にユーザの顔が入ることを前提条件として、個々の機器とユーザとの標準的な位置関係で定義する。
PCモニタ2002aのカメラ位置は目の高さと同じ高さに設定する。PCモニタ2002aと人2004aとの距離は0.75m(VGA画質で1.5m離れて撮影した場合に相当)に設定する。
TV2006bのカメラ位置は、水平位置をTV中心と仮定し、垂直位置はTV2006bの上面と下面の2箇所を仮定する。 42型TVをモデルケースに仮定し、身長170cmの人物2004bの目の高さをTV中心としたときに、上面に取り付けた場合を目の高さより0.3m高く設定し、下面に取り付けた場合を0.3m低く設定する。テレビ2006bと人2004bとの距離は1.5mに設定する。
ユーザとカメラとの位置関係は、視野角50度の標準的なカメラの視野内にユーザの顔が入ることを前提条件として、個々の機器とユーザとの標準的な位置関係で定義する。
PCモニタ2002aのカメラ位置は目の高さと同じ高さに設定する。PCモニタ2002aと人2004aとの距離は0.75m(VGA画質で1.5m離れて撮影した場合に相当)に設定する。
TV2006bのカメラ位置は、水平位置をTV中心と仮定し、垂直位置はTV2006bの上面と下面の2箇所を仮定する。 42型TVをモデルケースに仮定し、身長170cmの人物2004bの目の高さをTV中心としたときに、上面に取り付けた場合を目の高さより0.3m高く設定し、下面に取り付けた場合を0.3m低く設定する。テレビ2006bと人2004bとの距離は1.5mに設定する。
卓上ロボット2003cのカメラ位置は、身長170cmの人物2004cの目の高さより0.3m低く設定し、左右方向は中心位置、及び左右に0.3m並行移動した位置を設定する。卓上ロボット2003cと人2004cとの距離は1.0mに設定する。
(4)撮影時刻による窓採光の違い
窓からの採光の変化を考慮して、昼(14時)と夜(18時)に撮影を行う。
窓からの採光の変化を考慮して、昼(14時)と夜(18時)に撮影を行う。
(5)昼と夜の部屋の明るさの違い
部屋の明るさは、撮影位置や時刻によりばらつくが、JIS規格の居間の照度基準(150〜2000lx)に入る350〜650lxの範囲に入るように設定する。
(6)カメラ搭載機器の違いによるカメラの画質の違い
カメラの画質は、顔画像照合には、被写体の顔幅100画素以上が必要になることを考慮して、卓上ロボット2005cとTV2006b、2006cは共にVGA画質(640×480画素)とする。PCモニタ2002aは、カメラ2005aと被写体2004aとの距離が小さいのでQVGA画質(320×240画素)とする。撮影は全てVGA画質で行うと、PCモニタ2002aについては被写体2004aとカメラ2005aの距離を実際の距離の2倍にして顔の画質はQVGA相当にすることができる。
部屋の明るさは、撮影位置や時刻によりばらつくが、JIS規格の居間の照度基準(150〜2000lx)に入る350〜650lxの範囲に入るように設定する。
(6)カメラ搭載機器の違いによるカメラの画質の違い
カメラの画質は、顔画像照合には、被写体の顔幅100画素以上が必要になることを考慮して、卓上ロボット2005cとTV2006b、2006cは共にVGA画質(640×480画素)とする。PCモニタ2002aは、カメラ2005aと被写体2004aとの距離が小さいのでQVGA画質(320×240画素)とする。撮影は全てVGA画質で行うと、PCモニタ2002aについては被写体2004aとカメラ2005aの距離を実際の距離の2倍にして顔の画質はQVGA相当にすることができる。
図5に、想定シーンごとに窓位置、カメラ位置、被写体とカメラとの距離を記入した撮影条件を示す。図5の24通りの条件で、カメラへの顔の向け方(3通り)、撮影時間(2通り)、撮影人数(10名)で撮影して、合計1440枚の顔の撮影を行うことができる。
作成した顔画像データベースを用いて、顔検出、及び顔器官検出精度の評価を行うために、顔画像データに対して顔領域と顔器官位置を手作業で付与した。現状の顔検出プログラムの出力に合わせて、顔領域の付与は、横幅を顔輪郭を含み少し広め、上は眉毛の上、下はあごと接する位置とした。また、顔器官の付与は、目を瞳の中心、鼻は鼻頭、口は口の中心位置とした。図6に顔領域と顔器官の付与例を示す。図6は顔領域として四角の枠6001を付与し、顔器官として右目6002、左目6003、鼻6004、口6005に十字マーカを付与した例である。
作成した顔画像データベースを用いて、顔検出、及び顔器官検出精度の評価を行うために、顔画像データに対して顔領域と顔器官位置を手作業で付与した。現状の顔検出プログラムの出力に合わせて、顔領域の付与は、横幅を顔輪郭を含み少し広め、上は眉毛の上、下はあごと接する位置とした。また、顔器官の付与は、目を瞳の中心、鼻は鼻頭、口は口の中心位置とした。図6に顔領域と顔器官の付与例を示す。図6は顔領域として四角の枠6001を付与し、顔器官として右目6002、左目6003、鼻6004、口6005に十字マーカを付与した例である。
顔画像照合の処理の流れを説明する。
顔画像照合手法は、顔領域を検出した後、両目、鼻頭、口の4顔器官を検出し、特徴量を抽出し、最近傍法により照合する方式を採用する。特徴量は、顔器官の検出位置(4箇所)に、8方向、5周波数の2次元ウェーブレットフィルタを適用して得られる合計160次元の空間周波数のスペクトル強度である。
顔画像照合手法は、顔領域を検出した後、両目、鼻頭、口の4顔器官を検出し、特徴量を抽出し、最近傍法により照合する方式を採用する。特徴量は、顔器官の検出位置(4箇所)に、8方向、5周波数の2次元ウェーブレットフィルタを適用して得られる合計160次元の空間周波数のスペクトル強度である。
図7のフロー図で顔画像照合の処理の流れを説明する。
はじめにTV映像などから1フレームを取り出して入力画像7001とする。ステップ7002で入力画像から顔領域を検出する。ステップ7003で顔領域を切り出す。ステップ7004で顔領域を正規化する。ステップ7005で顔領域から顔特徴量を抽出する。ステップ7006で顔画像記憶装置7007に記憶された顔画像から抽出した特徴量とステップ7005の出力である特徴量との間で照合処理を行い照合結果7008を出力する。顔画像記憶装置7007に記憶された顔画像は検索キーに対応し、この画像からの特徴量抽出プロセスは、ステップ7002〜ステップ7005で行うプロセスと同じである。
はじめにTV映像などから1フレームを取り出して入力画像7001とする。ステップ7002で入力画像から顔領域を検出する。ステップ7003で顔領域を切り出す。ステップ7004で顔領域を正規化する。ステップ7005で顔領域から顔特徴量を抽出する。ステップ7006で顔画像記憶装置7007に記憶された顔画像から抽出した特徴量とステップ7005の出力である特徴量との間で照合処理を行い照合結果7008を出力する。顔画像記憶装置7007に記憶された顔画像は検索キーに対応し、この画像からの特徴量抽出プロセスは、ステップ7002〜ステップ7005で行うプロセスと同じである。
次に、図7のフロー図を図10の構成図を踏まえて説明する。制御部1001は動画データ入力部1000から取り込まれた動画データから1フレームを取り出す。このフレームを入力画像7001として記憶部1005に記憶する。ステップ7002で記憶部1005から入力画像7001を読み出して顔領域を検出する。ステップ7003で検出した顔領域を記憶部1005に記憶する。ステップ7004で記憶部1005に記憶した顔領域を正規化して記憶部1005に記憶する。ステップ7005で顔領域から顔特徴量を抽出して記憶部1005に記憶する。
ステップ7006で記憶部1005の中の顔画像記憶装置7007内に記憶された顔画像から抽出した特徴量と、ステップ7005の出力である特徴量との間で照合処理を行う。照合結果7008を記憶部1005に記憶する。顔画像記憶装置7007に記憶された顔画像は検索キーに対応し、この画像からの特徴量抽出プロセスは、ステップ7002〜ステップ7005で行うプロセスと同じである。
ステップ7006で記憶部1005の中の顔画像記憶装置7007内に記憶された顔画像から抽出した特徴量と、ステップ7005の出力である特徴量との間で照合処理を行う。照合結果7008を記憶部1005に記憶する。顔画像記憶装置7007に記憶された顔画像は検索キーに対応し、この画像からの特徴量抽出プロセスは、ステップ7002〜ステップ7005で行うプロセスと同じである。
図8に2次元ウェーブレットフィルタの例を示す。図8は空間周波数の方向θと空間周波数1/αをそれぞれ3レベル描画した例である。
図9は、顔器官が右目の場合を例として取り上げて、右目に3方向の2次元ウェーブレットフィルタ9001〜9003を適用した例を説明する図である。
本実施例では、顔器官への寄与の程度を数値化することができる以下の方式を用いる。
まず、作成した顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。寄与率を求めるにあたり、顔領域と顔器官の検出に失敗したデータは顔画像データベースから取り除く。求めた寄与率を、顔器官から抽出される特徴量に乗じた値を改善後の特徴量として最近傍法による照合を行う。
本実施例では、顔器官への寄与の程度を数値化することができる以下の方式を用いる。
まず、作成した顔画像データベースから、顔器官から抽出される特徴量間距離の平均と同一人物の特徴量のばらつきとの差を0以上1以下の数値に規格化することにより、特徴量の照合結果への寄与率を求める。寄与率を求めるにあたり、顔領域と顔器官の検出に失敗したデータは顔画像データベースから取り除く。求めた寄与率を、顔器官から抽出される特徴量に乗じた値を改善後の特徴量として最近傍法による照合を行う。
次に、特徴量の照合への寄与率の算出方法を説明する。
1人の顔画像を顔画像データベースと照合する場合を考える。この場合の照合規則を、顔画像から抽出された特徴量間の距離が閾値以下となるものを照合成功とすることにする。この場合には、全員の特徴量間の距離の平均に対して1人の特徴量のばらつきが小さいほど照合誤り率が低くなる。そこで、160次元の特徴量間の距離の平均に対する1人の特徴量のばらつきの大きさを比較した結果から、特徴量の照合への寄与率を求める。
そこで、特徴量間の距離の平均と同一人物の顔画像から抽出された特徴量の標準偏差の差を0以上1以下の数値に規格化したものを特徴量の照合結果への寄与率とする。
1人の顔画像を顔画像データベースと照合する場合を考える。この場合の照合規則を、顔画像から抽出された特徴量間の距離が閾値以下となるものを照合成功とすることにする。この場合には、全員の特徴量間の距離の平均に対して1人の特徴量のばらつきが小さいほど照合誤り率が低くなる。そこで、160次元の特徴量間の距離の平均に対する1人の特徴量のばらつきの大きさを比較した結果から、特徴量の照合への寄与率を求める。
そこで、特徴量間の距離の平均と同一人物の顔画像から抽出された特徴量の標準偏差の差を0以上1以下の数値に規格化したものを特徴量の照合結果への寄与率とする。
照合誤り率を以下のように定義する。まず、10人、1440枚の顔画像データベースを被写体1人に対応する144枚と残りの9名に対応する1296枚に2分割し、両データ群の間で総当り照合実験を行う。この実験を全被写体10名に対して行った結果、誤って照合に成功した割合が他人受け入れ率となる。次に、被写体1人に対応する144枚のデータで総当り照合実験を行った結果、照合に失敗した割合が本人拒否率となる。照合成功の条件となる閾値を移動して、他人受け入れ率と本人拒否率が同じになるところを照合誤り率と定義する。
本発明による映像検索及び精度向上方法は、顔画像照合を適用した情報検索と検索精度向上方法に関する発明であり、例えば、顔画像を検索キーとして用いた映像シーン検索やAV機器類操作インタフェースなどの分野で利用される可能性がある。
1001 カメラ利用シーンを想定した撮影条件を決定するプロセス
1002 撮影計画表を作成するプロセス
2004a 被写体となる人物
2005a カメラ
2006b TV
2003c 卓上ロボット
3000 窓
4001 カメラを見ずにTV画面などをまっすぐ見ている場合
4002 目だけでカメラを見る場合
4003 カメラに向かって振り向く場合
9000 瞳の中心
1002 撮影計画表を作成するプロセス
2004a 被写体となる人物
2005a カメラ
2006b TV
2003c 卓上ロボット
3000 窓
4001 カメラを見ずにTV画面などをまっすぐ見ている場合
4002 目だけでカメラを見る場合
4003 カメラに向かって振り向く場合
9000 瞳の中心
Claims (15)
- 番組に関する動画データを入力する番組データ入力部と、
該動画データ内の特定の人物を選択する特定人物選択部と、
顔画像に関するデータベースを記憶するデータベース記憶部と、
該特定人物選択部により選択された該特定の人物を含むフレームを該データベース記憶部により記憶された該データベースを用いて該動画データの中から抽出する特定人物フレーム抽出部とを備え、
該データベースは、該特定の人物以外の、複数の人物の顔画像データから構成され、
該特定人物フレーム抽出部は、該特定の人物以外の複数の人物を区別する際に算出された寄与率を用いて抽出処理を行うことを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記特定人物フレーム抽出部は、顔画像の中の少なくとも両目、鼻頭、口の4つの顔器官に関するデータを特徴量データとして検出し、各顔器官の特徴量データに最近傍法を適用して動画データの中から前記特定の人物を含むシーンを抽出することを特徴とする情報処理装置。 - 請求項2記載の情報処理装置において、
前記特定人物フレーム抽出部は、前記顔器官に関する特徴量データは、前記4つの顔器官の検出位置に、8方向、5周波数の2次元ウェーブレットフィルタを用いて得られる160次元の空間周波数のスペクトル強度を対応づけて、該160次元の特徴量データの顔器官への寄与の程度を次元毎に分解して算出することを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記番組データを表示する表示部とを備え、
前記表示部は、前記特定人物選択部により前記特定の人物を選択するための表示画面を表示することを特徴とする。 - 請求項1記載の情報処理装置において、
前記番組データを表示する表示部と、
インターネットと接続する通信部とを備え、
前記表示部は、前記番組データに登場する人物の顔画像データを、前記通信部を介してインターネットより入手し表示することを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記記憶部は、前記特定人物フレーム抽出部により抽出された前記特定の人物を含む映像シーンを記憶することを特徴とする情報処理装置。 - 所定の人物を選択する選択部と、
動画データを入力する動画データ入力部と、
前記動画データ入力部により入力された前記動画データを出力する出力部と、
前記所定の人物とは異なる人物の複数の顔画像から構成されるデータベースを記憶する記憶部と、
前記動画データを出力する出力部と、
前記各部に各種の指示信号を出力して各部を制御する制御部と、
前記制御部は、前記動画データ入力部により入力した動画データから前記選択部により選択された前記所定の人物を含む映像フレームを前記データベースから算出される寄与率を用いて抽出することを特徴とする情報処理装置。 - 請求項7記載の情報処理装置において、
前記制御は、顔画像の中の少なくとも両目、鼻頭、口の4つの顔器官に関するデータを特徴量データとして検出し、各顔器官の特徴量データに最近傍法を適用して動画データの中から前記所定の人物を含むシーンを抽出することを特徴とする情報処理装置。 - 請求項8記載の情報処理装置において、
前記制御部は、前記顔器官に関する特徴量データは、前記4つの顔器官の検出位置に、8方向、5周波数の2次元ウェーブレットフィルタを用いて得られる160次元の空間周波数のスペクトル強度を対応づけて、該160次元の特徴量データの顔器官への寄与の程度を次元毎に分解して算出することを特徴とする情報処理装置。 - 請求項7記載の情報処理装置において、
前記出力部は、前記選択部により前記所定の人物を選択するための表示画面を出力することを特徴とする情報処理装置。 - 請求項7記載の情報処理装置において、
インターネットと接続する通信部を備え、
前記出力部は、前記通信部を介して取得した前記動画データに登場する人物の顔画像データを出力することを特徴とする情報処理装置。 - 請求項7記載の情報処理装置において、
前記記憶部は、前記制御部により抽出された前記所定の人物を含む映像シーンを記憶することを特徴とする情報処理装置。 - 特定の人物の顔画像を検索キーとして用いてTV映像から特定の人物が登場するシーンを検索する情報処理方法において、
前記特定の人物の顔画像が最低1枚は入手できたとして、入手した1枚もしくは少数の顔画像を検索キーとしたシーン検索の精度を向上するために、検索キーとして使われる人物がTV映像に登場するシーンと等価な撮影条件でその人物以外の人物を撮影した顔画像データベースを作成し、この顔画像データベースから算出した「顔照合への寄与率」で照合パラメータに重みを付けて顔画像の照合に用いることを特徴とする情報処理方法。 - 請求項13記載の情報処理方法において、
前記特定の人物が家庭内で撮影された場合には、家庭内のカメラ使用条件を考慮して、少なくともカメラの設置位置と人物の姿勢とカメラへの振り向き方の違いと窓の位置を考慮して顔画像データベースを作成することを特徴とする情報処理方法。 - 請求項13記載の情報処理方法において、
検索キーとTV映像から顔領域を検出した後、少なくとも両目、鼻頭、口の4つの顔器官に関するデータを検出し、各顔器官の特徴量を抽出して形成される特徴空間に最近傍法を適用することにより行い、顔器官の特徴量は、前記4つの顔器官の検出位置に、8方向、5周波数の2次元ウェーブレットフィルタを用いて得られる合計160次元の空間周波数のスペクトル強度を対応づけて、この160次元の特徴量の顔器官への寄与の程度を個々の次元毎に分解して算出することを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006261644A JP2008083877A (ja) | 2006-09-27 | 2006-09-27 | 情報処理装置及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006261644A JP2008083877A (ja) | 2006-09-27 | 2006-09-27 | 情報処理装置及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008083877A true JP2008083877A (ja) | 2008-04-10 |
Family
ID=39354718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006261644A Pending JP2008083877A (ja) | 2006-09-27 | 2006-09-27 | 情報処理装置及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008083877A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310731A (zh) * | 2019-11-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频推荐方法、装置、设备及存储介质 |
-
2006
- 2006-09-27 JP JP2006261644A patent/JP2008083877A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310731A (zh) * | 2019-11-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频推荐方法、装置、设备及存储介质 |
CN111310731B (zh) * | 2019-11-15 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频推荐方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8064656B2 (en) | Image processing apparatus, imaging apparatus, image processing method, and computer program | |
CN101925915B (zh) | 设备访问控制 | |
US8306281B2 (en) | Human image retrieval system | |
US8935169B2 (en) | Electronic apparatus and display process | |
US7835551B2 (en) | Television set and authentication device | |
US8446422B2 (en) | Image display apparatus, image display method, program, and record medium | |
EP2985706A1 (en) | Method and apparatus for providing image contents | |
KR101895846B1 (ko) | 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화 | |
CN110868554B (zh) | 直播中实时换脸的方法、装置、设备及存储介质 | |
JP2011019192A (ja) | 画像表示装置 | |
JP2014139681A (ja) | 適応的なビデオ呈示のための方法および装置 | |
CN106851395B (zh) | 视频播放方法和播放器 | |
KR102298066B1 (ko) | 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치 | |
KR20100118943A (ko) | 증강 현실 외국어 체험 학습 시스템 | |
TWI397024B (zh) | 影像畫面自動選取方法及其電腦系統 | |
JP5755483B2 (ja) | 自動録画機能を有する映像表示装置および録画装置並びに自動録画方法 | |
US20230319234A1 (en) | System and Methods for Enhanced Videoconferencing | |
JP2008083877A (ja) | 情報処理装置及び情報処理方法 | |
EP2682895A2 (en) | Video display apparatus and video display method | |
WO2021226821A1 (en) | Systems and methods for detection and display of whiteboard text and/or an active speaker | |
JP2008090570A (ja) | 情報処理装置及び情報処理方法 | |
CN112462939A (zh) | 一种互动投影方法及系统 | |
JPH09179880A (ja) | 動画像の重要画像抽出装置および重要画像抽出方法 | |
KR102111762B1 (ko) | 음성 수집 장치 및 방법 | |
CN107547851A (zh) | 大数据管理系统 |