JP2008090570A

JP2008090570A - 情報処理装置及び情報処理方法

Info

Publication number: JP2008090570A
Application number: JP2006270262A
Authority: JP
Inventors: Yasuhide Mori; 森靖英; Masahiro Kato; 加藤雅弘
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-10-02
Filing date: 2006-10-02
Publication date: 2008-04-17

Abstract

【課題】登録時とは異なる撮影状態の画像が入力された際にも、識別可能とする。
【解決手段】
上記課題を解決するために、例えば、動画データを入力し、前記入力された前記動画データから所定の画像を取得する。そして取得された前記所定の画像の特徴量を抽出し、前記抽出された前記特徴量を用いて前記取得された前記所定の画像中の物体の撮影状態情報を推定する。そして、予め記憶された、複数の画像の特徴量と前記画像中の物体の撮影状態情報と前記画像中の物体を特定するためのラベルとを関連付けられたデータベースと前記推定された撮影状態情報とを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に該当するかを決定するように構成する。
【選択図】図２

Description

本発明は、画像の中の被写体を識別する技術に関するものである。

画像による物体認識では、対象物体の方向や照明が変動する場合には、それらの変動をどのように吸収して、識別の精度を向上させるかが課題である。特に、登録時とは異なる撮影状態にて撮影された物体を識別することができれば画像認識の適用範囲が広がる。そのため、たとえば特許文献１では補間によって画像を再構成することで対応する方法が示されている。

特開2006-163950号公報

しかしながら、上記特許文献１では、画像を再構成する必要があるため、一般に計算量が多くかかるという欠点を持つ。また、識別さえができればよく、画像そのものを再構成することは不要な場合も多い。

本発明が解決しようとする課題は、予め保持したデータの撮影状態とは異なる撮影状態にて撮影された画像中の物体を識別を効率的に行えなかった点である。

上記課題を解決するため、本願発明を実施すればよい。本願において開示される発明のうち代表的なものの概要は以下の通りである。
例えば、登録データとして、Ａ〜Ｃの３人を対象として、撮影条件に応じて特徴量とともにデータを保存する。例えば、そのそれぞれの人のカメラレンズ法線方向に対する物体の向きが０°、４５°、６０°である画像の特徴量データ（後述するように、数学的にはベクトル化、行列化しておく）が、データベースとして保存されている場合を想定する。この例では、各人３つの角度に対す特徴量データを有するので、合計９つのベクトル列が存在する。
そうした場合に、例えば、Ａが３０°程度傾いていた物体が写った画像データを入力したとして、それがＡ〜Ｃのうちどの人に該当するかを識別することを考える。前記入力像データをベクトル数値化してそのベクトル空間上でＡ〜Ｃとの類似度を計算する。入力画像データの特徴量ベクトルとＡ〜Ｃそれぞれの角度での特徴量ベクトルとのそれぞれのユークリッドノルムなどを計算してその距離が小さいほど「類似」していると判断するようにする。つまり、登録データは変換することなく、入力画像データの特徴ベクトルと登録データとの「類似度」を測定することで入力画像データがどの人であるかを識別する。

なお、類似度を計算する方法としては、上述したようなユークリッドノルム等の「距離」を計算するだけではなく、ベクトル間の角度あるいは相関を計算する方法など「類似度」もしくは「非類似度」を算出できるものであればなんでもよい。

また、上記では３つの角度について説明したが、より多くの角度に対する物体画像の特徴量データが登録データにあれば当然識別精度は良くなる。しかし、それだと記憶容量が膨大となるという問題も生じる。また、そもそも細かな角度調整をして登録データに登録する必要があり現実的ではない。そのため、上述したように、所定の角度のみに関する情報を登録データに保存するようにするのが実用的な構成である。
一方、登録データそのものを変換する方法も考えられる。上記の例に沿って説明すると、Ａ〜Ｃの３０°における特徴量ベクトルを既存の０°、４５°、６０°のベクトルを利用して推定作成し、その作成された補間ベクトルを利用して入力画像データの特徴ベクトルとの「距離」を測定するようにしてもよい。推定方法としては、特徴量ベクトルが角度に従って線形的に推移していくことを前提に推定する方法でもいいし、非線形的に推移していくことを前提に推定する方法でも構わない。その場合は、所定の推定関数を記憶させておき、その関数で写像させた空間上でＡ〜Ｃの３０°における特徴量ベクトルを推定し作成する。

また、上記補間にあたっては、識別するクラスごとの分布を再度算出し、判別が最適になるような部分空間を再構築する。また、どの元データや補間データからも特徴量空間中であらかじめ定めた距離より遠い識別データが入力された場合などには、複数の近傍のパラメータの特徴量へ射影することで、重み付き配分を行い、それぞれのパラメータで識別距離を算出し、統合することで判定を行う。

以上のようにすれば、画像データそのものを再構成することなく、特徴量空間上の計算で識別精度を向上させることができる。

本発明によれば、画像中の物体の識別を効率的に行うことができる。

本発明の実施のためには、例えば識別したい被写体が写った画像データと、それに対する被写体の識別ラベルの組を複数登録する記憶装置、特徴量抽出およびそれらの補間等、さまざまな計算を行う計算装置およびプログラム、結果を再登録する記憶装置によって実現される。以下、具体的に説明する。

本実施例では、対象は人物で、識別課題は顔画像を用いた人物の識別であり、撮影状態は、カメラに対する物体の見えの角度である場合を例に説明する。また、情報処理装置の一例として動画を再生可能な動画再生装置について説明する。

図１は、本実施例に係る動画再生装置のハードウェア構成の一例である。ここでは、動画再生装置として、主にPC(Personal Computer)を想定して説明するが、これに限定するものではない。動画データを再生できるものであれば、レコーダ、TV、携帯電話等であってもよい。例えば、デジタル放送を記録可能なTVやレコーダにおいては、後述する構成の他に、トランスポートストリーム（TS）を分離するためのデマルチプレクサやその分離されたデータを復号するためのデコーダなどを備えるようにすればよい。
また、動画データの具体例としては、ＨＤＤ(Hard Disk Drive)などに記録された映像、地上波として放送される地上波テレビ番組の映像、あるいは、インターネットを経由して配信される映像などが考えられるが、動画データであれば形式に拘らない。

図１に示す通り、本実施例に係る動画再生装置は、動画データ入力装置１００と、中央処理装置１０１と、入力装置１０２と、表示装置１０３と、音声出力装置１０４と、記憶装置１０５と、二次記憶装置１０６を有して構成される。そして、各装置は、バス１０７によって接続され、各装置間で、相互にデータの送受信が可能なように構成されている。

動画データ入力装置１００は、動画データを入力する。本動画データ入力装置１００は、例えば後述する記憶装置１０５あるいは二次記憶装置１０６に記憶されている動画データを読み込む装置としたり、テレビ放送等を受信する場合には、テレビのチューナユニットとして構成する。チューナユニットには、例えば、放送信号を復調する復調部と放送信号のチャンネルを選局する選局部などが含まれる。

また、ネットワーク経由で動画データを入力する場合には、本動画データ入力装置１００をLANカード等のネットワークカードとすることが出来る。

マイクロプロセッサを主体に構成されており、例えば、記憶手段や二次記憶手段に格納されているプログラムを実行したり、上述した各装置に対して各種の指示信号の出力を行う。

入力装置１０２は、例えば、リモコン、あるいはキーボードや、マウス等のポインティングデバイスによって実現され、利用者が後述するハイライト再生における再生シーン決定パラメタを入力可能とする。

表示装置１０３は、例えばディスプレイアダプタと液晶パネルやプロジェクタ等によって実現され、再生画像や後述する再生シーン決定パラメタの入力をGUI経由で実施する場合には、このGUIを表示する。なお、本GUIの一例については後で詳述する。

音声出力装置１０４は、例えばサウンドカードとスピーカ等によって実現され、音声データを出力する。

記憶装置１０５は、例えばランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)等によって実現され、中央制御装置１０１によって処理されるデータ等を格納する。

二次記憶装置１０６は、例えばハードディスクやDVDあるいはCDとそれらのドライブ、あるいはフラッシュメモリ等の不揮発性メモリにより構成され、中央処理装置１０１によって実行されるプログラムや本動画再生装置において処理されるデータ、あるいは再生対象の動画データや重要シーンのデータ等を格納する。なお、本二次記憶装置１０６は、必ずしも必要ではない。

図２は、本実施例中データ登録に係る機能ブロック図である。これらの機能ブロックの一部あるいは全部は、図２で示したハードウェアに加えて、ハードウェアとして実現されてもよいが、中央処理装置１０１によって実行されるソフトウェアプログラムとして実現されてもよい。なお、以下では、一例として、これらの機能ブロックの全てが中央処理装置１０１によって実行されるソフトウェアプログラムであるものとして説明する。

画像取得部１５１は、カメラやビデオから画像を取得するモジュールである。前処理部１５２は、画像中から対象物領域を抽出する等の画像に対する前処理を行う。対象物は、例えば、ユーザにより表示画面を介して文字入力などで指定するようにしてもよい。また、例えば、予め記憶されている俳優の名前や顔画像をユーザに前記入力装置１０２を介して選択させるようにしてもよい。また、背景が単調な場合など、状況によっては必ずしも切り出しを行う必要はない。
特徴量抽出部１５３は、前処理部１５２で切り出しなどの処理を行った画像から、特徴量を抽出する処理である。ここで、特徴量とは、画像から一定の規則で抽出される数値であり、通常定まった手順で、一つの画像に対して定まった個数および並び順で複数個抽出されるものである。例えば、画像の一定領域の明るさの平均値、色の分布、輝度の変化方向、あるいは物体を抽出した後、その形状をあらわす数値などである。

また、それら複数個の特徴量をまとめて「特徴量ベクトル」と呼ぶ。あるいは簡単のため、特徴量ベクトルのことを単に特徴量と呼ぶ場合もある。特徴量の要件は、識別したい対象物の特徴が含まれていることであるが、本実施例では以後、この要件を満たす特徴量が抽出されているものとして実施例を進める。

ラベル・撮影状態付与部１５４では、対象物が識別すべきどのクラスであるかについてのラベルと、どのような撮影状態で撮影されたかについての情報をそれぞれ入力し、撮影特徴量と三つ組で「原特徴量＋ラベル＋撮影状態」データベース１５５に保存する。例えば、「特徴量ベクトル＋“人物Ａ”＋正面(回転角度0°)」「特徴量ベクトル＋“人物Ｂ”＋回転角度45°」等である。

ここで、上記ラベルは、人物ＡやＢといったように人物の名前を想定したが、名前のみならずその人（あるいは物体）の性別、職業、ニックネーム、芸名、雅号、またそれらの組み合わせなどでもよく、その人（あるいは物体）を特定できるような情報であればよい。また、ここでは、撮影状態情報として、その画像中の顔がどの向きで撮影されたかといった角度情報について説明するが、これに限定するものではない。例えば、照明状態を変化させた場合などの証明の照度、向き等を定量的に設定したり、あるいは前記画像の中で顔領域が占める割合やその画像中の顔サイズに関する情報などであってもよい。

特徴量補間部１５６では、複数の異なった撮影状態から中間の撮影状態を模擬した補間特徴量を算出する。補間の方法は任意の方法を用いることができる。以下、最も簡単な線形補間の例を示す。

となる。この補間特徴量は、１５７の「判別特徴量＋ラベル＋状態」データベースに保存される。

以上で得られた補間特徴量は、必ずしも識別に適したものになっているとは限らない。このため、原特徴量および上記補間結果に対し、判別分析部１５８にて判別分析を行い、識別に適した部分空間を構成する。判別分析としては、例えばフィッシャーの線形判別分析を行い、「識別クラス数−１」個（次元）の登録特徴量を得、１５９の「判別特徴量＋ラベル＋状態」データベースに保存して処理を終了する。

図３は、上記で示した処理モジュールを用いた登録処理の手順を示したものである。画像入力（201）とラベル・撮影状態の入力（202）を行い、画像前処理（203）の後、特徴量抽出（204）を行う。次のステップである特徴量補間（207）および、判別特徴量算出（208）では複数データを参照する必要があるため、特徴量抽出処理は、登録データ全てについて行っておく（205, 206）。

図４は、対象物の認証を行うためのモジュール図である。画像取得部301の画像取得〜特徴量抽出部303の特徴量抽出までは、登録の場合と同じである。次に、撮影状態推定部304において、撮影状態の推定を行う。その方法は、（１）登録データから、特徴量→撮影状態を予測する関係式を構成しておく（回帰分析等を用いる）、（２）登録特徴量との距離を算出することで近傍の登録特徴量を探し、近似的に同じ撮影状態と推定する、などの

方法がある。（１）および（２）はどちらでも一つあればよく、総合的な性能が良い方を選択すればよい。

判別特徴量変換部305による判別特徴量の変換は、推定した撮影状態に対応する登録データを判別特徴量（図３の208）に変換したものと同じ変換によって行う。たとえば、線形判別分析の場合には、（１）対応する撮影状態の重心への平行移動、（２）登録時に算出されている判別成分への射影、にて変換される。最後に、識別部306において、変換後の特徴量が対応する撮影状態の登録データ（307）中、どのクラスのものと最も距離が近いかを決定し、登録データのラベルを参照して識別結果を文字データや画像データとして出力する。ここで、特徴量（ベクトル）間の距離は、通常はユークリッド距離を用いるが、ベクトル間の類似度（距離）を測定する方法は、内積演算などの他の演算方法を用いてもよい。

図５は、図４にて説明したモジュールを用いて識別を行うための流れ図を示したものである。図４の手順を順に行うことで識別が行われる。

図６は、より具体的に、人物識別のため、実空間にカメラを置いて顔識別を行う場合の運用状況を説明したものである。

図６（a）が登録作業である。人物の顔画像501は、登録時に正面502、および斜め角度、例えば45°（503）から撮像され、それらの画像から特徴量を抽出する。その後、それらの特徴量を用いて、中間の顔角度、たとえば、15°（504）、30°（505）等への特徴量ベクトルへの補間が行われ、補間後にそれぞれの角度において判別特徴量を算出する。

次に、図６（ｂ）が識別作業であるが、未知の顔画像入力506に対して（原）特徴量抽出の後、その特徴量とデータベース中の特徴量を比較し、データベース中の最も近傍にある特徴量を探し、それが持つ顔角度を入力顔画像の推定角度とする（507）。この入力顔画像の推定角度が決定された後、入力顔画像の特徴量は推定角度ごとに準備しておいた判別特徴量に変換される。最後に、この入力顔画像の判別特徴量と推定角度中の登録データたちが持つ判別特徴量を比較して、判別特徴量が最も近傍にある登録データ（推定角度中）が指す人物名を識別結果とする（508）。

以上、本実施例では撮影条件としてカメラに対する物体の角度を用いたが、物体の角度変動が、上下左右二方向の変動がある場合には、それぞれの角度に対して網の目状に代表角度を設定し、それらの間の補間を行うように拡張することで、同様の手法が適用できる。

本実施例では、実施例１の特徴量補間方式のかわりに、複数の近傍のパラメータ（角度等）を持つ特徴量に重み付きで配分を行い、それぞれのパラメータを持つデータ内で識別距離を算出し、その後統合する識別方式について説明する。

本実施例においても、対象物体は人物で、識別課題は人物の識別であり、撮影状態は、カメラに対する物体の見えの角度である場合を例に説明する。

図７は、本識別方式の構成図である。処理手順も、本図のモジュールを上から順に行うことでなされる。画像取得部601〜特徴量抽出部603は実施例１と同様である。

撮影状態推定部604では、実施例１で述べたものと同様の特徴量から撮影状態への回帰式を学習しておき、状態を推定した後、その撮影状態として近い両側の状態を決定する。たとえば、状態推定において、撮影角度が「40°」と推定された場合、予め登録してある角度30°と45°の２：１に内分する角度であることがわかる。

次に、入力画像の特徴量は、特徴量配分部605において、登録時に直接例示もしくは補間にて作成しておいた、30°および45°の識別成分に変換される。それぞれの変換方法は、実施例１、図４において述べた、単一の撮影角度への変換方法と同様である。

次に、識別部606において、各撮影角度に変換された特徴量を用いて識別を行う。「判別特徴量＋ラベル＋状態」データベース607により判別特徴量と状態とがデータとして参照される。その方法は、基本的には実施例１と同様であるが、後の統合処理のため、最も近い判別クラスからいくつかのクラスとの距離（非類似度）を算出し、結果を残しておく。この処理を30°と45°の両方で行う。

となる。この値が最も小さいクラスが最終的な識別結果とみなされる。

以上で述べた例では、撮影状態が角度のように１次元的に変化する場合に、推定状態の両側に位置する２状態の重ねあわせで識別を行ったが、本発明は２状態に限定する必要はなく、３つ以上の撮影状態の重ね合わせも可能である。その場合、たとえば、各状態との近さに応じて、重み配分を行うようにすればよい。

また、複数の撮影状態での識別結果（非類似度付き）を統合する際に、上記で述べた単純な重み付け以外に、学習パラメータを持つ学習識別機を用いる等、最終的な決定のためのより複雑な仕組みを用いても良い。

本実施例では、ユーザインターフェースに関する実施形態について説明する。以下の機能は、主に中央処理装置１０１によって実行されるソフトウェアプログラムによって実現されるものである。プログラム等は記憶装置１０５あるいは２次記憶装置１０６に記憶され、ユーザインターフェース画面は表示装置１０３に表示される。また、ユーザからの指示はリモコン、マウス等の入力装置１０１を介して実行される。

図８は、ＴＶ等の表示装置（801）にて視聴中の番組（802）内の登場人物メモ画面を示す図である。
ここでは放送映像を表示しながら、同一人物から様々な向きの顔画像が現れるのに対し、同じ人物と推定される画像をまとめて表示画面側方に表示する（803）。

例えば、番組Ｐ１の中に登場人物がＸ，Ｙ、Ｚの３人いる場合について説明すると、実施例１で説明した技術を用いて、登場人物の顔画像を識別し、その番組Ｐ１の映像ストリ

ームの中のＸ，Ｙ，Ｚがそれぞれ登場するシーンごとにクラスタ化する。
例えば、番組Ｐ１のフレームが１０枚から構成されているとして、フレーム番号１、４、６及び１０にＸが登場することをＸ（１、４、６、１０）、同様にＹ（２，３）、Ｚ（５，７，８，９）とフレーム番号ごとに管理して記憶装置１０５等に記憶しておく。そして、その登場するフレームの枚数が多いほどクラスタ順に上から顔画像を表示するように構成する。そうすれば、番組に頻出する主要な登場人物を容易に把握することができる。

具体的な表示方法に関しては、一人につき複数の画像を表示するようにしてもよい。また、実施例１で述べたように、画像の撮影状態（角度など）を推定する技術を用いてなるべく正面向いている画像を優先的に表示するようにしたり、顔サイズの大きいものや類似した顔画像シーンが長く連続して続くものを優先的に表示したりしてもよい。

また、一人につき何枚表示するか、何人分表示するか、あるいは、どのような画像の顔の向きやサイズを表示するかなどを選択画面等を介してユーザに選択させるようにすれば、ユーザの使い勝手は向上する。

また、８０３で示されるような表示画面側方に表示された顔データの中から、ユーザが気になる人物をリモコン等で指定すると、その指示信号を受けた中央処理装置１０１は、その人物が出ている時間帯が横向きに時間の流れを表すインジゲータ（ここでは例えば俸グラフ（804））中に色情報を用いて表示するよう指示する。
ユーザはそれらの着色された箇所を指定することで、特定の人物が映った部分を即座に視聴することが可能となり、使い勝手がよい。

ここで、該当箇所を棒グラフと色情報を用いたインジゲータを考えたが、これに限定されるものではない。例えば、棒グラフ状ではなく、円状のグラフや多角形状のグラフでもよい。また、例えば、色情報のみならず絵や模様や文字などで該当箇所を表示するようにしても構わない。さらに、図８の804の如く、主な表示画面である８０２の視聴を妨げない位置に上記インジゲータを表示するように構成すれば、ユーザは、該当箇所を選択して所望の画像のシーンであるかどうかを８０２で容易に確認することができ使い勝手がよい。

また、複数の人物を指定して、その複数の人物がそれぞれ登場するシーンを上述したような棒グラフ上にそれぞれ異なる色や絵や文字などを用いて表示することも考えられる。例えば、「Ａ」という登場人物が出ているシーンの該当箇所は赤で、「Ｂ」という登場人物が出ているシーンの該当箇所は青でインジゲータ上に表示し、「Ａ」「Ｂ」双方出ているシーンは赤と青双方、もしくは赤と青の混合色である緑で表現したりする。これにより、複数の人物の登場シーンを同時に検索できるため使い勝手は更によくなる。

また、ユーザインターフェースに関する実施例として、図９に示すような構成も考えられる。ここで図９は、顔の映像とその人の名前とが対応付いているデータベース（901）を用いて、放送チューナや記録媒体から入力された人物データ（902）が誰なのか推定して示す（903）機能を示した図である。

ここで、データベース901の作成方法としては、ＥＰＧ（電子番組データ）を利用して関連付ける方法やユーザが手入力で設定する方法など考えられる。

データベース901は、当然ながらあらゆる人物の顔画像と名前とが対応付いているデータベースであることが好ましい。しかし、そうしたデータベースを作成するには、あらゆる人の惜しまない労力が必要となるため現実的ではないので、上述した実施例の顔画像の識別手法を用いて、顔が似た人物の名前を推定し、ユーザにその名前を提示するように構成する。これにより、番組の所定のシーンに登場した人物の名前をユーザは容易に知ることができ使い勝手がよい。

また、映像フレームごとにその登場人物の名前に関するデータを挿入した形態で送信されてくる場合には、その受信されたデータから上記名前に関するデータを抽出し、その名前に関するデータを用いて前記映像フレームの邪魔にならない表示位置に表示するように構成する。

以上により、番組の所定のシーンに登場した人物の名前をユーザは容易に知ることができ使い勝手がよい。

なお、上記方法では、推定結果として１人を決定するように構成したが、距離等で算出された「類似度」の近い順から上位何人かを候補名として表示するようにしてもよい。

本発明の実施例に係るハードウェア構成図の一例である。（実施例１）データを登録する際に用いる装置の構成図である。（実施例１）図２で示した処理モジュールを用いた登録処理の手順を示したものである。（実施例１）対象物の認証を行うためのモジュール図である。（実施例１）図４にて説明したモジュールを用いて識別を行うための流れ図を示したものである。（実施例１）人物識別のため、実空間にカメラを置いて顔識別を行う場合の運用状況を説明したものである。登録時の説明(a)と人物識別のため、実空間にカメラを置いて顔識別を行う場合の運用状況を説明したものである（ｂ）。（実施例１）複数の近傍パラメータの特徴量へ射影することで、重み付き配分を行い、識別結果を統合する方法を示した説明図である。（実施例２）本発明の利用形態の一例である。（実施例３）本発明の利用形態のもう一つの一例である。（実施例３）

Claims

動画データを入力する動画データ入力部と、
前記動画データ入力部により入力された前記動画データから所定の画像を取得する取得部と、
前記取得部により取得された前記所定の画像の特徴量を抽出する特徴量抽出部と、
複数の画像の特徴量と前記画像中の物体の撮影状態情報と前記画像中の物体を特定するためのラベルとを関連付けられたデータベースを記憶する記憶部と、
前記特徴量抽出部により抽出された前記特徴量を用いて前記取得部により取得された前記所定の画像中の物体の撮影状態情報を推定する推定部と、
前記推定部により推定された撮影状態情報と前記データベースとを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に類似しているかを決定する識別部とを備えることを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記データベースの撮影状態情報は、前記画像中の物体の撮影された向きに関する角度情報、前記画像中の物体を撮影した場合の照明状態に関する情報、あるいは前記画像中の物体のサイズに関する情報であることを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記取得部により取得される所定の画像を選択する選択部を設けることを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記推定部は、予め記憶された、前記特徴量抽出部により抽出された前記特徴量から撮影状態を推定するための関係式を用いて推定することを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記記憶部に記憶された前記データベースに含まれる前記ラベルを用いて文字データあるいは該当する画像データで前記識別部により識別された結果を出力する出力部を備えることを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記識別部は、前記推定部により推定された撮影状態情報と類似した撮影状態を持つデータ群を前記データベースの中から選定し、その選定されたそれぞれのデータ群に対して前記特徴量抽出部により抽出された前記特徴量を重み付けして分配して、前記分配されたデータと前記特徴量との距離を計算することにより前記所定の画像中の物体が前記データベースのどの画像中の物体に類似しているかを決定することを特徴とする情報処理装置。
請求項１記載の情報処理装置において、
前記推定部により推定された撮影状態情報を用いて前記データベースのデータを補間し、該補間されたデータを所定の部分空間に変換し、該変換後のデータを用いて前記データベースを再構成することを特徴とする情報処理装置。
ユーザからの指示を受けるユーザ入力部と、
番組データを入力する番組データ入力部と、
複数の物体画像の特徴量と前記物体画像の撮影角度情報とが対応付けられた登録データを記憶する記憶部と、
前記番組データ入力部により入力された前記番組データを表示する表示部と、
前記各構成部を制御する制御部とを備え、
前記制御部は、前記入力された前記番組データから前記ユーザ入力部により指定された画像中の物体を取得し、前記指定された画像の特徴量と前記登録データに含まれる前記物体の撮影角度情報とを用いて前記指定された画像中の物体が前記登録データのどの画像中の物体に類似するかを決定し、その決定結果を前記表示部に表示する指示を行うことを特徴とする情報処理装置。
請求項８記載の情報処理装置において、
前記制御部は、前記指定された画像中の物体が前記番組データ内のどの辺りにあるかを色情報で示すインジゲータを前記表示部に表示する指示を行うことを特徴とする情報処理装置。
請求項８記載の情報処理装置において、
前記制御部は、前記インジゲータが、前記表示部に表示される主表示画面の表示を妨げない位置に表示する指示を行うことを特徴とする情報処理装置。
請求項８記載の情報処理装置において、
前記制御部は、前記指定された画像中の物体が前記登録データのどの画像中の物体に該当するかを決定する場合に、前記指定された画像の特徴量を抽出し、前記抽出された前記特徴量を用いて前記指定された画像中の物体の撮影角度情報を推定し、前記推定された撮影角度情報を用いて前記登録データを変換し、変換後の登録データを用いて前記抽出された特徴量が登録データのどの画像中の物体に類似するかを算出することを特徴とする情報処理装置。
動画データを入力し、
前記入力された前記動画データから所定の画像を取得し、
前記取得された前記所定の画像の特徴量を抽出し、
前記抽出された前記特徴量を用いて前記取得された前記所定の画像中の物体の撮影状態情報を推定し、
予め記憶された、複数の画像の特徴量と前記画像の撮影状態情報と前記画像を特定するためのラベルとを関連付けられたデータベースと前記推定された撮影状態情報とを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に類似するかを決定することを特徴とする情報処理方法。
請求項１２記載の情報処理方法において、
前記データベースの撮影状態情報は、前記画像中の物体の撮影された向きに関する角度情報、前記画像中の物体を撮影した場合の照明状態に関する情報、あるいは前記画像中の物体のサイズに関する情報であることを特徴とする情報処理方法。
請求項１２記載の情報処理方法において、
前記所定の画像を選択することを特徴とする情報処理方法。
請求項１２記載の情報処理方法において、
前記記憶された前記データベースに含まれる前記ラベルを用いて文字データあるいは該当する画像データで識別された結果を出力することを特徴とする情報処理方法。
請求項１２記載の情報処理装置において、
前記推定された撮影状態情報と類似したデータを前記データベースの中から選定し、その選定されたデータに対して前記抽出された前記特徴量を重み付けして分配して、前記分配されたデータと前記特徴量との距離を計算することにより前記所定の画像中の物体が前記データベースのどの画像中の物体に類似しているかを決定することを特徴とする情報処理方法。
請求項１２記載の情報処理装置において、
前記推定された撮影状態情報を用いて前記データベースのデータを補間し、該補間されたデータを所定の部分空間に変換し、該変換後のデータを用いて前記データベースを再構成することを特徴とする情報処理方法。