JP2008090570A - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP2008090570A JP2008090570A JP2006270262A JP2006270262A JP2008090570A JP 2008090570 A JP2008090570 A JP 2008090570A JP 2006270262 A JP2006270262 A JP 2006270262A JP 2006270262 A JP2006270262 A JP 2006270262A JP 2008090570 A JP2008090570 A JP 2008090570A
- Authority
- JP
- Japan
- Prior art keywords
- image
- data
- information processing
- database
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】登録時とは異なる撮影状態の画像が入力された際にも、識別可能とする。
【解決手段】
上記課題を解決するために、例えば、動画データを入力し、前記入力された前記動画データから所定の画像を取得する。そして取得された前記所定の画像の特徴量を抽出し、前記抽出された前記特徴量を用いて前記取得された前記所定の画像中の物体の撮影状態情報を推定する。そして、予め記憶された、複数の画像の特徴量と前記画像中の物体の撮影状態情報と前記画像中の物体を特定するためのラベルとを関連付けられたデータベースと前記推定された撮影状態情報とを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に該当するかを決定するように構成する。
【選択図】図2
【解決手段】
上記課題を解決するために、例えば、動画データを入力し、前記入力された前記動画データから所定の画像を取得する。そして取得された前記所定の画像の特徴量を抽出し、前記抽出された前記特徴量を用いて前記取得された前記所定の画像中の物体の撮影状態情報を推定する。そして、予め記憶された、複数の画像の特徴量と前記画像中の物体の撮影状態情報と前記画像中の物体を特定するためのラベルとを関連付けられたデータベースと前記推定された撮影状態情報とを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に該当するかを決定するように構成する。
【選択図】図2
Description
本発明は、画像の中の被写体を識別する技術に関するものである。
画像による物体認識では、対象物体の方向や照明が変動する場合には、それらの変動をどのように吸収して、識別の精度を向上させるかが課題である。特に、登録時とは異なる撮影状態にて撮影された物体を識別することができれば画像認識の適用範囲が広がる。そのため、たとえば特許文献1では補間によって画像を再構成することで対応する方法が示されている。
しかしながら、上記特許文献1では、画像を再構成する必要があるため、一般に計算量が多くかかるという欠点を持つ。また、識別さえができればよく、画像そのものを再構成することは不要な場合も多い。
本発明が解決しようとする課題は、予め保持したデータの撮影状態とは異なる撮影状態にて撮影された画像中の物体を識別を効率的に行えなかった点である。
上記課題を解決するため、本願発明を実施すればよい。本願において開示される発明のうち代表的なものの概要は以下の通りである。
例えば、登録データとして、A〜Cの3人を対象として、撮影条件に応じて特徴量とともにデータを保存する。例えば、そのそれぞれの人のカメラレンズ法線方向に対する物体の向きが0°、45°、60°である画像の特徴量データ(後述するように、数学的にはベクトル化、行列化しておく)が、データベースとして保存されている場合を想定する。この例では、各人3つの角度に対す特徴量データを有するので、合計9つのベクトル列が存在する。
そうした場合に、例えば、Aが30°程度傾いていた物体が写った画像データを入力したとして、それがA〜Cのうちどの人に該当するかを識別することを考える。前記入力像データをベクトル数値化してそのベクトル空間上でA〜Cとの類似度を計算する。入力画像データの特徴量ベクトルとA〜Cそれぞれの角度での特徴量ベクトルとのそれぞれのユークリッドノルムなどを計算してその距離が小さいほど「類似」していると判断するようにする。つまり、登録データは変換することなく、入力画像データの特徴ベクトルと登録データとの「類似度」を測定することで入力画像データがどの人であるかを識別する。
例えば、登録データとして、A〜Cの3人を対象として、撮影条件に応じて特徴量とともにデータを保存する。例えば、そのそれぞれの人のカメラレンズ法線方向に対する物体の向きが0°、45°、60°である画像の特徴量データ(後述するように、数学的にはベクトル化、行列化しておく)が、データベースとして保存されている場合を想定する。この例では、各人3つの角度に対す特徴量データを有するので、合計9つのベクトル列が存在する。
そうした場合に、例えば、Aが30°程度傾いていた物体が写った画像データを入力したとして、それがA〜Cのうちどの人に該当するかを識別することを考える。前記入力像データをベクトル数値化してそのベクトル空間上でA〜Cとの類似度を計算する。入力画像データの特徴量ベクトルとA〜Cそれぞれの角度での特徴量ベクトルとのそれぞれのユークリッドノルムなどを計算してその距離が小さいほど「類似」していると判断するようにする。つまり、登録データは変換することなく、入力画像データの特徴ベクトルと登録データとの「類似度」を測定することで入力画像データがどの人であるかを識別する。
なお、類似度を計算する方法としては、上述したようなユークリッドノルム等の「距離」を計算するだけではなく、ベクトル間の角度あるいは相関を計算する方法など「類似度」もしくは「非類似度」を算出できるものであればなんでもよい。
また、上記では3つの角度について説明したが、より多くの角度に対する物体画像の特徴量データが登録データにあれば当然識別精度は良くなる。しかし、それだと記憶容量が膨大となるという問題も生じる。また、そもそも細かな角度調整をして登録データに登録する必要があり現実的ではない。そのため、上述したように、所定の角度のみに関する情報を登録データに保存するようにするのが実用的な構成である。
一方、登録データそのものを変換する方法も考えられる。上記の例に沿って説明すると、A〜Cの30°における特徴量ベクトルを既存の0°、45°、60°のベクトルを利用して推定作成し、その作成された補間ベクトルを利用して入力画像データの特徴ベクトルとの「距離」を測定するようにしてもよい。推定方法としては、特徴量ベクトルが角度に従って線形的に推移していくことを前提に推定する方法でもいいし、非線形的に推移していくことを前提に推定する方法でも構わない。その場合は、所定の推定関数を記憶させておき、その関数で写像させた空間上でA〜Cの30°における特徴量ベクトルを推定し作成する。
一方、登録データそのものを変換する方法も考えられる。上記の例に沿って説明すると、A〜Cの30°における特徴量ベクトルを既存の0°、45°、60°のベクトルを利用して推定作成し、その作成された補間ベクトルを利用して入力画像データの特徴ベクトルとの「距離」を測定するようにしてもよい。推定方法としては、特徴量ベクトルが角度に従って線形的に推移していくことを前提に推定する方法でもいいし、非線形的に推移していくことを前提に推定する方法でも構わない。その場合は、所定の推定関数を記憶させておき、その関数で写像させた空間上でA〜Cの30°における特徴量ベクトルを推定し作成する。
また、上記補間にあたっては、識別するクラスごとの分布を再度算出し、判別が最適になるような部分空間を再構築する。また、どの元データや補間データからも特徴量空間中であらかじめ定めた距離より遠い識別データが入力された場合などには、複数の近傍のパラメータの特徴量へ射影することで、重み付き配分を行い、それぞれのパラメータで識別距離を算出し、統合することで判定を行う。
以上のようにすれば、画像データそのものを再構成することなく、特徴量空間上の計算で識別精度を向上させることができる。
本発明によれば、画像中の物体の識別を効率的に行うことができる。
本発明の実施のためには、例えば識別したい被写体が写った画像データと、それに対する被写体の識別ラベルの組を複数登録する記憶装置、特徴量抽出およびそれらの補間等、さまざまな計算を行う計算装置およびプログラム、結果を再登録する記憶装置によって実現される。以下、具体的に説明する。
本実施例では、対象は人物で、識別課題は顔画像を用いた人物の識別であり、撮影状態は、カメラに対する物体の見えの角度である場合を例に説明する。また、情報処理装置の一例として動画を再生可能な動画再生装置について説明する。
図1は、本実施例に係る動画再生装置のハードウェア構成の一例である。ここでは、動画再生装置として、主にPC(Personal Computer)を想定して説明するが、これに限定するものではない。動画データを再生できるものであれば、レコーダ、TV、携帯電話等であってもよい。例えば、デジタル放送を記録可能なTVやレコーダにおいては、後述する構成の他に、トランスポートストリーム(TS)を分離するためのデマルチプレクサやその分離されたデータを復号するためのデコーダなどを備えるようにすればよい。
また、動画データの具体例としては、HDD(Hard Disk Drive)などに記録された映像、地上波として放送される地上波テレビ番組の映像、あるいは、インターネットを経由して配信される映像などが考えられるが、動画データであれば形式に拘らない。
また、動画データの具体例としては、HDD(Hard Disk Drive)などに記録された映像、地上波として放送される地上波テレビ番組の映像、あるいは、インターネットを経由して配信される映像などが考えられるが、動画データであれば形式に拘らない。
図1に示す通り、本実施例に係る動画再生装置は、動画データ入力装置100と、中央処理装置101と、入力装置102と、表示装置103と、音声出力装置104と、記憶装置105と、二次記憶装置106を有して構成される。そして、各装置は、バス107によって接続され、各装置間で、相互にデータの送受信が可能なように構成されている。
動画データ入力装置100は、動画データを入力する。本動画データ入力装置100は、例えば後述する記憶装置105あるいは二次記憶装置106に記憶されている動画データを読み込む装置としたり、テレビ放送等を受信する場合には、テレビのチューナユニットとして構成する。チューナユニットには、例えば、放送信号を復調する復調部と放送信号のチャンネルを選局する選局部などが含まれる。
また、ネットワーク経由で動画データを入力する場合には、本動画データ入力装置100をLANカード等のネットワークカードとすることが出来る。
マイクロプロセッサを主体に構成されており、例えば、記憶手段や二次記憶手段に格納されているプログラムを実行したり、上述した各装置に対して各種の指示信号の出力を行う。
入力装置102は、例えば、リモコン、あるいはキーボードや、マウス等のポインティングデバイスによって実現され、利用者が後述するハイライト再生における再生シーン決定パラメタを入力可能とする。
表示装置103は、例えばディスプレイアダプタと液晶パネルやプロジェクタ等によって実現され、再生画像や後述する再生シーン決定パラメタの入力をGUI経由で実施する場合には、このGUIを表示する。なお、本GUIの一例については後で詳述する。
音声出力装置104は、例えばサウンドカードとスピーカ等によって実現され、音声データを出力する。
記憶装置105は、例えばランダムアクセスメモリ(RAM)やリードオンリーメモリ(ROM)等によって実現され、中央制御装置101によって処理されるデータ等を格納する。
二次記憶装置106は、例えばハードディスクやDVDあるいはCDとそれらのドライブ、あるいはフラッシュメモリ等の不揮発性メモリにより構成され、中央処理装置101によって実行されるプログラムや本動画再生装置において処理されるデータ、あるいは再生対象の動画データや重要シーンのデータ等を格納する。なお、本二次記憶装置106は、必ずしも必要ではない。
図2は、本実施例中データ登録に係る機能ブロック図である。これらの機能ブロックの一部あるいは全部は、図2で示したハードウェアに加えて、ハードウェアとして実現されてもよいが、中央処理装置101によって実行されるソフトウェアプログラムとして実現されてもよい。なお、以下では、一例として、これらの機能ブロックの全てが中央処理装置101によって実行されるソフトウェアプログラムであるものとして説明する。
画像取得部 151は、カメラやビデオから画像を取得するモジュールである。前処理部152は、画像中から対象物領域を抽出する等の画像に対する前処理を行う。対象物は、例えば、ユーザにより表示画面を介して文字入力などで指定するようにしてもよい。また、例えば、予め記憶されている俳優の名前や顔画像をユーザに前記入力装置102を介して選択させるようにしてもよい。また、背景が単調な場合など、状況によっては必ずしも切り出しを行う必要はない。
特徴量抽出部153は、前処理部152で切り出しなどの処理を行った画像から、特徴量を抽出する処理である。ここで、特徴量とは、画像から一定の規則で抽出される数値であり、通常定まった手順で、一つの画像に対して定まった個数および並び順で複数個抽出されるものである。例えば、画像の一定領域の明るさの平均値、色の分布、輝度の変化方向、あるいは物体を抽出した後、その形状をあらわす数値などである。
特徴量抽出部153は、前処理部152で切り出しなどの処理を行った画像から、特徴量を抽出する処理である。ここで、特徴量とは、画像から一定の規則で抽出される数値であり、通常定まった手順で、一つの画像に対して定まった個数および並び順で複数個抽出されるものである。例えば、画像の一定領域の明るさの平均値、色の分布、輝度の変化方向、あるいは物体を抽出した後、その形状をあらわす数値などである。
また、それら複数個の特徴量をまとめて「特徴量ベクトル」と呼ぶ。あるいは簡単のため、特徴量ベクトルのことを単に特徴量と呼ぶ場合もある。特徴量の要件は、識別したい対象物の特徴が含まれていることであるが、本実施例では以後、この要件を満たす特徴量が抽出されているものとして実施例を進める。
ラベル・撮影状態付与部154では、対象物が識別すべきどのクラスであるかについてのラベルと、どのような撮影状態で撮影されたかについての情報をそれぞれ入力し、撮影特徴量と三つ組で「原特徴量+ラベル+撮影状態」データベース155に保存する。例えば、「特徴量ベクトル+“人物A”+正面(回転角度0°)」「特徴量ベクトル+“人物B”+回転角度45°」等である。
ここで、上記ラベルは、人物AやBといったように人物の名前を想定したが、名前のみならずその人(あるいは物体)の性別、職業、ニックネーム、芸名、雅号、またそれらの組み合わせなどでもよく、その人(あるいは物体)を特定できるような情報であればよい。また、ここでは、撮影状態情報として、その画像中の顔がどの向きで撮影されたかといった角度情報について説明するが、これに限定するものではない。例えば、照明状態を変化させた場合などの証明の照度、向き等を定量的に設定したり、あるいは前記画像の中で顔領域が占める割合やその画像中の顔サイズに関する情報などであってもよい。
以上で得られた補間特徴量は、必ずしも識別に適したものになっているとは限らない。このため、原特徴量および上記補間結果に対し、判別分析部158にて判別分析を行い、識別に適した部分空間を構成する。判別分析としては、例えばフィッシャーの線形判別分析を行い、「識別クラス数−1」個(次元)の登録特徴量を得、159の「判別特徴量+ラベル+状態」データベースに保存して処理を終了する。
図3は、上記で示した処理モジュールを用いた登録処理の手順を示したものである。画像入力(201)とラベル・撮影状態の入力(202)を行い、画像前処理(203)の後、特徴量抽出(204)を行う。次のステップである特徴量補間(207)および、判別特徴量算出(208)では複数データを参照する必要があるため、特徴量抽出処理は、登録データ全てについて行っておく(205, 206)。
図4は、対象物の認証を行うためのモジュール図である。画像取得部301の画像取得〜特徴量抽出部303の特徴量抽出までは、登録の場合と同じである。次に、撮影状態推定部304において、撮影状態の推定を行う。その方法は、(1)登録データから、特徴量→撮影状態を予測する関係式を構成しておく(回帰分析等を用いる)、(2)登録特徴量との距離を算出することで近傍の登録特徴量を探し、近似的に同じ撮影状態と推定する、などの
方法がある。(1)および(2)はどちらでも一つあればよく、総合的な性能が良い方を選択すればよい。
判別特徴量変換部305による判別特徴量の変換は、推定した撮影状態に対応する登録データを判別特徴量(図3の208)に変換したものと同じ変換によって行う。たとえば、線形判別分析の場合には、(1)対応する撮影状態の重心への平行移動、(2)登録時に算出されている判別成分への射影、にて変換される。最後に、識別部306において、変換後の特徴量が対応する撮影状態の登録データ(307)中、どのクラスのものと最も距離が近いかを決定し、登録データのラベルを参照して識別結果を文字データや画像データとして出力する。ここで、特徴量(ベクトル)間の距離は、通常はユークリッド距離を用いるが、ベクトル間の類似度(距離)を測定する方法は、内積演算などの他の演算方法を用いてもよい。
図5は、図4にて説明したモジュールを用いて識別を行うための流れ図を示したものである。図4の手順を順に行うことで識別が行われる。
図6は、より具体的に、人物識別のため、実空間にカメラを置いて顔識別を行う場合の運用状況を説明したものである。
図6(a)が登録作業である。人物の顔画像501は、登録時に正面502、および斜め角度、例えば45°(503)から撮像され、それらの画像から特徴量を抽出する。その後、それらの特徴量を用いて、中間の顔角度、たとえば、15°(504)、30°(505)等への特徴量ベクトルへの補間が行われ、補間後にそれぞれの角度において判別特徴量を算出する。
次に、図6(b)が識別作業であるが、未知の顔画像入力506に対して(原)特徴量抽出の後、その特徴量とデータベース中の特徴量を比較し、データベース中の最も近傍にある特徴量を探し、それが持つ顔角度を入力顔画像の推定角度とする(507)。この入力顔画像の推定角度が決定された後、入力顔画像の特徴量は推定角度ごとに準備しておいた判別特徴量に変換される。最後に、この入力顔画像の判別特徴量と推定角度中の登録データたちが持つ判別特徴量を比較して、判別特徴量が最も近傍にある登録データ(推定角度中)が指す人物名を識別結果とする(508)。
以上、本実施例では撮影条件としてカメラに対する物体の角度を用いたが、物体の角度変動が、上下左右二方向の変動がある場合には、それぞれの角度に対して網の目状に代表角度を設定し、それらの間の補間を行うように拡張することで、同様の手法が適用できる。
本実施例では、実施例1の特徴量補間方式のかわりに、複数の近傍のパラメータ(角度等)を持つ特徴量に重み付きで配分を行い、それぞれのパラメータを持つデータ内で識別距離を算出し、その後統合する識別方式について説明する。
本実施例においても、対象物体は人物で、識別課題は人物の識別であり、撮影状態は、カメラに対する物体の見えの角度である場合を例に説明する。
図7は、本識別方式の構成図である。処理手順も、本図のモジュールを上から順に行うことでなされる。画像取得部601〜特徴量抽出部603は実施例1と同様である。
撮影状態推定部604では、実施例1で述べたものと同様の特徴量から撮影状態への回帰式を学習しておき、状態を推定した後、その撮影状態として近い両側の状態を決定する。たとえば、状態推定において、撮影角度が「40°」と推定された場合、予め登録してある角度30°と45°の2:1に内分する角度であることがわかる。
次に、入力画像の特徴量は、特徴量配分部605において、登録時に直接例示もしくは補間にて作成しておいた、30°および45°の識別成分に変換される。それぞれの変換方法は、実施例1、図4において述べた、単一の撮影角度への変換方法と同様である。
次に、識別部606において、各撮影角度に変換された特徴量を用いて識別を行う。「判別特徴量+ラベル+状態」データベース607により判別特徴量と状態とがデータとして参照される。その方法は、基本的には実施例1と同様であるが、後の統合処理のため、最も近い判別クラスからいくつかのクラスとの距離(非類似度)を算出し、結果を残しておく。この処理を30°と45°の両方で行う。
以上で述べた例では、撮影状態が角度のように1次元的に変化する場合に、推定状態の両側に位置する2状態の重ねあわせで識別を行ったが、本発明は2状態に限定する必要はなく、3つ以上の撮影状態の重ね合わせも可能である。その場合、たとえば、各状態との近さに応じて、重み配分を行うようにすればよい。
また、複数の撮影状態での識別結果(非類似度付き)を統合する際に、上記で述べた単純な重み付け以外に、学習パラメータを持つ学習識別機を用いる等、最終的な決定のためのより複雑な仕組みを用いても良い。
本実施例では、ユーザインターフェースに関する実施形態について説明する。以下の機能は、主に中央処理装置101によって実行されるソフトウェアプログラムによって実現されるものである。プログラム等は記憶装置105あるいは2次記憶装置106に記憶され、ユーザインターフェース画面は表示装置103に表示される。また、ユーザからの指示はリモコン、マウス等の入力装置101を介して実行される。
図8は、TV等の表示装置(801)にて視聴中の番組(802)内の登場人物メモ画面を示す図である。
ここでは放送映像を表示しながら、同一人物から様々な向きの顔画像が現れるのに対し、同じ人物と推定される画像をまとめて表示画面側方に表示する(803)。
ここでは放送映像を表示しながら、同一人物から様々な向きの顔画像が現れるのに対し、同じ人物と推定される画像をまとめて表示画面側方に表示する(803)。
例えば、番組P1の中に登場人物がX,Y、Zの3人いる場合について説明すると、実施例1で説明した技術を用いて、登場人物の顔画像を識別し、その番組P1の映像ストリ
ームの中のX,Y,Zがそれぞれ登場するシーンごとにクラスタ化する。
例えば、番組P1のフレームが10枚から構成されているとして、フレーム番号1、4、6及び10にXが登場することをX(1、4、6、10)、同様にY(2,3)、Z(5,7,8,9)とフレーム番号ごとに管理して記憶装置105等に記憶しておく。そして、その登場するフレームの枚数が多いほどクラスタ順に上から顔画像を表示するように構成する。そうすれば、番組に頻出する主要な登場人物を容易に把握することができる。
例えば、番組P1のフレームが10枚から構成されているとして、フレーム番号1、4、6及び10にXが登場することをX(1、4、6、10)、同様にY(2,3)、Z(5,7,8,9)とフレーム番号ごとに管理して記憶装置105等に記憶しておく。そして、その登場するフレームの枚数が多いほどクラスタ順に上から顔画像を表示するように構成する。そうすれば、番組に頻出する主要な登場人物を容易に把握することができる。
具体的な表示方法に関しては、一人につき複数の画像を表示するようにしてもよい。また、実施例1で述べたように、画像の撮影状態(角度など)を推定する技術を用いてなるべく正面向いている画像を優先的に表示するようにしたり、顔サイズの大きいものや類似した顔画像シーンが長く連続して続くものを優先的に表示したりしてもよい。
また、一人につき何枚表示するか、何人分表示するか、あるいは、どのような画像の顔の向きやサイズを表示するかなどを選択画面等を介してユーザに選択させるようにすれば、ユーザの使い勝手は向上する。
また、803で示されるような表示画面側方に表示された顔データの中から、ユーザが気になる人物をリモコン等で指定すると、その指示信号を受けた中央処理装置101は、その人物が出ている時間帯が横向きに時間の流れを表すインジゲータ(ここでは例えば俸グラフ(804))中に色情報を用いて表示するよう指示する。
ユーザはそれらの着色された箇所を指定することで、特定の人物が映った部分を即座に視聴することが可能となり、使い勝手がよい。
ユーザはそれらの着色された箇所を指定することで、特定の人物が映った部分を即座に視聴することが可能となり、使い勝手がよい。
ここで、該当箇所を棒グラフと色情報を用いたインジゲータを考えたが、これに限定されるものではない。例えば、棒グラフ状ではなく、円状のグラフや多角形状のグラフでもよい。また、例えば、色情報のみならず絵や模様や文字などで該当箇所を表示するようにしても構わない。さらに、図8の804の如く、主な表示画面である802の視聴を妨げない位置に上記インジゲータを表示するように構成すれば、ユーザは、該当箇所を選択して所望の画像のシーンであるかどうかを802で容易に確認することができ使い勝手がよい。
また、複数の人物を指定して、その複数の人物がそれぞれ登場するシーンを上述したような棒グラフ上にそれぞれ異なる色や絵や文字などを用いて表示することも考えられる。例えば、「A」という登場人物が出ているシーンの該当箇所は赤で、「B」という登場人物が出ているシーンの該当箇所は青でインジゲータ上に表示し、「A」「B」双方出ているシーンは赤と青双方、もしくは赤と青の混合色である緑で表現したりする。これにより、複数の人物の登場シーンを同時に検索できるため使い勝手は更によくなる。
また、ユーザインターフェースに関する実施例として、図9に示すような構成も考えられる。ここで図9は、顔の映像とその人の名前とが対応付いているデータベース(901)を用いて、放送チューナや記録媒体から入力された人物データ(902)が誰なのか推定して示す(903)機能を示した図である。
ここで、データベース901の作成方法としては、EPG(電子番組データ)を利用して関連付ける方法やユーザが手入力で設定する方法など考えられる。
データベース901は、当然ながらあらゆる人物の顔画像と名前とが対応付いているデータベースであることが好ましい。しかし、そうしたデータベースを作成するには、あらゆる人の惜しまない労力が必要となるため現実的ではないので、上述した実施例の顔画像の識別手法を用いて、顔が似た人物の名前を推定し、ユーザにその名前を提示するように構成する。これにより、番組の所定のシーンに登場した人物の名前をユーザは容易に知ることができ使い勝手がよい。
また、映像フレームごとにその登場人物の名前に関するデータを挿入した形態で送信されてくる場合には、その受信されたデータから上記名前に関するデータを抽出し、その名前に関するデータを用いて前記映像フレームの邪魔にならない表示位置に表示するように構成する。
以上により、番組の所定のシーンに登場した人物の名前をユーザは容易に知ることができ使い勝手がよい。
なお、上記方法では、推定結果として1人を決定するように構成したが、距離等で算出された「類似度」の近い順から上位何人かを候補名として表示するようにしてもよい。
Claims (17)
- 動画データを入力する動画データ入力部と、
前記動画データ入力部により入力された前記動画データから所定の画像を取得する取得部と、
前記取得部により取得された前記所定の画像の特徴量を抽出する特徴量抽出部と、
複数の画像の特徴量と前記画像中の物体の撮影状態情報と前記画像中の物体を特定するためのラベルとを関連付けられたデータベースを記憶する記憶部と、
前記特徴量抽出部により抽出された前記特徴量を用いて前記取得部により取得された前記所定の画像中の物体の撮影状態情報を推定する推定部と、
前記推定部により推定された撮影状態情報と前記データベースとを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に類似しているかを決定する識別部とを備えることを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記データベースの撮影状態情報は、前記画像中の物体の撮影された向きに関する角度情報、前記画像中の物体を撮影した場合の照明状態に関する情報、あるいは前記画像中の物体のサイズに関する情報であることを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記取得部により取得される所定の画像を選択する選択部を設けることを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記推定部は、予め記憶された、前記特徴量抽出部により抽出された前記特徴量から撮影状態を推定するための関係式を用いて推定することを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記記憶部に記憶された前記データベースに含まれる前記ラベルを用いて文字データあるいは該当する画像データで前記識別部により識別された結果を出力する出力部を備えることを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記識別部は、前記推定部により推定された撮影状態情報と類似した撮影状態を持つデータ群を前記データベースの中から選定し、その選定されたそれぞれのデータ群に対して前記特徴量抽出部により抽出された前記特徴量を重み付けして分配して、前記分配されたデータと前記特徴量との距離を計算することにより前記所定の画像中の物体が前記データベースのどの画像中の物体に類似しているかを決定することを特徴とする情報処理装置。 - 請求項1記載の情報処理装置において、
前記推定部により推定された撮影状態情報を用いて前記データベースのデータを補間し、該補間されたデータを所定の部分空間に変換し、該変換後のデータを用いて前記データベースを再構成することを特徴とする情報処理装置。 - ユーザからの指示を受けるユーザ入力部と、
番組データを入力する番組データ入力部と、
複数の物体画像の特徴量と前記物体画像の撮影角度情報とが対応付けられた登録データを記憶する記憶部と、
前記番組データ入力部により入力された前記番組データを表示する表示部と、
前記各構成部を制御する制御部とを備え、
前記制御部は、前記入力された前記番組データから前記ユーザ入力部により指定された画像中の物体を取得し、前記指定された画像の特徴量と前記登録データに含まれる前記物体の撮影角度情報とを用いて前記指定された画像中の物体が前記登録データのどの画像中の物体に類似するかを決定し、その決定結果を前記表示部に表示する指示を行うことを特徴とする情報処理装置。 - 請求項8記載の情報処理装置において、
前記制御部は、前記指定された画像中の物体が前記番組データ内のどの辺りにあるかを色情報で示すインジゲータを前記表示部に表示する指示を行うことを特徴とする情報処理装置。 - 請求項8記載の情報処理装置において、
前記制御部は、前記インジゲータが、前記表示部に表示される主表示画面の表示を妨げない位置に表示する指示を行うことを特徴とする情報処理装置。 - 請求項8記載の情報処理装置において、
前記制御部は、前記指定された画像中の物体が前記登録データのどの画像中の物体に該当するかを決定する場合に、前記指定された画像の特徴量を抽出し、前記抽出された前記特徴量を用いて前記指定された画像中の物体の撮影角度情報を推定し、前記推定された撮影角度情報を用いて前記登録データを変換し、変換後の登録データを用いて前記抽出された特徴量が登録データのどの画像中の物体に類似するかを算出することを特徴とする情報処理装置。 - 動画データを入力し、
前記入力された前記動画データから所定の画像を取得し、
前記取得された前記所定の画像の特徴量を抽出し、
前記抽出された前記特徴量を用いて前記取得された前記所定の画像中の物体の撮影状態情報を推定し、
予め記憶された、複数の画像の特徴量と前記画像の撮影状態情報と前記画像を特定するためのラベルとを関連付けられたデータベースと前記推定された撮影状態情報とを用いて前記所定の画像中の物体が前記データベースのどの画像中の物体に類似するかを決定することを特徴とする情報処理方法。 - 請求項12記載の情報処理方法において、
前記データベースの撮影状態情報は、前記画像中の物体の撮影された向きに関する角度情報、前記画像中の物体を撮影した場合の照明状態に関する情報、あるいは前記画像中の物体のサイズに関する情報であることを特徴とする情報処理方法。 - 請求項12記載の情報処理方法において、
前記所定の画像を選択することを特徴とする情報処理方法。 - 請求項12記載の情報処理方法において、
前記記憶された前記データベースに含まれる前記ラベルを用いて文字データあるいは該当する画像データで識別された結果を出力することを特徴とする情報処理方法。 - 請求項12記載の情報処理装置において、
前記推定された撮影状態情報と類似したデータを前記データベースの中から選定し、その選定されたデータに対して前記抽出された前記特徴量を重み付けして分配して、前記分配されたデータと前記特徴量との距離を計算することにより前記所定の画像中の物体が前記データベースのどの画像中の物体に類似しているかを決定することを特徴とする情報処理方法。 - 請求項12記載の情報処理装置において、
前記推定された撮影状態情報を用いて前記データベースのデータを補間し、該補間されたデータを所定の部分空間に変換し、該変換後のデータを用いて前記データベースを再構成することを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006270262A JP2008090570A (ja) | 2006-10-02 | 2006-10-02 | 情報処理装置及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006270262A JP2008090570A (ja) | 2006-10-02 | 2006-10-02 | 情報処理装置及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008090570A true JP2008090570A (ja) | 2008-04-17 |
Family
ID=39374648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006270262A Pending JP2008090570A (ja) | 2006-10-02 | 2006-10-02 | 情報処理装置及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008090570A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011192093A (ja) * | 2010-03-15 | 2011-09-29 | Omron Corp | 照合装置、デジタル画像処理システム、照合装置制御プログラム、コンピュータ読み取り可能な記録媒体、および照合装置の制御方法 |
CN108292311A (zh) * | 2015-11-11 | 2018-07-17 | 三星电子株式会社 | 用于处理元数据的设备和方法 |
JP2019075130A (ja) * | 2018-11-22 | 2019-05-16 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
-
2006
- 2006-10-02 JP JP2006270262A patent/JP2008090570A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011192093A (ja) * | 2010-03-15 | 2011-09-29 | Omron Corp | 照合装置、デジタル画像処理システム、照合装置制御プログラム、コンピュータ読み取り可能な記録媒体、および照合装置の制御方法 |
CN108292311A (zh) * | 2015-11-11 | 2018-07-17 | 三星电子株式会社 | 用于处理元数据的设备和方法 |
CN108292311B (zh) * | 2015-11-11 | 2022-11-15 | 三星电子株式会社 | 用于处理元数据的设备和方法 |
JP2019075130A (ja) * | 2018-11-22 | 2019-05-16 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI253860B (en) | Method for generating a slide show of an image | |
US8768097B2 (en) | Image processing apparatus, moving image reproducing apparatus, and processing method and program therefor | |
CN101552890B (zh) | 信息处理设备、信息处理方法 | |
US20080260255A1 (en) | Image processing apparatus, imaging apparatus, image processing method, and computer program | |
US20110145883A1 (en) | Television receiver and method | |
US20130014149A1 (en) | Electronic Apparatus and Display Process | |
JPWO2006025272A1 (ja) | 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム | |
JP6672305B2 (ja) | オブジェクト検出に基づき外挿画像を生成する方法及び装置 | |
KR20150056381A (ko) | 영상 처리 장치 및 방법 | |
AU2005220252A1 (en) | Automatic face extraction for use in recorded meetings timelines | |
TW200945895A (en) | Image processor, animation reproduction apparatus, and processing method and program for the processor and apparatus | |
US9141190B2 (en) | Information processing apparatus and information processing system | |
JP2009187109A (ja) | 画像表示装置、表示制御方法及び表示制御プログラム | |
EP2838253A1 (en) | Display control device, display control method, and program | |
WO2017169369A1 (ja) | 情報処理装置、情報処理方法、プログラム | |
KR20100043138A (ko) | 화상 처리 장치, 동화상 재생 장치, 이들에서의 처리 방법 및 프로그램 | |
US11211097B2 (en) | Generating method and playing method of multimedia file, multimedia file generation apparatus and multimedia file playback apparatus | |
CN102088555A (zh) | 全景图像合成器、全景图像合成方法和程序 | |
EP2180699A1 (en) | Image processor, animation reproduction apparatus, and processing method and program for the processor and apparatus | |
JP2008090570A (ja) | 情報処理装置及び情報処理方法 | |
AU2008255262B2 (en) | Performing a display transition | |
TW201222422A (en) | Method and arrangement for identifying virtual visual information in images | |
CN107430841A (zh) | 信息处理设备、信息处理方法、程序以及图像显示系统 | |
JP6340675B1 (ja) | オブジェクト抽出装置、オブジェクト認識システム及びメタデータ作成システム | |
US10474743B2 (en) | Method for presenting notifications when annotations are received from a remote device |