先ず、図1を参照しながら、本発明の実施形態に係るオブジェクト認識システム1の全体の構成について説明する。図1に示すように、オブジェクト認識システム1は、動画や静止画等の画像に基づいてオブジェクト抽出処理を行うオブジェクト抽出装置2と、オブジェクト認識処理に用いられるオブジェクトを格納するオブジェクトデータベース(DB)3と、オブジェクト認識処理を行うオブジェクト認識装置4とを備える。
オブジェクトは、人物や動物等の生物、建物や置物等の静止物、文字や記号、ロゴマーク等の表示物のように、2次元平面上で識別可能な形状、色彩、濃淡の特徴を有するものだけでなく、3次元空間上で識別可能な形状、色彩、濃淡の特徴を有するものも含む。以下では、オブジェクト抽出処理及びオブジェクト認識処理の対象となるオブジェクト、即ち、オブジェクト抽出装置2によって抽出され、オブジェクト認識装置4によって認識されるオブジェクトを候補オブジェクト25(図2参照)と称する。また、候補オブジェクト25の認識処理のために比較されるオブジェクトであって、オブジェクトDB3に格納されるオブジェクトを参照オブジェクト3aと称する。
本実施形態では、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4が、インターネットやLAN(Local Area Network)等の所定のネットワーク5を介して、相互に通信可能に接続される例を説明するが、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4は、相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、何れか2つ以上が一体的に構成されてもよい。
また、本実施形態では、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4が、1つずつ備えられる例を説明するが、複数のオブジェクト抽出装置2、複数のオブジェクトDB3及び複数のオブジェクト認識装置4が備えられてよい。なお、複数のオブジェクトDB3は、各オブジェクトDB3に格納される参照オブジェクト3aを統括管理していて、キーワードやカテゴリーを指定すると、そのキーワードやカテゴリーに対応する参照オブジェクト3aが複数のオブジェクトDB3に亘って検索される。複数のオブジェクトDB3は、一の画像に基づく一の参照オブジェクト3aを、2つ以上のオブジェクトDB3に重複して格納せずに、何れか1つのオブジェクトDB3に格納する。
先ず、オブジェクト抽出装置2について説明する。オブジェクト抽出装置2は、上記したように、動画や静止画等の画像に表示される候補オブジェクト25を抽出するように構成される。例えば、オブジェクト抽出装置2は、制御部10と、記憶部11と、通信部12とを備える。また、オブジェクト抽出装置2は、画像入力部13と、フレーム取得部14と、高画質化部15と、フレーム調整部16と、特徴点抽出部17と、深度検出部18と、3次元空間推定部19と、オブジェクト抽出部20とを備える。なお、画像入力部13、フレーム取得部14、高画質化部15、フレーム調整部16、特徴点抽出部17、深度検出部18、3次元空間推定部19及びオブジェクト抽出部20は、記憶部11に記憶され、制御部10によって制御されることで動作するプログラムで構成されてよい。
また、オブジェクト抽出装置2は、オブジェクト抽出処理に用いる抽出処理用データ8a(例えば、後述の高画質化処理用のテンプレート画像、特徴点分布判定用の特徴点分布データ、色分布判定用の色変位−深度データ、オブジェクト抽出用のオブジェクト抽出データ等)を格納する抽出処理データベース(DB)8にネットワーク5を介して接続される。オブジェクト抽出装置2は、抽出処理DB8と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。
制御部10は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等を有して、オブジェクト抽出装置2の全体の動作を統括して制御するように構成される。記憶部11は、ROM(Read Only Memory)やRAM(Random Access Memory)等のメモリや、ハードディスク等の記録媒体を有して、制御部10で制御される情報やデータ、プログラム等を記憶するように構成される。
通信部12は、オブジェクト抽出装置2がネットワーク5に接続するためのインタフェースであり、即ち、オブジェクト抽出装置2をオブジェクトDB3及びオブジェクト認識装置4とネットワーク5を介して接続する。
画像入力部13は、例えば、オブジェクト抽出処理の対象となる動画データ21(図2参照)や静止画データ等の画像データを入力する。例えば、画像入力部13は、複数の動画データ21を格納している外部の動画データベース(DB)6や外部の他のコンピュータ等と通信部12を介して通信することで、オブジェクト抽出処理の対象の動画データ21の動画DB6からの選択操作及び入力を可能にする。又は、画像入力部13は、記憶部11から動画データ21を読み出し、あるいはDVD(Digital Versatile Disc)やBlu−ray Disc(登録商標)等の記憶媒体に記憶された動画データ21を、読出装置(図示せず)によって読み出して、オブジェクト抽出処理の対象の動画データ21として入力してもよい。なお、動画データ21には、映像データや音声データに加えて、予め設定された動画タイトルや内容等の動画情報が記録されている。
また、画像入力部13は、入力した画像データの画像データ情報を抽出する。画像データ情報は、例えば、動画データ21の場合には、動画データ21の動画ID、フレーム数、フレームサイズ及びフォーマット形式や、動画データ21のタイトル、作者情報、作成日時、動画のカテゴリー、出演者情報、サムネイル(URL)等の動画情報がある。また、静止画データの場合には、静止画のタイトル、データサイズ、フォーマット形式等の静止画情報がある。また、画像データがウェブサイトから取得された場合には、そのウェブサイトの記述内容に含まれる画像データの情報も、画像データ情報としてよい。
フレーム取得部14は、図2に示すように、動画データ21をオブジェクト抽出処理の対象とする場合に、その動画データ21を構成する複数の静止画フレームを、そのフレームレートに基づいて取得し、これらの複数の静止画フレームのそれぞれがオブジェクト抽出処理の対象の処理フレーム22となる。なお、画像入力部13が静止画データを入力した場合には、その静止画データがそのままオブジェクト抽出処理の対象の処理フレーム22となる。なお、この処理フレーム22は、1台の撮像装置で被写体を1方向から撮影したような2次元平面画像に相当する。
また、フレーム取得部14は、取得した各処理フレーム22のフレーム情報を抽出する。フレーム情報は、例えば、その処理フレーム22の動画データ21におけるリレーションIDや再生時間(タイムスタンプ)、及びこの処理フレーム22のフレーム番号(ユニークID)等がある。
高画質化部15は、処理フレーム22の高画質化処理を行う。本実施形態では特に、高画質化部15は、処理フレーム22の特徴点23の抽出量が増加するように処理フレーム22を高画質化する。
例えば、高画質化部15は、微小領域(例えば、a×aの画素範囲、aは3以上の奇数)毎に様々な色分布(色変位)を有する高画質化処理用の複数のテンプレート画像を抽出処理DB8に予め記憶している。各テンプレート画像には、高画質データ及び低画質データが用意されていて、低画質データはテンプレート画像毎の解像度で示される。また、高画質化部15は、各テンプレート画像の高画質データ及び低画質データの微小領域毎の相違(色変位)をサンプル化した高画質化用の色変位データを各テンプレート画像に対応付けて、抽出処理DB8に予め記憶している。そして、高画質化部15は、処理フレーム22の解像度に合う様々な色変位データを用いて処理フレーム22の微小領域毎に畳み込み演算をすることで、処理フレーム22の各微小領域の色変位に対応する色変位データから、最も確率の高い(最も適合する)色変位データを判定して合わせ込む(合成する)ことによって処理フレーム22を高画質化する。なお、この畳み込みは、全ての色変位データを常に用いる必要はなく、処理フレーム22の各微小領域の色データに近似する色変位データを用いてよい。
また、高画質化部15は、元の処理フレーム22(又はその局所領域)を低画質データとし、高画質化後の処理フレーム22(又はその局所領域)を高画質データとするテンプレート画像を、高画質化処理の機械学習の学習データとして抽出処理DB8に記憶する。従って、高画質化部15は、機械学習によって抽出処理DB8に蓄積された高画質化処理用のテンプレート画像を使用するため、処理を行う度に、より精度の高い高画質化処理を行うことができる。
更に、高画質化部15は、動画データ21をオブジェクト抽出処理の対象とする場合には、動画データ21を構成する複数の処理フレーム22の内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレーム22について、一の共通の処理フレーム22を他の共通の処理フレーム22に基づいて高画質化する。例えば、高画質化部15は、一の共通の処理フレーム22から抽出される複数の特徴点23と、他の共通の処理フレーム22から抽出される複数の特徴点23との差異を利用して、一の共通の処理フレーム22の特徴点23が増加するように、一の共通の処理フレーム22を高画質化する。他の共通の処理フレーム22に含まれる特徴点23の内、一の共通の処理フレーム22に含まれない特徴点23を、一の共通の処理フレーム22に加えることにより、一の共通の処理フレーム22の特徴点23が増加する。
フレーム調整部16は、処理フレーム22の性質や動画データ21の性質に応じて、処理フレーム22に対して様々な画像処理を行う。
例えば、フレーム調整部16は、処理フレーム22のモスキートノイズやブロックノイズの低減処理を行う。フレーム調整部16は、処理フレーム22からモスキートノイズを検出すると、その周辺情報を用いて平滑化することでモスキートノイズを低減する。フレーム調整部16は、処理フレーム22からブロックノイズを検出すると、そのブロックノイズ部分を上記した複数のテンプレート画像と照合し、最も適合したテンプレート画像の学習データを用いることで高画質化することでブロックノイズを低減する。フレーム調整部16は、ブロックノイズ部分に適合するテンプレート画像が無い場合には、ブロックノイズ部分にアンシャープマスク処理やぼかし処理等を施すことでブロックノイズを低減する。
また、フレーム調整部16は、処理フレーム22が高コントラストな領域を含む場合、その領域が多くの画像詳細を失う恐れがあるため、その領域について局所的にHDR処理を行う。HDR処理では、局所的な複数のコントラストデータを作成しておき、高コントラストな領域に対して、最も適合するコントラストデータを合成することで、高画質なトーンバランスを有する画像を生成する。
また、フレーム調整部16は、動画データ21をオブジェクト抽出処理の対象とするとき、動画データ21のフレームレートが低い場合には、フレーム補間処理を行う。フレーム補間処理では、先ず、低フレームレートのために処理フレーム22自体にボケが生じている場合には、シャープ化等によりボケを解消する。そして、連続する2つの処理フレーム22間の所定の時間の中間画像として補間フレームを生成し、これらの2つの処理フレーム22間に挿入する。例えば、連続する2つの処理フレーム22が、同一シーンの共通の処理フレーム22であって、共通する候補オブジェクト25のみが移動している場合には、2つの処理フレーム22間の特徴点23の深度及び移動ベクトルに基づいて、この共通する候補オブジェクト25について、2つの処理フレーム22間の所定の時間での特徴点23及びその深度を推定して算出する。そして、算出した特徴点23及びその深度を有する候補オブジェクト25を、2つの処理フレーム22と同様の処理フレーム22に合成することで、所定の時間の補間フレームを生成する。このようなフレーム補間処理は、特徴点抽出部17による特徴点抽出処理や深度検出部18による深度検出処理の後に行われてよい。
また、フレーム調整部16は、動画データ21のフレームレートが低い場合には、残像低減処理を行い、低フレームレートに起因して処理フレーム22に生じた残像を低減させる。
また、フレーム調整部16は、動画データ21のフレームレートが高い場合には、間引き処理を行い、所定期間における処理フレーム22の数を少なくして、その後の画像処理に掛かる負荷や時間を軽減する。なお、間引き処理では、連続する2つ以上の処理フレーム22において、各特徴点23の動きベクトル(候補オブジェクト25の動き)の少ない処理フレーム22のように、影響の少ない処理フレーム22を削除することが好ましく、シーンの切り替わる前後の処理フレーム22のように、影響の大きい処理フレーム22を残すことが好ましい。
また、フレーム調整部16は、所定のフォーマットに圧縮された動画データ21が画像入力部13に入力された場合には、そのフォーマットの圧縮アルゴリズムのロバスト性を評価し、動画データ21がそのフォーマットに符号化された際に処理フレーム22について欠落した情報を、動画データ21を復号化するときに担保して元の処理フレーム22を再現する。
特徴点抽出部17は、処理フレーム22に特徴点抽出処理を行って、処理フレーム22の複数の特徴点23を抽出すると共に、各特徴点23の2次元画像上の第1特徴量を検出する。特徴点抽出部17は、動画データ21をオブジェクト抽出処理の対象とするときには、動画データ21を構成する複数の処理フレーム22の2次元画像のそれぞれに特徴点抽出処理を行う。例えば、各特徴点23の第1特徴量としては、2次元座標、輝度や色変数(RGB)、並びに輝度勾配ベクトル(周囲画像又は全体画像に対する輝度勾配)等がある。
例えば、特徴点抽出部17は、特徴点抽出処理の前処理として、処理フレーム22にシャープ化処理を施すことにより、画素間の輝度の変位量を算出し、この変位量から換算される加速度が大きいほどエッジをより強調したエッジ強調フレームを生成する。そして、特徴点抽出部17は、特徴点抽出処理として、エッジ強調フレームで強調されたエッジに基づいて複数の特徴点23を抽出すると共に、各特徴点23の第1特徴量を算出する。
深度検出部18は、特徴点抽出部17によって特徴点23を抽出された処理フレーム22に深度検出処理を行って、処理フレーム22の各特徴点23について周囲の特徴点23からの相対的な深度を検出する。
例えば、深度検出部18は、先ず、様々な特徴点分布データを用いて処理フレーム22の局所領域毎に畳み込み演算を行うことで、処理フレーム22における局所領域毎の特徴点23の数(存在確率)の分布を判定する。例えば、特徴点分布データは、オブジェクトを特定する必要はないが、オブジェクトの特徴点23の分布を示すように作成される。そして、深度検出部18は、処理フレーム22内の特徴点23の分布から、何れかの特徴点分布検出データに対応する分布として、より高い確率で判定されるものを検出する。なお、この畳み込み演算を二次元方向に行うことによって、処理フレーム22の画像内の実際の3次元空間(現実3次元空間26、図2参照)における特徴点23の分布を判定することもできる。
例えば、特徴点分布データは、オブジェクトDB3に格納される参照オブジェクト3aの特徴点23の分布を有するように作成され、様々なカテゴリー及びサイズのオブジェクトの特徴点分布データが抽出処理DB8に予め記憶される。特徴点分布データは、オブジェクト認識装置4によって、高い精度で認識された参照オブジェクト3aがオブジェクトDB3に格納される際に、特徴点分布判定の機械学習の学習データとして作成されてよい。また、特徴点分布データは、特徴点分布判定によって処理フレーム22から判定された特徴点分布の内、高い精度で判定されたものによって作成されてもよい。従って、深度検出部18は、機械学習によって抽出処理DB8に蓄積された特徴点分布データを使用するため、処理を行う度に、より精度の高い特徴点分布判定を行うことができる。
また、深度検出部18は、様々なサイズの微小領域(例えば、a×aの画素範囲、aは3以上の整数)の色変位とその色変位に対応する深度との対応関係を示す色変位−深度データを用いて、処理フレーム22の微小領域毎に畳み込み演算を行い、処理フレーム22内の画素の色分布を判定する。例えば、色変位−深度データの色変位は、微小領域において中心画素から見た周囲画素の色データ(例えば、RGB)の変位であり、深度は、微小領域において中心画素から見た周囲画素の相対的深度である。そして、深度検出部18は、上記した特徴点分布判定の結果である処理フレーム22の特徴点23の分布に対して、同様のカテゴリー及びサイズを有する様々なオブジェクトの色変位−深度データを用いて、各微小領域の色変位に適合する色変位−深度データとして、より高い確率で判定されるものを検出する。これにより、深度検出部18は、各特徴点23について、周囲の特徴点23からの相対的な深度を検出する。
例えば、色変位−深度データは、オブジェクトDB3に格納される参照オブジェクト3aの微小領域毎に、色変位とその色変位に対応する深度との対応関係を有するように作成され、様々なカテゴリー及びサイズのオブジェクトの色変位−深度データが、抽出処理DB8に予め記憶される。色変位−深度データは、オブジェクト認識装置4によって、高い精度で認識された参照オブジェクト3aがオブジェクトDB3に格納される際に、色分布判定の機械学習の学習データとして作成されてよい。また、色変位−深度データは、色分布判定によって処理フレーム22から判定された色分布の内、高い精度で判定されたものによって作成されてもよい。従って、深度検出部18は、機械学習によって抽出処理DB8に蓄積された色変位−深度データを使用するため、処理を行う度に、より精度の高い色分布判定を行うことができる。
更に、深度検出部18は、上記した色分布判定の結果に基づいて、処理フレーム22の各特徴点23の方向ベクトルを算出する。例えば、所定の特徴点23の方向ベクトルは、その特徴点23の座標と、その特徴点23からの周囲画素(特徴点23を中心とする微小領域内の画素)の相対的深度とを有している。換言すれば、所定の特徴点23の方向ベクトルは、処理フレーム22の画像内の実際の3次元空間(現実3次元空間26、図2参照)において周囲画素との間の輝度勾配及び色変位(色勾配)の方向を示す。
また、深度検出部18は、上記の各特徴点23の方向ベクトルに基づいて、処理フレーム22内で各特徴点23間を通る曲線を、各特徴点23が存在する領域の特徴点分布に応じた方式で作成する。例えば、深度検出部18は、各特徴点23と他の特徴点23(周囲の特徴点)とを制御点として通るスプライン曲線やベジエ曲線等を生成する。また、深度検出部18は、特徴点23の分布がスプライン曲線やベジエ曲線等の生成に都合が悪い場合、例えば、所定領域内の特徴点23が過多又は過密でルンゲ現象が生じる場合には、回帰曲線等を利用して近似曲線化することによって、特徴点23間の曲線を生成する。これらのように生成される曲線は、処理フレーム22の画像内の実際の3次元空間(現実3次元空間26、図2参照)において、各特徴点23間の輝度勾配及び色変位(色勾配)の方向に沿った曲線となる。
そして、深度検出部18は、所定の特徴点23についての周囲の特徴点23からの相対的な深度を、周囲の特徴点23毎に生成した曲線に基づいて算出する。これにより、深度検出部18は、各特徴点23の周囲の特徴点23との現実3次元空間26における相対的な位置関係を検出する。なお、このようにして処理フレーム22の各特徴点23について深度(位置関係)を算出した後、所定の特徴点23についての深度(位置関係)を、周囲の特徴点23毎に算出された深度(位置関係)に基づいて、適宜調整してもよい。
3次元空間推定部19は、処理フレーム22の複数の特徴点23それぞれの第1特徴量及び深度(周囲の特徴点23からの相対的な深度)に基づいて処理フレーム22の画像内の実際の3次元空間(現実3次元空間26)を推定する。例えば、3次元空間推定部19は、処理フレーム22の各特徴点23の第1特徴量及び深度を相互に対比していくことで、各特徴点23の深度が適合するような現実3次元空間26を推定して算出する。また、3次元空間推定部19は、処理フレーム22の複数の特徴点23について、現実3次元空間26上の第2特徴量を検出する。例えば、各特徴点23の第2特徴量には、現実3次元空間26上の3次元座標がある。
オブジェクト抽出部20は、処理フレーム22の複数の特徴点23それぞれの第2特徴量及び色分布に基づいてオブジェクト抽出処理を行う。そして、オブジェクト抽出部20は、オブジェクト抽出処理によって、処理フレーム22の複数の特徴点23の分布状態に応じて、2つ以上の特徴点23の集合からなる特徴点群24を検出する。例えば、オブジェクト抽出部20は、処理フレーム22を四分木空間分割したときの特徴点23の分布に基づいて、1組以上の特徴点群24を検出する。各特徴点群24は、現実3次元空間26上の特徴量(座標等)を有していて、オブジェクト抽出部20は、このようにして検出した特徴点群24を、抽出元の処理フレーム22の候補オブジェクト25として抽出する。
また、オブジェクト抽出部20は、様々なオブジェクト抽出データを用いて処理フレーム22の局所領域毎に畳み込み演算を行うことで、オブジェクト抽出データに対応する特徴点群24を検出してもよい。例えば、オブジェクト抽出データは、オブジェクトDB3に格納される参照オブジェクト3aの特徴点群24を示すように作成され、様々なカテゴリー及びサイズのオブジェクトのオブジェクト抽出データが抽出処理DB8に予め記憶される。オブジェクト抽出データとして、オブジェクト認識装置4によって高い精度で認識された参照オブジェクト3aが、オブジェクト抽出処理の機械学習の学習データにも利用される。また、オブジェクト抽出データは、オブジェクト抽出処理によって処理フレーム22から抽出された候補オブジェクト25の内、高い精度で判定されたものによって作成されてもよい。従って、オブジェクト抽出部20は、機械学習によってオブジェクトDB3に蓄積された参照オブジェクト3aを使用するため、処理を行う度に、より精度の高いオブジェクト抽出処理を行うことができる。
更に、オブジェクト抽出部20は、抽出した候補オブジェクト25を抽出元の処理フレーム22に関連付けて記憶部11に記憶し、処理フレーム22を動画データ21から取得した場合には、抽出した候補オブジェクト25を動画データ21にも関連付ける。候補オブジェクト25は、対応する特徴点群24に関する情報として、特徴点群24を構成する各特徴点23の第1特徴量、深度及び第2特徴量を含んでいる。また、オブジェクト抽出部20は、抽出元の処理フレーム22を候補オブジェクト25に付加する。
なお、オブジェクト抽出部20は、動画データ21をオブジェクト抽出処理の対象とする場合に、動画データ21を構成する複数の処理フレーム22の内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレーム22のそれぞれについてオブジェクト抽出処理を行うときには、共通の処理フレーム22に共通して検出された特徴点群24を、同一シーンに共通する候補オブジェクト25とする。このとき、同一シーンの共通の処理フレーム22間で候補オブジェクト25が移動している場合には、同一シーンに共通する候補オブジェクト25は、特徴点群24(現実3次元空間26上の特徴量)の移動量(同一シーン上の時間変位量)も含む。
そして、オブジェクト抽出装置2は、上記のようにして抽出した候補オブジェクト25を、画像データ情報及びフレーム情報と共に、オブジェクト認識処理のためにオブジェクト認識装置4へと出力する。
なお、オブジェクト抽出装置2は、動画データ21をオブジェクト抽出処理の対象とするとき、フレーム調整部16による調整後の複数の処理フレーム22に対して近似判定を行って、近似する処理フレーム22については特徴点抽出部17、深度検出部18、3次元空間推定部19及びオブジェクト抽出部20の処理対象から除外してもよい。例えば、前後に連続して近似する2つの処理フレーム22については、先行の処理フレーム22を処理対象とすると共に、後続の処理フレーム22を処理対象から除外する。なお、先の近似判定において後続の処理フレーム22を処理対象から除外した場合には、今回の近似判定において後続の処理フレーム22と比較される処理フレーム22は、先の近似判定で処理対象とした処理フレーム22となる。
次に、オブジェクトDB3について説明する。オブジェクトDB3は、上記したように、オブジェクト認識処理に用いられる複数の参照オブジェクト3aを格納している。オブジェクトDB3は、オブジェクト認識装置4がオブジェクト認識処理を行う際に、オブジェクト認識装置4から参照オブジェクト出力の指示を受けると、格納している参照オブジェクト3aを順次、オブジェクト認識装置4へと出力する。
各参照オブジェクト3aは、オブジェクト抽出装置2によって抽出される候補オブジェクト25と同様に、2次元平面画像(以下、元画像と称する)から現実3次元空間上の特徴量を有する特徴点の特徴点群として抽出されたものであり、特徴点群を構成する各特徴点の第1特徴量、深度及び第2特徴量を含んでよい。参照オブジェクト3aには、元画像が付加され、更に、参照オブジェクト3aに関連する付属情報も付加される。付属情報には、例えば、参照オブジェクト3aを特定する特定情報や、元画像に付属する元画像情報、元画像の取得元の動画に付属する動画情報、元画像や動画の取得元のウェブサイトの記述内容に含まれる情報等がある。
更に、オブジェクトDB3は、複数の参照オブジェクト3aをそれぞれの付属情報に基づいて、複数のカテゴリーに分類して格納している。カテゴリーは、人物や物等の大枠のカテゴリーや、特定の人物や特定の物等の小枠のカテゴリー等の複数段階のカテゴリーに分けられてよい。そして、オブジェクトDB3は、共通する付属情報を有する2つ以上の参照オブジェクト3aについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納している。なお、オブジェクトDB3は、オブジェクト認識装置4がオブジェクト認識処理を行う際に、オブジェクト認識装置4からカテゴリーを特定して参照オブジェクト出力の指示を受けると、その特定されたカテゴリーに格納している参照オブジェクト3aをオブジェクト認識装置4へと出力することもできる。
オブジェクトDB3に格納される参照オブジェクト3aは、オブジェクト抽出装置2及びオブジェクト認識装置4によって作成することができ、また、上記のような構成を有していれば他の手段によって作成してもよい。例えば、オブジェクトDB3は、オブジェクト認識装置4によるオブジェクト認識処理後の候補オブジェクト25を、オブジェクト認識処理の機械学習の学習データとして入力し、参照オブジェクト3aとして格納することができる。従って、オブジェクト認識装置4は、機械学習によってオブジェクトDB3に蓄積された参照オブジェクト3aを使用するため、処理を行う度に、より精度の高いオブジェクト認識処理を行うことができる。
この場合、オブジェクト認識装置4によって所定の参照オブジェクト3aに相当すると判定された候補オブジェクト25は、参照オブジェクト3aに基づいて、後述のオブジェクト情報が付加され、この所定の参照オブジェクト3aが分類されるカテゴリーの新たな参照オブジェクト3aとしてオブジェクトDB3に格納される。一方、オブジェクト認識装置4によって何れの参照オブジェクト3aにも相当しないと判定された候補オブジェクト25は、この候補オブジェクト25が分類される新たなカテゴリーの参照オブジェクト3aとしてオブジェクトDB3に格納される。
次に、オブジェクト認識装置4について説明する。オブジェクト認識装置4は、上記のようにオブジェクト認識処理を行うように構成され、オブジェクト抽出装置2によって抽出された候補オブジェクト25が、オブジェクトDB3に格納されている複数の参照オブジェクト3aの何れに相当するかを判定する。
例えば、オブジェクト認識装置4は、オブジェクト抽出装置2から候補オブジェクト25を入力すると、オブジェクトDB3に対して参照オブジェクト出力を指示する。そして、オブジェクト認識装置4は、オブジェクトDB3から参照オブジェクト3aを入力すると、候補オブジェクト25が参照オブジェクト3aに相当するか否かを判定する。例えば、オブジェクト認識装置4は、候補オブジェクト25の特徴点群24(現実3次元空間上の特徴量)及びその抽出元の処理フレーム22における色分布と、参照オブジェクト3aの特徴点群(現実3次元空間上の特徴量)及びその元画像における色分布とを比較して、参照オブジェクト3aの候補オブジェクト25との類似度を算出する。このように、候補オブジェクト25の抽出時に、候補オブジェクト25に処理フレーム22を付加しておくことで、候補オブジェクト25を利用する際に、その色分布も用いることができる。なお、この比較処理では、候補オブジェクト25と参照オブジェクト3aとは、現実3次元空間上の特徴量が比較されるため、一方の向きや大きさを他方に合わせる必要がない。
そして、オブジェクト認識装置4は、複数の参照オブジェクト3aについて候補オブジェクト25との類似度を算出し、より類似度の高い参照オブジェクト3a、例えば、所定の類似度閾値以上の参照オブジェクト3aを、候補オブジェクト25に相当すると判定する。このとき、オブジェクト認識装置4は、類似度の高い参照オブジェクト3aの付属情報から候補オブジェクト25に関連する情報を取得して、オブジェクト情報を生成して候補オブジェクト25に付加する。なお、オブジェクト情報の作成のために、1つの参照オブジェクト3aのみの付属情報を用いてもよく、あるいは、類似度の高い2つ以上の参照オブジェクト3aの付属情報を用いてもよい。更に、オブジェクト情報の作成のために、オブジェクトDB3における参照オブジェクト3aの分類情報を用いてもよい。
一方、オブジェクト認識装置4は、各参照オブジェクト3aの候補オブジェクト25との類似度が何れも所定の類似度閾値未満であった場合には、その候補オブジェクト25が何れの参照オブジェクト3aにも相当しないと判定する。
また、オブジェクト認識装置4は、何れの判定があった場合でも、候補オブジェクト25をオブジェクト認識処理の機械学習のための学習データとしてオブジェクトDB3へと出力して参照オブジェクト3aとして格納させる。
また、オブジェクト認識システム1は、オブジェクトDB3の参照オブジェクト3aを増やすために画像収集装置7を備える。画像収集装置7は、ネットワーク5を介して参照オブジェクト3aを有する動画や静止画の画像を検索して収集する画像収集クローラを備える。そして、画像収集装置7は、画像収集クローラ機能を実行すると、ネットワーク5を介して画像収集装置7に接続された外部の動画DB6やその他の端末に格納された動画データ21(図2参照)や静止画データ等の画像データを順次収集する。なお、画像収集装置7は、ネットワーク5に公開された全ての画像データを収集してもよいが、操作者によって選択されたカテゴリー(業種)やキーワードに基づいて画像データを検索して収集してもよい。
画像収集装置7は、オブジェクト抽出装置2に接続されていて、収集した画像データをオブジェクト抽出装置2へと出力する。オブジェクト抽出装置2では、上記のようにして、画像データから候補オブジェクト25が抽出されてオブジェクト認識装置4へと出力される。オブジェクト認識装置4では、上記のようにして、オブジェクトDB3の参照オブジェクト3aを用いて候補オブジェクト25のオブジェクト認識処理が行われ、更に、オブジェクト認識処理後の候補オブジェクト25は、学習データとなり参照オブジェクト3aとしてオブジェクトDB3に格納される。このように、画像収集装置7を利用することで、オブジェクトDB3に格納される参照オブジェクト3aの数が増大し、オブジェクト認識装置4によるオブジェクト認識処理の精度を高めることができる。
なお、画像収集装置7は、オブジェクト抽出装置2、オブジェクトDB3及びオブジェクト認識装置4とは独立して設けられてもよく、あるいは何れかと一体的に構成されてもよい。
また、上記したようなオブジェクト認識システム1は、動画データ21(図2参照)のメタデータ作成処理を行うメタデータ作成システム30に適用される。メタデータ作成システム30は、メタデータ32aを作成するメタデータ作成装置31と、作成されたメタデータ32aを格納するメタデータデータベース(DB)32とを備える。本実施形態では、メタデータ作成装置31及びメタデータDB32が、1つずつ備えられる例を説明するが、複数のメタデータ作成装置31及び複数のメタデータDB32が備えられてよい。メタデータDB32は、1つのメタデータ作成装置31で利用されるものに限定されず、複数のメタデータ作成装置31で利用可能に設けられてよい。
メタデータ作成装置31は、ネットワーク5を介してメタデータDB32と相互に通信可能に接続され、また、オブジェクト認識システム1のオブジェクト抽出装置2及びオブジェクト認識装置4とも相互に通信可能に接続される。なお、メタデータ作成装置31は、メタデータDB32と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。
メタデータDB32は、動画データ21のタイトルや動画IDを検索キーワードとすることで、その動画データ21に対応するメタデータ32aを検索できるように複数のメタデータ32aを格納している。メタデータDB32は、作成日時の新しい動画データ21や検索頻度が高い動画データ21、推奨している動画データ21等のメタデータ32aが優先的に検索されるようにメタデータ32aを格納するとよい。
なお、複数のメタデータDB32は、各メタデータDB32に格納されるメタデータ32aを統括管理していて、動画データ21のタイトルや動画IDを指定すると複数のメタデータDB32に亘ってメタデータ32aが検索される。複数のメタデータDB32は、一の動画データ21に基づく一のメタデータ32aを、2つ以上のメタデータDB32に重複して格納せずに、何れか1つのメタデータDB32に格納する。また、複数のメタデータDB32は、動画データ21のカテゴリー別に備えられていてもよい。
メタデータ作成装置31は、所定の動画データ21の動画情報、所定の動画データ21を構成する複数の処理フレーム22の各フレーム情報、及び各処理フレーム22から抽出及び認識された候補オブジェクト25のオブジェクト情報を入力すると、これらの情報を集計して所定の動画データ21のメタデータ32aを作成する。また、メタデータ作成装置31は、所定の動画データ21について作成したメタデータ32aをメタデータDB32へと格納する。
例えば、メタデータ32aには、動画データ21のタイトル、出演者名等の動画情報が記述され、更に、動画データ21を構成する複数の処理フレーム22の再生順に、各処理フレーム22の再生時間等のフレーム情報が記述される。また、メタデータ32aには、各処理フレーム22のフレーム情報に付随して、各処理フレーム22から抽出された候補オブジェクト25のオブジェクト情報が記述される。即ち、メタデータ32aでは、フレーム情報及びオブジェクト情報はタイムライン上に示される。
なお、同一シーンの2つ以上の共通する処理フレーム22について、メタデータ32aには、同一シーンの時間帯等のシーン情報が記述され、また、同一シーンのシーン情報に付随して、同一シーンに共通する候補オブジェクト25のオブジェクト情報が記述される。このようなシーン情報も、メタデータ32aではタイムライン上に示される。また、同一シーンの先頭及び最後尾の処理フレーム22以外の各処理フレーム22については、フレーム情報やオブジェクト情報の記述は省略してもよい。
次に、上記のような構成を備えたオブジェクト認識システム1及びメタデータ作成システム30における所定の動画データ21のメタデータ作成動作について、図3のフローチャートを参照して説明する。
メタデータ作成システム30では、所定の動画データ21についてメタデータ作成処理を行うとき、この所定の動画データ21がオブジェクト認識システム1のオブジェクト抽出装置2へと入力され(ステップS1)、画像入力部13によって、この動画データ21の画像データ情報、即ち、動画情報が抽出される。
また、オブジェクト抽出装置2では、フレーム取得部14によって、この動画データ21を構成する複数の処理フレーム22が取得されると共に(ステップS2)、各処理フレーム22のフレーム情報が抽出される。更に、各処理フレーム22は、最適な特徴点抽出処理や深度検出処理ができるように、高画質化部15によって高画質化され、フレーム調整部16によって調整される(ステップS3)。
そして、特徴点抽出部17によって、各処理フレーム22の複数の特徴点23が抽出されると共に、各特徴点23の2次元画像上の第1特徴量が検出され(ステップS4)、更に、深度検出部18によって、各特徴点23の周囲の特徴点23からの深度が検出される(ステップS5)。また、3次元空間推定部19によって、各処理フレーム22の複数の特徴点23の第1特徴量及び深度に基づいて、各処理フレーム22の現実3次元空間26が推定され、各特徴点23の現実3次元空間26上の第2特徴量が検出される(ステップS6)。
次に、オブジェクト抽出部20によって、各処理フレーム22の複数の特徴点23の第2特徴量及び色分布に基づいて、特徴点群24、即ち、候補オブジェクト25が抽出され(ステップS7)、候補オブジェクト25には対応する処理フレーム22が付加される。
そして、オブジェクト抽出装置2は、所定の動画データ21の動画情報及びこの動画データ21を構成する複数の処理フレーム22の各フレーム情報と共に、各処理フレーム22から抽出した候補オブジェクト25をオブジェクト認識装置4へと出力する。
オブジェクト認識装置4では、上記のようにしてオブジェクト抽出装置2から入力した候補オブジェクト25のオブジェクト認識処理が行われて(ステップS8)、この候補オブジェクト25がオブジェクトDB3に格納された参照オブジェクト3aに相当するか否かが判定される。
そして、候補オブジェクト25が一の参照オブジェクト3aに相当すると判定されると、この一の参照オブジェクト3aの付属情報に基づいてオブジェクト情報が生成されて候補オブジェクト25に付加される(ステップS9)。一方、候補オブジェクト25が何れの参照オブジェクト3aにも相当しないと判定されると、所定の動画データ21の動画情報及びこの候補オブジェクトに対応する処理フレーム22のフレーム情報等に基づいて生成されたオブジェクト情報が候補オブジェクト25に付加される。
そして、オブジェクト認識処理後の候補オブジェクト25は、学習データ生成のために、参照オブジェクト3aとしてオブジェクトDB3に格納される(ステップS10)。
更に、オブジェクト認識装置4では、所定の動画データ21の動画情報、動画データ21を構成する複数の処理フレーム22の各フレーム情報、及び各処理フレーム22の候補オブジェクト25のオブジェクト情報がメタデータ作成装置31へと出力される。
メタデータ作成装置31では、オブジェクト認識装置4から入力した動画情報、各フレーム情報及び各オブジェクト情報が集計され、その集計結果に基づいて、所定の動画データ21のメタデータ32aが作成される(ステップS11)。このメタデータ32aは、メタデータDB32に格納される(ステップS12)。
また、上記したようなメタデータ作成システム30は、所定の動画データ21のメタデータ配信処理を行うメタデータ配信システム40に適用される。メタデータ配信システム40は、メタデータ32aを配信するメタデータ配信装置41を備える。
メタデータ配信装置41は、ネットワーク5を介してメタデータDB32と相互に通信可能に接続され、また、視聴者端末42とも相互に通信可能に接続される。なお、メタデータ配信装置41は、メタデータDB32と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。また、メタデータ配信装置41は、メタデータ作成装置31と一体的に構成されてもよい。
メタデータ配信装置41は、視聴者端末42からのアクセスに応じて、動画データ21のメタデータ32aをメタデータDB32から取得して提供するように構成される。また、メタデータ配信装置41は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末42からの要求に応じて動画データ21のメタデータ32aを提供するように構成されてもよい。
視聴者端末42は、例えば、ネットワーク5に接続可能であって、ネットワーク5を介して配信された動画データ21を再生可能なスマートフォン、携帯電話機及びタブレット等の携帯端末や、パーソナルコンピュータ及びテレビ等の据え置き型端末でよい。あるいは、視聴者端末42は、例えば、ネットワーク5に接続可能であって、DVD等の記憶媒体に記憶された動画データ21を読み出して再生可能な再生装置でもよい。
例えば、視聴者端末42は、視聴者端末42からのアクセスに応じて動画データ21をダウンロード方式やストリーミング方式で配信する動画DB6にネットワーク5を介して接続され、動画DB6から配信された動画データ21を再生する。なお、動画DB6は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末42からの要求に応じて動画データ21を配信するように構成されてもよい。
本実施形態では、上述のように、オブジェクト抽出装置2は、動画データ21を構成する2次元画像の複数のフレームの内、オブジェクト抽出対象の処理フレーム22に特徴点抽出処理を行って、処理フレーム22の複数の特徴点23を抽出すると共に、各特徴点23の2次元画像上の第1特徴量を検出し、処理フレーム22に深度検出処理を行って、処理フレーム22の各特徴点23について周囲の特徴点23からの相対的な深度を検出し、処理フレーム22に3次元空間推定処理を行って、処理フレーム22の複数の特徴点23それぞれの少なくとも第1特徴量及び深度に基づいて処理フレーム22内の現実3次元空間26を推定し、処理フレーム22の複数の特徴点23の現実3次元空間26上の第2特徴量を検出し、処理フレーム22の複数の特徴点23それぞれの少なくとも第2特徴量及び色分布に基づいてオブジェクト抽出処理を行って、処理フレーム22の2つ以上の特徴点23の集合からなる特徴点群24を検出し、現実3次元空間26上の特徴量を有する特徴点群24を、処理フレーム22の候補オブジェクト25として抽出する。
このような構成により、処理フレーム22の各特徴点23の現実3次元空間26上の第2特徴量及び色分布に基づいて、2つ以上の特徴点23の集合からなる特徴点群24を判断するため、より高精度でオブジェクトを抽出することができる。また、3次元画像を撮影する撮像装置によって生成された動画データを用いることなく、処理フレーム22から現実3次元空間26上の特徴量を有する候補オブジェクト25を抽出することができる。更に、この候補オブジェクト25は、現実3次元空間26上の特徴量を有するため、撮影角度に依存することなく、人物や物等の特徴を識別することができ、従って、高精度で認識することができる。これにより、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることが可能となる。
また、本実施形態によれば、オブジェクト抽出装置2は、動画データ21を構成する複数の処理フレーム22の内、時間軸において前後に連続していて同一シーンを構成する2つ以上の共通の処理フレーム22がある場合に、2つ以上の共通の処理フレーム22のそれぞれについて深度検出処理、3次元空間推定処理及びオブジェクト抽出処理を行うとき、現実3次元空間26上の特徴量を有する特徴点群24であって、2つ以上の共通の処理フレーム22に共通して検出された特徴点群24を、同一シーンの候補オブジェクト25として抽出する。
このような構成により、現実3次元空間26上の特徴量を用いることで、撮影した角度に拘らず、同一シーンに登場する同一のオブジェクトを高精度で認識することができる。
また、本実施形態によれば、オブジェクト抽出装置2は、2つ以上の共通の処理フレーム22のそれぞれに特徴点抽出処理を行うとき、一の共通の処理フレーム22から抽出された複数の特徴点23と、他の共通の処理フレーム22から抽出された複数の特徴点23との差異を利用して、一の共通の処理フレーム22の特徴点23を増やす。
このような構成により、より多くの特徴点23を有する候補オブジェクト25を抽出することができ、オブジェクト認識処理では、より多くの特徴点23を用いるため、候補オブジェクト25の認識精度を高めることができる。
また、本実施形態によれば、オブジェクト抽出装置2において、同一シーンの候補オブジェクト25は、現実3次元空間26上の特徴量に加えて、この現実3次元空間26上の特徴量の同一シーン上の時間変位量も有する。
このような構成により、同一シーンの候補オブジェクト25の現実3次元空間26上の動作の特徴量を抽出することができる。そして、オブジェクトの様々な動作の特徴を記録した参照オブジェクト3aをオブジェクトDB3に格納して、オブジェクト認識装置4が候補オブジェクト25の動作と参照オブジェクト3aの動作とを比較することにより、候補オブジェクト25がどのような動作をしているかを判断することもできる。なお、この場合の動作の特徴量は、候補オブジェクト25の種類まで特定する必要はないが、処理フレーム22に対する出現及び退出等、現実3次元空間26上の移動方向及び移動量、回転動作等を識別可能であればよい。
あるいは、本実施形態によれば、オブジェクト抽出装置2は、動画データ21を高画質化処理することにより、処理フレーム22で候補オブジェクト25として抽出される特徴点群24の特徴点23を増やす。
例えば、高画質化処理は、微小領域毎に様々な色分布を有する複数のテンプレート画像のそれぞれについて高画質データ及び低画質データの相違をサンプル化した様々な色分布の学習データを予め記憶しておき、処理フレームの微小領域毎に最も適合した学習データを用いて処理フレーム22を高画質化する。
これらのような構成により、より多くの特徴点23を有する候補オブジェクト25を抽出することができ、オブジェクト認識処理では、より多くの特徴点23を用いるため、候補オブジェクト25の認識精度を高めることができる。
更に、本実施形態では、上述のように、オブジェクト認識システム1は、上記のオブジェクト抽出装置2と、候補オブジェクト25を認識するための複数の参照オブジェクト3aを、各参照オブジェクト3aの元画像及び各参照オブジェクト3aに関連する付属情報と共に格納するデータベースであって、各参照オブジェクト3aの元画像に対する特徴点抽出処理、深度検出処理、3次元空間推定処理及びオブジェクト抽出処理によって、その元画像の現実3次元空間上の特徴量を有する特徴点群として抽出された各参照オブジェクト3aを格納しているオブジェクトDB3と、オブジェクト抽出装置2によって抽出された候補オブジェクト25が、オブジェクトDB3に格納されている複数の参照オブジェクト3aの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置4と、を備える。そして、オブジェクト認識装置4は、候補オブジェクト25が複数の参照オブジェクト3aの内の一の参照オブジェクト3aに相当すると判定した場合に、一の参照オブジェクト3aの付属情報に基づいて生成したオブジェクト情報を候補オブジェクト25に付加する。
このような構成により、高精度に抽出された候補オブジェクト25と、高精度に抽出された参照オブジェクト3aとを比較するため、候補オブジェクト25を高精度に認識処理することができる。そして、候補オブジェクト25には、参照オブジェクト3aの付属情報に基づいて精錬されたオブジェクト情報を生成するので、候補オブジェクト25をより適切に特定するオブジェクト情報が付加され、オブジェクト情報の利便性を高めることができる。
また、本実施形態によれば、オブジェクト認識システム1において、オブジェクト認識処理は、候補オブジェクト25の特徴点群24及び処理フレーム22における色分布と、参照オブジェクト3aの特徴点群及び元画像における色分布とを比較することによって行われる。
このような構成により、候補オブジェクト25を特定する高精度な識別量と、参照オブジェクト3aを特定する高精度な識別量とが比較されるため、候補オブジェクト25の高精度な認識処理を実現している。
また、本実施形態によれば、オブジェクト認識システム1において、オブジェクトDB3は、複数の参照オブジェクト3aをそれぞれの付属情報に基づいて分類していて、共通する付属情報を有する2つ以上の参照オブジェクト3aについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納している。
このような構成により、オブジェクトDB3は、参照オブジェクト3aを付属情報に基づいて容易に検索することができ、更に、カテゴリーに基づいて容易に検索することもできる。
また、本実施形態によれば、オブジェクト認識システム1は、複数の参照オブジェクト3aの内の一の参照オブジェクト3aに相当すると判定された候補オブジェクト25を、一の参照オブジェクト3aが分類されるカテゴリーの新たな参照オブジェクト3aとしてオブジェクトDB3に格納する。
なお、オブジェクト認識システム1は、複数の参照オブジェクト3aの何れにも相当しないと判定された候補オブジェクト25を、この候補オブジェクト25が分類される新たなカテゴリーの参照オブジェクト3aとしてオブジェクトDBに格納する。
これらのような構成により、オブジェクト認識処理の結果の候補オブジェクト25を、参照オブジェクト3aの学習データとすることができる。また、様々な動画データのオブジェクト認識処理をしていくことにより、高精度な認識結果の候補オブジェクト25に基づく学習データを増やすことができる。そのため、オブジェクト認識システム1の機械学習がより優秀となり、オブジェクト認識処理の精度及びの効率を向上させることができる。
更に、本実施形態では、上述のように、メタデータ作成システムは、上記のオブジェクト認識システム1を備え、所定の動画データ21の動画情報と、所定の動画データ21を構成する複数の処理フレーム22のフレーム情報と、複数の処理フレーム22のそれぞれから抽出及び認識された候補オブジェクト25のオブジェクト情報とを集計して、その集計結果に基づいて、動画データ21に関するメタデータ32aを作成する。
このような構成により、候補オブジェクト25が高精度に認識されたフレーム情報や候補オブジェクト25をより適切に特定するオブジェクト情報を用いてメタデータ32aを作成している。そのため、メタデータ32aには、候補オブジェクト25の登場する処理フレーム22が適切に記述され、また、候補オブジェクト25についての説明が適切に記述されるので、動画データ21の内容が適切に反映されることとなる。これにより、メタデータ32aの利用価値が向上し、更には、メタデータ32aに対応する動画データ21の利用及び普及の向上を図ることができる。
本実施形態では、オブジェクト抽出装置2がオブジェクト認識システム1に適用される構成を説明したが、この構成に限定されない。例えば、他の実施形態では、オブジェクト抽出装置2は、被写体を撮影した画像から被写体の候補オブジェクト25を抽出し、この候補オブジェクト25の3次元空間上の特徴量に基づいて、立体画像を立体表示スクリーンに表示させる立体表示システム等に適用することもできる。