JP2018147019A

JP2018147019A - オブジェクト抽出装置、オブジェクト認識システム及びメタデータ作成システム

Info

Publication number: JP2018147019A
Application number: JP2017038203A
Authority: JP
Inventors: 明雄小金; Akio Kogane; 恒利田中; Tsunetoshi Tanaka; 俊雄石松; Toshio Ishimatsu
Original assignee: J Stream Inc; J-STREAM Inc; Kpi Inc
Current assignee: J Stream Inc; J-STREAM Inc; Kpi Inc
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2018-09-20
Anticipated expiration: 2037-03-01
Also published as: JP6340675B1

Abstract

【課題】動画データからオブジェクトを高精度で抽出、認識すると共に、オブジェクト情報の利便性を高めて、動画の利用及び普及の向上を図る。【解決手段】オブジェクト抽出装置は、動画データ２１の２次元画像の処理フレーム２２に対して、特徴点抽出処理を行って複数の特徴点２３を抽出して各特徴点２３の２次元画像上の第１特徴量を検出し、深度検出処理を行って各特徴点２３の周囲の特徴点２３からの相対的な深度を検出し、３次元空間推定処理を行って各特徴点２３の第１特徴量及び深度に基づいて処理フレーム２２の現実３次元空間２６を推定して各特徴点２３の現実３次元空間２６上の第２特徴量を検出し、各特徴点２３の第２特徴量及び色分布に基づいてオブジェクト抽出処理を行って現実３次元空間２６上の特徴量を有する２つ以上の特徴点２３からなる特徴点群２４を検出して候補オブジェクト２５として抽出する。【選択図】図２

Description

本発明は、動画等の画像に表示される人物や物等のオブジェクトを抽出するオブジェクト抽出装置、このオブジェクト抽出装置を用いたオブジェクト認識システム、及びこのオブジェクト認識システムを用いたメタデータ作成システムに関する。

従来から、インターネット等のネットワークでは、動画サーバや動画データベース等のコンピュータが動画データを格納すると共に、視聴者端末に対して動画データを公開する動画配信が行われている。このような動画配信を促進するために、動画データに関連するメタデータを作成して視聴者に配信する装置やシステムが提案されている。

例えば、特許文献１に記載のメタデータ配信装置では、抽出変換テーブルと局固有データを利用してキー局のコンテンツのメタデータから自局でネット放送するネット番組のコンテンツのメタデータを抽出変換し、抽出変換されたメタデータを配信するので、キー局のコンテンツのメタデータを自局のコンテンツのメタデータとして、受信機に配信し、これにより、キー局以外のネット局で、ネット放送するネット番組において、キー局のコンテンツのメタデータを利用し、サーバ型放送を行う。

特開２００６−３２５１３４号公報

しかしながら、上記したメタデータ配信装置のような装置やシステムでは、放送局が予め動画情報のメタデータを用意しなければ動画情報を提供することができない。そのため、このようなメタデータが用意されていない動画データについては動画情報を提供することができない。

また、動画データには、様々な人物や物等のオブジェクトが登場するため、メタデータには、これらのオブジェクトを特定する情報やこれらのオブジェクトの登場時間帯の情報等を記述することが望まれる。メタデータを作成する作業者は、動画データを視聴して、登場するオブジェクトを確認することで、このようなオブジェクトの特定や登場時間帯の把握をすることができるが、このような作業は作業者に掛かる負担が大きい。そこで、動画データから自動的にオブジェクトを認識する装置やシステムが望まれる。

オブジェクトを認識する装置やシステムでは、例えば、動画データから静止画データを切り出し、静止画データからオブジェクトを抽出して、抽出したオブジェクトを予め用意した学習データと比較することで、オブジェクトを認識する。しかしながら、このような静止画データは、通常、２次元平面画像であるのに対して、実際のオブジェクトは奥行きのある３次元空間で特徴を有していて、様々な角度から撮影される。そのため、２次元平面画像の静止画データからオブジェクトの正確な特徴を抽出することが困難であった。

また、様々な角度から撮影されるオブジェクトのそれぞれに対して学習データを用意する場合には、大量の学習データを格納するために膨大な容量の記憶装置が必要となり、また、膨大な回数の比較処理を行う必要があるため、設備コストや処理工数が増大してしまう。そして、上記のような理由から、オブジェクト認識の精度が低下し、更には、所望のメタデータを生成できないという問題が生じてしまう。また、視聴者の望むメタデータを配信することができないために、動画データの利用及び普及が停滞することがある。

なお、オブジェクトの３次元情報を予め有する動画データからオブジェクト認識をする場合には、オブジェクトを３次元に対応した撮像装置で予め撮影して動画データを生成する必要があり、設備コストが増大してしまう。

そこで、本発明は上記事情を考慮し、動画データに表示されるオブジェクトを高精度で抽出し、高精度で認識すると共に、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることを目的とする。

上記課題を解決するために、本発明の第１のオブジェクト抽出装置は、動画データを構成する２次元画像の複数のフレームの内、オブジェクト抽出対象の処理フレームに特徴点抽出処理を行って、前記処理フレームの複数の特徴点を抽出すると共に、前記各特徴点の２次元画像上の第１特徴量を検出し、前記処理フレームに深度検出処理を行って、前記処理フレームの各特徴点について周囲の特徴点からの相対的な深度を検出し、前記処理フレームに３次元空間推定処理を行って、前記処理フレームの複数の特徴点それぞれの少なくとも前記第１特徴量及び前記深度に基づいて前記処理フレーム内の現実３次元空間を推定し、前記処理フレームの複数の特徴点の前記現実３次元空間上の第２特徴量を検出し、前記処理フレームの複数の特徴点それぞれの少なくとも前記第２特徴量及び色分布に基づいてオブジェクト抽出処理を行って、前記処理フレームの２つ以上の特徴点の集合からなる特徴点群を検出し、前記現実３次元空間上の特徴量を有する前記特徴点群を、前記処理フレームの候補オブジェクトとして抽出することを特徴とする。

また、本発明の第２のオブジェクト抽出装置は、上述した本発明の第１のオブジェクト抽出装置において、前記動画データを構成する複数の前記処理フレームの内、時間軸において前後に連続していて同一シーンを構成する２つ以上の共通の処理フレームがある場合に、前記２つ以上の共通の処理フレームのそれぞれについて前記深度検出処理、前記３次元空間推定処理及び前記オブジェクト抽出処理を行うとき、前記現実３次元空間上の特徴量を有する特徴点群であって、前記２つ以上の共通の処理フレームに共通して検出された特徴点群を、前記同一シーンの候補オブジェクトとして抽出することを特徴とする。

また、本発明の第３のオブジェクト抽出装置は、上述した本発明の第２のオブジェクト抽出装置において、前記２つ以上の共通の処理フレームのそれぞれに前記特徴点抽出処理を行うとき、一の前記共通の処理フレームから抽出された複数の特徴点と、他の前記共通の処理フレームから抽出された複数の特徴点との差異を利用して、前記一の共通の処理フレームの特徴点を増やすことを特徴とする。

また、本発明の第４のオブジェクト抽出装置は、上述した本発明の第２又は第３のオブジェクト抽出装置において、前記動画データを高画質化処理することにより、前記処理フレームで前記候補オブジェクトとして抽出される特徴点群の特徴点を増やすことを特徴とする。

また、本発明の第５のオブジェクト抽出装置は、上述した本発明の第１〜第４の何れかのオブジェクト抽出装置において、前記同一シーンの候補オブジェクトは、前記現実３次元空間上の特徴量に加えて、該現実３次元空間上の特徴量の前記同一シーン上の時間変位量も有することを特徴とする。

また、本発明の第６のオブジェクト抽出装置は、上述した本発明の第５のオブジェクト抽出装置において、前記高画質化処理は、微小領域毎に様々な色分布を有する複数のテンプレート画像のそれぞれについて高画質データ及び低画質データの相違をサンプル化した様々な色分布の学習データを予め記憶しておき、前記処理フレームの微小領域毎に最も適合した前記学習データを用いて前記処理フレームを高画質化することを特徴とする。

更に、上記課題を解決するために、本発明の第１のオブジェクト認識システムは、上述した本発明の第１〜第６の何れかのオブジェクト抽出装置と、前記候補オブジェクトを認識するための複数の参照オブジェクトを、前記各参照オブジェクトの元画像及び前記各参照オブジェクトに関連する付属情報と共に格納するデータベースであって、前記各参照オブジェクトの元画像に対する前記特徴点抽出処理、前記深度検出処理、前記３次元空間推定処理及び前記オブジェクト抽出処理によって、その元画像の現実３次元空間上の特徴量を有する特徴点群として抽出された前記各参照オブジェクトを格納しているオブジェクトデータベースと、前記オブジェクト抽出装置によって抽出された前記候補オブジェクトが、前記オブジェクトデータベースに格納されている前記複数の参照オブジェクトの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置と、を備え、前記オブジェクト認識装置は、前記候補オブジェクトが前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定した場合に、前記一の参照オブジェクトの前記付属情報に基づいて生成したオブジェクト情報を前記候補オブジェクトに付加することを特徴とする。

また、本発明の第２のオブジェクト認識システムは、上述した本発明の第１のオブジェクト認識システムにおいて、前記オブジェクト認識処理は、前記候補オブジェクトの特徴点群及び前記処理フレームにおける色分布と、前記参照オブジェクトの特徴点群及び元画像における色分布とを比較することによって行われることを特徴とする。

また、本発明の第３のオブジェクト認識システムは、上述した本発明の第１又は第２のオブジェクト認識システムにおいて、前記オブジェクトデータベースは、前記複数の参照オブジェクトをそれぞれの付属情報に基づいて分類していて、共通する付属情報を有する２つ以上の参照オブジェクトについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納していることを特徴とする。

また、本発明の第４のオブジェクト認識システムは、上述した本発明の第１〜第３の何れかのオブジェクト認識システムにおいて、前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定された前記候補オブジェクトを、前記一の参照オブジェクトが分類されるカテゴリーの新たな参照オブジェクトとして前記オブジェクトデータベースに格納することを特徴とする。

また、本発明の第５のオブジェクト認識システムは、上述した本発明の第４のオブジェクト認識システムにおいて、前記複数の参照オブジェクトの何れにも相当しないと判定された前記候補オブジェクトを、該候補オブジェクトが分類される新たなカテゴリーの参照オブジェクトとして前記オブジェクトデータベースに格納することを特徴とする。

更に、上記課題を解決するために、本発明の第１のメタデータ作成システムは、上述した本発明の第１〜第５の何れかのオブジェクト認識システムを備え、所定の前記動画データの動画情報と、前記所定の動画データを構成する複数の前記処理フレームのフレーム情報と、前記複数の処理フレームのそれぞれから抽出及び認識された前記候補オブジェクトの前記オブジェクト情報とを集計して、その集計結果に基づいて、前記動画データに関するメタデータを作成することを特徴とする。

本発明によれば、動画データに表示されるオブジェクトを高精度で抽出し、高精度で認識すると共に、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることが可能となる。

本発明の一実施形態に係るオブジェクト認識システム及びメタデータ作成システムの概略を示すブロック図である。本発明の一実施形態に係るオブジェクト認識システムによって処理される動画データの例を示す概要図である。本発明の一実施形態に係るオブジェクト認識システム及びメタデータ作成システムにおけるオブジェクト認識動作及びメタデータ作成動作を示すフローチャートである。

先ず、図１を参照しながら、本発明の実施形態に係るオブジェクト認識システム１の全体の構成について説明する。図１に示すように、オブジェクト認識システム１は、動画や静止画等の画像に基づいてオブジェクト抽出処理を行うオブジェクト抽出装置２と、オブジェクト認識処理に用いられるオブジェクトを格納するオブジェクトデータベース（ＤＢ）３と、オブジェクト認識処理を行うオブジェクト認識装置４とを備える。

オブジェクトは、人物や動物等の生物、建物や置物等の静止物、文字や記号、ロゴマーク等の表示物のように、２次元平面上で識別可能な形状、色彩、濃淡の特徴を有するものだけでなく、３次元空間上で識別可能な形状、色彩、濃淡の特徴を有するものも含む。以下では、オブジェクト抽出処理及びオブジェクト認識処理の対象となるオブジェクト、即ち、オブジェクト抽出装置２によって抽出され、オブジェクト認識装置４によって認識されるオブジェクトを候補オブジェクト２５（図２参照）と称する。また、候補オブジェクト２５の認識処理のために比較されるオブジェクトであって、オブジェクトＤＢ３に格納されるオブジェクトを参照オブジェクト３ａと称する。

本実施形態では、オブジェクト抽出装置２、オブジェクトＤＢ３及びオブジェクト認識装置４が、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等の所定のネットワーク５を介して、相互に通信可能に接続される例を説明するが、オブジェクト抽出装置２、オブジェクトＤＢ３及びオブジェクト認識装置４は、相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、何れか２つ以上が一体的に構成されてもよい。

また、本実施形態では、オブジェクト抽出装置２、オブジェクトＤＢ３及びオブジェクト認識装置４が、１つずつ備えられる例を説明するが、複数のオブジェクト抽出装置２、複数のオブジェクトＤＢ３及び複数のオブジェクト認識装置４が備えられてよい。なお、複数のオブジェクトＤＢ３は、各オブジェクトＤＢ３に格納される参照オブジェクト３ａを統括管理していて、キーワードやカテゴリーを指定すると、そのキーワードやカテゴリーに対応する参照オブジェクト３ａが複数のオブジェクトＤＢ３に亘って検索される。複数のオブジェクトＤＢ３は、一の画像に基づく一の参照オブジェクト３ａを、２つ以上のオブジェクトＤＢ３に重複して格納せずに、何れか１つのオブジェクトＤＢ３に格納する。

先ず、オブジェクト抽出装置２について説明する。オブジェクト抽出装置２は、上記したように、動画や静止画等の画像に表示される候補オブジェクト２５を抽出するように構成される。例えば、オブジェクト抽出装置２は、制御部１０と、記憶部１１と、通信部１２とを備える。また、オブジェクト抽出装置２は、画像入力部１３と、フレーム取得部１４と、高画質化部１５と、フレーム調整部１６と、特徴点抽出部１７と、深度検出部１８と、３次元空間推定部１９と、オブジェクト抽出部２０とを備える。なお、画像入力部１３、フレーム取得部１４、高画質化部１５、フレーム調整部１６、特徴点抽出部１７、深度検出部１８、３次元空間推定部１９及びオブジェクト抽出部２０は、記憶部１１に記憶され、制御部１０によって制御されることで動作するプログラムで構成されてよい。

また、オブジェクト抽出装置２は、オブジェクト抽出処理に用いる抽出処理用データ８ａ（例えば、後述の高画質化処理用のテンプレート画像、特徴点分布判定用の特徴点分布データ、色分布判定用の色変位−深度データ、オブジェクト抽出用のオブジェクト抽出データ等）を格納する抽出処理データベース（ＤＢ）８にネットワーク５を介して接続される。オブジェクト抽出装置２は、抽出処理ＤＢ８と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。

制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を有して、オブジェクト抽出装置２の全体の動作を統括して制御するように構成される。記憶部１１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリや、ハードディスク等の記録媒体を有して、制御部１０で制御される情報やデータ、プログラム等を記憶するように構成される。

通信部１２は、オブジェクト抽出装置２がネットワーク５に接続するためのインタフェースであり、即ち、オブジェクト抽出装置２をオブジェクトＤＢ３及びオブジェクト認識装置４とネットワーク５を介して接続する。

画像入力部１３は、例えば、オブジェクト抽出処理の対象となる動画データ２１（図２参照）や静止画データ等の画像データを入力する。例えば、画像入力部１３は、複数の動画データ２１を格納している外部の動画データベース（ＤＢ）６や外部の他のコンピュータ等と通信部１２を介して通信することで、オブジェクト抽出処理の対象の動画データ２１の動画ＤＢ６からの選択操作及び入力を可能にする。又は、画像入力部１３は、記憶部１１から動画データ２１を読み出し、あるいはＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）やＢｌｕ−ｒａｙＤｉｓｃ（登録商標）等の記憶媒体に記憶された動画データ２１を、読出装置（図示せず）によって読み出して、オブジェクト抽出処理の対象の動画データ２１として入力してもよい。なお、動画データ２１には、映像データや音声データに加えて、予め設定された動画タイトルや内容等の動画情報が記録されている。

また、画像入力部１３は、入力した画像データの画像データ情報を抽出する。画像データ情報は、例えば、動画データ２１の場合には、動画データ２１の動画ＩＤ、フレーム数、フレームサイズ及びフォーマット形式や、動画データ２１のタイトル、作者情報、作成日時、動画のカテゴリー、出演者情報、サムネイル（ＵＲＬ）等の動画情報がある。また、静止画データの場合には、静止画のタイトル、データサイズ、フォーマット形式等の静止画情報がある。また、画像データがウェブサイトから取得された場合には、そのウェブサイトの記述内容に含まれる画像データの情報も、画像データ情報としてよい。

フレーム取得部１４は、図２に示すように、動画データ２１をオブジェクト抽出処理の対象とする場合に、その動画データ２１を構成する複数の静止画フレームを、そのフレームレートに基づいて取得し、これらの複数の静止画フレームのそれぞれがオブジェクト抽出処理の対象の処理フレーム２２となる。なお、画像入力部１３が静止画データを入力した場合には、その静止画データがそのままオブジェクト抽出処理の対象の処理フレーム２２となる。なお、この処理フレーム２２は、１台の撮像装置で被写体を１方向から撮影したような２次元平面画像に相当する。

また、フレーム取得部１４は、取得した各処理フレーム２２のフレーム情報を抽出する。フレーム情報は、例えば、その処理フレーム２２の動画データ２１におけるリレーションＩＤや再生時間（タイムスタンプ）、及びこの処理フレーム２２のフレーム番号（ユニークＩＤ）等がある。

高画質化部１５は、処理フレーム２２の高画質化処理を行う。本実施形態では特に、高画質化部１５は、処理フレーム２２の特徴点２３の抽出量が増加するように処理フレーム２２を高画質化する。

例えば、高画質化部１５は、微小領域（例えば、ａ×ａの画素範囲、ａは３以上の奇数）毎に様々な色分布（色変位）を有する高画質化処理用の複数のテンプレート画像を抽出処理ＤＢ８に予め記憶している。各テンプレート画像には、高画質データ及び低画質データが用意されていて、低画質データはテンプレート画像毎の解像度で示される。また、高画質化部１５は、各テンプレート画像の高画質データ及び低画質データの微小領域毎の相違（色変位）をサンプル化した高画質化用の色変位データを各テンプレート画像に対応付けて、抽出処理ＤＢ８に予め記憶している。そして、高画質化部１５は、処理フレーム２２の解像度に合う様々な色変位データを用いて処理フレーム２２の微小領域毎に畳み込み演算をすることで、処理フレーム２２の各微小領域の色変位に対応する色変位データから、最も確率の高い（最も適合する）色変位データを判定して合わせ込む（合成する）ことによって処理フレーム２２を高画質化する。なお、この畳み込みは、全ての色変位データを常に用いる必要はなく、処理フレーム２２の各微小領域の色データに近似する色変位データを用いてよい。

また、高画質化部１５は、元の処理フレーム２２（又はその局所領域）を低画質データとし、高画質化後の処理フレーム２２（又はその局所領域）を高画質データとするテンプレート画像を、高画質化処理の機械学習の学習データとして抽出処理ＤＢ８に記憶する。従って、高画質化部１５は、機械学習によって抽出処理ＤＢ８に蓄積された高画質化処理用のテンプレート画像を使用するため、処理を行う度に、より精度の高い高画質化処理を行うことができる。

更に、高画質化部１５は、動画データ２１をオブジェクト抽出処理の対象とする場合には、動画データ２１を構成する複数の処理フレーム２２の内、時間軸において前後に連続していて同一シーンを構成する２つ以上の共通の処理フレーム２２について、一の共通の処理フレーム２２を他の共通の処理フレーム２２に基づいて高画質化する。例えば、高画質化部１５は、一の共通の処理フレーム２２から抽出される複数の特徴点２３と、他の共通の処理フレーム２２から抽出される複数の特徴点２３との差異を利用して、一の共通の処理フレーム２２の特徴点２３が増加するように、一の共通の処理フレーム２２を高画質化する。他の共通の処理フレーム２２に含まれる特徴点２３の内、一の共通の処理フレーム２２に含まれない特徴点２３を、一の共通の処理フレーム２２に加えることにより、一の共通の処理フレーム２２の特徴点２３が増加する。

フレーム調整部１６は、処理フレーム２２の性質や動画データ２１の性質に応じて、処理フレーム２２に対して様々な画像処理を行う。

例えば、フレーム調整部１６は、処理フレーム２２のモスキートノイズやブロックノイズの低減処理を行う。フレーム調整部１６は、処理フレーム２２からモスキートノイズを検出すると、その周辺情報を用いて平滑化することでモスキートノイズを低減する。フレーム調整部１６は、処理フレーム２２からブロックノイズを検出すると、そのブロックノイズ部分を上記した複数のテンプレート画像と照合し、最も適合したテンプレート画像の学習データを用いることで高画質化することでブロックノイズを低減する。フレーム調整部１６は、ブロックノイズ部分に適合するテンプレート画像が無い場合には、ブロックノイズ部分にアンシャープマスク処理やぼかし処理等を施すことでブロックノイズを低減する。

また、フレーム調整部１６は、処理フレーム２２が高コントラストな領域を含む場合、その領域が多くの画像詳細を失う恐れがあるため、その領域について局所的にＨＤＲ処理を行う。ＨＤＲ処理では、局所的な複数のコントラストデータを作成しておき、高コントラストな領域に対して、最も適合するコントラストデータを合成することで、高画質なトーンバランスを有する画像を生成する。

また、フレーム調整部１６は、動画データ２１をオブジェクト抽出処理の対象とするとき、動画データ２１のフレームレートが低い場合には、フレーム補間処理を行う。フレーム補間処理では、先ず、低フレームレートのために処理フレーム２２自体にボケが生じている場合には、シャープ化等によりボケを解消する。そして、連続する２つの処理フレーム２２間の所定の時間の中間画像として補間フレームを生成し、これらの２つの処理フレーム２２間に挿入する。例えば、連続する２つの処理フレーム２２が、同一シーンの共通の処理フレーム２２であって、共通する候補オブジェクト２５のみが移動している場合には、２つの処理フレーム２２間の特徴点２３の深度及び移動ベクトルに基づいて、この共通する候補オブジェクト２５について、２つの処理フレーム２２間の所定の時間での特徴点２３及びその深度を推定して算出する。そして、算出した特徴点２３及びその深度を有する候補オブジェクト２５を、２つの処理フレーム２２と同様の処理フレーム２２に合成することで、所定の時間の補間フレームを生成する。このようなフレーム補間処理は、特徴点抽出部１７による特徴点抽出処理や深度検出部１８による深度検出処理の後に行われてよい。

また、フレーム調整部１６は、動画データ２１のフレームレートが低い場合には、残像低減処理を行い、低フレームレートに起因して処理フレーム２２に生じた残像を低減させる。

また、フレーム調整部１６は、動画データ２１のフレームレートが高い場合には、間引き処理を行い、所定期間における処理フレーム２２の数を少なくして、その後の画像処理に掛かる負荷や時間を軽減する。なお、間引き処理では、連続する２つ以上の処理フレーム２２において、各特徴点２３の動きベクトル（候補オブジェクト２５の動き）の少ない処理フレーム２２のように、影響の少ない処理フレーム２２を削除することが好ましく、シーンの切り替わる前後の処理フレーム２２のように、影響の大きい処理フレーム２２を残すことが好ましい。

また、フレーム調整部１６は、所定のフォーマットに圧縮された動画データ２１が画像入力部１３に入力された場合には、そのフォーマットの圧縮アルゴリズムのロバスト性を評価し、動画データ２１がそのフォーマットに符号化された際に処理フレーム２２について欠落した情報を、動画データ２１を復号化するときに担保して元の処理フレーム２２を再現する。

特徴点抽出部１７は、処理フレーム２２に特徴点抽出処理を行って、処理フレーム２２の複数の特徴点２３を抽出すると共に、各特徴点２３の２次元画像上の第１特徴量を検出する。特徴点抽出部１７は、動画データ２１をオブジェクト抽出処理の対象とするときには、動画データ２１を構成する複数の処理フレーム２２の２次元画像のそれぞれに特徴点抽出処理を行う。例えば、各特徴点２３の第１特徴量としては、２次元座標、輝度や色変数（ＲＧＢ）、並びに輝度勾配ベクトル（周囲画像又は全体画像に対する輝度勾配）等がある。

例えば、特徴点抽出部１７は、特徴点抽出処理の前処理として、処理フレーム２２にシャープ化処理を施すことにより、画素間の輝度の変位量を算出し、この変位量から換算される加速度が大きいほどエッジをより強調したエッジ強調フレームを生成する。そして、特徴点抽出部１７は、特徴点抽出処理として、エッジ強調フレームで強調されたエッジに基づいて複数の特徴点２３を抽出すると共に、各特徴点２３の第１特徴量を算出する。

深度検出部１８は、特徴点抽出部１７によって特徴点２３を抽出された処理フレーム２２に深度検出処理を行って、処理フレーム２２の各特徴点２３について周囲の特徴点２３からの相対的な深度を検出する。

例えば、深度検出部１８は、先ず、様々な特徴点分布データを用いて処理フレーム２２の局所領域毎に畳み込み演算を行うことで、処理フレーム２２における局所領域毎の特徴点２３の数（存在確率）の分布を判定する。例えば、特徴点分布データは、オブジェクトを特定する必要はないが、オブジェクトの特徴点２３の分布を示すように作成される。そして、深度検出部１８は、処理フレーム２２内の特徴点２３の分布から、何れかの特徴点分布検出データに対応する分布として、より高い確率で判定されるものを検出する。なお、この畳み込み演算を二次元方向に行うことによって、処理フレーム２２の画像内の実際の３次元空間（現実３次元空間２６、図２参照）における特徴点２３の分布を判定することもできる。

例えば、特徴点分布データは、オブジェクトＤＢ３に格納される参照オブジェクト３ａの特徴点２３の分布を有するように作成され、様々なカテゴリー及びサイズのオブジェクトの特徴点分布データが抽出処理ＤＢ８に予め記憶される。特徴点分布データは、オブジェクト認識装置４によって、高い精度で認識された参照オブジェクト３ａがオブジェクトＤＢ３に格納される際に、特徴点分布判定の機械学習の学習データとして作成されてよい。また、特徴点分布データは、特徴点分布判定によって処理フレーム２２から判定された特徴点分布の内、高い精度で判定されたものによって作成されてもよい。従って、深度検出部１８は、機械学習によって抽出処理ＤＢ８に蓄積された特徴点分布データを使用するため、処理を行う度に、より精度の高い特徴点分布判定を行うことができる。

また、深度検出部１８は、様々なサイズの微小領域（例えば、ａ×ａの画素範囲、ａは３以上の整数）の色変位とその色変位に対応する深度との対応関係を示す色変位−深度データを用いて、処理フレーム２２の微小領域毎に畳み込み演算を行い、処理フレーム２２内の画素の色分布を判定する。例えば、色変位−深度データの色変位は、微小領域において中心画素から見た周囲画素の色データ（例えば、ＲＧＢ）の変位であり、深度は、微小領域において中心画素から見た周囲画素の相対的深度である。そして、深度検出部１８は、上記した特徴点分布判定の結果である処理フレーム２２の特徴点２３の分布に対して、同様のカテゴリー及びサイズを有する様々なオブジェクトの色変位−深度データを用いて、各微小領域の色変位に適合する色変位−深度データとして、より高い確率で判定されるものを検出する。これにより、深度検出部１８は、各特徴点２３について、周囲の特徴点２３からの相対的な深度を検出する。

例えば、色変位−深度データは、オブジェクトＤＢ３に格納される参照オブジェクト３ａの微小領域毎に、色変位とその色変位に対応する深度との対応関係を有するように作成され、様々なカテゴリー及びサイズのオブジェクトの色変位−深度データが、抽出処理ＤＢ８に予め記憶される。色変位−深度データは、オブジェクト認識装置４によって、高い精度で認識された参照オブジェクト３ａがオブジェクトＤＢ３に格納される際に、色分布判定の機械学習の学習データとして作成されてよい。また、色変位−深度データは、色分布判定によって処理フレーム２２から判定された色分布の内、高い精度で判定されたものによって作成されてもよい。従って、深度検出部１８は、機械学習によって抽出処理ＤＢ８に蓄積された色変位−深度データを使用するため、処理を行う度に、より精度の高い色分布判定を行うことができる。

更に、深度検出部１８は、上記した色分布判定の結果に基づいて、処理フレーム２２の各特徴点２３の方向ベクトルを算出する。例えば、所定の特徴点２３の方向ベクトルは、その特徴点２３の座標と、その特徴点２３からの周囲画素（特徴点２３を中心とする微小領域内の画素）の相対的深度とを有している。換言すれば、所定の特徴点２３の方向ベクトルは、処理フレーム２２の画像内の実際の３次元空間（現実３次元空間２６、図２参照）において周囲画素との間の輝度勾配及び色変位（色勾配）の方向を示す。

また、深度検出部１８は、上記の各特徴点２３の方向ベクトルに基づいて、処理フレーム２２内で各特徴点２３間を通る曲線を、各特徴点２３が存在する領域の特徴点分布に応じた方式で作成する。例えば、深度検出部１８は、各特徴点２３と他の特徴点２３（周囲の特徴点）とを制御点として通るスプライン曲線やベジエ曲線等を生成する。また、深度検出部１８は、特徴点２３の分布がスプライン曲線やベジエ曲線等の生成に都合が悪い場合、例えば、所定領域内の特徴点２３が過多又は過密でルンゲ現象が生じる場合には、回帰曲線等を利用して近似曲線化することによって、特徴点２３間の曲線を生成する。これらのように生成される曲線は、処理フレーム２２の画像内の実際の３次元空間（現実３次元空間２６、図２参照）において、各特徴点２３間の輝度勾配及び色変位（色勾配）の方向に沿った曲線となる。

そして、深度検出部１８は、所定の特徴点２３についての周囲の特徴点２３からの相対的な深度を、周囲の特徴点２３毎に生成した曲線に基づいて算出する。これにより、深度検出部１８は、各特徴点２３の周囲の特徴点２３との現実３次元空間２６における相対的な位置関係を検出する。なお、このようにして処理フレーム２２の各特徴点２３について深度（位置関係）を算出した後、所定の特徴点２３についての深度（位置関係）を、周囲の特徴点２３毎に算出された深度（位置関係）に基づいて、適宜調整してもよい。

３次元空間推定部１９は、処理フレーム２２の複数の特徴点２３それぞれの第１特徴量及び深度（周囲の特徴点２３からの相対的な深度）に基づいて処理フレーム２２の画像内の実際の３次元空間（現実３次元空間２６）を推定する。例えば、３次元空間推定部１９は、処理フレーム２２の各特徴点２３の第１特徴量及び深度を相互に対比していくことで、各特徴点２３の深度が適合するような現実３次元空間２６を推定して算出する。また、３次元空間推定部１９は、処理フレーム２２の複数の特徴点２３について、現実３次元空間２６上の第２特徴量を検出する。例えば、各特徴点２３の第２特徴量には、現実３次元空間２６上の３次元座標がある。

オブジェクト抽出部２０は、処理フレーム２２の複数の特徴点２３それぞれの第２特徴量及び色分布に基づいてオブジェクト抽出処理を行う。そして、オブジェクト抽出部２０は、オブジェクト抽出処理によって、処理フレーム２２の複数の特徴点２３の分布状態に応じて、２つ以上の特徴点２３の集合からなる特徴点群２４を検出する。例えば、オブジェクト抽出部２０は、処理フレーム２２を四分木空間分割したときの特徴点２３の分布に基づいて、１組以上の特徴点群２４を検出する。各特徴点群２４は、現実３次元空間２６上の特徴量（座標等）を有していて、オブジェクト抽出部２０は、このようにして検出した特徴点群２４を、抽出元の処理フレーム２２の候補オブジェクト２５として抽出する。

また、オブジェクト抽出部２０は、様々なオブジェクト抽出データを用いて処理フレーム２２の局所領域毎に畳み込み演算を行うことで、オブジェクト抽出データに対応する特徴点群２４を検出してもよい。例えば、オブジェクト抽出データは、オブジェクトＤＢ３に格納される参照オブジェクト３ａの特徴点群２４を示すように作成され、様々なカテゴリー及びサイズのオブジェクトのオブジェクト抽出データが抽出処理ＤＢ８に予め記憶される。オブジェクト抽出データとして、オブジェクト認識装置４によって高い精度で認識された参照オブジェクト３ａが、オブジェクト抽出処理の機械学習の学習データにも利用される。また、オブジェクト抽出データは、オブジェクト抽出処理によって処理フレーム２２から抽出された候補オブジェクト２５の内、高い精度で判定されたものによって作成されてもよい。従って、オブジェクト抽出部２０は、機械学習によってオブジェクトＤＢ３に蓄積された参照オブジェクト３ａを使用するため、処理を行う度に、より精度の高いオブジェクト抽出処理を行うことができる。

更に、オブジェクト抽出部２０は、抽出した候補オブジェクト２５を抽出元の処理フレーム２２に関連付けて記憶部１１に記憶し、処理フレーム２２を動画データ２１から取得した場合には、抽出した候補オブジェクト２５を動画データ２１にも関連付ける。候補オブジェクト２５は、対応する特徴点群２４に関する情報として、特徴点群２４を構成する各特徴点２３の第１特徴量、深度及び第２特徴量を含んでいる。また、オブジェクト抽出部２０は、抽出元の処理フレーム２２を候補オブジェクト２５に付加する。

なお、オブジェクト抽出部２０は、動画データ２１をオブジェクト抽出処理の対象とする場合に、動画データ２１を構成する複数の処理フレーム２２の内、時間軸において前後に連続していて同一シーンを構成する２つ以上の共通の処理フレーム２２のそれぞれについてオブジェクト抽出処理を行うときには、共通の処理フレーム２２に共通して検出された特徴点群２４を、同一シーンに共通する候補オブジェクト２５とする。このとき、同一シーンの共通の処理フレーム２２間で候補オブジェクト２５が移動している場合には、同一シーンに共通する候補オブジェクト２５は、特徴点群２４（現実３次元空間２６上の特徴量）の移動量（同一シーン上の時間変位量）も含む。

そして、オブジェクト抽出装置２は、上記のようにして抽出した候補オブジェクト２５を、画像データ情報及びフレーム情報と共に、オブジェクト認識処理のためにオブジェクト認識装置４へと出力する。

なお、オブジェクト抽出装置２は、動画データ２１をオブジェクト抽出処理の対象とするとき、フレーム調整部１６による調整後の複数の処理フレーム２２に対して近似判定を行って、近似する処理フレーム２２については特徴点抽出部１７、深度検出部１８、３次元空間推定部１９及びオブジェクト抽出部２０の処理対象から除外してもよい。例えば、前後に連続して近似する２つの処理フレーム２２については、先行の処理フレーム２２を処理対象とすると共に、後続の処理フレーム２２を処理対象から除外する。なお、先の近似判定において後続の処理フレーム２２を処理対象から除外した場合には、今回の近似判定において後続の処理フレーム２２と比較される処理フレーム２２は、先の近似判定で処理対象とした処理フレーム２２となる。

次に、オブジェクトＤＢ３について説明する。オブジェクトＤＢ３は、上記したように、オブジェクト認識処理に用いられる複数の参照オブジェクト３ａを格納している。オブジェクトＤＢ３は、オブジェクト認識装置４がオブジェクト認識処理を行う際に、オブジェクト認識装置４から参照オブジェクト出力の指示を受けると、格納している参照オブジェクト３ａを順次、オブジェクト認識装置４へと出力する。

各参照オブジェクト３ａは、オブジェクト抽出装置２によって抽出される候補オブジェクト２５と同様に、２次元平面画像（以下、元画像と称する）から現実３次元空間上の特徴量を有する特徴点の特徴点群として抽出されたものであり、特徴点群を構成する各特徴点の第１特徴量、深度及び第２特徴量を含んでよい。参照オブジェクト３ａには、元画像が付加され、更に、参照オブジェクト３ａに関連する付属情報も付加される。付属情報には、例えば、参照オブジェクト３ａを特定する特定情報や、元画像に付属する元画像情報、元画像の取得元の動画に付属する動画情報、元画像や動画の取得元のウェブサイトの記述内容に含まれる情報等がある。

更に、オブジェクトＤＢ３は、複数の参照オブジェクト３ａをそれぞれの付属情報に基づいて、複数のカテゴリーに分類して格納している。カテゴリーは、人物や物等の大枠のカテゴリーや、特定の人物や特定の物等の小枠のカテゴリー等の複数段階のカテゴリーに分けられてよい。そして、オブジェクトＤＢ３は、共通する付属情報を有する２つ以上の参照オブジェクト３ａについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納している。なお、オブジェクトＤＢ３は、オブジェクト認識装置４がオブジェクト認識処理を行う際に、オブジェクト認識装置４からカテゴリーを特定して参照オブジェクト出力の指示を受けると、その特定されたカテゴリーに格納している参照オブジェクト３ａをオブジェクト認識装置４へと出力することもできる。

オブジェクトＤＢ３に格納される参照オブジェクト３ａは、オブジェクト抽出装置２及びオブジェクト認識装置４によって作成することができ、また、上記のような構成を有していれば他の手段によって作成してもよい。例えば、オブジェクトＤＢ３は、オブジェクト認識装置４によるオブジェクト認識処理後の候補オブジェクト２５を、オブジェクト認識処理の機械学習の学習データとして入力し、参照オブジェクト３ａとして格納することができる。従って、オブジェクト認識装置４は、機械学習によってオブジェクトＤＢ３に蓄積された参照オブジェクト３ａを使用するため、処理を行う度に、より精度の高いオブジェクト認識処理を行うことができる。

この場合、オブジェクト認識装置４によって所定の参照オブジェクト３ａに相当すると判定された候補オブジェクト２５は、参照オブジェクト３ａに基づいて、後述のオブジェクト情報が付加され、この所定の参照オブジェクト３ａが分類されるカテゴリーの新たな参照オブジェクト３ａとしてオブジェクトＤＢ３に格納される。一方、オブジェクト認識装置４によって何れの参照オブジェクト３ａにも相当しないと判定された候補オブジェクト２５は、この候補オブジェクト２５が分類される新たなカテゴリーの参照オブジェクト３ａとしてオブジェクトＤＢ３に格納される。

次に、オブジェクト認識装置４について説明する。オブジェクト認識装置４は、上記のようにオブジェクト認識処理を行うように構成され、オブジェクト抽出装置２によって抽出された候補オブジェクト２５が、オブジェクトＤＢ３に格納されている複数の参照オブジェクト３ａの何れに相当するかを判定する。

例えば、オブジェクト認識装置４は、オブジェクト抽出装置２から候補オブジェクト２５を入力すると、オブジェクトＤＢ３に対して参照オブジェクト出力を指示する。そして、オブジェクト認識装置４は、オブジェクトＤＢ３から参照オブジェクト３ａを入力すると、候補オブジェクト２５が参照オブジェクト３ａに相当するか否かを判定する。例えば、オブジェクト認識装置４は、候補オブジェクト２５の特徴点群２４（現実３次元空間上の特徴量）及びその抽出元の処理フレーム２２における色分布と、参照オブジェクト３ａの特徴点群（現実３次元空間上の特徴量）及びその元画像における色分布とを比較して、参照オブジェクト３ａの候補オブジェクト２５との類似度を算出する。このように、候補オブジェクト２５の抽出時に、候補オブジェクト２５に処理フレーム２２を付加しておくことで、候補オブジェクト２５を利用する際に、その色分布も用いることができる。なお、この比較処理では、候補オブジェクト２５と参照オブジェクト３ａとは、現実３次元空間上の特徴量が比較されるため、一方の向きや大きさを他方に合わせる必要がない。

そして、オブジェクト認識装置４は、複数の参照オブジェクト３ａについて候補オブジェクト２５との類似度を算出し、より類似度の高い参照オブジェクト３ａ、例えば、所定の類似度閾値以上の参照オブジェクト３ａを、候補オブジェクト２５に相当すると判定する。このとき、オブジェクト認識装置４は、類似度の高い参照オブジェクト３ａの付属情報から候補オブジェクト２５に関連する情報を取得して、オブジェクト情報を生成して候補オブジェクト２５に付加する。なお、オブジェクト情報の作成のために、１つの参照オブジェクト３ａのみの付属情報を用いてもよく、あるいは、類似度の高い２つ以上の参照オブジェクト３ａの付属情報を用いてもよい。更に、オブジェクト情報の作成のために、オブジェクトＤＢ３における参照オブジェクト３ａの分類情報を用いてもよい。

一方、オブジェクト認識装置４は、各参照オブジェクト３ａの候補オブジェクト２５との類似度が何れも所定の類似度閾値未満であった場合には、その候補オブジェクト２５が何れの参照オブジェクト３ａにも相当しないと判定する。

また、オブジェクト認識装置４は、何れの判定があった場合でも、候補オブジェクト２５をオブジェクト認識処理の機械学習のための学習データとしてオブジェクトＤＢ３へと出力して参照オブジェクト３ａとして格納させる。

また、オブジェクト認識システム１は、オブジェクトＤＢ３の参照オブジェクト３ａを増やすために画像収集装置７を備える。画像収集装置７は、ネットワーク５を介して参照オブジェクト３ａを有する動画や静止画の画像を検索して収集する画像収集クローラを備える。そして、画像収集装置７は、画像収集クローラ機能を実行すると、ネットワーク５を介して画像収集装置７に接続された外部の動画ＤＢ６やその他の端末に格納された動画データ２１（図２参照）や静止画データ等の画像データを順次収集する。なお、画像収集装置７は、ネットワーク５に公開された全ての画像データを収集してもよいが、操作者によって選択されたカテゴリー（業種）やキーワードに基づいて画像データを検索して収集してもよい。

画像収集装置７は、オブジェクト抽出装置２に接続されていて、収集した画像データをオブジェクト抽出装置２へと出力する。オブジェクト抽出装置２では、上記のようにして、画像データから候補オブジェクト２５が抽出されてオブジェクト認識装置４へと出力される。オブジェクト認識装置４では、上記のようにして、オブジェクトＤＢ３の参照オブジェクト３ａを用いて候補オブジェクト２５のオブジェクト認識処理が行われ、更に、オブジェクト認識処理後の候補オブジェクト２５は、学習データとなり参照オブジェクト３ａとしてオブジェクトＤＢ３に格納される。このように、画像収集装置７を利用することで、オブジェクトＤＢ３に格納される参照オブジェクト３ａの数が増大し、オブジェクト認識装置４によるオブジェクト認識処理の精度を高めることができる。

なお、画像収集装置７は、オブジェクト抽出装置２、オブジェクトＤＢ３及びオブジェクト認識装置４とは独立して設けられてもよく、あるいは何れかと一体的に構成されてもよい。

また、上記したようなオブジェクト認識システム１は、動画データ２１（図２参照）のメタデータ作成処理を行うメタデータ作成システム３０に適用される。メタデータ作成システム３０は、メタデータ３２ａを作成するメタデータ作成装置３１と、作成されたメタデータ３２ａを格納するメタデータデータベース（ＤＢ）３２とを備える。本実施形態では、メタデータ作成装置３１及びメタデータＤＢ３２が、１つずつ備えられる例を説明するが、複数のメタデータ作成装置３１及び複数のメタデータＤＢ３２が備えられてよい。メタデータＤＢ３２は、１つのメタデータ作成装置３１で利用されるものに限定されず、複数のメタデータ作成装置３１で利用可能に設けられてよい。

メタデータ作成装置３１は、ネットワーク５を介してメタデータＤＢ３２と相互に通信可能に接続され、また、オブジェクト認識システム１のオブジェクト抽出装置２及びオブジェクト認識装置４とも相互に通信可能に接続される。なお、メタデータ作成装置３１は、メタデータＤＢ３２と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。

メタデータＤＢ３２は、動画データ２１のタイトルや動画ＩＤを検索キーワードとすることで、その動画データ２１に対応するメタデータ３２ａを検索できるように複数のメタデータ３２ａを格納している。メタデータＤＢ３２は、作成日時の新しい動画データ２１や検索頻度が高い動画データ２１、推奨している動画データ２１等のメタデータ３２ａが優先的に検索されるようにメタデータ３２ａを格納するとよい。

なお、複数のメタデータＤＢ３２は、各メタデータＤＢ３２に格納されるメタデータ３２ａを統括管理していて、動画データ２１のタイトルや動画ＩＤを指定すると複数のメタデータＤＢ３２に亘ってメタデータ３２ａが検索される。複数のメタデータＤＢ３２は、一の動画データ２１に基づく一のメタデータ３２ａを、２つ以上のメタデータＤＢ３２に重複して格納せずに、何れか１つのメタデータＤＢ３２に格納する。また、複数のメタデータＤＢ３２は、動画データ２１のカテゴリー別に備えられていてもよい。

メタデータ作成装置３１は、所定の動画データ２１の動画情報、所定の動画データ２１を構成する複数の処理フレーム２２の各フレーム情報、及び各処理フレーム２２から抽出及び認識された候補オブジェクト２５のオブジェクト情報を入力すると、これらの情報を集計して所定の動画データ２１のメタデータ３２ａを作成する。また、メタデータ作成装置３１は、所定の動画データ２１について作成したメタデータ３２ａをメタデータＤＢ３２へと格納する。

例えば、メタデータ３２ａには、動画データ２１のタイトル、出演者名等の動画情報が記述され、更に、動画データ２１を構成する複数の処理フレーム２２の再生順に、各処理フレーム２２の再生時間等のフレーム情報が記述される。また、メタデータ３２ａには、各処理フレーム２２のフレーム情報に付随して、各処理フレーム２２から抽出された候補オブジェクト２５のオブジェクト情報が記述される。即ち、メタデータ３２ａでは、フレーム情報及びオブジェクト情報はタイムライン上に示される。

なお、同一シーンの２つ以上の共通する処理フレーム２２について、メタデータ３２ａには、同一シーンの時間帯等のシーン情報が記述され、また、同一シーンのシーン情報に付随して、同一シーンに共通する候補オブジェクト２５のオブジェクト情報が記述される。このようなシーン情報も、メタデータ３２ａではタイムライン上に示される。また、同一シーンの先頭及び最後尾の処理フレーム２２以外の各処理フレーム２２については、フレーム情報やオブジェクト情報の記述は省略してもよい。

次に、上記のような構成を備えたオブジェクト認識システム１及びメタデータ作成システム３０における所定の動画データ２１のメタデータ作成動作について、図３のフローチャートを参照して説明する。

メタデータ作成システム３０では、所定の動画データ２１についてメタデータ作成処理を行うとき、この所定の動画データ２１がオブジェクト認識システム１のオブジェクト抽出装置２へと入力され（ステップＳ１）、画像入力部１３によって、この動画データ２１の画像データ情報、即ち、動画情報が抽出される。

また、オブジェクト抽出装置２では、フレーム取得部１４によって、この動画データ２１を構成する複数の処理フレーム２２が取得されると共に（ステップＳ２）、各処理フレーム２２のフレーム情報が抽出される。更に、各処理フレーム２２は、最適な特徴点抽出処理や深度検出処理ができるように、高画質化部１５によって高画質化され、フレーム調整部１６によって調整される（ステップＳ３）。

そして、特徴点抽出部１７によって、各処理フレーム２２の複数の特徴点２３が抽出されると共に、各特徴点２３の２次元画像上の第１特徴量が検出され（ステップＳ４）、更に、深度検出部１８によって、各特徴点２３の周囲の特徴点２３からの深度が検出される（ステップＳ５）。また、３次元空間推定部１９によって、各処理フレーム２２の複数の特徴点２３の第１特徴量及び深度に基づいて、各処理フレーム２２の現実３次元空間２６が推定され、各特徴点２３の現実３次元空間２６上の第２特徴量が検出される（ステップＳ６）。

次に、オブジェクト抽出部２０によって、各処理フレーム２２の複数の特徴点２３の第２特徴量及び色分布に基づいて、特徴点群２４、即ち、候補オブジェクト２５が抽出され（ステップＳ７）、候補オブジェクト２５には対応する処理フレーム２２が付加される。

そして、オブジェクト抽出装置２は、所定の動画データ２１の動画情報及びこの動画データ２１を構成する複数の処理フレーム２２の各フレーム情報と共に、各処理フレーム２２から抽出した候補オブジェクト２５をオブジェクト認識装置４へと出力する。

オブジェクト認識装置４では、上記のようにしてオブジェクト抽出装置２から入力した候補オブジェクト２５のオブジェクト認識処理が行われて（ステップＳ８）、この候補オブジェクト２５がオブジェクトＤＢ３に格納された参照オブジェクト３ａに相当するか否かが判定される。

そして、候補オブジェクト２５が一の参照オブジェクト３ａに相当すると判定されると、この一の参照オブジェクト３ａの付属情報に基づいてオブジェクト情報が生成されて候補オブジェクト２５に付加される（ステップＳ９）。一方、候補オブジェクト２５が何れの参照オブジェクト３ａにも相当しないと判定されると、所定の動画データ２１の動画情報及びこの候補オブジェクトに対応する処理フレーム２２のフレーム情報等に基づいて生成されたオブジェクト情報が候補オブジェクト２５に付加される。

そして、オブジェクト認識処理後の候補オブジェクト２５は、学習データ生成のために、参照オブジェクト３ａとしてオブジェクトＤＢ３に格納される（ステップＳ１０）。

更に、オブジェクト認識装置４では、所定の動画データ２１の動画情報、動画データ２１を構成する複数の処理フレーム２２の各フレーム情報、及び各処理フレーム２２の候補オブジェクト２５のオブジェクト情報がメタデータ作成装置３１へと出力される。

メタデータ作成装置３１では、オブジェクト認識装置４から入力した動画情報、各フレーム情報及び各オブジェクト情報が集計され、その集計結果に基づいて、所定の動画データ２１のメタデータ３２ａが作成される（ステップＳ１１）。このメタデータ３２ａは、メタデータＤＢ３２に格納される（ステップＳ１２）。

また、上記したようなメタデータ作成システム３０は、所定の動画データ２１のメタデータ配信処理を行うメタデータ配信システム４０に適用される。メタデータ配信システム４０は、メタデータ３２ａを配信するメタデータ配信装置４１を備える。

メタデータ配信装置４１は、ネットワーク５を介してメタデータＤＢ３２と相互に通信可能に接続され、また、視聴者端末４２とも相互に通信可能に接続される。なお、メタデータ配信装置４１は、メタデータＤＢ３２と相互にデータ送受信可能であれば、直接的に接続されてもよく、あるいは、一体的に構成されてもよい。また、メタデータ配信装置４１は、メタデータ作成装置３１と一体的に構成されてもよい。

メタデータ配信装置４１は、視聴者端末４２からのアクセスに応じて、動画データ２１のメタデータ３２ａをメタデータＤＢ３２から取得して提供するように構成される。また、メタデータ配信装置４１は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末４２からの要求に応じて動画データ２１のメタデータ３２ａを提供するように構成されてもよい。

視聴者端末４２は、例えば、ネットワーク５に接続可能であって、ネットワーク５を介して配信された動画データ２１を再生可能なスマートフォン、携帯電話機及びタブレット等の携帯端末や、パーソナルコンピュータ及びテレビ等の据え置き型端末でよい。あるいは、視聴者端末４２は、例えば、ネットワーク５に接続可能であって、ＤＶＤ等の記憶媒体に記憶された動画データ２１を読み出して再生可能な再生装置でもよい。

例えば、視聴者端末４２は、視聴者端末４２からのアクセスに応じて動画データ２１をダウンロード方式やストリーミング方式で配信する動画ＤＢ６にネットワーク５を介して接続され、動画ＤＢ６から配信された動画データ２１を再生する。なお、動画ＤＢ６は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末４２からの要求に応じて動画データ２１を配信するように構成されてもよい。

本実施形態では、上述のように、オブジェクト抽出装置２は、動画データ２１を構成する２次元画像の複数のフレームの内、オブジェクト抽出対象の処理フレーム２２に特徴点抽出処理を行って、処理フレーム２２の複数の特徴点２３を抽出すると共に、各特徴点２３の２次元画像上の第１特徴量を検出し、処理フレーム２２に深度検出処理を行って、処理フレーム２２の各特徴点２３について周囲の特徴点２３からの相対的な深度を検出し、処理フレーム２２に３次元空間推定処理を行って、処理フレーム２２の複数の特徴点２３それぞれの少なくとも第１特徴量及び深度に基づいて処理フレーム２２内の現実３次元空間２６を推定し、処理フレーム２２の複数の特徴点２３の現実３次元空間２６上の第２特徴量を検出し、処理フレーム２２の複数の特徴点２３それぞれの少なくとも第２特徴量及び色分布に基づいてオブジェクト抽出処理を行って、処理フレーム２２の２つ以上の特徴点２３の集合からなる特徴点群２４を検出し、現実３次元空間２６上の特徴量を有する特徴点群２４を、処理フレーム２２の候補オブジェクト２５として抽出する。

このような構成により、処理フレーム２２の各特徴点２３の現実３次元空間２６上の第２特徴量及び色分布に基づいて、２つ以上の特徴点２３の集合からなる特徴点群２４を判断するため、より高精度でオブジェクトを抽出することができる。また、３次元画像を撮影する撮像装置によって生成された動画データを用いることなく、処理フレーム２２から現実３次元空間２６上の特徴量を有する候補オブジェクト２５を抽出することができる。更に、この候補オブジェクト２５は、現実３次元空間２６上の特徴量を有するため、撮影角度に依存することなく、人物や物等の特徴を識別することができ、従って、高精度で認識することができる。これにより、認識したオブジェクトの情報の利便性を高めて、動画の利用及び普及の向上を図ることが可能となる。

また、本実施形態によれば、オブジェクト抽出装置２は、動画データ２１を構成する複数の処理フレーム２２の内、時間軸において前後に連続していて同一シーンを構成する２つ以上の共通の処理フレーム２２がある場合に、２つ以上の共通の処理フレーム２２のそれぞれについて深度検出処理、３次元空間推定処理及びオブジェクト抽出処理を行うとき、現実３次元空間２６上の特徴量を有する特徴点群２４であって、２つ以上の共通の処理フレーム２２に共通して検出された特徴点群２４を、同一シーンの候補オブジェクト２５として抽出する。

このような構成により、現実３次元空間２６上の特徴量を用いることで、撮影した角度に拘らず、同一シーンに登場する同一のオブジェクトを高精度で認識することができる。

また、本実施形態によれば、オブジェクト抽出装置２は、２つ以上の共通の処理フレーム２２のそれぞれに特徴点抽出処理を行うとき、一の共通の処理フレーム２２から抽出された複数の特徴点２３と、他の共通の処理フレーム２２から抽出された複数の特徴点２３との差異を利用して、一の共通の処理フレーム２２の特徴点２３を増やす。

このような構成により、より多くの特徴点２３を有する候補オブジェクト２５を抽出することができ、オブジェクト認識処理では、より多くの特徴点２３を用いるため、候補オブジェクト２５の認識精度を高めることができる。

また、本実施形態によれば、オブジェクト抽出装置２において、同一シーンの候補オブジェクト２５は、現実３次元空間２６上の特徴量に加えて、この現実３次元空間２６上の特徴量の同一シーン上の時間変位量も有する。

このような構成により、同一シーンの候補オブジェクト２５の現実３次元空間２６上の動作の特徴量を抽出することができる。そして、オブジェクトの様々な動作の特徴を記録した参照オブジェクト３ａをオブジェクトＤＢ３に格納して、オブジェクト認識装置４が候補オブジェクト２５の動作と参照オブジェクト３ａの動作とを比較することにより、候補オブジェクト２５がどのような動作をしているかを判断することもできる。なお、この場合の動作の特徴量は、候補オブジェクト２５の種類まで特定する必要はないが、処理フレーム２２に対する出現及び退出等、現実３次元空間２６上の移動方向及び移動量、回転動作等を識別可能であればよい。

あるいは、本実施形態によれば、オブジェクト抽出装置２は、動画データ２１を高画質化処理することにより、処理フレーム２２で候補オブジェクト２５として抽出される特徴点群２４の特徴点２３を増やす。

例えば、高画質化処理は、微小領域毎に様々な色分布を有する複数のテンプレート画像のそれぞれについて高画質データ及び低画質データの相違をサンプル化した様々な色分布の学習データを予め記憶しておき、処理フレームの微小領域毎に最も適合した学習データを用いて処理フレーム２２を高画質化する。

これらのような構成により、より多くの特徴点２３を有する候補オブジェクト２５を抽出することができ、オブジェクト認識処理では、より多くの特徴点２３を用いるため、候補オブジェクト２５の認識精度を高めることができる。

更に、本実施形態では、上述のように、オブジェクト認識システム１は、上記のオブジェクト抽出装置２と、候補オブジェクト２５を認識するための複数の参照オブジェクト３ａを、各参照オブジェクト３ａの元画像及び各参照オブジェクト３ａに関連する付属情報と共に格納するデータベースであって、各参照オブジェクト３ａの元画像に対する特徴点抽出処理、深度検出処理、３次元空間推定処理及びオブジェクト抽出処理によって、その元画像の現実３次元空間上の特徴量を有する特徴点群として抽出された各参照オブジェクト３ａを格納しているオブジェクトＤＢ３と、オブジェクト抽出装置２によって抽出された候補オブジェクト２５が、オブジェクトＤＢ３に格納されている複数の参照オブジェクト３ａの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置４と、を備える。そして、オブジェクト認識装置４は、候補オブジェクト２５が複数の参照オブジェクト３ａの内の一の参照オブジェクト３ａに相当すると判定した場合に、一の参照オブジェクト３ａの付属情報に基づいて生成したオブジェクト情報を候補オブジェクト２５に付加する。

このような構成により、高精度に抽出された候補オブジェクト２５と、高精度に抽出された参照オブジェクト３ａとを比較するため、候補オブジェクト２５を高精度に認識処理することができる。そして、候補オブジェクト２５には、参照オブジェクト３ａの付属情報に基づいて精錬されたオブジェクト情報を生成するので、候補オブジェクト２５をより適切に特定するオブジェクト情報が付加され、オブジェクト情報の利便性を高めることができる。

また、本実施形態によれば、オブジェクト認識システム１において、オブジェクト認識処理は、候補オブジェクト２５の特徴点群２４及び処理フレーム２２における色分布と、参照オブジェクト３ａの特徴点群及び元画像における色分布とを比較することによって行われる。

このような構成により、候補オブジェクト２５を特定する高精度な識別量と、参照オブジェクト３ａを特定する高精度な識別量とが比較されるため、候補オブジェクト２５の高精度な認識処理を実現している。

また、本実施形態によれば、オブジェクト認識システム１において、オブジェクトＤＢ３は、複数の参照オブジェクト３ａをそれぞれの付属情報に基づいて分類していて、共通する付属情報を有する２つ以上の参照オブジェクト３ａについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納している。

このような構成により、オブジェクトＤＢ３は、参照オブジェクト３ａを付属情報に基づいて容易に検索することができ、更に、カテゴリーに基づいて容易に検索することもできる。

また、本実施形態によれば、オブジェクト認識システム１は、複数の参照オブジェクト３ａの内の一の参照オブジェクト３ａに相当すると判定された候補オブジェクト２５を、一の参照オブジェクト３ａが分類されるカテゴリーの新たな参照オブジェクト３ａとしてオブジェクトＤＢ３に格納する。

なお、オブジェクト認識システム１は、複数の参照オブジェクト３ａの何れにも相当しないと判定された候補オブジェクト２５を、この候補オブジェクト２５が分類される新たなカテゴリーの参照オブジェクト３ａとしてオブジェクトＤＢに格納する。

これらのような構成により、オブジェクト認識処理の結果の候補オブジェクト２５を、参照オブジェクト３ａの学習データとすることができる。また、様々な動画データのオブジェクト認識処理をしていくことにより、高精度な認識結果の候補オブジェクト２５に基づく学習データを増やすことができる。そのため、オブジェクト認識システム１の機械学習がより優秀となり、オブジェクト認識処理の精度及びの効率を向上させることができる。

更に、本実施形態では、上述のように、メタデータ作成システムは、上記のオブジェクト認識システム１を備え、所定の動画データ２１の動画情報と、所定の動画データ２１を構成する複数の処理フレーム２２のフレーム情報と、複数の処理フレーム２２のそれぞれから抽出及び認識された候補オブジェクト２５のオブジェクト情報とを集計して、その集計結果に基づいて、動画データ２１に関するメタデータ３２ａを作成する。

このような構成により、候補オブジェクト２５が高精度に認識されたフレーム情報や候補オブジェクト２５をより適切に特定するオブジェクト情報を用いてメタデータ３２ａを作成している。そのため、メタデータ３２ａには、候補オブジェクト２５の登場する処理フレーム２２が適切に記述され、また、候補オブジェクト２５についての説明が適切に記述されるので、動画データ２１の内容が適切に反映されることとなる。これにより、メタデータ３２ａの利用価値が向上し、更には、メタデータ３２ａに対応する動画データ２１の利用及び普及の向上を図ることができる。

本実施形態では、オブジェクト抽出装置２がオブジェクト認識システム１に適用される構成を説明したが、この構成に限定されない。例えば、他の実施形態では、オブジェクト抽出装置２は、被写体を撮影した画像から被写体の候補オブジェクト２５を抽出し、この候補オブジェクト２５の３次元空間上の特徴量に基づいて、立体画像を立体表示スクリーンに表示させる立体表示システム等に適用することもできる。

１オブジェクト認識システム
２オブジェクト抽出装置
３オブジェクトデータベース（ＤＢ）
３ａ参照オブジェクト
４オブジェクト認識装置
５ネットワーク
６動画データベース（ＤＢ）
７画像収集装置
８抽出処理データベース（ＤＢ）
１０制御部
１１記憶部
１２通信部
１３動画入力部
１４フレーム取得部
１５高画質化部
１６フレーム調整部
１７特徴点抽出部
１８深度検出部
１９３次元空間推定部
２０オブジェクト抽出部
２１動画データ
２２処理フレーム
２３特徴点
２４特徴点群
２５候補オブジェクト
２６現実３次元空間
３０メタデータ作成システム
３１メタデータ作成装置
３２メタデータデータベース（ＤＢ）
３２ａメタデータ
４０メタデータ配信システム
４１メタデータ配信装置
４２視聴者端末

Claims

動画データを構成する２次元画像の複数のフレームの内、オブジェクト抽出対象の処理フレームに特徴点抽出処理を行って、前記処理フレームの複数の特徴点を抽出すると共に、前記各特徴点の２次元画像上の第１特徴量を検出し、
前記処理フレームに深度検出処理を行って、前記処理フレームの各特徴点について周囲の特徴点からの相対的な深度を検出し、
前記処理フレームに３次元空間推定処理を行って、前記処理フレームの複数の特徴点それぞれの少なくとも前記第１特徴量及び前記深度に基づいて前記処理フレーム内の現実３次元空間を推定し、前記処理フレームの複数の特徴点の前記現実３次元空間上の第２特徴量を検出し、
前記処理フレームの複数の特徴点それぞれの少なくとも前記第２特徴量及び色分布に基づいてオブジェクト抽出処理を行って、前記処理フレームの２つ以上の特徴点の集合からなる特徴点群を検出し、前記現実３次元空間上の特徴量を有する前記特徴点群を、前記処理フレームの候補オブジェクトとして抽出することを特徴とするオブジェクト抽出装置。
前記動画データを構成する複数の前記処理フレームの内、時間軸において前後に連続していて同一シーンを構成する２つ以上の共通の処理フレームがある場合に、
前記２つ以上の共通の処理フレームのそれぞれについて前記深度検出処理、前記３次元空間推定処理及び前記オブジェクト抽出処理を行うとき、前記現実３次元空間上の特徴量を有する特徴点群であって、前記２つ以上の共通の処理フレームに共通して検出された特徴点群を、前記同一シーンの候補オブジェクトとして抽出することを特徴とする請求項１に記載のオブジェクト抽出装置。
前記２つ以上の共通の処理フレームのそれぞれに前記特徴点抽出処理を行うとき、一の前記共通の処理フレームから抽出された複数の特徴点と、他の前記共通の処理フレームから抽出された複数の特徴点との差異を利用して、前記一の共通の処理フレームの特徴点を増やすことを特徴とする請求項２に記載のオブジェクト抽出装置。
前記同一シーンの候補オブジェクトは、前記現実３次元空間上の特徴量に加えて、該現実３次元空間上の特徴量の前記同一シーン上の時間変位量も有することを特徴とする請求項２又は３に記載のオブジェクト抽出装置。
前記動画データを高画質化処理することにより、前記処理フレームで前記候補オブジェクトとして抽出される特徴点群の特徴点を増やすことを特徴とする請求項１〜４の何れか１項に記載のオブジェクト抽出装置。
前記高画質化処理は、微小領域毎に様々な色分布を有する複数のテンプレート画像のそれぞれについて高画質データ及び低画質データの相違をサンプル化した様々な色分布の学習データを予め記憶しておき、前記処理フレームの微小領域毎に最も適合した前記学習データを用いて前記処理フレームを高画質化することを特徴とする請求項５に記載のオブジェクト抽出装置。
請求項１〜６の何れか１項に記載のオブジェクト抽出装置と、
前記候補オブジェクトを認識するための複数の参照オブジェクトを、前記各参照オブジェクトの元画像及び前記各参照オブジェクトに関連する付属情報と共に格納するデータベースであって、前記各参照オブジェクトの元画像に対する前記特徴点抽出処理、前記深度検出処理、前記３次元空間推定処理及び前記オブジェクト抽出処理によって、その元画像の現実３次元空間上の特徴量を有する特徴点群として抽出された前記各参照オブジェクトを格納しているオブジェクトデータベースと、
前記オブジェクト抽出装置によって抽出された前記候補オブジェクトが、前記オブジェクトデータベースに格納されている前記複数の参照オブジェクトの何れに相当するかのオブジェクト認識処理を行うオブジェクト認識装置と、を備え、
前記オブジェクト認識装置は、前記候補オブジェクトが前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定した場合に、前記一の参照オブジェクトの前記付属情報に基づいて生成したオブジェクト情報を前記候補オブジェクトに付加することを特徴とするオブジェクト認識システム。
前記オブジェクト認識処理は、前記候補オブジェクトの特徴点群及び前記処理フレームにおける色分布と、前記参照オブジェクトの特徴点群及び元画像における色分布とを比較することによって行われることを特徴とする請求項７に記載のオブジェクト認識システム。
前記オブジェクトデータベースは、前記複数の参照オブジェクトをそれぞれの付属情報に基づいて分類していて、共通する付属情報を有する２つ以上の参照オブジェクトについては、その共通の付属情報を分類情報とした共通のカテゴリーに分類して格納していることを特徴とする請求項７又は８に記載のオブジェクト認識システム。
前記複数の参照オブジェクトの内の一の参照オブジェクトに相当すると判定された前記候補オブジェクトを、前記一の参照オブジェクトが分類されるカテゴリーの新たな参照オブジェクトとして前記オブジェクトデータベースに格納することを特徴とする請求項７〜９の何れか１項に記載のオブジェクト認識システム。
前記複数の参照オブジェクトの何れにも相当しないと判定された前記候補オブジェクトを、該候補オブジェクトが分類される新たなカテゴリーの参照オブジェクトとして前記オブジェクトデータベースに格納することを特徴とする請求項１０に記載のオブジェクト認識システム。
請求項７〜１１の何れか１項に記載のオブジェクト認識システムを備え、
所定の前記動画データの動画情報と、前記所定の動画データを構成する複数の前記処理フレームのフレーム情報と、前記複数の処理フレームのそれぞれから抽出及び認識された前記候補オブジェクトの前記オブジェクト情報とを集計して、その集計結果に基づいて、前記動画データに関するメタデータを作成することを特徴とするメタデータ作成システム。