JP4568357B2 - 動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム - Google Patents

動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Download PDF

Info

Publication number
JP4568357B2
JP4568357B2 JP2008236829A JP2008236829A JP4568357B2 JP 4568357 B2 JP4568357 B2 JP 4568357B2 JP 2008236829 A JP2008236829 A JP 2008236829A JP 2008236829 A JP2008236829 A JP 2008236829A JP 4568357 B2 JP4568357 B2 JP 4568357B2
Authority
JP
Japan
Prior art keywords
moving image
vector
viewpoint
model
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008236829A
Other languages
English (en)
Other versions
JP2010033528A (ja
Inventor
成章 増野
吉高 松本
真吾 加藤
哲也 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008236829A priority Critical patent/JP4568357B2/ja
Priority to US12/474,835 priority patent/US8428304B2/en
Publication of JP2010033528A publication Critical patent/JP2010033528A/ja
Application granted granted Critical
Publication of JP4568357B2 publication Critical patent/JP4568357B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • G06T2207/30224Ball; Puck

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本発明は、少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。
メディアとして、動画の使用が急速に増えてきている。また、多くの動画データが、インターネット、放送局、家庭などにおいて蓄積されている。ユーザは、多くの動画データの中から特定の対象物(オブジェクト)或いは事象を含むシーンを検索することを望んでいる。
下記特許文献1は、利用者がマウス等の空間的な位置を変化させることの可能なデバイスを動かして、検索条件となるベクトル列を入力すること、及びマッチングが実行されて、入力された動きのシーンを含む動画が検索されることを記載する。しかし、特許文献1の発明では、入力する動きとして2次元を仮定している。
下記非特許文献1は、サッカー番組における動作カテゴリー化処理を伴う動画検索手法を記載する。本検索手法は、テキストによる検索に加えて、例示動画像検索機能を有する。例示動画検索は、例示されたシーンから類似したシーンを検索する方法であり、映像中のオブジェクトから抽出した画像特徴量を用いて、オブジェクトの動作カテゴリー化処理を行う。該動作カテゴリー処理では、多変量解析の一手法である判別分析が用いられる。しかし、本検索手法は、例示動画像そのものがないときに適用することができない。また、例示動画像を見つける作業それ自体が、動画検索に相当する。
特開平5−108730号公報 福田淳ら、サッカー番組における動作カテゴリー化処理を伴う動画検索手法、映像情報メディア学会誌、Vol.56、No.10、1674-1680頁、2002年
ユーザは、例えばサッカーのあるフリーキックのシーンを、正面からの動画だけでなく真後側或いは横側からの動画を見たい場合がある(図1Aを参照)。このような状況下では、ユーザは、正面から撮影された動画データではなく、真後側或いは横側から撮影された動画データを検索する必要がある。該検索では、ユーザが見たい方向からの対象物(以下、主眼オブジェクト)の動き(例えば、ボール或いは選手の動き)又は事象(例えば、フリーキックのシーン)に注目して動画データから目的のシーンを検索する必要がある。しかし、ユーザは、従来の方法では、上記の様な細かい検索条件を指定することができない。なぜならば、主眼オブジェクトを見る視点によって、ボールの動き或いは選手の動きが異なるためである(図1Bを参照)。そのために、指定した視点以外の動画を検索することは困難である。そこで、多くの動画データの中から特定の対象物或いは事象を含むシーンを検索する検索方法の確立が求められている。
本発明は、少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するためのコンピュータ・システムを提供する。
該コンピュータ・システムは、
検索対象である動画コンテンツのモデルの軌跡及び該モデルの速度変化を格納する記憶部と、
上記モデルについて第1のベクトルを計算する計算部であって、上記第1のベクトルは、上記モデルの軌跡及び上記モデルの速度変化を含む、上記計算部と、
上記少なくとも1の動画データに含まれる検索対象である動画コンテンツについて第2のベクトルを計算する計算部であって、上記第2のベクトルは、該動画コンテンツの動きの情報に基づき計算される、上記計算部と、
上記第1のベクトルと上記第2のベクトルとを比較して類似度を計算する計算部と、
上記類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを上記少なくとも1の動画データから選択する選択部と
を含む。本発明の1つの実施態様では、モデルは、ユーザによって作成される。
本発明の1つの実施形態では、上記モデルが3次元モデルであり、上記モデルの軌跡が該3次元モデルの軌跡であり、上記モデルの速度変化が該3次元モデルの速度変化である。上記記憶部はまた、上記3次元モデルを格納する。
本発明の1つの実施形態では、上記コンピュータ・システムは、ユーザに3次元上での視点の決定を可能にする視点決定部をさらに含む。
本発明の1つの実施形態では、上記第1のベクトルを計算する計算部が、ユーザによって決定された3次元上の視点から見た第1のベクトルを計算する。
本発明の1つの実施形態では、上記視点決定部がさらに、上記動画データに含まれる検索対象である動画コンテンツの軌跡又は速度変化についての事前知識がある場合、該事前知識に近似する視点を視点候補とする。
本発明の1つの実施形態では、上記視点決定部がさらに、第1のベクトルから求められる速度が大きくなる視点を上位から選択する。該速度は、第1のベクトルの絶対値でありうる。
本発明の1つの実施形態では、上記視点決定部がさらに、第1のベクトルから求められる加速度が大きくなる視点を上位から選択する。該加速度は、第1のベクトルから求められる速さベクトルの絶対値でありうる。
本発明の1つの実施形態では、上記コンピュータ・システムは、上記検索対象を含む動画について、該動画コンテンツの動きの情報を取得するマッピング部をさらに含む。
本発明の1つの実施形態では、上記類似度を計算する計算部が、上記モデルの動画の複数のフレームと上記動画データに含まれる検索対象である動画コンテンツを含む動画の1つ又は複数のフレームとの間の類似度を計算する手段をさらに含む。
本発明の1つの実施形態では、上記類似度を計算する計算部が、上記モデルの動画の複数のフレーム又は上記動画データに含まれる検索対象である動画コンテンツを含む動画の複数のフレームにおいて、一定数のフレームで区切ることによって速度の誤差を吸収する手段をさらに含む。
本発明の1つの実施形態では、上記類似度を計算する計算部が、視点毎に付された重み付けに従い類似度を計算する手段をさらに含む。
本発明の1つの実施形態では、上記検索対象である動画コンテンツを含む動画データ夫々がタグを有する。上記コンピュータ・システムは、該動画コンテンツを含む動画を絞り込むために、タグ検索を行う検索手段をさらに含む。
本発明の1つの実施形態では、上記類似度を計算する計算部が、上記第1のベクトルと上記第2のベクトルとを比較し、及び上記第1のベクトルから求められる速さベクトルと上記第2のベクトルから求められる速さベクトルとを比較し、並びにそれぞれの比較の結果から類似度をさらに計算する。
本発明はまた、少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。
該ステップは、
検索対象である動画コンテンツのモデルの軌跡及び該モデルの速度変化を格納するステップと、
上記モデルについて第1のベクトルを計算するステップであって、上記第1のベクトルは、上記モデルの軌跡及び上記モデルの速度変化を含む、上記計算するステップと、
上記少なくとも1の動画データに含まれる検索対象である動画コンテンツについて第2のベクトルを計算するステップであって、上記第2のベクトルは、該動画コンテンツの動きの情報に基づき計算される、上記計算するステップと、
上記第1のベクトルと上記第2のベクトルとを比較して類似度を計算するステップと、
上記類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを上記少なくとも1の動画データから選択するステップと
を含む。
本発明の1つの実施形態では、上記モデルが3次元モデルであり、上記モデルの軌跡が該3次元モデルの軌跡であり、上記モデルの速度変化が該3次元モデルの速度変化である。上記格納するステップは、上記3次元モデルを格納するステップをさらに含む。
本発明の1つの実施形態では、上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、ユーザに3次元上での視点の決定を可能にするステップを含む。
本発明の1つの実施形態では、上記第1のベクトルを計算するステップが、ユーザによって決定された3次元上の視点から見た第1のベクトルを計算するステップをさらに含む。
本発明の1つの実施形態では、上記視点の決定を可能にするステップが、上記動画データに含まれる検索対象である動画コンテンツの軌跡又は速度変化についての事前知識がある場合、該事前知識に近似する視点を視点候補とするステップをさらに含む。
本発明の1つの実施形態では、上記視点の決定を可能にするステップが、第1のベクトルから求められる速度又は加速度が大きくなる視点を上位から選択するステップをさらに含む。
本発明の1つの実施形態では、上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、上記検索対象を含む動画について、該動画コンテンツの動きの情報を取得するステップを含む。
本発明の1つの実施形態では、上記類似度を計算するステップが、上記モデルの動画の複数のフレームと上記動画データに含まれる検索対象である動画コンテンツを含む動画の1つ又は複数のフレームとの間の類似度を計算するステップをさらに含む。
本発明の1つの実施形態では、上記類似度を計算するステップが、上記モデルの動画の複数のフレーム又は上記動画データに含まれる検索対象である動画コンテンツを含む動画の複数のフレームにおいて、一定数のフレームで区切ることによって速度の誤差を吸収するステップをさらに含む。
本発明の1つの実施形態では、上記類似度を計算するステップが、視点毎に付された重み付けに従い類似度を計算するステップをさらに含む。
本発明の1つの実施形態では、上記検索対象である動画コンテンツを含む動画データ夫々が、タグを有する。上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、上記検索対象である動画コンテンツを含む動画を絞り込むために、タグ検索を行うステップを含む。
本発明の1つの実施形態では、上記類似度を計算するステップが、
上記第1のベクトルと上記第2のベクトルとを比較するステップと、
上記第1のベクトルから求められる速さベクトルと上記第2のベクトルから求められる速さベクトルとを比較するステップと、
それぞれの比較の結果から類似度を計算するステップと
を含む。
本発明はまた、少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。
該ステップは、
検索対象である動画コンテンツの3次元モデルの軌跡及び該3次元モデルの速度変化を格納するステップと、
ユーザに3次元上での視点の決定を可能にするステップと、
上記3次元モデルについて、上記決定された3次元上の視点から見た第1のベクトルを計算するステップであって、上記第1のベクトルは、上記3次元モデルの軌跡及び上記3次元モデルの速度変化を含む、上記計算するステップと、
上記少なくとも1の動画データに含まれる検索対象である動画コンテンツについて第2のベクトルを計算するステップであって、上記第2のベクトルは、該動画コンテンツの動きの情報に基づき計算される、上記計算するステップと、
上記第1のベクトルと上記第2のベクトルとを比較して類似度を計算するステップと、
上記類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを上記少なくとも1の動画データから選択するステップと
を含む。
本発明はまた、少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するためのコンピュータ・プログラムを提供する。該方法は、コンピュータ・システムに上記方法のいずれか一に記載の各ステップを実行させることを含む。
本発明の実施態様に従うと、検索対象である動画コンテンツのモデルの軌跡及び該モデルの速度変化を入力することで、該検索対象である動画コンテンツを含むシーンを検索することが可能である。また、本発明の実施態様に従うと、3次元上での視点の決定を可能にすることで、特定の視点以外のシーンを検索することが可能である。
本発明の実施態様において、「動画」は、複数の静止画の列から構成される。動画の一部を構成する任意の数の静止画の列が、シーンである。「動画」は、コンピュータ・システム、ハンドヘルドコンピュータ、携帯電話、テレビ等の表示装置上に表示される動画を含むがこれらに限定されない。コンピュータ等の表示装置上に表示される動画は例えば、セカンドライフに代表される仮想3次元空間の動画、YouTubeなどのネットワークを介して配信される動画を含む。動画の例は、テレビの映像、例えばスポーツ、映画、ニュース、ドラマ、アニメーションの映像;及び家庭で撮影された映像を含むがこれらに限定されない。動画の代表は、放送局などのマスメディアにおいて所有されている動画である。
本発明の実施態様において、「動画データ」とは、上記動画のデータである。動画データは、アナログ・データ又はデジタル・データの形態で記録媒体に記録されうる。本発明の実施態様では、動画コンテンツを含むシーンの検索を可能にするために、アナログ・データは、デジタル・データに変換される。該変換の方法は、アナログ・デジタル変換として当業者に公知である。動画データは、例えば記憶媒体に格納される。該記憶媒体は、データベースを含む。該記憶装置は、本発明の実施態様に従うコンピュータ・システムにケーブル又はネットワークを介して接続されうる。ネットワーク上に配置される記憶装置は、ネットワークストレージ(NAS)を含む。
本発明の実態態様において、「動画コンテンツ」とは、検索対象であるコンテンツをいう。検索対象は例えば、ボール及び選手などの有体物であるがこれに限定されない。
本発明の実施態様において、「検索対象である動画コンテンツを含む少なくとも1のシーン」とは、検索対象である動画コンテンツを含む静止画の列をいう。言い換えれば、「検索対象である動画コンテンツを含む少なくとも1のシーン」とは、検索対象である動画コンテンツを含む、動画データの一部である。
本発明の1つの実施態様では、動画を構成する各シーンは、該シーンに関する情報(以下、シーン情報)を関連付けられている。該シーン情報は、データベースに格納されうる。ユーザは、シーン情報を用いて、動画データのキーワード検索をすることが可能である。シーン情報は例えば、動画中における位置、シーンの意味内容、シーン相互の関係及びシーン変化の情報を含む。動画中における位置は例えば、開始フレーム番号、終了フレーム番号及びタイム・コードである。シーンの意味内容は例えば、キーワード、属性及び代表フレームである。キーワードは例えば、動画に含まれる動画コンテンツを示す。シーン相互の関係は例えば、親又は子の関係にあるシーンの識別子である。シーン変化の情報は例えば、変化点の動画中での位置、変化のタイプ及び確からしさである。
本発明の実施態様において、検索対象である動画コンテンツは、1つ又は複数でありうる。
本発明の実施態様において、「モデル」とは、物体の形状のモデルをいう。モデルは例えば、上記サッカーボールのモデルである。モデルは、2次元モデル及び3次元モデルを含む。「2次元モデル」とは、2次元空間上に表示される物体の形状のモデルをいう。「3次元モデル」とは、3次元空間上に表示される物体の形状のモデルをいう。
モデルは、動画データから検索対象である動画コンテンツを特定し、且つ該動画コンテンツを含むシーンを検索するために使用される。本発明の1つの実施態様では、ユーザは、例えばモデリングソフトウェアを使用してモデルを作成しうる。本発明の他の実施態様では、モデルは予めモデル・データベースに用意されている。ユーザは、該モデル・データベースから、所望のモデルを選択しうる。
2次元モデルは、例えばPhotoShop(商標)、Illustrator(商標)などの慣用的なソフトウェアを使用して作成しうる。3次元モデルは、例えばShade、LightWave3Dなどの慣用的なモデリングソフトウェアを使用して作成しうる。3次元モデルの作成では、一つの面は、三角形又は四角形といった多角形(ポリゴン)の集合として表現される。物体の形状は、ポリゴンの集合で表現される。3DCGにおいて、面を定義する他の方法は、自由曲面による方法である。自由曲面は、NURS曲線、スプライン曲線、ベジェ曲線などの曲面を構成する方法である。自由曲面による方法で作成された形状は、上記のポリゴンのみでモデリングされる形状に比べ滑らかで正確な形状でありうる。その他、例えばセカンドライフ上において、3次元モデルの作成はプリムを組み合わせて使用しうる。プリムとは、セカンドライフにおける全てのオブジェクトも基本形状をいう。モデルには、任意であるが、色彩、質感又はそれらの組み合わせを持たせることができる。質感は、例えば拡散反射、鏡面反射、光沢、反射率、透過率、屈折率又はそれらの組み合わせを設定することにより表現しうる。
本発明の実施態様において、検索対象である動画コンテンツを含む少なくとも1のシーンの検索は、モデル・シーンの作成フェーズと検索フェーズとを含む。
モデル・シーンの作成フェーズは、ユーザが検索したい動画コンテンツのモデルを作成すること又はユーザが検索したい動画コンテンツのモデルをモデル・データベースから選択すること、該モデルの軌跡を入力すること、該モデルの速度変化を入力することを含む(下記図2Aを参照)。
モデル・シーンの作成フェーズはまた、視点を決定することを含む(下記図3A及び図3Bを参照)。1つの実施態様として、ユーザは、視点を適当に決めてよい。他の実施態様として、視点は、事前知識データベースを使用して決定されうる。他の実施態様として、ユーザは、動きベクトルの絶対値が大きい角度からの視点、或いは速さベクトルの絶対値が大きい角度からの視点を選択しうる。
検索フェーズは、作成又は選択したモデルについての第1のベクトルを計算すること、動画データに含まれる検索対象である動画コンテンツについての第2のベクトルを計算すること、及び該第1のベクトルと該第2のベクトルとを比較して類似度を計算すること、並びに該類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを選択すること(下記図4を参照)を含む。
本発明の実施態様において、「第1のベクトル」は、モデル、特に3次元モデルについてのベクトルである。第1のベクトルは、該モデルの軌跡及び該モデルの速度変化を含む。
本発明の実施態様において、「モデルの軌跡」とは、ある視点から見たモデル(物体)が動く軌跡をいう。2次元であれば視点は固定されるので、モデルの軌跡は1つに決まる。一方、3次元であれば視点は固定されないので、モデルを見る視点が変わることによってモデルの軌跡は異なる(下記図2Bの「軌跡」を参照)。「モデルの軌跡」は、例えば動きベクトルとして表されうる。動きベクトルは、ある一定の時間間隔
Figure 0004568357
において、対象物が空間上でどれだけ動いたかによって求められる(下記図3Bを参照)。
本発明の実施態様において、「モデルの速度変化」とは、ある視点から見たモデル(物体)の速度変化である。2次元であれば視点は固定されるので、モデルの速度変化は1つに決まる。一方、3次元であれば視点は固定されないので、モデルを見る視点が変わることによってモデルの速度変化は異なる。「モデルの速度変化」は、例えば「V−Tグラフ」又は速さベクトルとして表されうる(下記図2Bの「V−Tグラフ」を参照)。速さベクトルは、動きベクトルから求められる(下記図3Bを参照)。
本発明の実施態様において、「第2のベクトル」は、動画データに含まれる検索対象である動画コンテンツについてのベクトルである。第2のベクトルは、動画データに含まれる検索対象である動画コンテンツの動きの情報に基づき計算される。代替的に、第2のベクトルは、動画コンテンツの軌跡及び動画コンテンツの速度変化を含む。
本発明の実施態様において、動画データ中から所定の動画コンテンツ(例えばサッカーボール、サーカー選手)の動きの情報を抽出する方法として、慣用の技術が用いられうる。
本発明の実施態様において、「動きの情報」とは、動きベクトル又は動きベクトルに変換できる情報である。
本発明の実施態様において、「動画コンテンツの軌跡」とは、ある視点から見た動画コンテンツ(物体)が動く軌跡をいう。動画コンテンツが一般に、ある視点から撮影された動画であるため2次元である。よって、動画コンテンツの軌跡は、動画データにおいて1つに決まる。但し、動画データが3次元で記録されうる場合、視点は固定されないので、動画コンテンツを見る視点が変わることによって動画コンテンツの軌跡は異なる。「動画コンテンツの軌跡」は、例えば動きベクトルとして表されうる。動きベクトルは、ある一定の時間間隔
Figure 0004568357
において、対象物が空間上でどれだけ動いたかによって求められる。
本発明の実施態様において、「動画コンテンツの速度変化」とは、ある視点から見た動画コンテンツの速度変化である。動画データは一般に、ある視点から撮影された動画であるため2次元である。よって、動画コンテンツの速度変化は1つに決まる。但し、動画データが3次元で記録されうる場合、視点は固定されないので、動画コンテンツを見る視点が変わることによって動画コンテンツの速度変化は異なる。「動画コンテンツの速度変化」は、例えば速さベクトルとして表されうる。速さベクトルは、動きベクトルから求められる。
本発明の実施態様において、第1のベクトルと第2のベクトルとを比較して、類似度が計算される。類似度の計算方法として、慣用の技術が用いられうる。例えば、ベクトルが点の集合で形成されていると考えれば、2つのベクトルの類似度を計算する方法として、各2点間のユークリッド距離を計算する方法がある。
以下、図面に従って、本発明の実施態様を説明する。本実施態様は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一の符号は、同一の対象を指す。
図1Aは、本発明の実施態様である、サッカーのあるフリーキックのシーンを正面から撮影した動画を示す。動画の視聴ユーザは、該シーンについて、例えば、右側から曲がってゴール正面左隅に入るシュートのシーンを検索したい、又は横側から撮影されたシュートのシーンを検索したい場合がある。
図1Bは、本発明の実施態様である、サッカーのあるフリーキックのシーンを正面から撮影した動画を示す。また、図1Bは、該シーンを真後側から撮影した動画についてのボールの動き及び選手の動きを示す。また、図1Bは、該シーンを横側から撮影した動画についてのボールの動き及び選手の動きを示す。
図2Aは、本発明の実施態様である、モデル・シーンの作成フェーズを示す。
ステップ201
ユーザは、慣用の技術を使用して、3次元モデルを作成する。図2Aは、3次元モデルの例として、サッカーボールを示す。該サッカーボールは例えば、形状は半径Rの球体であり、色彩は白と黒の5角形の斑模様であるという情報を有する。ここで、ユーザは、該モデルを複数作成することもできる。ユーザは、例えばサッカーボールの他に、直方体の枠であるサッカーゴールを作成することができる。1つの実施態様として、ユーザは、例えばモデリングソフトウェアを使用して3次元モデルを作成しうる。代替的に、3次元モデルは、モデル・データベースに予め用意されている。ユーザは、該モデル・データベースから、所望の3次元モデルを選択しうる。
ステップ202
ユーザは、慣用の技術を使用して、3次元モデルの動きを入力して、3次元モデルの軌跡を描く。該軌跡は、ユーザが検索したい動画コンテンツの移動態様を、3次元モデルの移動態様を用いて表した軌跡である。
図2Aでは、3次元モデルの軌跡として、サッカーボールの3次元空間上の軌跡を示す。該軌跡は、サッカーボールの中心点の軌跡を示す。また、軌跡は3次元モデル毎に1つとは限らず、例えば3次元モデルを構成する複数の点に与えることができる。該点それぞれに違った軌跡を持たせることにより、回転、拡大及び縮小を3次元モデルに与えることができる。1つの実施態様として、ユーザは、空間的な位置を変化させることのできるポインティング・デバイス、例えばマウス、トラックボールを使用して軌跡を入力する。ユーザは、任意の位置から別の任意の位置まで該デバイスを移動させることによって、所望の動きの始点の位置、終点の位置、移動中の位置、及び要した時間を軌跡として入力する。ここで、人間が見る実際の動画は2次元上の動画である。そこで、軌跡を入力するために、ディスプレイ上に2次元の入力領域を設定する。但し、該入力領域上の座標軸はデバイスからの操作で自由に回転できる。また、座標軸を回転させるための操作及び時間は、軌跡の情報に含めない。ユーザは、該デバイスを動かして、入力領域に3次元モデルの所望の動きを描く。本発明の実施態様では、動きをベクトル列として表現しているため、ユーザは入力領域に線を描くことになる。コンピュータ・システムは、入力領域にカーソルを表示し、デバイスの動きに合わせてカーソルの位置を入力領域にエコーバックする。コンピュータ・システムは、入力領域上でのカーソルの、移動開始点の座標と、移動中の一定の時間毎の座標をセンスする。この結果、動作時間と動作中の一定時間おきの座標値とが3次元モデルの軌跡として入力される。
図2Bの左側の図は、図2Aの3次元モデルの上記入力された軌跡を正面、側面及び上面からそれぞれ見た図を示す。図2Bに示されるように、モデルの軌跡は、ユーザが見る視点によってその軌跡が異なる。
ステップ203
ユーザは、慣用の技術を使用して、3次元モデルの速度−時間グラフ(V−Tグラフ)を作成する。V−Tグラフは、軌跡上のある時点(T)における速度(V)を示すグラフである。V−Tグラフを作成することによって、軌跡で表されるモデルの動きに加速度を加味して検索をすることが可能になる。図2Bの右側の図は、図2Aの3次元モデルの上記作成されたV−Tグラフを正面、側面及び上面からそれぞれ見たV−Tグラフに分解した図を示す。図2Bに示すように、V−Tグラフは、ユーザが3次元モデルを見る視点によってそのグラフが異なる。
ステップ204
ユーザは任意的に、慣用の技術を使用して、3次元モデルの細部又は向きを修正することができる。
図3A及び図3Bは、本発明の実施態様である、視点の決定方法を示す。
ユーザは、3次元空間上で選択しうる視点を決定することができる。ユーザは、上記3次元モデル、3次元モデルの描く軌跡及び速度変化を使用して、視点を決定することができる。視点の決定には、例えば3次元モデルを軌跡に沿って動かした動画を用いることができる。例えば、3次元モデルがヒトである場合、どの方向からのシーンを検索したいかによって視点を選択することができる。視点は、例えば、正面、上面、右側面、左側面、背面、及び下面を代表的に挙げることができるが、3次元空間上のこれらの面に限定されない。ユーザは、3次元空間上で取り得る全ての視点を任意に選択することが可能である。1つの実施態様として、ユーザは、モニタ(平面である)に映し出されるモデルを見ながら、3次元空間を回転し(図3Aを参照)、3次元モデルの動きを所望の角度から見たときの視点を選択することができる。
他の実施態様として、視点を決定するために、事前知識が用いられうる。事前知識は例えば、事前知識データベースに格納されうる。
1つの実施態様として、例えば、「フリーキックのシーンを含む動画は、ボールが{(2,1),(4,3),(5,-2)}の動きベクトルを持つことが多い」という事前知識があるとする。ユーザは、作成した3次元モデルのボールの動きベクトルが事前知識として取得したボールの動きベクトルに近い動きベクトル{(2,2),(4,3),(6,-2)}を示す視点を視点候補としうる。
1つの実施態様として、コンピュータ・システムが視点決定をするためのプログラムを実行することによって、上記事前知識の動きベクトルに近い視点の少なくとも1以上の候補をユーザに提示しうる。ユーザは、該提示された視点を基に、例えばモニタに映し出されるモデルのある視点から移し出される映像を見ながら、候補視点の中から所望の視点を選択しうる。
1つの実施態様として、陸上短距離など様々な動画コンテンツについての事前知識が、事前知識データベース内に格納されうる。該事前知識の作成方法として、慣用の技術が用いられうる。
他の実施態様として、事前知識がない場合には、視点の決定は下記の方法によって行われうる。下記の方法は、3次元モデルの速度/加速度に注目し、動きの大きいものを視点候補とする方法である。
図3Bは、3次元モデル、例えばサッカーボールの空間内での動きを示す。詳細には、図3Bは、軌跡及び速度変化を考慮した、サッカーボールの空間における動きを示す。軌跡は、時間tn(t0、t1、t2、t3)におけるサッカーボールの座標を曲線で結んだ線で表される。また、時間間隔tにおいて移動距離がt1-t0、t2-t1、t3-t2で異なることから、速度が変化していることがわかる。
図3Bでは、座標は(x, y, z)で示される。
時間t0、t1、t2及びt3での座標は、夫々次の通りである;t0(0, 0, 0)、t1(2, 1, 2)、t2(6, 3, 5)、t3(12, 5, 3)。
A.視点が正面(x,z)、側面(y,z)及び上面(x,y)の動きベクトルは下記のようにして求められる。
(1)サッカーボールの時間tにおける3次元の座標は、下記の通りである。
(x,y,z)(t)= {(0,0,0), (2,1,2), (6,3,5), (12,5,3)}
(2)上記3次元の座標を2次元の座標に変換するために射影する。
正面(x,y=0,z)(t):{(0,0), (2,2), (6,5), (12,3)}
側面(x=0,y,z)(t):{(0,0), (1,2), (3,5), (5,3)}
上面(x,y,z=0)(t):{(0,0),(2,1), (6,3), (12,5)}
(3)よって、サッカーボールを正面、側面及び上面からそれぞれ見た動きベクトルは、下記のようにして求められる。
正面(x,z):{(t1(x)-t0(x),t1(z)-t0(z)), (t2(x)-t1(x), t2(z)-t1(z)),(t3(x)-t2(x), t3(z)-t2(z))}
よって、正面(x,z)の動きベクトルは、{(2-0,2-0),(6-2,5-2),(12-6,3-5)}={(2,2), (4,3),(6,-2)}である。
側面(y,z):{(t1(y)-t0(y),t1(z)-t0(z)), (t2(y)-t1(y), t2(z)-t1(z)), (t3(y)-t2(y),t3(z)-t2(z))}
よって、側面(y,z)の動きベクトルは、{(1-0,2-0),(3-1,5-2),(5-3,3-5)}={(1,2),(2,3), (2,-2)} である。
上面(x,y):{(t1(y)-t0(y),t1(x)-t0(x)), (t2(y)-t1(y), t2(x)-t1(x)),(t3(y)-t2(y), t3(x)-t2(x))}
よって、上面(x,y)の動きベクトルは、{(2-0,1-0),(6-2,3-1),(12-6,5-3)}={(2,1),(4,2), (6,2)} である。
B.視点が正面(x,z)、側面(y,z)及び上面(x,y)の動きベクトル(速度)は下記のようにして求められる。
正面(x,z)の動きベクトル(速度)は、|{(2,2),(4,3), (6,-2)}| → √(4+4)+√(16+9) +√(36+4)=14.153である。
側面(y,z)の動きベクトル(速度)は、|{(1,2),(2,3), (2,-2)}| → √(1+4)+√(4+9) +√(4+4)=8.670である。
上面(x,y)の動きベクトル(速度)は、|{(2,1),(4,2), (6,2)}| → √(4+1)+√(16+4) +√(36+4)=13.033である。
C.視点が正面(x,z)、側面(y,z)及び上面(x,y)の速さベクトルは下記のようにして求められる。
正面(x,z):{(((t2(x)-t1(x))-(t1(x)-t0(x)),((t2(z)-t1(z))-(t1(z)-t0(z)))),(((t3(x)-t2(x))-((t2(x)-t1(x)),((t3(z)-t2(z))-(((t2(z)-t1(z)))}
よって、正面(x,z)の速さベクトルは、{(4-2,3-2),(6-4,-2-3)}={(2,1), (2,-5)}である。
側面(y,z):{(((t2(y)-t1(y))-(t1(y)-t0(y)),((t2(z)-t1(z))-(t1(z)-t0(z)))),(((t3(x)-t2(x))-((t2(x)-t1(x)), ((t3(y)-t2(y))-(((t2(y)-t1(y)))}
よって、側面(y,z)の速さベクトルは、{(2-1,3-2),(2-2,-2-3)}={(1,1),(0,-5)}である。
上面(x,y):{(((t2(x)-t1(x))-(t1(x)-t0(x)),((t2(y)-t1(y))-(t1(y)-t0(y)))),(((t3(x)-t2(x))-((t2(x)-t1(x)),((t3(y)-t2(y))-(((t2(y)-t1(y)))}
よって、上面(x,y)の速さベクトルは、{(4-2,2-1),(6-4,2-2)}={(2,1),(2,0)}である。
D.視点が正面(x,z)、側面(y,z)及び上面(x,y)の速さベクトル(加速度)は下記のようにして求められる。
正面(x,z)の速さベクトル(加速度)は、|{(2,1),(2,-5)}| → √(4+1)+√(4+25)=7.621 である。
側面(y,z)の速さベクトル(加速度)は、|{(1,1),(0,-5)}|→ √(1+1)+√(25)=6.414 である。
上面(x,y)の速さベクトル(加速度)は、|{(2,1),(2,0)}|→ √(4+1)+√(4)=4.236 である。
視点の決定の1つの実施態様では、視点決定をするためのプログラムを実行することによって、3次元モデルの動きベクトルの絶対値が求められる。動きベクトルは、3次元モデルの速度に着目したものである。該絶対値が大きい動きベクトルの得られる視点が上位から選択され、視点の候補(以下、視点候補)とされる。なぜならば、速度の変化の大きい部分が、検索対象である動画コンテンツである可能性が高いからである。例えば、視点Aでの動きベクトルが{(2,2),(4,3),(6,-2)}であり、視点Bでの動きベクトルが{(1,2),(2,3),(2,-2)}であるとする。視点Aの動きベクトルの絶対値|{(2,2),(4,3),(6,-2)}|は、視点Bのの動きベクトルの絶対値|{(2,2),(4,3),(6,-2)}|よりも大きいために、視点Aが視点Bよりも上位の視点候補とされる。
視点の決定の他の実施態様では、視点決定をするためのプログラムを実行することによって、3次元モデルの速さベクトルの絶対値が求められる。速さベクトルは、3次元モデルの加速度に着目したものである。該絶対値が大きい速さベクトルの得られる視点が上位から選択され、視点候補とされる。なぜならば、加速度の変化の大きい部分が、検索対象である動画コンテンツである可能性が高いからである。
複数の視点候補がある場合、ユーザは好ましくは3次元モデルを見ながら、任意の視点を選択しうる。
また、ユーザは、好ましくは3次元モデルを見ながら、視点候補を動かし、視点候補を調整して所望の視点を決定しうる。
図4は、本発明の実施態様である、検索フェーズのフローチャートを示す。
検索フェーズは、コンピュータによって実行されうる。
コンピュータ・システムは、3次元モデルの第1のベクトルである動きベクトルを計算する(401)。第1のベクトルは、モデルの軌跡及びモデルの速度変化を含む。視点候補が複数ある場合、上記コンピュータ・システムは、それぞれの視点から見た第1のベクトルを計算する。
コンピュータ・システムは、複数の動画についての検索対象である動画コンテンツの第2のベクトルである動きベクトルを計算する(402)。第2のベクトルは、慣用の技術を使用して、計算される。
動画コンテンツから動きの情報を取得する方法の例を以下に示す。該動きの情報は、動きベクトル又は動きベクトルに変換できる情報である。
動画コンテンツは、フレーム列で構成される。コンピュータ・システムは、該フレーム列を所定の基準に従って、オリジナルよりも短いフレーム列である部分動画像に分割する。ここで所定の基準には、例えばシーン・チェンジなどが挙げられる。コンピュータ・システムは、部分動画像の画面をブロックに分割し、その動きを追跡することによって、動きベクトル列を発生させる。次に、コンピュータ・システムは、類似した挙動を示す動きベクトル列を統合することによって、物体の動きを代表するベクトル列を自動的に生成する。1つの代表動きベクトル列につき生成されるデータは、フレーム間変位(代表動きベクトル)の時系列の他に、動きの開始フレームの番号、動きが継続しているフレームの数及び開始フレームでの動きの開始点の座標値が含まれる。コンピュータ・システムは、代表動きベクトル列データを、フレームのサンプリング間隔よりも長い時間間隔でサンプリングして、動きインデックスを生成する。1つの動きインデックスについて生成されるデータは、各々が当該サンプリング間隔内の動きを表すベクトルの時系列の他に、動きの開始時間、動きの継続時間及び動きの開始点の座標値が含まれる。
動画コンテンツから動きの情報を取得する他の方法の例を以下に示す。
以下では、検索対象の動画コンテンツにおいて、該動画コンテンツに含まれる複数のモデルが動きを有し、重複することにより各モデルが変形しても、正確に各モデルについての動きベクトルを検出する方法を示す。
コンピュータ・システムは、検索対象の動画コンテンツを構成する時間的に前後するフレームt及びフレームt+1について領域分割処理を行う。コンピュータ・システムは、任意に選択した基準領域と、当該基準領域を中心として設定された検索範囲内に含まれる参照領域とを比較する。そして、コンピュータ・システムは、該比較結果に応じて基準領域と参照領域とを併合することで領域を生成し、入力された画像を複数の領域に分割する。これにより、コンピュータ・システムは例えば、画素値が均一な部分を示す領域、画素値が周期的に変化する部分(テクスチャ)を示す領域等に分類してフレームt及びフレームt+1を分割する領域分割処理を行って、フレームt及びフレームt+1に含まれる複数のモデルを示す領域を生成する。
コンピュータ・システムは、領域分割処理により分割されたフレームtを構成する各モデルに対応する各領域と、フレームt+1を構成する各モデルに対応する各領域とを射影関係を調べることにより、フレームtを構成する各領域が対応するフレームt+1を構成する領域を設定する。
コンピュータ・システムは、フレームt及びフレームt+1に含まれる各領域のエッジを抽出する処理を行うことで、エッジ・ブーリン・マスク(Edge Boolean Mask)を抽出する処理を行う。このとき、コンピュータ・システムは例えば1次微分又は2次微分を行うフィルタ処理を行うことで、例えばモデルと背景との境界を表す特徴量を抽出して各フレームに含まれるモデルのエッジを検出してエッジ部分と非エッジ部分からなる2値画像を生成し、そして境界線追跡処理、細線化処理を行うことでエッジ・ブーリン・マスクを抽出する。
コンピュータ・システムは、フレームt及びフレームt+1についての各エッジ・ブーリン・マスクを用いてエッジマッチングを行う。コンピュータ・システムは、フレームt及びフレームt+1についての各エッジ・ブーリン・マスクが重複する部分の最大となる位置をマッチング位置とする。
コンピュータ・システムは、エッジマッチングを行ったことにより得た位置ベクトルを用いて仮の動きベクトルを推定する。
コンピュータ・システムは、正規化した変形率を各エッジ・ブーリン・マスクについて算出する。このとき、コンピュータ・システムは、エッジマッチングを行った結果より得た位置ベクトルに基づいて正規化した変形率を算出する。コンピュータ・システムは、フレームtにおけるエッジ・ブーリン・マスクとフレームt+1における重複する部分の面積をフレームtの面積で除算し、除算して得た値を1から減算することにより、フレームtからフレームt+1に亘るエッジ・ブーリン・マスクの正規化した変形率を求める。
コンピュータ・システムは、各エッジ・ブーリン・マスクについての動きベクトルを確定する処理を行う。コンピュータ・システムは、動きベクトルが確定していないエッジ・ブーリン・マスクを着目エッジ・ブーリン・マスクに指定する。コンピュータ・システムは、着目エッジ・ブーリン・マスクに接しており動きベクトルが確定していないエッジ・ブーリン・マスクをグループ化して隣接エッジ・ブーリン・マスク・グループを形成する。コンピュータ・システムは、着目エッジ・ブーリン・マスクの変形率と隣接エッジ・ブーリン・マスク・グループに含まれるそれぞれのエッジ・ブーリン・マスクの変形率を比較し、着目エッジ・ブーリン・マスクが、最も変形率の小さいエッジ・ブーリン・マスクであるか否かを判定する。コンピュータ・システムは、着目エッジ・ブーリン・マスクが、最も変形率の小さいエッジ・ブーリン・マスクであると判定したときには、着目エッジ・ブーリン・マスクの仮の動きベクトルを真の動きベクトルとして確定する。コンピュータ・システムは、着目エッジ・ブーリン・マスクが、最も変形率の小さいエッジ・ブーリン・マスクでないと判定したときには、着目エッジ・ブーリン・マスクの仮の動きベクトルを真の動きベクトルとして確定しない。
コンピュータ・システムは、全ての動きベクトルが確定するまでエッジ・ブーリン・マスクの抽出から動きベクトルを確定する処理を繰り返し行うことにより、全エッジ・ブーリン・マスクについての動きベクトルを確定する。
動画コンテンツから動きの情報を取得する他の方法の例を以下に示す。
以下では、検索対象の動画コンテンツにおいて、該動画コンテンツに含まれるモデルの形状及びその運動を比較的少ないフレーム数でロバストに推定する方法を示す。
コンピュータ・システムは、検索対象の動画コンテンツを構成する時間的に前後するフレームn−1及びフレームnについて、動きベクトル場を計算する。動きベクトル場とは、動きベクトルをフレーム内全体に亘ってある所定の間隔で求めた集合を示す。動きベクトル場の計算アルゴリズムは、ブロックマッチング法、輝度勾配法等手法を問わない。取得するベクトル場は、全画素に対して求める必要がなく、例えば4×4画素間隔の代表点に対して求める等、適切な間隔で得られればよい。
コンピュータ・システムは、動きベクトル場を構成する全ての動きベクトルを用いて、運動パラメータを取得する。より具体的には、コンピュータ・システムは、動きベクトルを一般化Hough(ハフ)変換することによって運動パラメータを取得する。一般化Hough変換は、パラメータ推定の一手法であり、観測された情報を生成しうる全てのパラメータ候補に対して投票を行い、得票数が集中したパラメータを以て推定値とする手法である。画面内に複数の運動が混在する場合、パラメータ空間において複数の点に得票が集中するので、それらを順次探索することによって複数の運動の推定が可能となる。本発明の実施形態では、例えば、取得する運動パラメータを、垂直並進、水平並進、回転及び拡大の4個の2次元運動とすることができる。
コンピュータ・システムは、フレームn−1に運動パラメータを適用、例えば、垂直並進し、水平並進し、回転し及び拡大する。該適用により得られた結果とフレームnとが重複した領域が、対応する運動パラメータの領域となる。一方、重複しない領域は、互いに相違する動きを有する領域となる。
コンピュータ・システムは、該適用により得られた結果とフレームnの差分を求める。
コンピュータ・システムは、フレームの各画素に対して、全ての運動パラメータに対する該差分を求め、該差分の絶対値を最小にする運動パラメータを以てその画素の動きとする。結果、コンピュータ・システムは、該動き毎にモデルを抽出し及び分類できる。なお、モデルにテクスチャが比較的少ない場合のように、所定の画素において有効な差分が生じないときには、その画素の分類をこの際には未定とし、後に周囲から補間することもできる。また、ノイズ除去フィルタなどを付加してモデルの形状を整形することもできる。
コンピュータ・システムは、所定の動画について第2のベクトルの計算を予め行い、データベースに該第2のベクトルを格納しておいてよい。
また、コンピュータ・システムは、複数の動画のうちから検索対象となりうる動画を絞り込むために、タグ検索を行うことができる。タグは、動画毎に付与されている。タグの例は、動画のジャンル、動画コンテンツなどのキーワード又は、所定のキーワードに関連付けられた値でありうる。
検索対象となりうる動画の候補数が多い場合、AND検索又はOR検索を行う。例えば、キーワードが、フリーキック、ワールドカップなどであるがこれに限定されない。検索対象となりうる動画の候補数が少ない場合、NOT検索を行う。例えば、キーワードがテニス、野球である。或いは、AND検索、OR検索、NOT検索を組み合わせて、検索対象となりうる動画を絞り込んでもよい。
コンピュータ・システムは、上記第1のベクトルと第2のベクトルとを比較して類似度を計算する。コンピュータ・システムは、該計算に加えて、上記第1のベクトルと第2のベクトルから求められる速さベクトルを比較することにより、より厳密に類似度を計算することもできる。類似度の計算において、下記1〜3が考慮されうる。
1.3次元モデルと検索対象である動画との開始点及び/又は終了点が異なる場合に備えて、部分一致をベースにした動きベクトルの類似度を計算する。
3次元モデルの時間tにおける3次元の座標が下記である場合を考える。
(x,y,z)(t)= {(0,0,0), (2,1,2), (6,3,5), (12,5,3)}
例として正面から見た動きベクトルを求めると、3次元モデルの動きベクトル 正面(x,z):{(2,2), (4,3), (6,-2)}である。
次に、動画の動画コンテンツの軌跡が下記である場合を考える。
(x,y=0,z)(t)= {(2,2), (6,5), (12,3), (20,0)}
その動きベクトルは、動画コンテンツの動きベクトル 正面(x,z):{(4,3), (6,-2), (8, -3)}である。
このようにして、他の動画コンテンツについても動きベクトルを求めておく。
類似度の計算には例えば、動的計画法(dynamic programming)(Smith-Warterman)を用いうる(動的計画法については、http://www.ibm.com/developerworks/jp/java/library/j-seqalign/を参照されたい)。
図5Aは、本発明の実施態様である、動的計画法を説明するための図を示す。
グラフ(501、502)は、比較を行うモデルそれぞれの動きを示す。モデルの動きは、XZ平面上に投影されたものであるとする。グラフ上の点は、ある時点(t0〜t7)でのモデルの位置を示す。ここで2つのモデルの動きについて、破線(504、505)で囲われた個所が似ているといえる。
以下では、この破線(504、505)で囲われた個所を、動的計画法で用いる表(503)から求める方法を説明する。
表(503)の横軸は、グラフ(501)で表されるモデルの動きベクトルを示す。例えば、A(t2−t1)は、t1からt2の間のモデルの動きを表す動きベクトルを示す。表(503)の縦軸は、グラフ(502)で表されるモデルの動きベクトルを示す。例えば、B(t2−t1)は、t1からt2の間のモデルの動きを表す動きベクトルを示す。表(503)の各セルには、縦軸及び横軸で示された動きベクトル間の距離が設定される。該距離が小さい値であるほど2つの動きベクトルは類似していると判断できる。また、該距離が0であれば、2つの動きベクトルは一致している。よって、該距離の表(503)上での表れかたを見ることで、2つのモデルの動きの似ている個所を求めることができる。ここで、破線(504、505)で囲われた個所の距離は、表(503)の黒く塗りつぶされたセル(506)に設定される。セル(506)が示すように、開始点及び/又は終了点が異なる場合も考慮した2つのモデルの動きの比較は、表(503)においては、右下がりの階段のような形で表現される。該右下がりの階段のような形の各セルに設定された距離が0に近いほど、2つのモデルは類似する動きをしていることを示す。例えば、破線(504、505)で囲われた個所の動きは似ているため、セル(506)に設定される各距離は、他のセルの値よりも0に近い小さな値になるといえる。このように、表(503)から、各セルの値が0に近い右下がりの階段のような形を探すことで、動きの類似した箇所を求めることができる。
図5Bは、上記3次元モデルの動きベクトル(正面)及び動画コンテンツの動きベクトル(正面)に動的計画法を適用した例を示す。表の横軸は、3次元モデルの動きベクトル(正面)を示す。表の縦軸は、動画コンテンツの動きベクトル(正面)を示す。表の各セルの値は、3次元モデルの動きベクトル(正面)(x1,z1)と、動画コンテンツの動きベクトル(正面)(x2,z2)の各座標の距離√((x2-x12 + (z2-z12)を示す。各セルの値の計算方法を以下に示す。
A1B1 : √((4-2)2+(3-2)2) = √5
A2B1 : √((4-4)2+(3-3)2) = 0
A3B1 : √((4-6)2+(3-(-2))2) = √29
A1B2 : √((6-2)2+(-2-2)2) = √32
A2B2 : √((6-4)2+(-2-3)2) = √29
A3B2 : √((6-6)2+(-2-(-2))2) = 0
A1B3 : √((8-2)2+(-3-2)2) = √61
A2B3 : √((8-4)2+(-3-3)2) = √52
A3B3 : √((8-6)2+(-3-(-2))2) = √5
表において、開始点及び終了点が同じ場合の動きベクトルの比較である、右下がりの階段のような形を構成するA1B1の値、A2B2の値及びA3B3の値の平均が類似度を表す。また、上記以外のそれぞれの右下がりの階段のような形を構成するセルの値の平均が、部分の類似度を表す。
具体例を挙げると、類似度は、(√(5)+√(29)+√(5))÷3で表される。部分の類似度は、例えばA1B2の値及びA2B3の値を用いる場合(√(32)+√(52))÷2で表される。また、部分の類似度のうち、A2B1の値とA3B2との値の平均は0であり、部分一致している。以下において、部分の類似度も類似度と呼ぶ。
図5Bは、3次元モデルの動きベクトルと、動画からの動画コンテンツの動きベクトルの部分一致を示す。
3次元モデルの動きベクトルは、(2,2), (4,3), (6,-2)である。動画コンテンツの動きベクトルは、(4,3),(6,-2), (8,-3) である。
動的計画法により、3次元モデルの動きベクトルのうち、3次元モデルの後半の動きに対応するデータ(4,3),(6,-2)と、動画コンテンツの動きベクトルのうち、シーン最初からの動きに対応するデータ(4,3),(6,-2)から求められる類似度が0である。よって、2つの動きベクトルは、部分一致(ローカルアラインメント)する。また、3次元モデル及び動画コンテンツの動きも部分一致するといえる。
次に、3次元モデルの動きと部分一致し若しくは類似度が低く似た動きをする動画コンテンツを有するシーンを類似度が低い順に上位から数件抽出し、該抽出されたシーンを選択の候補とする。以下の例においては、動画(1〜n)は、3次元モデルの動きと部分一致し若しくは類似度が低く似た動きをする動画コンテンツを有するシーンを示す。イコールの後の数字は類似度を示す。
動画 動画番号 類似度
動画コンテンツ(正面):動画1 = 0
動画コンテンツ(正面):動画2 = 3
動画コンテンツ(側面):動画3 = 5
動画コンテンツ(正面):動画4 = 6
動画コンテンツ(正面):動画5 = 10

動画コンテンツ(上面): 動画n = 29
コンピュータ・システムは、部分一致し若しくは類似度が低く似た動きをする動画コンテンツを含むシーンを上位から数件、選択の候補とする。
2.3次元モデルと動画中の検索対象である動画コンテンツとの間で速度が異なる場合に備えて、開始点と終了点との間で一定数のフレームで区切り、速度の誤差を吸収する。
図5Cは、本発明の実施態様である、速度の誤差を吸収する例を示す。
動画Aは、通常の速度の動画であり、動画Bは、スローモーションの速度の動画である。
最初に、動画A及び動画Bそれぞれを開始点と終了点との間で一定数のフレームで区切る。該例では、両者ともに3フレームに分割する。一定数のフレームで区切られた動画同士は、経過時間の割合が同じになるので、同じ速度の動画として扱うことが可能となる。よって、動画コンテンツの速度が異なる場合であっても、上記速度の誤差を吸収することが可能である。
3.複数の視点がある場合に、視点に対する重み付けを行い、類似度に乗算する。
例えば、ユーザが作成した視点について、シーンの重みを高くする。
ここで、類似度計算に動的計画法(Smith-Warterman)を用いる場合は、値が小さいものほど類似度が高いので、重みを除算することになる。
例えば、決定された動画nについて、
視点が正面である場合、重みを2に設定する:
視点が側面である場合、重みを1.5に設定する:
とすることができる。
以下に、上記重み付けを、動画コンテンツに適用した例を示す。
動画 動画番号 類似度 重み付け
動画コンテンツ(正面): 動画1 = 0 →0/2=0
動画コンテンツ(正面): 動画2 = 3 →3/2=1.5
動画コンテンツ(側面): 動画3 = 5 →5/1.5=3.33
動画コンテンツ(正面): 動画4 = 6 →6/2=3
動画コンテンツ(正面): 動画5 = 10 →10/2=5

動画コンテンツ(上面): 動画n = 29 →29=29
コンピュータ・システムは、重み付けを適用された動画コンテンツを含むシーンについて、類似度が低い順に上位から数件、選択の候補とする。
コンピュータ・システムは、上記計算された類似度に基づいて、検索対象である動画コンテンツを含む少なくとも1のシーンを選択する。なお、上記類似度に加えて、任意的に画像マッチングアルゴリズムを使用して、検索対象である動画に重みを付加することができる。重み付けに使用する情報は、検索対象である動画に予め付与されている。該情報は例えば、動画コンテンツの色的特徴を表す色情報もしくは形状的特徴を表す形状情報、又は動画コンテンツの背景である。
動画コンテンツの特徴を用いてマッチングの精度を向上することが可能である。該精度の向上は、慣用の技術を使用して行われうる。慣用技術として、例えば下記の方法がある。
該方法によれば、コンピュータ・システムは、動画コンテンツを抽出する際に、当該動画コンテンツ内に含まれるモデルの数を表す数情報、及び/又は、当該動画コンテンツの色的特徴を表す色情報、及び/又は、当該動画コンテンツの形状的特徴を表す形状情報を含む付加情報をあわせて取得することができる。該付加情報は、動画コンテンツ毎に取得することができる。例えばサッカーボールの動画コンテンツであれば、数情報として「1」を取得し、色情報として「白」及び「黒」を取得し、形状情報として「丸」を取得することができる。また、例えばゴール前のサッカー選手の壁の動画コンテンツであれば、数情報として「4」を取得し、色情報として「赤」、「緑」、「白」及び「肌色」を取得し、形状情報として「長細い」を取得することができる。数情報は、動画コンテンツ内に含まれる各モデルをカウントすることで取得できる。色情報及び形状情報は、3次元モデルの該情報を持つ位置に相当する動画コンテンツの位置から取得できる。コンピュータ・システムは、該付加情報を動画コンテンツに連なるツリー構造で関係付けうる。このような付加情報を動画コンテンツと共に取得させておくことで、各モデルを特徴づける情報が増え、マッチングの精度を向上させることができる。例えば、各モデル同士が重なったフレームでは、モデルが不完全な形でしかも、近接した形で複数存在する。しかし、色及び形状はモデル固有であるから、コンピュータ・システムは、各モデルの色情報及び形状情報をマッチングに利用できる。
図6は、本発明の実施形態である、システム全体の構成例を示す。
シーン作成画面(605)は、ユーザが3次元モデルを作成し動きを与えるための画面である。シーン作成画面(605)では、3次元モデル本体、3次元モデルの軌跡、3次元モデルの速度変化及び3次元モデルの付加情報を作成することができる。該作成において、事前知識データベース(607)に予め用意されているデータを選択し、使用することもできる。事前知識データベース(607)は、モデル・データベースにもなりうる。事前知識データベース(607)は、3次元モデルの作成、3次元モデルの視点決定及び検索対象の動画の決定の際に利用できる情報が格納されたデータベースである。該情報は例えば、3次元モデル本体、3次元モデルの軌跡、3次元モデルの速度変化、3次元モデルの付加情報、動きベクトル及び動画コンテンツの情報である。事前知識データベース(607)は、格納部(604)内に含めることもできる。格納部(604)は、シーン作成画面(605)で作成された3次元モデル本体、3次元モデルの軌跡、3次元モデルの速度変化及び3次元モデルの付加情報を保存する記憶部である。視点決定部(602)は、計算部(601)に含まれる。視点決定部(602)は、ユーザに視点を決定させる。視点決定部(602)は、格納部(604)及び事前知識データベース(607)に保存されているデータを使用して、ユーザが視点を決定するための視点候補を作成する。視点決定部(602)は、速度又は加速度の大きい動画コンテンツを含む動画を使用して視点候補を作成する。該動画は、動画データ・データベース(608)に保存されている。動画データ・データベース(608)は、検索対象の動画が格納されたデータベースである。動画サイト(606)は、動画データ・データベース(608)に保存されている動画の表示を行う。動画サイト(606)は、動画の絞り込みを行うためのタグ及びAND検索又はOR検索の機能を有する。マッピング部(609)は、計算部(601)に含まれる。マッピング部(609)は、動画データ・データベース(608)から検索対象の動画を取得し、該動画から動きの情報を取得する。計算部(601)は、視点決定部(602)によって決定された視点、格納部(604)及び事前知識データベース(607)に保存されているデータを使用して、第1のベクトルである動きベクトルを求める。計算部(601)は、マッピング部(609)によって取得された動きの情報、格納部(604)及び事前知識データベース(607)に保存されているデータを使用して、第2のベクトルである動きベクトルを求める。計算部(601)は、第1のベクトル及び第2のベクトルを使用して、類似度を求める。計算部(601)は、類似度に重み付けを行う。該重み付けは、視点決定部(602)によって決定された視点、動画データ・データベース(608)から取得した検索対象の動画を使用して行う。計算部(601)は、類似度を使用して選択候補の動画を求める。計算部(601)は、第1のベクトル、第2のベクトル及び類似度など再利用可能な情報を、格納部(604)又は事前知識データベース(607)に保存する。選択部(603)は、計算部(601)に含まれる。選択部(603)は、ユーザに計算部(601)で求められた選択候補の動画から、動画を決定させる。該決定された動画は、動画サイト(606)に表示される。
図7は、本発明の実施態様である、システム全体における処理の流れを示す。
1.3次元モデルの作成又は選択
ユーザは、3次元モデルを作成する。代替的に、ユーザは、既存の3次元モデルを選択する。ユーザは、該3次元モデルを使用して検索したいシーンを作成する。
2.視点決定
ユーザは、作成したシーンを動かすことで視点を決定する。また、システムは、3次元モデルの概要を用いて事前知識データベースを検索することにより、視点候補を得ることができる。該視点候補は、ユーザが視点を決定する際に使用される。
3.3次元モデルの第1のベクトルの計算
システムは、ユーザが作成したシーン及びユーザ決定した視点を用いて、第1のベクトルを求める。
4.動画データ中の動画コンテンツの第2のベクトルの計算
システムは、動画データベースから動画データを取得する。システムは、該動画データに含まれる動画コンテンツの第2のベクトルを求める。
5.類似度計算
システムは、第1のベクトル及び第2のベクトルを用いて、類似度を求める。該類似度には、動画データ・データベースから取得できる画像の属性値を重みとして付加させることができる。システムは、類似度が高い動画を検索結果としてユーザに示す。
本発明の実施態様において、コンピュータ・システムは典型的に、CPU及びメインメモリを有する。該CPU及びメインメモリは、バスに接続されている。該バスに、ディスプレイ・コントローラを介して、LCDモニタなどの表示装置が接続されている。また、該バスに、IDE、SATA又はUSBコントローラを介して、記憶装置、例えばハードディスク、シリコンディスク、CD、DVD又はBD(ブルーレイディスク)の各種ドライブが接続されている。
本発明の実施態様である、サッカーのあるフリーキックのシーンを正面から撮影した動画を示す。 本発明の実施態様である、サッカーのあるフリーキックのシーンを正面から撮影した動画、該シーンを真後側及び横側からそれぞれ撮影した画像についてのボールの動き及び選手の動きを示す。 本発明の実施態様である、モデル・シーンの作成フェーズを示す。 本発明の実施態様である、3次元モデルの正面、側面及び上面それぞれから見た軌跡及びV−Tグラフを示す。 本発明の実施態様である、視点の決定方法を示す。 本発明の実施態様である、視点の決定のために使用する動きベクトル及び速さベクトルの例を示す。 本発明の実施態様である、検索フェーズを示す。 本発明の実施態様である、動的計画法を説明するための図を示す。 本発明の実施態様である、3次元モデルの動きベクトル及び動画コンテンツの動きベクトルに動的計画法を適用した例を示す。 本発明の実施態様である、速度の誤差を吸収する例を示す。 本発明の実施態様である、システム全体の処理の流れを示す。 本発明の実施態様である、システム全体の構成例を示す。

Claims (21)

  1. 少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するためのコンピュータ・システムであって、
    検索対象である動画コンテンツの3次元モデルの軌跡及び該3次元モデルの速度変化を格納する記憶部であって、前記3次元モデルの軌跡は3次元空間上のある視点からモデルを見た軌跡であり、及び前記3次元モデルの速度変化は3次元空間上の前記ある視点から見た速度変化である、前記記憶部と、
    前記3次元モデルについて、ユーザによって決定された3次元上の視点から見た第1のベクトルを計算する計算部であって、前記第1のベクトルは、前記3次元モデルの軌跡及び前記3次元モデルの速度変化を示すベクトルである、前記計算部と、
    前記少なくとも1の動画データに含まれる検索対象である動画コンテンツについて第2のベクトルを計算する計算部であって、前記第2のベクトルは、該動画コンテンツの動きベクトル又は動きベクトルに変化できる情報に基づき計算される、前記計算部と、
    前記第1のベクトルと前記第2のベクトルとを比較して類似度を計算する計算部と、
    前記類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを前記少なくとも1の動画データから選択する選択部と
    を含む、前記コンピュータ・システム。
  2. ユーザに前記動画コンテンツを3次元上で見る視点の決定を可能にする視点決定部をさらに含む、請求項に記載のコンピュータ・システム。
  3. 前記視点決定部がさらに、前記動画データに含まれる検索対象である動画コンテンツの軌跡又は速度変化についての事前知識がある場合、該事前知識に近似する視点を視点候補とする、請求項に記載のコンピュータ・システム。
  4. 前記視点決定部がさらに、第1のベクトルから求められる速度又は加速度が大きくなる視点を上位から選択する、請求項に記載のコンピュータ・システム。
  5. 前記検索対象を含む動画について、該動画コンテンツの動きの情報を取得するマッピング部をさらに含む、請求項1〜4のいずれか一項に記載のコンピュータ・システム。
  6. 前記類似度を計算する計算部が、前記3次元モデルの動画のフレームと前記動画データに含まれる検索対象である動画コンテンツを含む動画のフレームとの間の類似度を計算する手段をさらに含む、請求項1〜5のいずれか一項に記載のコンピュータ・システム。
  7. 前記類似度を計算する計算部が、前記3次元モデルの動画のフレーム又は前記動画データに含まれる検索対象である動画コンテンツを含む動画のフレームにおいて、一定数のフレームで区切ることによって速度の誤差を吸収する手段をさらに含む、請求項1〜6のいずれか一項に記載のコンピュータ・システム。
  8. 前記類似度を計算する計算部が、視点毎に付された重み付けに従い類似度を計算する手段をさらに含む、請求項1〜7のいずれか一項に記載のコンピュータ・システム。
  9. 前記検索対象である動画コンテンツを含む動画データ夫々がタグを有し、及び
    該動画コンテンツを含む動画を絞り込むために、タグ検索を行う検索手段をさらに含む、請求項1〜8のいずれか一項に記載のコンピュータ・システム。
  10. 前記類似度を計算する計算部が、前記第1のベクトルと前記第2のベクトルとを比較し、及び前記第1のベクトルから求められ且つ前記検索対象である動画コンテンツの3次元モデルの速度変化である速さベクトルと前記第2のベクトルから求められ且つ前記検索対象である動画コンテンツの速度変化である速さベクトルとを比較し、並びにそれぞれの比較の結果から類似度をさらに計算する、請求項1〜9のいずれか一項に記載のコンピュータ・システム。
  11. 少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するための方法であって、コンピュータ・システムが、
    検索対象である動画コンテンツの3次元モデルの軌跡及び該3次元モデルの速度変化を格納するステップであって、前記3次元モデルの軌跡は3次元空間上のある視点からモデルを見た軌跡であり、及び前記3次元モデルの速度変化は3次元空間上の前記ある視点から見た速度変化である、前記記憶するステップ部と、
    前記3次元モデルについて、ユーザによって決定された3次元上の視点から見た第1のベクトルを計算するステップであって、前記第1のベクトルは、前記3次元モデルの軌跡及び前記3次元モデルの速度変化を示すベクトルである、前記計算するステップと、
    前記少なくとも1の動画データに含まれる検索対象である動画コンテンツについて第2のベクトルを計算するステップであって、前記第2のベクトルは、該動画コンテンツの動きベクトル又は動きベクトルに変化できる情報に基づき計算される、前記計算するステップと、
    前記第1のベクトルと前記第2のベクトルとを比較して類似度を計算するステップと、
    前記類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを前記少なくとも1の動画データから選択するステップと
    実行することを含む、前記方法。
  12. 前記コンピュータ・システムが、ユーザに前記動画コンテンツを3次元上で見る視点の決定を可能にするステップを実行することをさらに含む、請求項11に記載の方法。
  13. 前記視点の決定を可能にするステップが、前記動画データに含まれる検索対象である動画コンテンツの軌跡又は速度変化についての事前知識がある場合、該事前知識に近似する視点を視点候補とするステップをさらに含む、請求項11又は12に記載の方法。
  14. 前記視点の決定を可能にするステップが、第1のベクトルから求められる速度又は加速度が大きくなる視点を上位から選択するステップをさらに含む、請求項11〜13のいずれか一項に記載の方法。
  15. 前記コンピュータ・システムが、前記検索対象を含む動画について、該動画コンテンツの動きの情報を取得するステップを実行することをさらに含む、請求項11〜14のいずれか一項に記載の方法。
  16. 前記類似度を計算するステップが、前記3次元モデルの動画のフレームと前記動画データに含まれる検索対象である動画コンテンツを含む動画のフレームとの間の類似度を計算するステップをさらに含む、請求項11〜15のいずれか一項に記載の方法。
  17. 前記類似度を計算するステップが、前記3次元モデルの動画のフレーム又は前記動画データに含まれる検索対象である動画コンテンツを含む動画のフレームにおいて、一定数のフレームで区切ることによって速度の誤差を吸収するステップをさらに含む、請求項11〜16のいずれか一項に記載の方法。
  18. 前記類似度を計算するステップが、視点毎に付された重み付けに従い類似度を計算するステップをさらに含む、請求項11〜17のいずれか一項に記載の方法。
  19. 前記検索対象である動画コンテンツを含む動画データ夫々がタグを有し、
    前記コンピュータ・システムが、
    前記検索対象である動画コンテンツを含む動画を絞り込むために、タグ検索を行うステップを実行することをさらに含む、請求項11に記載の方法。
  20. 少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するための方法であって、コンピュータ・システムが、
    検索対象である動画コンテンツの3次元モデルの軌跡及び該3次元モデルの速度変化を格納するステップであって、前記3次元モデルの軌跡は3次元空間上のある視点からモデルを見た軌跡であり、及び前記3次元モデルの速度変化は3次元空間上の前記ある視点から見た速度変化である、前記格納するステップと、
    前記動画コンテンツを3次元上で見る視点の決定をユーザに可能にするステップと、
    前記3次元モデルについて、前記決定された3次元上の視点から見た第1のベクトルを計算するステップであって、前記第1のベクトルは、前記3次元モデルの軌跡及び前記3次元モデルの速度変化を示すベクトルである、前記計算するステップと、
    前記少なくとも1の動画データに含まれる検索対象である動画コンテンツについて第2のベクトルを計算するステップであって、前記第2のベクトルは、該動画コンテンツの動きベクトル又は動きベクトルに変化できるに基づき計算される、前記計算するステップと、
    前記第1のベクトルと前記第2のベクトルとを比較して類似度を計算するステップと、
    前記類似度に基づき、検索対象である動画コンテンツを含む少なくとも1のシーンを前記少なくとも1の動画データから選択するステップと
    実行することを含む、前記方法。
  21. 少なくとも1の動画データから検索対象である動画コンテンツを含む少なくとも1のシーンを検索するためのコンピュータ・プログラムであって、コンピュータ・システムに、請求項1120のいずれか一項に記載の方法の各ステップを実行させる前記コンピュータ・プログラム。
JP2008236829A 2008-06-30 2008-09-16 動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Expired - Fee Related JP4568357B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008236829A JP4568357B2 (ja) 2008-06-30 2008-09-16 動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US12/474,835 US8428304B2 (en) 2008-06-30 2009-05-29 Retrieving scenes from moving image data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008171149 2008-06-30
JP2008236829A JP4568357B2 (ja) 2008-06-30 2008-09-16 動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2010033528A JP2010033528A (ja) 2010-02-12
JP4568357B2 true JP4568357B2 (ja) 2010-10-27

Family

ID=41447495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008236829A Expired - Fee Related JP4568357B2 (ja) 2008-06-30 2008-09-16 動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US8428304B2 (ja)
JP (1) JP4568357B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165052A (ja) * 2009-01-13 2010-07-29 Canon Inc 画像処理装置及び画像処理方法
US8630456B2 (en) * 2009-05-12 2014-01-14 Toyota Jidosha Kabushiki Kaisha Object recognition method, object recognition apparatus, and autonomous mobile robot
US8416189B2 (en) * 2010-06-04 2013-04-09 Acer Incorporated Manual human machine interface operation system and method thereof
US20110299737A1 (en) * 2010-06-04 2011-12-08 Acer Incorporated Vision-based hand movement recognition system and method thereof
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
JP6070192B2 (ja) * 2010-12-03 2017-02-01 ソニー株式会社 3dデータ解析装置および3dデータ解析方法ならびに3dデータ解析プログラム
US9041717B2 (en) * 2011-09-12 2015-05-26 Disney Enterprises, Inc. Techniques for processing image data generated from three-dimensional graphic models
SE537553C2 (sv) * 2012-08-03 2015-06-09 Crunchfish Ab Förbättrad identifiering av en gest
CN105301771B (zh) * 2014-06-06 2020-06-09 精工爱普生株式会社 头部佩戴型显示装置、检测装置、控制方法以及计算机程序
JP6344984B2 (ja) * 2014-06-09 2018-06-20 キヤノン株式会社 人物推定装置、人物推定方法及びプログラム
US11263256B2 (en) * 2018-05-31 2022-03-01 Microsoft Technology Licensing, Llc Distributed computing system with a synthetic data as a service frameset package store
CN113516103A (zh) * 2021-08-07 2021-10-19 山东微明信息技术有限公司 一种基于支持向量机的表格图像倾斜角度确定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108730A (ja) * 1991-08-29 1993-04-30 Internatl Business Mach Corp <Ibm> 動画像データベースの検索
WO2002001505A1 (fr) * 2000-06-26 2002-01-03 Iwane Laboratories, Ltd. Systeme de conversion d'informations

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596242B2 (en) * 1995-06-07 2009-09-29 Automotive Technologies International, Inc. Image processing for vehicular applications
US5764241A (en) * 1995-11-30 1998-06-09 Microsoft Corporation Method and system for modeling and presenting integrated media with a declarative modeling language for representing reactive behavior
US6975755B1 (en) * 1999-11-25 2005-12-13 Canon Kabushiki Kaisha Image processing method and apparatus
US6809758B1 (en) * 1999-12-29 2004-10-26 Eastman Kodak Company Automated stabilization method for digital image sequences
US9820658B2 (en) * 2006-06-30 2017-11-21 Bao Q. Tran Systems and methods for providing interoperability among healthcare devices
DE602006009191D1 (de) * 2005-07-26 2009-10-29 Canon Kk Bildaufnahmegerät und -verfahren

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108730A (ja) * 1991-08-29 1993-04-30 Internatl Business Mach Corp <Ibm> 動画像データベースの検索
WO2002001505A1 (fr) * 2000-06-26 2002-01-03 Iwane Laboratories, Ltd. Systeme de conversion d'informations

Also Published As

Publication number Publication date
US8428304B2 (en) 2013-04-23
JP2010033528A (ja) 2010-02-12
US20090324014A1 (en) 2009-12-31

Similar Documents

Publication Publication Date Title
JP4568357B2 (ja) 動画データから検索対象である動画コンテンツを含むシーンを検索するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN113196296B (zh) 使用几何上下文检测人群中的对象
US20210158618A1 (en) Selecting two-dimensional imagery data for display within a three-dimensional model
US9053571B2 (en) Generating computer models of 3D objects
AU2019216672B2 (en) Auto animate: interactive animation driven by change based heuristics
US9478033B1 (en) Particle-based tracking of objects within images
US9672866B2 (en) Automated looping video creation
US11043027B2 (en) Three-dimensional graphics image processing
CN115151944A (zh) 从单目相机的全骨骼3d姿态恢复
JP2022095591A (ja) 3dオブジェクト検出のための機械学習
JP5432677B2 (ja) クラスタリングを使用したビデオ概要の生成方法とシステム
JP7017852B2 (ja) 記述子を用いた3dオブジェクトの位置特定
US11741662B2 (en) Shaped-based techniques for exploring design spaces
Wang et al. Neural textured deformable meshes for robust analysis-by-synthesis
JP6947503B2 (ja) 量子化を用いた3dオブジェクトの位置特定
JP2010245983A (ja) 映像構造化装置,映像構造化方法および映像構造化プログラム
Lehericey et al. New iterative ray-traced collision detection algorithm for gpu architectures
Sicre et al. Human behaviour analysis and event recognition at a point of sale
US11126330B2 (en) Shaped-based techniques for exploring design spaces
Christensen et al. An experience-based direct generation approach to automatic image cropping
Dirik et al. 3d-latentmapper: View agnostic single-view reconstruction of 3d shapes
TW201322037A (zh) 用於改進骨骼追蹤的姿勢庫
Yamasaki et al. Motion segmentation of 3D video using modified shape distribution
Baldacci et al. Presentation of 3D scenes through video example
US20200134908A1 (en) Shaped-based techniques for exploring design spaces

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100517

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100517

TRDD Decision of grant or rejection written
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100716

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20100716

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100716

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100806

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4568357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees