JP2014239495A

JP2014239495A - フレームに基づくビデオマッチング

Info

Publication number: JP2014239495A
Application number: JP2014152440A
Authority: JP
Inventors: ウィンターアレキサンダー，; Winter Alexandre; シモンドリョ，; Dolle Simon; ヴァンセンジャラ，; Jahard Vincennes
Original assignee: CHRISTIAN WEBGERT; Webgert Christian; LTU Technologies SAS
Current assignee: CHRISTIAN WEBGERT; Webgert Christian; LTU Technologies SAS
Priority date: 2008-07-23
Filing date: 2014-07-25
Publication date: 2014-12-18
Also published as: EP2304649A4; JP2011529293A; US20100085481A1; WO2010011344A1; EP2304649A1; EP2304649B1

Abstract

【課題】改良されたビデオ解析のシステムおよび方法を提供する。
【解決手段】プロセッサによって、参照ビデオのデータベースの範囲内のビデオの各々に関し、フレーム単位で索引を付けて、索引に従い特定される１以上のフレームをサブセットとして特定し、サブセットのフレーム毎の視覚的な特徴を決定するステップと、プロセッサによって、少なくとも一つの照会ビデオの各々に関し、フレーム毎の視覚的な特徴を決定するステップと、プロセッサによって、参照ビデオのデータベースの範囲内のビデオの各々に関し決定した前記サブセットのフレーム毎の視覚的な特徴の各々と、少なくとも一つの照会ビデオの各々に関し決定したフレーム毎の視覚的な特徴の各々とを比較するステップと、比較の結果に基づき、参照ビデオのデータベースの範囲内のビデオの中から少なくとも一つの照会ビデオにマッチするビデオを特定するステップと、を備える。
【選択図】図３

Description

本発明は、広くは、ビデオ解析のシステムおよび方法に関し、より狭くは、フレームの視覚的な特徴もしくは特性の表示（以下、「ビデオの内容DNA」もしくは「内容DNA」として言及される）に基づいて、ビデオストリームの範囲内において当該フレームを比較しマッチングするためのシステムおよび方法に関する。

一般的に言って、ビデオファイルの範囲内において内容を比較しマッチングする従来の方法においては、例えば、画像マッチングのアプローチを用いて、ビデオの一連のフレームの範囲内において各々のフレームの比較が行われる。そのため、従来のフレーム毎のビデオの解析は、コンピュータに多大な負担を与える傾向がある。ビデオのフレームの時間的および空間的なマッチングによりビデオの範囲内における内容を比較しマッチングすることによって、計算に要する負担を減少させようとする試みがなされてきた。しかしながら、ビデオの解析およびマッチングが実行される場合の効率および計算スピードの改善に対する必要性は未だに存在する。

本発明者たちは、ビデオのフレームに対して画像マッチングの技術を採用する精度が、マッチングするビデオを見つけるための信頼のおける解を提供するために、十分に正確なものでありかつ十分に低い誤判定率を持っている、という条件の上に成り立つあるアプローチを発見した。さらに、本発明者たちは、対象となるビデオの範囲内において選択されたフレームを比較しマッチングすることが、計算の効率およびスピードにおける改良をもたらす、ということを発見した。また同時に一方で、本発明者たちは、それが、ビデオのマッチングの成功をもたらすために、当該ビデオの共通する部分もしくはセクションを探知することを可能にする、ということを発見した。

本発明は、参照ビデオのデータベースの範囲内において、少なくとも一つの照会ビデオとマッチングする複数のビデオを特定するための方法を提供することを目的とする。

当該方法は、参照ビデオのデータベースを提供するステップと、入力検索基準を受け取るステップとを含む。当該基準は、少なくとも一つの照会ビデオ、望ましい検索モードを表わすパラメータ、および望ましいマッチングモードを表すパラメータを含む。当該方法は、当該基準が受け取られた後、フレーム毎に参照ビデオのデータベースの中の各々のビデオに索引を付けるステップと、参照ビデオの範囲内の全てのフレームもしくは参照ビデオの範囲内のフレームのサブセットのうちの少なくとも一つの視覚的な特徴に基づいて、当該参照ビデオの各々に対する視覚的な特徴を決定するステップを含む。当該方法は、参照ビデオの各々に対する特徴が決定された場合に、照会ビデオの視覚的な特徴を決定するステップと、参照ビデオのデータベースの範囲内における各々のビデオの視覚的な特徴を少なくとも一つの照会ビデオの視覚的な特徴と比較するステップと、参照ビデオのデータベースの範囲内において少なくとも一つの照会ビデオとマッチするビデオを特定するステップとを含む。

一つの具体例において、参照ビデオの各々に索引を付けるステップは、フレーム毎に各々のビデオを読み取るステップと、一つのフレームを次のフレームと比較するステップと、各々のビデオの範囲内において、アンカーフレーム、ハートビートフレーム、およびキーフレームを含むフレームのサブセットを決定するステップとを含む。一つの具体例において、各々の参照ビデオに対して定められる第１の視覚的な特徴は、当該参照ビデオの範囲内の全てのフレームの視覚的な特徴に基づいて定められる。別の具体例において、各々の参照ビデオに対して定められる第２の視覚的な特徴は、当該参照ビデオの範囲内のフレームのサブセットのうちの少なくとも一つの視覚的な特徴に基づいて定められる。一つの具体例において、各々の参照ビデオの視覚的な特徴を照会ビデオの視覚的な特徴と比較するステップは、先ずマッチを特定するために第２の視覚的な特徴を比較するステップと、もし満足のいくマッチングの結果が得られない場合には、その時だけ各々の参照ビデオに対する第１の視覚的な特徴を決定し、当該第１の視覚的な特徴を照会ビデオの視覚的な特徴と比較するステップとを含む。

本発明の特徴および利点は、以下の好ましい具体例の詳細な説明が図面と一緒に考慮される場合に、よりよく理解されるだろう。

図１は、複数のフレーム（Ｆ₁−Ｆ_X）を含むビデオの単純化された描写を表す図である。図２は、参照ビデオ（Ｒ₁−Ｒ_N）のデータベースおよび複数の照会ビデオ（Ｑ₁−Ｑ_M）の単純化された描写を表す図である。図３は、本発明の一具体例にかかる、照会ビデオの範囲内の１以上のフレームにマッチするフレームを有するデータベースの範囲内のビデオを特定する、フレームに基づくビデオマッチングシステムを表す図である。図４は、本発明の一具体例にかかる、フレームに基づくビデオマッチングプロセスにおけるビデオを解析するためのステップを描写する、プロセスの流れを表す図である。図５は、本発明の一具体例にかかる、ビデオのファイルに索引を付けるためのステップを描写するプロセスの流れを表す図である。

これらの図において、同じ構成要素には同じ参照番号が付されているが、全ての図の描写においてその参照番号が省略されている場合がある。

図１に示されるように、ビデオ１０は、複数の、もしくは一連のフレーム１２（Ｆ₁−Ｆ_X）を有する。各々のフレームもしくは選択された数のフレームは、画像解析のルーチンが、予め決められた基準、参照ビデオもしくは参照ビデオの一部分にマッチするビデオもしくはそのようなビデオの一部分を発見する際に、別々の画像として扱われる。マッチングは、以下に説明されるように、ビデオもしくはその一部分の範囲内において内容の類似性の程度を特定することを意味する、ということは十分に理解されるべきである。類似性は、フレームの視覚的な特徴もしくは特性の表示（例えば、上述したビデオの内容DNA）の比較に基づいている。同一出願人による特許出願（出願番号：12/432,119、出願日：2009年４月29日）において説明されているように、内容DNAは、画像およびその中のオブジェクトの目に見える特性を表わす複数の視覚的記述子および特徴を有している。１以上のフレームＦ₁−Ｆ_Xの内容DNA１４（DNAＦ₁−DNAＦ_X）を用いることによって、ビデオ１０に対する内容DNA１６が提供される。

例えば、図２は、典型的なマッチングのアプローチを示している。そこでは、参照ビデオＲ₁−Ｒ_Nのデータベース２０および照会ビデオＱ₁−Ｑ_Mのセット３０が、マッチを開始する人によって提供される。そのマッチングアプローチは、以下に示されるように、参照ビデオＲ₁−Ｒ_Nのデータベース２０の範囲内において、照会ビデオＱ₁−Ｑ_Mのセット３０の各々に対して共通もしくはマッチするセクションを有するビデオを特定するステップを含む。以下に説明されるように、参照ビデオＲ₁−Ｒ_Nには索引が付けられ、参照ビデオＲ₁−Ｒ_Nの各々に対して内容DNAを提供するために視覚的な特徴が算出される。図３に示されるように、本発明は、マッチを開始する人にとってデータベース２０の範囲内において関心のある可視化情報を特定するために実行される、フレームに基づいたビデオマッチングシステム１００を提供する。ビデオマッチングシステム１００は、参照ビデオＲ₁−Ｒ_Nの範囲内においてフレームの目に見える内容の描写を生み出すための複数のアルゴリズム（以下に説明する）を実行するプロセッサ１４０を含む。以下に説明されるように、ビデオマッチングシステム１００は、従来のビデオ検索・マッチシステムにおいて得られるよりも効率的で効果的なマッチングの結果を提供するために、内容DNAを採用する。

プロセッサ１４０が、そこに蓄積されるアルゴリズムを有するコンピュータで読み取り可能な媒体もしくはメモリ１４２、およびネットワーク上におけるコミュニケーションを容易にするための入出力装置を有するということは、十分に理解されるべきである。当該ネットワークは、一般的に１５０という参照番号によって示される。それは、例えば、インターネット、イントラネット、エクストラネット、もしくはビデオデータ２０および３０を受け取って処理するための有線およびもしくは無線の計算装置に接続されている分散型のコミュニケーションプラットフォーム、などである。プロセッサ１４０は、例えば、データストア１７０に操作可能な状態で接続されている。データストア１７０は、例えば、マッチングの結果に加え、参照ビデオＲ₁−Ｒ_Nおよび照会ビデオＱ₁−Ｑ_Mの内容DNA等のような、システム１００によって用いられる情報１７２を蓄積する。一つの具体例において、プロセッサ１４０は、マッチングの結果を表示するためのディスプレイ装置等のような出力装置１８０と接続されている。一つの具体例において、プロセッサ１４０は、例えば、スタンドアローン型もしくはネットワークに接続されたパーソナルコンピュータ（PC）、ワークステーション、ラップトップ、タブレット型のコンピュータ、携帯型情報端末、ポケットPC、インターネットに接続可能なモバイル型の無線電話機、ペイジャー、もしくはそれらと同様なビデオおよび画像を処理するための適切な処理能力を有している携帯型の計算装置などである。

図３において示されるように、プロセッサ１４０は、ビデオの認識およびマッチングの動作を実行するために、アプリケーションステップを実行する分散可能なアルゴリズムのセット１４４を有している。最初に，処理の対象となる参照ビデオＲ₁−Ｒ_Nのデータベース２０および照会ビデオＱ₁−Ｑ_Mのセット３０が特定される。マッチングのプロセスの間において、照会ビデオＱ₁−Ｑ_Mの各々が、参照ビデオＲ₁−Ｒ_Nのデータベース２０と比較される。以下に説明されるフレームに基づくビデオマッチングシステム１００の一つの目標は、照会ビデオＱ₁−Ｑ_Mの各々に関して、当該照会ビデオＱ₁−Ｑ_Mの各々と共通する部分を有するビデオを、参照ビデオＲ₁−Ｒ_Nのデータベース２０の中から見つけることである。一つの具体例において、マッチングのプロセスは、１以上のパラメータ１６０に基づいて実行される。マッチングシステム１００のパラメータ１６０の一例としては、参照ビデオＲ₁−Ｒ_Nのデータベース２０に含まれるビデオのうち照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオにマッチする全てのビデオが見つけられるべきか、それとも一つのマッチによりその検索が終了されるのか、ということを識別するものである。もし、参照ビデオＲ₁−Ｒ_Nのデータベース２０の範囲内のビデオのうち、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオにマッチする全てのビデオを見つけることが必要であるとすれば、マッチングの方法は、「広範検索」もしくは「包括的検索」のシナリオもしくはモードにおいて処理が行われることになる。もし、参照ビデオＲ₁−Ｒ_Nのデータベース２０の範囲内において、ただ一つのマッチングビデオを見つけることが要求されるとするならば、マッチングのプロセスは、「機敏探知」のシナリオもしくはモードにおいて処理が行われることになる。

フレームに基づくビデオマッチングプロセスのもう一つのパラメータ１６０は、データベース２０の中の１以上の参照ビデオＲ₁−Ｒ_Nもしくはそれらの一部分とマッチする、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオのセクション（例えば、一連の１以上のフレーム）を検索するか否かを決定する。当該セクションを検索する場合には、マッチングは「シークエンスマッチング」のシナリオもしくはマッチングモードにおいて処理が行われることになる。もし、参照ビデオＲ₁−Ｒ_Nのデータベース２０の中において照会ビデオの全体が探されなければならないとすれば、そのマッチングは「グローバルマッチング」のシナリオもしくはマッチングモードにおいて処理が行われる。シークエンスマッチングのモードの場合においては、付加的なパラメータにより、探知されるべきシークエンスの最小継続時間（例えば、時間もしくはフレームの数）が示される。このパラメータは、「粒度」ｇとして言及される。参照ビデオＲ₁−Ｒ_Nのデータベース２０の一つのビデオの中に、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオの中のシークエンスが存在しても、その継続時間が粒度のパラメータｇよりも小さければ、それらは探知されないかもしれない。一方、参照ビデオＲ₁−Ｒ_Nの中の一つのビデオと等しい特性を有するいかなる照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオの中のシークエンスは、その継続時間が粒度のパラメータｇよりも大きければ探知される。

本発明にかかるフレームに基づくビデオマッチングプロセス２００の一具体例が、図４に示されている。図４に示されるように、フレームに基づくビデオマッチングプロセス２００は、ブロック２１０において開始される。ブロック２１０においては、参照ビデオＲ₁−Ｒ_Nのデータベース２０、照会ビデオＱ₁−Ｑ_Mのセット３０、およびマッチングプロセスのパラメータ１６０が、例えばマッチングプロセス２００を開始する人によって、プロセッサ１４０に提供される。ブロック２２０においては、参照ビデオＲ₁−Ｒ_Nのデータベース２０に索引が付けられる。本発明の一つの側面においては、以下により詳細に議論されるように、索引を付けるステップは、参照ビデオＲ₁−Ｒ_Nの各々の範囲内において、各々の参照ビデオＲ₁−Ｒ_Nの視覚的な特徴（ビデオの内容DNA）をそれから生成し、マッチングに対して用いられるフレームのサブセットを特定するステップを含む。索引が付けられると、ブロック２３０において、参照ビデオＲ₁−Ｒ_Nのフレームの各々、もしくはそのフレームのサブセットに基づき、参照ビデオＲ₁−Ｒ_Nの各々に対して内容DNAが決定される。ブロック２４０においては、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオの１以上のフレームが処理される。一つの具体例においては、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオの範囲内において、予め決められた範囲のフレームが、マッチングの目的に対して抽出される。例えば、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオにおいて一定の間隔で配置されたフレームが抽出される。一つの具体例において、フレームの間隔は粒度のパラメータｇに基づいている。その結果として、例えば、粒度のパラメータの半分の間隔によって配置されたフレームが抽出される。フレームが抽出されると、ブロック２５０において、抽出されたフレームに基づき照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオに対して内容DNAが決定される。

ブロック２６０においては、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオの内容DNAが、参照ビデオＲ₁−Ｒ_Nの各々に対する内容DNAと比較される。当該比較の間において、照会ビデオが参照ビデオＲ₁−Ｒ_Nの中の各々の別個のビデオと共通に有している全てのフレームのカウントが維持される。ブロック２７０においては、当該カウントは、予め決められたマッチングの閾値と比較される。もし、照会ビデオＱ₁−Ｑ_Mの中から選ばれた一つのビデオが、予め決められたマッチングの閾値よりも多くのフレームを、参照ビデオＲ₁−Ｒ_Nの中の対象となる一つのビデオと共通に有しているならば、参照ビデオＲ₁−Ｒ_Nの中の対象となる一つのビデオが、選ばれた照会ビデオとマッチしたことが宣言される。ブロック２８０においては、参照ビデオＲ₁−Ｒ_Nの中のマッチングした一つのビデオに対し、例えば、結果リスト、ファイル、もしくはデータセットの中においてそのマッチを記録することによって、マッチングしたという標識が付与される。ブロック２９０においては、パラメータ１６０が評価されて、プロセス２００の現在実行中のマッチングモードの特定が行われる。すなわち、プロセス２００が、広範探索もしくは包括的探索のマッチングモードにおいて実行されているか、それとも機敏探知のモードで実行されているか、が特定される。もし、その実行が機敏探知のモードにおいて行われているならば、制御は「イエス」のパスに沿って進み、一連の処理は終了する。もし、その実行が広範探索もしくは包括的探索のマッチングモードにおいて行われているならば、制御は「ノー」のパスに沿ってブロック２９０から進んで、当該実行がブロック３００に続く。ブロック３００においては、照会ビデオＱ₁−Ｑ_Mの中の次の一つのビデオが選ばれる。ブロック３１０において、もしそれ以上選ばれる照会ビデオＱ₁−Ｑ_Mが存在しなければ、制御は「ノー」のパスに沿って進み、一連の処理は終了する。そうでない場合、制御は、ブロック３１０から「イエス」のパスに沿って進み、ブロック２４０に戻る。そして、ブロック２４０から２９０までの動作を再び行うことによって、処理が継続される。

本発明者たちは、本発明にかかるフレームに基づくビデオマッチングプロセス２００における認知される価値のうちの少なくともいくつかは、従来のマッチングプロセスと比較した上で、その発明にかかるプロセスの単純さ、もしくは複雑さの少なさにある、ということを見出した。例えば、本発明にかかるフレームに基づくビデオマッチングプロセス２００は、効率的かつ低い誤判定率を有するフレームマッチングプロセスである。

上述したように、本発明の一つの側面においては、参照ビデオに対するビデオの内容DNAの発生（ブロック２３０において）に先立って、参照ビデオＲ₁−Ｒ_Nの各々に索引が付けられる（ブロック２２０において）。一つの具体例においては、索引付けの間において参照ビデオＲ₁−Ｒ_Nの各々の範囲内におけるフレームのサブセットが特定され、特定されたフレームのサブセットを用いて参照画像に対する視覚的な特徴（ビデオの内容DNA）が生成される。したがって、第１の内容DNA（対象となるビデオの範囲内における全てのフレームに基づく）および第２の内容DNA（対象となるビデオの範囲内におけるフレームのサブセットに基づく）の少なくとも一つもしくは両方を採用することも、本発明の技術的思想の範囲内にある。例えば、第１の内容DNAと第２の内容DNAとの間の違いを示すために、以下に説明される内容DNAが上述した同一出願人による米国特許出願（出願番号：12/432,119、出願日：2009年４月29日）に従って生成される局所的なマッチングDNAである、ということが理解されるべきである。当該出願において、当該内容DNAは、画像およびその画像の中のオブジェクトの視覚的な特性を表す複数の視覚的記述子および特徴を有する。局所的なマッチングDNAを採用することでもたらされる影響の一つとして、結果として生じる処理がCPUに負担をかける、ということである。それゆえ、評価されるフレームの数を減らすことによって、CPUの処理量が減らされる。さらに、本発明者たちは、多くのビデオの範囲内において、マッチングフレームは共通のものでありビデオの全体を一意に特定することの助けにはならない、ということを発見した。したがって、本発明者たちは、対象となるビデオの範囲内において、マッチングのプロセスのための内容DNAを決定するためにより望ましいフレームのサブセットを特定する索引付けのプロセスを見出した。十分理解されるように、内容DNAをフレームのサブセットのためにのみ発生させることによって、CPUの処理は減らされる。

図５は、フレームに基づくビデオマッチングプロセス２００（図４）の索引付けのステップ２２０のための本発明にかかる索引付けのプロセス４００の一具体例を表している。図５において示されるように、索引付けのプロセス４００は、ブロック４１０において開始される。ブロック４１０において、プロセッサ１４０によってビデオファイル（例えば、参照ビデオＲ₁−Ｒ_N）が開かれる。ブロック４２０において、プロセッサ１４０は当該ビデオファイルの最初のフレームを読み出す。ブロック４３０において、当該最初のフレームが、アンカーフレームおよび現在のフレームとして割り当てられる。一つの具体例においては、アンカーフレームのリスト、記録、もしくはファイル４３２が保持される。また、一つの具体例において、ファイル４３２は、プロセッサ１４０のメモリ１４２もしくはプロセッサ１４０に接続されているデータストア１７０の中に蓄積される。ブロック４４０において、現在のフレームがアンカーフレームと比較される。一つの具体例において、当該比較は、視覚的に一貫したオブジェクトもしくは領域を特定し、それらを比較する従来の画像マッチングの技術によって行われる。ブロック４５０においては、当該比較の結果が評価される。アンカーフレームおよび現在のフレームの両方がビデオの最初のフレームである索引付けのプロセス４００の最初の実行においては、それらのフレームはマッチして、制御は「イエス」のパスに沿ってブロック４５０からブロック４６０へと進む。ブロック４６０においては、予め決められた継続時間のパラメータが評価される。一つの具体例において、継続時間のパラメータは、さらなる実行のトリガーを引く前にマッチすることが許容される連続的なフレームの数の指定もしくはその閾値を含んでいる。一つのフレームのみ（例えば、最初のフレーム）が評価された場合、制御は「ノー」のパスに沿ってブロック４６０からブロック４９０へと進む。ブロック４９０において、プロセッサ１４０はビデオファイルから次のフレームを読み出す。ブロック５００においては、ブロック４９０における読み出しの動作の結果が評価される。もし、ビデオのファイルの終わりの部分に達していて次のフレームを読み出すことができなければ、プロセス４００の実行は終了する。そうでない場合、すなわち次のフレームの読み出しが成功した場合、制御は、「ノー」のパスに沿ってブロック５００からブロック５１０へと進む。ブロック５１０においては、次のフレームが現在のフレームとして割り当てられて、プロセス４００はブロック４４０へと続き、現在のフレームがアンカーフレームと比較される。

プロセス４００は、ビデオファイルの終わりに到達するまで（ブロック５００において決定される）、継続時間のパラメータに到達するまで（ブロック４６０において決定される）、もしくはブロック４５０においてマッチングしないフレームが探知されるまで、上述したように継続的に実行される。現在のフレームがアンカーフレームにマッチし続け、継続時間が終了した場合には（ブロック４６０）、制御は、「イエス」のパスに沿ってブロック４６０からブロック４７０へと進む。ブロック４７０において、現在のフレームがハートビートフレームとして割り当てられる。一つの具体例において、ハートビートフレームのリスト、記録、もしくはファイル４７２が保持される。また、一つの具体例において、ファイル４７２が、プロセッサ１４０のメモリ１４２もしくはデータストア１７０に蓄積される。ブロック４８０において、現在のフレームが新しいアンカーフレームとして割り当てられ、アンカーフレーム４３２は現在のフレームを含むようにアップデートされて、制御はブロック４９０へと進む。ブロック４９０において、新しいフレームが読み出され、ブロック５００の動作が実行される。

ブロック４５０に再度戻って、現在のフレームがアンカーフレームとマッチしないことが判明した場合には、制御は、「ノー」のパスに沿ってブロック４５０からブロック５２０へと進む。ブロック５２０において、現在のフレームがキーフレームとして割り当てられる。一つの具体例において、キーフレームのリスト、記録、もしくはファイル５２２が保持される。また、一つの具体例において、ファイル５２２が、プロセッサ１４０のメモリ１４２もしくはデータストア１７０の中に蓄積される。ブロック５３０において、現在のフレームが新しいアンカーフレームとして割り当てられ、アンカーフレーム４３２が再びアップデートされて、制御はブロック４９０へと進む。ブロック４９０において、次のフレームが読み出され、ブロック５００の動作が実行される。

上述したように、索引付けのプロセス４００は、ビデオファイル（例えば、参照ビデオＲ₁−Ｒ_Nの中の一つ）の全てのフレームが評価されるまで続く。各々のビデオファイルに対する索引付けのプロセス４００の結果、ビデオファイルの各々のフレームが評価され、当該フレームの３つのサブセットが決定される。例えば、ファイル４３２の中に蓄積されるアンカーフレーム、ファイル４７２の中に蓄積されるハートビートフレーム、およびファイル５２２の中に蓄積されるキーフレームが決定される。一つの具体例において、ビデオに対する第１のDNAは、例えば参照ビデオＲ₁−Ｒ_Nの中の対象となる一つのビデオの各々のフレームといった、ビデオファイルの範囲内の各々のフレームに対して決定されるDNAに基づく局所的なマッチングDNAである。一つの具体例において、ビデオに対する第２のDNAは、ビデオファイルの範囲内において決定されるフレームのサブセットに対して決定されるDNAに基づく局所的なマッチングDNAである。例えば、第２のDNAは、アンカーフレーム、ハートビートフレーム、およびキーフレームのうちの１以上の範囲内における各々のフレームに対して決定されるDNAに基づく局所的なマッチングDNAである。もし、第２のDNAが３つのサブセット、すなわちアンカーフレーム、ハートビートフレーム、およびキーフレームから決定されるならば、ビデオファイルの範囲内における全ての連続的な同一もしくはマッチングするフレームのほとんどは、DNAの決定から消去されて、CPUの処理時間が節約される、ということは十分に理解されるべきである。もし、第２のDNAがフレームの一つのサブセットから、例えばキーフレームのみから決定されるならば、さらにより少ないフレームがDNAの決定のステップの中に含まれ、それゆえ、より多くのCPUの処理時間が節約される、ということもまた十分に理解されるべきである。

したがって、発明者たちは、第１のDNAよりもむしろ第２のDNAがブロック２３０において決定される場合、および第２のDNAがマッチングプロセス２００において用いられる場合に、フレームに基づくビデオマッチングプロセス２００の改良された計算上の性能が得られる、ということを発見した。すなわち、第２のDNAの特性として、例えば、（１）第１のDNAと比較して非常に速く計算することができ、そして（２）第２のDNAのマッチングは第１のDNAとのマッチという意味を含む、ということが挙げられる。

一つの具体例において、第２のDNAが、最初に、照会ビデオおよび参照ビデオの間においてマッチするビデオフレームを探知するために用いられる。しかしながら、もし第２のDNAを用いてマッチが見つからないならば、計算上より複雑な第１のDNAが計算され、ブロック２６０において実行されるマッチングのステップにおいて用いられる。発明者たちは、第２のDNAを使用することにより、ビデオに索引付けする際、平均的に約２０個の要素によりCPUの処理時間が短縮される、ということを発見した。

一つの具体例において、フレームに基づくビデオマッチングシステム１００は、例えば実行可能なプログラムおよびライブラリー参照から生成された、ビデオに索引付けするためのプログラムのキットを有している。当該プログラムは、ビデオに索引を付ける。当該プログラムは、ビデオファイルを入力し、そのビデオファイルのキーフレームを抽出し、それらを例えばファイルの中に保存する。

当該プログラムのパラメータは、例えば以下のものを含む。
・ビデオファイル。
・各々のフレームに対して、バイナリーフォーマットの内容DNA、一意の識別名、および元々のフレームの時間コードを含む必要に応じて付加される情報、を典型的に含む出力ファイル。
・DNAのタイプ（例えば、DNAの計算において採用される記述子）。
・もしビデオの一部分にのみ索引付けが行われる場合には、スタートインおよびアウトエンドのコード。
・（必要に応じて）フレーム分割機。すなわち、Ｘ個のフレームから一つのフレームを取り出すもの。このＸは、最適化のために設定され、調整可能である。一つの具体例において、デフォルトの値は５であり、それは５つのフレーム毎に一つを取り出すための指示を表している。
・第２のDNAのタイプ（上述の説明参照）

別の具体例において、本発明にかかるフレームに基づくビデオマッチングシステムは、ビデオの検索およびマッチングのためのプログラムのキットを含んでいる。当該キットは、例えば次のものを含む。

ビデオ（例えば、上述の照会ビデオのセットＱ₁−Ｑ_Mを含んでいる）を含むフォルダを参照データベース（例えば、上述の参照ビデオのデータベースＲ₁−Ｒ_Nを含んでいる）とマッチさせるプログラム。一つの具体例において、プログラムは、２つのフォルダを入力として持っている。すなわち、一つは、参照ビデオのデータベースＲ₁−Ｒ_Nを構成するファイルを含んでおり、もう一つは、照会ビデオのセットＱ₁−Ｑ_Mを構成するビデオファイルを含んでいる。その他に入力するものは、粒度のパラメータ、検索モード（例えば、「広範検索」もしくは「機敏探知」のモード）の表示を提供するパラメータ、およびマッチングモード（例えば、「シークエンスマッチング」もしくは「グローバルマッチング」のモード）の表示を提供するパラメータである。実行の出力は、探知されたマッチを含むファイルを含んでいる。

必要に応じて、プログラムは、マッチングする２つのビデオの探索を高い精度で行うために提供され、マッチの確認を行う。上で概説したもの（プロセス２００）と同じマッチングプロセスを用いて２つのビデオの正確な比較の実行を行うことが可能だが、マッチの内容を詳細に検討するために、マッチングしたフレームはディスクもしくはその他の記憶場所に書き込まれる必要がある。一つの具体例において、プログラムの入力は、２つのビデオファイル、例えば照会ビデオのセットＱおよび参照ビデオのデータベースＲを含んでいる。一つの具体例において、当該プログラムの出力は、例えば出力フォルダの中に生成されるファイルおよびフレームのセットである。

必要に応じて、予め決められた「グランドトゥルース」に基づいて、マッチングプロセス２００の出力に関する統計を計算するためのプログラムが提供される。当該グランドトゥルースは、マッチプロセス２００を開始する人によってマッチングすることを宣言される１組のビデオである。当該統計は、マッチするビデオのセットの特定における計算性能および質の向上に貢献する。

好ましい具体例の内容について説明してきたが、それらの教示に対して数多くの修正が行われ得ることが、当業者によって十分に理解されるべきである。したがって、本発明の技術的思想の範囲内において、形態および詳細に関する変形が行われ得ることが、当業者によって十分に理解されるだろう。

［著作権表示］
本出願書類に開示されるものの一部は、著作権保護に関わる題材を含んでいる。著作権者は、出願書類もしくはそれによって開示されるものがいかなる人間によって複写されることにも反対していない。それは、米国特許商標庁のファイルもしくは記録に含まれるものである。しかし、さもなければ、いかなる場合であっても著作権者が全ての著作権を所有するものとする。

１０…ビデオ、１２…フレーム、１４…内容DNA、１６…ビデオの内容DNA、２０…参照ビデオのデータベース、３０…照会ビデオのセット、１００…ビデオマッチングシステム、１４０…プロセッサ、１４２…メモリ、１４４…アルゴリズムセット、１５０…ネットワーク、１６０…パラメータ、１７０…データストア、１８０…出力装置、２００…ビデオマッチングプロセス、４００…索引付けのプロセス

Claims

参照ビデオのデータベースの範囲内において少なくとも一つの照会ビデオにマッチングする複数のビデオを特定するための方法であって、
前記参照ビデオのデータベースを提供するステップと、
プロセッサによって、前記参照ビデオのデータベースの範囲内のビデオの各々に関し、フレーム単位で索引を付けて、前記索引に従い特定される１以上のフレームをサブセットとして特定し、前記サブセットのフレーム毎の視覚的な特徴を決定するステップと、
前記プロセッサによって、前記少なくとも一つの照会ビデオの各々に関し、フレーム毎の視覚的な特徴を決定するステップと、
前記プロセッサによって、前記参照ビデオのデータベースの範囲内のビデオの各々に関し決定した前記サブセットのフレーム毎の視覚的な特徴の各々と、前記少なくとも一つの照会ビデオの各々に関し決定したフレーム毎の視覚的な特徴の各々とを比較するステップと、
前記プロセッサによって、前記比較の結果に基づき、前記参照ビデオのデータベースの範囲内のビデオの中から前記少なくとも一つの照会ビデオにマッチするビデオを特定するステップと
を備え、
前記索引に従い特定される１以上のフレームは、ビデオのフレームの中から所定の規則に従い選択されたフレームであるアンカーフレームと前記アンカーフレームに続く所定数のフレームの各々とを順次比較し、当該所定数のフレームのうち最初に前記アンカーフレームとマッチしなかったフレームであるキーフレームを含む
方法。