JP2014506366A - 映像を比較する方法および装置 - Google Patents

映像を比較する方法および装置 Download PDF

Info

Publication number
JP2014506366A
JP2014506366A JP2013547935A JP2013547935A JP2014506366A JP 2014506366 A JP2014506366 A JP 2014506366A JP 2013547935 A JP2013547935 A JP 2013547935A JP 2013547935 A JP2013547935 A JP 2013547935A JP 2014506366 A JP2014506366 A JP 2014506366A
Authority
JP
Japan
Prior art keywords
video
query
time series
ascending
descending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013547935A
Other languages
English (en)
Other versions
JP5685324B2 (ja
Inventor
レン,イエンソン
チヤン,フアンジヨー
ウツド,トーマス・エル
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/986,728 external-priority patent/US8731292B2/en
Priority claimed from US13/012,516 external-priority patent/US8849044B2/en
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014506366A publication Critical patent/JP2014506366A/ja
Application granted granted Critical
Publication of JP5685324B2 publication Critical patent/JP5685324B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

クエリ映像と目標映像を比較する方法は、クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、各ブロックに対する平均明度値を計算するステップとを含む。クエリ映像に対する複数のクエリ時系列が生成され、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す。目標映像に対する複数の目標時系列が生成され、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表し、クエリ時系列および目標時系列は、クエリ映像と目標映像の間にアラインメントが存在するかどうかの判定に用いられる。

Description

本発明は、映像を比較するための方法および装置に関する。
たとえばYouTube(登録商標)、Google Video、およびYahoo! Videoなどの動画共有ウェブサイトでは、映像コンテンツはユーザによってサイトにアップロードされ、検索エンジンによって他者が利用できるようにすることができる。現在のウェブ映像検索エンジンは、ユーザによって入力された特定のテキストクエリに基づいて、それらの関連するスコアに従ってランク付けされた検索結果のリストを提供すると考えられる。ユーザは次いで、関心のある1つまたは複数の映像を見つけるために結果を検討しなければならない。
ユーザがホストに映像をアップロードし、映像を取得し、何らかの修正を行って再びそれらを分配するのは容易なので、映像検索結果には潜在的に非常に多くの複製物、またはほぼ複製物のコンテンツが存在する。このような複製物は、それらの全体的なコンテンツおよび主観的印象に基づいてユーザによって「本質的に同じ」であると見なされることになる。たとえば複製物映像コンテンツは、同一またはほぼ同一のコンテンツであるが異なるファイルフォーマットである、異なる符号化パラメータを有する、および/または長さが異なる、映像シーケンスを含み得る。他の差異としては、色および/もしくは照明の変更などの光度測定的な変動、ならびに/またはキャプション、ロゴ、および/もしくは縁取りの追加または改変などの空間および時間ドメインでの軽微な編集動作の場合がある。これらの例は網羅的なリストを意図するものではく、複製物映像には他のタイプの差異も生じ得る。
複製物映像の急増により、ユーザが実際に欲しいコンテンツをユーザが見つけることが難しくまたは不便になり得る。例として、YouTube、Google Video、Yahoo! Videoからのサンプル的な照会に基づくと、検索結果にリストされた中で平均で27%より多いほぼ複製物の映像が存在することが分かり、人気のある映像は結果内で最も複製されたものである。検索結果における高い比率の複製物映像を前提として、ユーザは検索結果をより分けてユーザが必要とする映像を見つけるのにかなりの時間をかけなければならず、すでに見た映像の類似のコピーを繰り返し視聴しなければならない。複製物の結果は、映像検索、取り出し、およびブラウジングのユーザの体験の価値を低下させる。さらにこのような複製された映像コンテンツは、ネットワークに全体にわたって複製された映像データを記憶し、伝送することによりネットワークオーバヘッドを増加させる。
1つのタイプの映像コピー検出技法はシーケンスマッチングである。シーケンスマッチングでは、複数のフレームを有するある時間間隔が、クエリ映像と目標映像の類似性を比較する基準となる。通常、これは、クエリ映像フレームおよび目標映像フレームの両方から特性のシーケンスを抽出するものであり、これはたとえば順序、動き、色、および図心をベースとする特性とすることができる。抽出された特性シーケンスは次いで、映像間の類似性距離を求めるために比較される。たとえば順序識別特性が用いられる場合は、各映像フレームは最初にN1×N2ブロックに分割され、各ブロックの平均の明度が計算される。次いで各フレームに対して、ブロックがそれらの平均の明度に従ってランク付けされる。ランキング順位はそのフレームの順序尺度と見なされる。一方の映像に対する順序尺度のシーケンスは、他方のそれと比較されて両者の類似性が評価される。
シーケンスマッチングは、複製物映像間での重複位置の始まりを確定することを可能にする。シーケンスマッチング手法は、ほとんど同一な映像、ならびにコーディングおよびフレーム分解能変更などのフォーマット変更を有する映像のコピー、および空間および時間ドメインでの軽微な編集を有するものを識別するのに適している。具体的には、空間的および時間的な順序識別特性を用いることにより、映像デジタル化/符号化プロセス(たとえば色、輝度、およびヒストグラム等化、符号化パラメータにおける変化)、および表示フォーマット変換(たとえばレターボックスまたはピラーボックスへの変換)、および部分的コンテンツの変更(たとえばクロッピングおよびズームイン)によって導入された映像歪みの検出が可能になる。
シーケンスマッチング技法は必要な計算が比較的容易であり、特に順序尺度を用いたときにフレームのコンパクトな表示をもたらす。シーケンスマッチングは計算の効率が良い傾向があり、ライブ映像を処理するためにリアルタイムの計算を実行することができる。たとえば1つのフレームの2×2分割を用いた順序尺度は、各フレームを表すのに4次元しか必要とせず、2つのフレーム間の必要な比較点がより少ない。
しかし、既存のシーケンスマッチングをベースとする技法は、フレームの挿入、削除、または置換などのフレームシーケンスにおける変更が存在する複製物映像クリップを検出することができない。フレームシーケンスの変更はユーザ編集によって、またはたとえば動画共有ウェブサイトによる映像へのコマーシャルの挿入によって導入される。ユーザ修正のタイプを予め推定することは実行可能ではないので、フレームシーケンス変更を検出する能力がないことにより、シーケンスマッチング技法の現実の問題への適用可能性は限定される。
フレームの挿入、削除、または置換などのフレームシーケンス改変を有する複製物映像を検出するための既存の解決策は、キーフレームマッチング技法に基づく。
キーフレームマッチング技法は、通常は、映像を表すように、映像を一連のキーフレームに区分化する。各キーフレームは次いで領域に分割され、目立った局所領域から特性が抽出される。特性はたとえば、各領域に対する色、テクスチャ、角部、または形状特性とすることができる。キーフレームマッチングは、フレームの時間的順序における変更または挿入/削除など、かなりの程度の編集を受けた近似するコピーを検出することができる。しかしキーフレーム内には全く多くの局所的特性があるので、キーフレームを識別し、各キーフレームから局所的特性を抽出し、映像クリップをデータベース内の大量の映像とマッチングさせるためにそれらの間の計量距離(metric distance)の比較を行うのは計算法的に費用がかかる。
最近の研究は、特性ベクトルの高速指標付けにより、または統計情報を用いて特性ベクトルの次元を低くすることにより、キーフレームマッチング方法の速度を改善することに向けられている。しかし、オンライン分析の場合は、映像をキーフレームに区分化するコスト、およびクエリ映像から局所的特性を抽出するコストの両方は依然として避けられない。Web2.0画像共有環境におけるオンラインリアルタイム映像複製検出を実現することが現実の課題となる。キーフレームマッチング手法は、データベース映像を集約し分類するためのきめの細かい分析を用いたオフライン映像冗長性検出に、より適している。
本発明の第1の態様によれば、クエリ映像と目標映像を比較する方法は、クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、各ブロックに対する平均明度値を計算するステップとを含む。クエリ映像に対する複数のクエリ時系列が生成され、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す。目標映像に対する目標時系列が生成され、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す。クエリ時系列および目標時系列は、クエリ映像と目標映像の間にアラインメントが存在するかどうかの判定に用いられる。本発明を用いることにより、類似性を求めて比較することができる時系列を生成することができる。複製物映像はそれらのそれぞれの時系列において類似性を示し、これはそれらが関係していることを識別するために用いることができる。本発明による方法は、2つの映像間の比較空間を低減することによって効率的な映像複製検出をもたらす。
一実施形態は、クエリ時系列および目標時系列をそれぞれ1組の離散的な線形区分に区分化するステップと、それらの線形区分の局所的シーケンスアラインメントを行うステップとを含む。線形区分化は、平均映像明度を線形上昇部/下降部の離散的なリストに圧縮することを可能にし、次いでそれらはアラインメントについて比較することができる。
複製物映像では、重複する映像領域は通常は、映像シーケンスの全体の長さに跨がることはなく、同様な領域は分離され得る。したがって線形区分の局所的アラインメントが必要になる。バイオインフォマティクスでは2つのヌクレオチドまたはタンパク質配列間での類似した領域を判定するための、Smith−Watermanアルゴリズムがよく知られている。Smith−Watermanアルゴリズムは、すべての可能な長さのストリング区分を比較し、類似性尺度を最適化する。本発明者らは、映像明度区分に対する局所的アラインメントを行うように、Smith−Watermanアルゴリズムを拡張できることを認識した。ストリングを比較する代わりに、映像間の局所的最適アラインメントを見出すために明度線形区分が比較される。
Smith−Watermanアルゴリズムは、最適化された検索をもたらすための動的計画法アルゴリズムである。これは時間的およびメモリリソースの要求が相当に厳しく、計算の複雑さはO(MN)であり、記憶容量はO(min(M,N))であり、ただしMおよびNは比較を受けるシーケンスの長さである。
検索プロセスを加速するために一実施形態では、すべての明度区分をアラインメントする代わりに、比較される映像の重要な識別特性を表すものとして、主要上昇部/下降部のシーケンスが選択される。発見的方法は、より時間のかかるSmith−Watermanアルゴリズムを行う前に、成功するアラインメントを結果として生じそうもないアラインメントを削除することによって、それらの主要上昇部/主要下降部の高速なアラインメントをもたらすために適用される。これにより計算のコストが低減される。発見的方法は、非常に異なる映像を除去することにより、および類似した映像に対する潜在的にマッチする領域に絞り込むことによってマッチングアルゴリズムの実行を促進する。
本発明による一実施形態は、映像複製検出技法を適用する前に予めユーザ修正のタイプを知ることが実行可能でない場合に有利であり、シーケンスマッチング技法を用いることを可能にする。さらにこれはシーケンスマッチング手法の使用の利点を保持し、効率的な検出をもたらす。
本発明による一実施形態を用いたフレーム変更を有する複製物映像の検出は、ユーザフィーチャーとして動画共有ウェブサイトによって使用可能である、またはロイヤルティ支払いを追跡し、および可能性のある著作権侵害を検出するために映像コンテンツプロバイダによって使用可能である、または通信「パイプ」(たとえばインターネットサービスプロバイダ(ISP)、ピアツーピア(P2P)システムプロバイダ、コンテンツ配給ネットワーク(CDN))によってネットワークトラフィックを低減し映像コンテンツの保管を管理するために使用可能である。これは、ユーザが検索、取り出し、およびブラウジングするためのサービスを提供するように、ほぼ複製物の映像の除去または集約において動画共有ウェブサイトを支援し得る。これはまた、たとえば高品質(HD)または3Dを有する類似した映像を検出することによって、映像コンテンツベースの検索を容易にする。
既存の映像複製システムは、本発明による一実施形態を含めることによって、フレーム挿入、削除、または置換などのユーザ修正を取り扱う能力を向上させることができる。
本発明の第2の態様によれば、装置は第1の態様による方法を実行するようにプログラムされまたは構成される。
本発明の第3の態様によれば、第1の態様による方法を実行するための機械実行可能なプログラムを記憶したデータ記憶媒体が提供される。
次に本発明のいくつかの実施形態について、例のみとして添付の図面を参照して説明する。
比較されるべき映像、および比較処理における一段階を概略的に示す図である。 本発明による方法を概略的に示す図である。 1つのブロックに対する明度の時間変化を概略的に示すグラフである。 線形区分化を概略的に示すグラフである。 比較される映像に対する明度の変化を概略的に示す図である。 図2の方法で用いられるマトリックスを概略的に示す図である。 図2の方法で用いられるマッチングにおけるステップを概略的に示す図である。 図2の方法で用いられるマッチングにおけるステップを概略的に示す図である。 本発明による装置を概略的に示す図である。
図1を参照すると、複数のフレームを有するクエリ映像1は、それらが複製物であるかどうかを判定するために1つまたは複数の目標映像と比較される。
図2を参照すると、2ではクエリ映像1内の各フレームはN1×N2ブロックに分割される。3では各ブロックに対する平均明度値が計算される。各フレームを分割することにより、分割された部分領域内の明度変化の変動が保持される。4では各ブロックについて、計算された平均明度値がフレーム番号に対してプロットされてクエリ時系列が生成される。この実施形態では、映像1に関連するN1×N2の時系列を作成するために、すべてのブロックが処理される。他の実施形態では選択されたブロックのみが必要であり、したがって結果としてN1×N2より少ない時系列が生成される。
比較のために、図1に示される目標映像5はクエリ映像1に基づくが、ヒストグラム等化、輝度の追加、ならびに縁取りおよびフレーム削除によって修正済みである。目標映像5が上述と同じやり方で処理されると、6に示される目標時系列が得られる。目標映像5からのブロックに対する明度の変化は、映像1のそれと形において全体的に同様となることが分かる。たとえば4でのクエリ時系列に対するフレーム番号806では1つのブロックに対する平均明度が増加するが、別のブロックのそれは減少し、それによりそれらは交差する。同様な交差は、6での目標時系列に対するフレーム739に見ることができる。
図2の7での次のステップは、部分線形区分化技法を用いることにより、クエリおよび目標時系列における時間的変化によってもたらされる情報を捕捉することである。時系列を区分化することによって映像は圧縮され、映像明度の時間的変化における本質的な情報の大部分が捕捉される。ユーザ修正、映像歪み、およびフォーマット変換により、映像複製物検出において正確なマッチを見出すことは期待されず、時間的明度の軽微な変化を無視することにより映像複製物検出プロセスは比較的ノイズの影響を受けにくくなる。
図3aは、図1の4または6に示されるものなどの、1つの時系列の一部の平均明度における変動を示す。図3bは、線形区分化が適用された後の図1aに示される時系列の一部を示す。
時系列を区分するためにはボトムアップアルゴリズムが用いられる。ボトムアップ手法はよく知られた、時系列における近似アルゴリズムである。これはできる限り微細な近似から始めて、終了基準が満たされるまで反復的に区分をマージする。この場合は近似ラインを検出するのに線形回帰ではなく線形補間が用いられ、なぜなら線形補間は複雑さの低い計算を用いて一定の時間内に得られるからである。潜在的な区分の適合品質は残留誤差を用いて評価される。残留誤差は、最良適合ラインと実際のデータ点のすべての縦方向の差を取り、それらを平方し、次いでそれらを合計することによって計算される。
他の実施形態では時系列の高速線形区分化は、極値点としての主要極大点および主要極小点の抽出を用いた補間方法によって達成される。図4aは極大点および極小点を用いた線形近似を示す。しかし発明者らは、これらの点のみに依存すると8に示されるものなどのジャンプ点が除外されることを認識した。ジャンプ点は、たとえば短い時間距離内の上向きまたは下向きのジャンプなど、値の急な変化に対応する。映像ブロック系列の明度曲線の場合は、これらのジャンプは通常は場面境界を示し、ハードカットまたはフェードイン/アウトによって引き起こされる。したがってこの実施形態では線形区分化技法は、ジャンプ点も含むように拡張され、それにより線形区分化方法に用いられる極値点は、図4bに示されるように極大点、極小点、およびジャンプ点となる。
時系列の線形区分化の後に、顕著な映像識別特性をもたらすものとして時系列内の主要上昇部/下降部が9で選択される。これにより線形区分をアラインメントするための探索空間を縮小することができる。
より長い距離およびより深みのある高さを有する線形区分は通常は、情景の顕著な変化を表す。それらはしたがって主要上昇部として選択される。連続する主要上昇部のマッチは、同じ主要な情景変化のシーケンスを有する類似の挙動に従う映像コピーを示す。これと対照的に深みのある高さであるが非常に長さの短い線形区分は通常は、ハードカットまたはフェードなどの場面境界に関連する。このような線形区分はしばしば、情景内の変化を表すものより少ない情報を含む。すべての分割されたブロックからの線形区分が、同じ時間(すなわち同じ開始フレームID)に生じる同じ短い距離内に深みのある高さを有する場合は、場面境界と判定される。場面境界を表すこれらの線形区分は、主要上昇部を選択するプロセスにおいて無視される。
12では、図5に示されるように、成功するアラインメントに繋がりそうな、連続するマッチした上昇部/下降部を有する近似的アラインメントを検出するために、クエリ映像と目標映像の主要上昇部/下降部が比較される。図6を参照すると、M1×M2のマトリックスが発生され、ただしM1およびM2は比較を受ける主要上昇部/下降部シーケンスの長さである。iおよびjでの2つの主要上昇部/下降部がマッチする場合は、値「1」がマトリックス(i,j)に置かれる。線形区分S[i,…,j]と区分S[i,…,j]の間の類似性をチェックするために、区分の高さと長さだけでなく、2つの区分に含まれた映像フレームの類似性も考慮する。より正確には、以下の場合には、これらの2つの区分は類似である:
Figure 2014506366
すなわち2つの区分は同様な長さである。この実装形態では、ratio=0.9である。
Figure 2014506366
すなわち2つの区分は同様な長さである。この実装形態では、ratio=0.75である。
minD(p)≦dist 言い換えれば、2つの対応するフレームシーケンス間の最小距離は、より短いシーケンスをより長いシーケンスに沿って「スライド」させたときに最大でも閾値定数distであり、ただしpは長い方の映像内でのスライドするフレーム位置の開始点にわたる範囲である。この実施形態ではその効率性と精度により、映像類似性距離を計算するために空間的および時間的な順序識別特性アルゴリズムを選択する。
2つのフレームシーケンスをFおよびFとして、順序識別特性測定値は以下の2つのフレームシーケンスFとFの間の距離を計算する:
Figure 2014506366
ただし、L=j−iは、短い方のシーケンスの長さである。
ユーザ修正および映像処理技法は、ヒストグラム等化、フレームサイズ変更またはクロッピング、輝度/色/色相の変更、他の付加されたノイズなどの映像明度値に差違を引き起こし得るので、同様な明度の線形区分の高さは異なり得る。同様な線形区分の距離はまた、線形区分近似誤差、またはユーザによって導入された他のノイズにより異なり得る。パラメータratioおよびratioを用いることにより、これらのノイズに対してある程度の許容が可能になる。ここでは2つのフレームシーケンスの距離を計算するために順序識別特性をベースとする測定値D(p)が用いられたが、映像フレームのマッチングは、シーケンスマッチングまたはキーフレームをベースとするマッチングアルゴリズムを用いた、他のグローバル記述子さらにはローカル記述子に基づくものとすることができる。
主要上昇部をアラインメントした後に図7に示されるように、さらにアラインメントした線形区分を検出するために潜在的な主要上昇部アラインメントは、隣接の主要でない上昇部に拡張される。このステップは、次の段階でSmith−Watermanアルゴリズムを適用するのに必要な比較の数を低減するために、不要なアラインメントを除去する。
次のステップでは重要な近似的アラインメントを検出するために、発明者らは、アラインメントは、類似したDNAおよびタンパク質配列の検出に用いられる高速検索アルゴリズムであるFASTAによってもたらされるものと同様の手法を用いて実行できることを認識した。図8(a)に示されるように、マトリックス内の連続する値「1」のすべての対角線が識別される。次に図8(b)に示されるように、長さが予め規定された閾値より長い対角線が保持され、単一のマッチおよび短いアラインメントした区分は無視される。次いで図8(c)に示されるように上位K個の最長対角線が選択される。アラインメントの全体の長さを延長するために、より長い区分を形成するように互いに近い上位K個の対角線のそれらの区分同士を結合することが試みられる。結合された、より長い区分内には、フレーム挿入、削除、および置換を考慮に入れるためにギャップが許容される。
隣接する対角線を接続するときに、対角線のマッチするラインには加点スコアが割り当てられ、ギャップすなわちミスマッチには減点スコアが与えられる。接続された対角線のそれぞれの加点スコアを加算し、ギャップ減点を減算することによってスコアが得られる。図8(d)に示されるように、連結された近似的アラインメントのスコアが所与の閾値を超える場合は、連結された区分の周りの、前に無視された初期の短いアラインメントした区分を結合して、ギャップを有する近似的アラインメントを形成できるかどうかを判定するためにチェックが行われる。最後に、閾値を超える最終スコアを有する局所的な近似的アラインメントが、さらなる審査のために選択される。
15での次の段階は、Smith−Watermanアルゴリズムを適用することにより、比較される映像のすべての明度線形区分のきめの細かいアラインメントが行われる。前に検出された主要上昇部/下降部の近似的アラインメントに基づいて、成功するアラインメントに繋がり得る線形明度区分のリストを確定することができる。Smith−Watermanアルゴリズムは、線形区分の限られた範囲を調べるだけでよい。
Smith−Watermanアルゴリズムは、最適アラインメントを検出するために編集距離を用いる。これは以下のようにスコア付けマトリックスHを構築する:
H(i,0)=0、0≦i≦M
H(0,j)=0、0≦j≦N
Figure 2014506366
0≦i≦M、0≦j≦N
ただしxおよびyは、アラインメントする可能性のある線形区分のリスト、MおよびNはxおよびyシーケンスの長さ、ω(x,y)はスコア付けスキームである。xとyがマッチする場合はω(x,y)は正であり、それらがマッチしない場合は負である。挿入および削除に対しては、ω(x,−)およびω(−,y)は負である。
Smith−Watermanアルゴリズムは、マトリックスH内の極大スコアを検索することによって局所的アラインメントを検出し、次いでマトリックスを構築するために用いられる動きの方向に応じて最適経路を遡る。これは0のスコアに達するまでこの処理を維持する。局所的最適アラインメントが得られた後に16では、マッチする線形区分を求める既存のシーケンスマッチング技法を適用することによって映像類似性距離が計算される。この実施形態では、映像類似性距離を求めるために2×2分割を有する順序尺度が用いられる。17で距離が閾値より小さいことが分かった場合は、2つの比較される映像は複製物であると見なされる。
次に18では、線形区分に対して、線形区分レベルの代わりに映像フレームレベルでのアラインメントが調べられる。最適の局所的アラインメントは明度線形区分に基づくので、区分内でフレーム変化が生じる場合は、上述のようにSmith−Watermanアルゴリズムを用いて区分全体がマッチでないと見なされる。マッチしない区分内で潜在的なマッチング位置を検出するために、フレームレベルの類似性距離を計算するためにフレーム対フレーム比較が行われる。フレーム類似性距離が、Smith−Watermanアルゴリズムを用いて得られる映像類似性距離より小さい場合は、それらのフレームはマッチすると見なされる。これは、それらのマッチしない区分内のマッチするフレームの類似性距離が残りのマッチした区分から得られる平均の映像類似性距離を超えないことを確実にする。フレーム比較は、区分の中間に向かって、マッチしない区分の始まりおよび終わりの両方から開始される。マッチングは、フレーム類似性距離が映像類似性距離より大きくなるまで続けられる。次いで映像重複位置が更新される。
したがってこの実施形態では、分割されたブロックの明度値は初めに時系列と見なされる。次いで時系列は離散的な線形表示のリストに区分化される。最適マッチング位置を検出するためにそれらの線形区分の局所的シーケンスアラインメントが行われる。次いで潜在的アラインメント位置に基づいて、映像類似性距離が計算される。最良マッチング類似性距離が所与の閾値より小さい場合は、2つの映像は複製物であると見なされる。フレームの変化を取り扱うために、線形シーケンス区分の比較時にはギャップ、フレーム挿入、削除、および置換の結果が存在することは許容される。
図9を参照すると映像管理装置は、映像ファイルを保持するデータベースまたは記憶装置19を含む。データベース19は、インターネットを通じてユーザがアクセス可能なもの、またはたとえばアクセスが制限されたライブラリまたは他の保管場所とすることができる。これらの可能なものの代わりにまたはそれらに加えて、他のタイプの記憶装置またはデータベースを用いることができる。
ユーザは、ユーザインターフェース20を通じて映像Qを提出することによって、ユーザがデータベース19に追加したい映像Qを送信する。映像Qは、映像データベース19およびまた分割器21に送られる。動作の段階1では、分割器21は映像Qの各フレームをN1×N2ブロックに分割する。計算器22はブロックのそれぞれに対して平均明度値を計算する。
段階2では平均明度値データが計算器22から区分化器23によって受け取られる。区分化器23は、各ブロックの平均明度の変化を区分化する。ソータ24は次いで区分開始フレームIDに基づいてすべてのブロックからの線形区分をソートして、ソートされたリストにする。選択器25は、ソートされたリストを受け取り、ソートされたリストから主要上昇部/主要下降部を選択する。
次の段階の段階3では、アライナ26は、クエリ映像の選択された主要上昇部および主要下降部と、同様な処理を受けた1つまたは複数の目標映像のそれらとの間で、近似的マッチを検出することを試みる。結果は第1の比較器27によってテストされる。所与の閾値パラメータに対して判断されて類似性がなかった場合は、クエリ映像と1つまたは複数の目標映像は複製物ではないと見なされ、複製検出プロセスは28で終了する。
比較器27が近似的アラインメントを検出した場合は、段階4でバンド化されたSmith−Watermanアルゴリズムがプロセッサ29によって適用され、結果は同様な類似性距離計算器30に加えられる。類似性距離計算器30の出力は、第2の比較器31によって所与の閾値に対してチェックされる。類似性が不十分である場合は、比較された映像は複製物ではないと見なされ、プロセスは32で終了する。
十分な類似性がある場合は段階5で、フレームマッチャー33は、映像挿入、削除、または置換に対するマッチしないフレームの位置をチェックする。
複製物検出プロセスの結果は、記憶される映像の管理に用いるために映像データベース19に送られる。クエリ映像が複製物ではないことが分かった場合は、映像データベース19はそれを記憶するために受け入れる。クエリ映像が複製物であることが分かった場合は、一実施形態では次いで映像データベース19は、ユーザにそれを通知するためのメッセージを伴ってまたは伴わずに、クエリ映像を拒絶する。
代替実施形態または代替形態では、クエリ映像が複製物であることが分かった場合は、映像データベース19に受け入れられるが、好ましくはそれがマッチした目標映像への参照を有して、複製物として表示される。複製物映像はグループに一緒に集めることができる。データベース上で行われる検索がグループの1つを呼び出したときは、他のグループ要素は検索結果から削除することができ、またはいずれの複製物も他の非複製物の後に提示される傾向をもつように、検索結果においてそうでない場合に受け得るよりも低いランキングが与えられる。
図9の映像管理装置は、クエリ映像が提出される前に、映像データベース19内に保持される映像が分割され、21および22で分割され処理されるように変更することができる。たとえば一実施形態では、複製物について調べるように映像が提出されたときに得られたデータは保持され、映像データベース19に送って記憶することができる。その映像がその後にデータベース19に受け入れられなかった場合はそのデータは削除される。映像がデータベースに受け入れられたときは、それに関連付けられたデータは保持され、アライナ26での使用に利用可能となる。別の実施形態では映像データベース19内の映像は、必ずしも複製物のテストに用いられていなくても、段階1および段階2で分割および処理することができる。たとえばデータ処理は、新しい映像を受け取るためにデータベースを開放する前の準備段階の一部として実行することができる。
「プロセッサ」として名前が付けられたいずれの機能ブロックを含む、図に示された様々な要素の機能は、専用のハードウェア、ならびに適当なソフトウェアに関連してソフトウェアを実行することができるハードウェアを用いることによって実現することができる。プロセッサによって実現されるとき、これらの機能は、単一の専用プロセッサ、単一の共有されたプロセッサ、その一部を共有することができる複数の個別のプロセッサによって実現することができる。さらに「プロセッサ」という用語の明示的な使用は、ソフトウェアを実行することができるハードウェアを排他的に指すと解釈されるべきではなく、非限定的に、デジタル信号プロセッサ(DSP)ハードウェア、ネットワークプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ソフトウェアを記憶するためのリードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性記憶装置を暗黙に含むことができる。従来型および/またはカスタムの他のハードウェアも含むことができる。
本発明は、その趣旨または本質的な特徴から逸脱せずに、他の特定の形で実施することができる。説明した実施形態は、すべての点で例示のみであり、限定的と見なされるべきではない。したがって本発明の範囲は上記の説明によってではなく、添付の特許請求の範囲によって示される。特許請求の範囲と均等な意味および範囲内に含まれるすべての変更形態は、それらの範囲に包含されるものとする。

Claims (29)

  1. クエリ映像と目標映像を比較する方法であって、
    クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、
    各ブロックに対する平均明度値を計算するステップと、
    クエリ映像に対する複数のクエリ時系列を生成するステップであって、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
    目標映像に対する複数の目標時系列を生成するステップであって、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
    クエリ時系列および目標時系列を用いて、クエリ映像と目標映像の間にアラインメントが存在するかどうかを判定するステップと
    を含む、方法。
  2. クエリ時系列および目標時系列をそれぞれ1組の離散的な線形区分に区分化するステップと、それらの線形区分の局所的シーケンスアラインメントを行うステップとを含む、請求項1に記載の方法。
  3. 区分化された時系列から主要上昇部および主要下降部を選択するステップと、主要上昇部および主要下降部をアラインメントの実行に用いるステップとを含む、請求項2に記載の方法。
  4. 選択された主要上昇部および主要下降部が、ジャンプ上昇部およびジャンプ下降部を除外する、請求項3に記載の方法。
  5. クエリ映像の主要上昇部および下降部を、目標映像の主要上昇部および主要下降部と比較して、連続するマッチした上昇部および下降部を有する近似的アラインメントを得るステップを含む、請求項2に記載の方法。
  6. 主要上昇部/主要下降部のクエリ映像シーケンスを、主要上昇部/主要下降部の目標映像シーケンスとマッチングさせるステップを含む、請求項5に記載の方法。
  7. マッチングさせるステップが、主要上昇部/主要下降部のクエリ映像シーケンスを主要上昇部/主要下降部の目標映像シーケンスに対してプロットしたセルを有するマトリックスを生成し、マッチがある場合はマトリックスの適切なセル内にマーカを追加することによって実行される、請求項6に記載の方法。
  8. 主要上昇部/主要下降部をアラインメントした後に、主要上昇部/主要下降部を隣接の主要でない上昇部/主要でない下降部に延長するステップを含む、請求項7に記載の方法。
  9. マーカを有する連続するセルの対角線を識別するステップと、追加のアラインメント処理のために所与の閾値より大きな長さを有する対角線を保持するステップとを含む、請求項8に記載の方法。
  10. K個の最長対角線を選択するステップと、より長い区分を形成するために上位K個の対角線に含まれる近接して配置された区分同士を結合することを試みるステップとを含む、請求項9に記載の方法。
  11. 対角線のマッチするラインには加点スコアを与え、より長いライン内のギャップには減点スコアを与えるステップと、連結された近似的アラインメントの組み合わせたスコアが所与のスコア閾値を超えたときは、連結された区分の周りの、前に無視された初期の短いアラインメントした区分を、近似的アラインメントを形成するように結合できるかどうかをチェックするステップと、さらなる審査のために、最終スコア閾値を超える最終スコアを有する局所的な近似的アラインメントを選択するステップとを含む、請求項10に記載の方法。
  12. 区分の近似的アラインメントを取得して1組の成功する可能性があるアラインメントを選択するステップと、次いで選択した組にSmith−Watermanアルゴリズムを適用するステップとを含む、請求項3に記載の方法。
  13. 選択された組に含まれない近似的にアラインメントした区分に対してフレームレベルでアラインメントを行うステップを含む、請求項12に記載の方法。
  14. クエリ映像が目標映像の複製物でないと判定されたときに、目標映像を保持する映像データベース内にクエリ映像を記憶するステップを含む、請求項1に記載の方法。
  15. クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、
    各ブロックに対する平均明度値を計算するステップと、
    クエリ映像に対する複数のクエリ時系列を生成するステップであって、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
    目標映像に対する複数の目標時系列を生成するステップであって、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
    クエリ時系列および目標時系列を用いてクエリ映像と目標映像の間にアラインメントが存在するかどうかを判定するステップと
    を含む方法を実行するようにプログラムされまたは構成された、装置。
  16. クエリ時系列および目標時系列をそれぞれ1組の離散的な線形区分に区分化するステップと、それらの線形区分の局所的シーケンスアラインメントを行うステップとを含む方法を実行するようにプログラムされまたは構成された、請求項15に記載の装置。
  17. 区分化された時系列から主要上昇部および主要下降部を選択し、主要上昇部および主要下降部をアラインメントの実行に用いるようにプログラムされまたは構成された、請求項16に記載の装置。
  18. 選択された主要上昇部および主要下降部が、ジャンプ区分を除外する、請求項17に記載の装置。
  19. クエリ映像の主要上昇部および下降部を、目標映像の主要上昇部および主要下降部と比較して、連続するマッチした上昇部および下降部を有する近似的アラインメントを得るようにプログラムされまたは構成された、請求項15に記載の装置。
  20. 主要上昇部/主要下降部のクエリ映像シーケンスを、主要上昇部/主要下降部の目標映像シーケンスとマッチングさせるようにプログラムされまたは構成された、請求項19に記載の装置。
  21. 主要上昇部/主要下降部のクエリ映像シーケンスを主要上昇部/主要下降部の目標映像シーケンスに対してプロットしたセルを有するマトリックスを生成することによってマッチングを行い、マッチがある場合はマトリックスの適切なセル内にマーカを追加するようにプログラムされまたは構成された、請求項20に記載の装置。
  22. 主要上昇部/主要下降部をアラインメントした後に、主要上昇部/主要下降部を隣接の主要でない上昇部/主要でない下降部に延長するようにプログラムされまたは構成された、請求項21に記載の装置。
  23. マーカを有する連続するセルの対角線を識別し、追加のアラインメント処理のために所与の閾値より大きな長さを有する対角線を保持するようにプログラムされまたは構成された、請求項22に記載の装置。
  24. K個の最長対角線を選択し、より長い区分を形成するために上位K個の対角線に含まれる近接して配置された区分同士を結合することを試みるようにプログラムされまたは構成された、請求項23に記載の装置。
  25. 対角線のマッチするラインには加点スコアを与え、より長いライン内のギャップには減点スコアを与え、連結された近似的アラインメントの組み合わせたスコアが所与のスコア閾値を超えたときは、連結された区分の周りの、前に無視された初期の短いアラインメントした区分を、近似的アラインメントを形成するように結合できるかどうかをチェックし、さらなる審査のために、最終スコア閾値を超える最終スコアを有する局所的な近似的アラインメントを選択するようにプログラムされまたは構成された、請求項24に記載の装置。
  26. 区分の近似的アラインメントを取得して1組の成功する可能性があるアラインメントを選択し、次いで選択した組にSmith−Watermanアルゴリズムを適用するようにプログラムされまたは構成された、請求項16に記載の装置。
  27. 選択された組に含まれない近似的にアラインメントした区分に対してフレームレベルでアラインメントを行うようにプログラムされまたは構成された、請求項26に記載の装置。
  28. クエリ映像が目標映像の複製物でないと判定されたときに、目標映像を保持する映像データベース内にクエリ映像を記憶するようにプログラムされまたは構成された、請求項16に記載の装置。
  29. クエリ映像のフレームおよび目標映像のフレームを複数のブロックに分割するステップと、
    各ブロックに対する平均明度値を計算するステップと、
    クエリ映像に対する複数のクエリ時系列を生成するステップであって、各クエリ時系列はクエリ映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
    目標映像に対する複数の目標時系列を生成するステップであって、各目標時系列は目標映像の異なるフレーム内の同じ場所からのブロックに対する平均明度値の時間的変動を表す、生成するステップと、
    クエリ時系列および目標時系列を用いて、クエリ映像と目標映像の間にアラインメントが存在するかどうかを判定するステップと
    を含む、映像コンテンツを管理する方法を実行する機械実行可能なプログラムを記憶したデータ記憶媒体。
JP2013547935A 2011-01-07 2012-01-04 映像を比較する方法および装置 Expired - Fee Related JP5685324B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US12/986,728 2011-01-07
US12/986,728 US8731292B2 (en) 2011-01-07 2011-01-07 Method and apparatus for comparing videos
US13/012,516 2011-01-24
US13/012,516 US8849044B2 (en) 2011-01-24 2011-01-24 Method and apparatus for comparing videos
PCT/IB2012/000269 WO2012093339A2 (en) 2011-01-07 2012-01-04 Method and apparatus for comparing videos

Publications (2)

Publication Number Publication Date
JP2014506366A true JP2014506366A (ja) 2014-03-13
JP5685324B2 JP5685324B2 (ja) 2015-03-18

Family

ID=45922716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013547935A Expired - Fee Related JP5685324B2 (ja) 2011-01-07 2012-01-04 映像を比較する方法および装置

Country Status (5)

Country Link
EP (1) EP2661710A2 (ja)
JP (1) JP5685324B2 (ja)
KR (1) KR101556513B1 (ja)
CN (1) CN103430175B (ja)
WO (1) WO2012093339A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067809A (ja) * 2016-10-19 2018-04-26 日本電信電話株式会社 映像検出装置、方法、及びプログラム
CN110569373A (zh) * 2018-03-29 2019-12-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103686345B (zh) * 2013-12-18 2017-01-11 北京航天测控技术有限公司 一种基于数字信号处理器的视频内容比对方法
CN104079924B (zh) * 2014-03-05 2016-05-18 北京捷成世纪科技股份有限公司 一种视频错播的检测方法和装置
KR101709085B1 (ko) * 2015-12-16 2017-02-23 서강대학교산학협력단 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치
CN110324549B (zh) * 2018-03-28 2022-05-13 沈阳美行科技股份有限公司 一种录像方法、装置和设备
CN111738173B (zh) * 2020-06-24 2023-07-25 北京奇艺世纪科技有限公司 视频片段检测方法、装置、电子设备及存储介质
CN116939267B (zh) * 2023-09-14 2023-12-05 腾讯科技(深圳)有限公司 帧对齐方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005020742A (ja) * 2003-06-23 2005-01-20 Seiko Epson Corp ビデオコピーの検出方法及び装置
JP2008282316A (ja) * 2007-05-14 2008-11-20 Yahoo Japan Corp 動画像比較装置、動画像比較方法、及び動画像比較プログラム
JP2010191954A (ja) * 2009-01-26 2010-09-02 Mitsubishi Electric R&D Centre Europe Bv 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819286A (en) * 1995-12-11 1998-10-06 Industrial Technology Research Institute Video database indexing and query method and system
KR100811835B1 (ko) 2006-10-25 2008-03-10 주식회사 에스원 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상검색방법
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
WO2010078629A1 (en) * 2009-01-12 2010-07-15 The University Of Queensland A system for real time near-duplicate video detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005020742A (ja) * 2003-06-23 2005-01-20 Seiko Epson Corp ビデオコピーの検出方法及び装置
JP2008282316A (ja) * 2007-05-14 2008-11-20 Yahoo Japan Corp 動画像比較装置、動画像比較方法、及び動画像比較プログラム
JP2010191954A (ja) * 2009-01-26 2010-09-02 Mitsubishi Electric R&D Centre Europe Bv 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067809A (ja) * 2016-10-19 2018-04-26 日本電信電話株式会社 映像検出装置、方法、及びプログラム
CN110569373A (zh) * 2018-03-29 2019-12-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
JP2020525963A (ja) * 2018-03-29 2020-08-27 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. メディア特徴の比較方法及び装置
US11593582B2 (en) 2018-03-29 2023-02-28 Beijing Bytedance Network Technology Co., Ltd. Method and device for comparing media features

Also Published As

Publication number Publication date
WO2012093339A2 (en) 2012-07-12
CN103430175B (zh) 2016-12-28
KR20130108427A (ko) 2013-10-02
EP2661710A2 (en) 2013-11-13
KR101556513B1 (ko) 2015-10-02
CN103430175A (zh) 2013-12-04
WO2012093339A3 (en) 2012-08-30
JP5685324B2 (ja) 2015-03-18

Similar Documents

Publication Publication Date Title
US8849044B2 (en) Method and apparatus for comparing videos
JP5685324B2 (ja) 映像を比較する方法および装置
JP5711387B2 (ja) 映像を比較する方法および装置
JP4990383B2 (ja) 画像グループの表現方法、画像グループの探索方法、装置、コンピュータ読み取り可能な記憶媒体およびコンピュータシステム
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
US10878280B2 (en) Video content indexing and searching
CN106557545B (zh) 视频检索方法和装置
KR101517750B1 (ko) 비디오들을 비교하기 위한 방법들 및 장치
CN102422286A (zh) 利用图像获取参数和元数据自动和半自动的图像分类、注释和标签
CN111368867B (zh) 档案归类方法及系统、计算机可读存储介质
KR100896336B1 (ko) 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
KR101634395B1 (ko) 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품
Oliveira et al. Multiple parenting identification in image phylogeny
CN113886632B (zh) 一种基于动态规划的视频检索匹配方法
JP5116017B2 (ja) 動画検索方法およびシステム
KR101111046B1 (ko) 객체 검출 정보를 이용한 유사 동영상 검색 시스템 및 방법
US9135509B2 (en) Determining representative images for a video
JP5923744B2 (ja) 画像検索システム、画像検索方法及び検索装置
KR100811774B1 (ko) 에지 히스토그램 디스크립터의 특징적 에지 블록을 이용한바이오 영상 검색 방법 및 장치
Benini et al. Identifying video content consistency by vector quantization
Tonge et al. A Novel Approach for Static Video Content Summarization using Shot Segmentation and k-means Clustering
JP5144557B2 (ja) 映像分類方法、映像分類装置および映像分類プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150116

R150 Certificate of patent or registration of utility model

Ref document number: 5685324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees