JP6321153B2 - モバイルビデオ検索 - Google Patents

モバイルビデオ検索 Download PDF

Info

Publication number
JP6321153B2
JP6321153B2 JP2016519808A JP2016519808A JP6321153B2 JP 6321153 B2 JP6321153 B2 JP 6321153B2 JP 2016519808 A JP2016519808 A JP 2016519808A JP 2016519808 A JP2016519808 A JP 2016519808A JP 6321153 B2 JP6321153 B2 JP 6321153B2
Authority
JP
Japan
Prior art keywords
video
audio
query
search
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016519808A
Other languages
English (en)
Other versions
JP2017502533A (ja
Inventor
メイ,タオ
リ,シペン
リウ,ウー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017502533A publication Critical patent/JP2017502533A/ja
Application granted granted Critical
Publication of JP6321153B2 publication Critical patent/JP6321153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

著作権表示及び許可
本特許文献の開示の一部分は、著作権保護を受けている素材を含み得る。著作権所有者は、特許文献又は特許開示が特許商標庁の特許ファイル又はレコードに現れるときは、何人によるそのファクシミリ複製に対しても異論はないが、その他の場合はいかなる著作権の権利も留保する。下記の表示が本文献に適用されるものとする:Copyright(c)2013、Microsoft Corp。
インターネット及びWorld Wide Webへのアクセスを有するモバイル装置がますます一般的になってきており、増え続ける量のデータへのアクセスをユーザに外出中に提供する、個人のインターネットサーフィンのコンシェルジュとして役立っている。
モバイル装置は、現在、いくつかのタイプの検索、具体的にはビデオコンテンツの検索に資するプラットフォームを、検索対象を記録してその記録をクエリとして送信するようにリソースを費やすことなしには提供していない。
モバイル装置のためのいくつかの検索アプリケーションは、モバイル装置に組み込まれたカメラで撮られた写真をビジュアルクエリとしてサポートしており、このことは、キャプチャツーサーチ(capture-to-search)と呼ばれる。キャプチャツーサーチにおいて、通常、ピクチャが最初スナップされる。それから、そのスナップショットが、様々な垂直的ドメイン(vertical domains)におけるマッチについて検索するためのクエリとしてサブミットされる。別の検索アプリケーションは、モバイル装置に組み込まれたマイクロフォンから記録されるオーディオを、オーディオクエリとしてサポートしている。例えば、INTONOWは、ユーザがクエリとして使用されるオーディオを記録することを可能にする。しかしながら、そのサウンドは、最大で約12秒の期間、記録される。それから、上記サウンド記録は、様々な垂直的ドメインにおけるマッチについて検索するためのクエリとしてサブミットされる。この処理は、記録状況が雑音のある場合、又は記録がサイレントであるようなサウンドなしのビデオの場合、うまく作用しない。
オーディオファイルのためのいくつかの検索エンジンは、さらにより長い記録時間を使用する。しかしながら、典型的なオーディオ検索エンジンは、オーディオについてビデオと組み合わせて検索せず、実際の記録がクエリとしてサブミットされることを依然として必要とする。
さらに別の検索アプリケーションは、モバイル装置に組み込まれたカメラで撮られたビデオ画像を、ビジュアルクエリとしてサポートしており、このことは、ビデオのキャプチャツーサーチと呼ばれ得る。VIDEOSURFは、ビデオのキャプチャツーサーチの一例である。VIDEOSURFにおいて、ビデオ画像は、少なくとも10秒の期間捕捉され、記憶される。それから、ユーザが検索のために判別可能なビジュアルコンテンツを選び、そして、そのビデオ画像クリップが、マッチするビデオについて検索するためのクエリとしてサブミットされる。
既存のモバイルビデオ検索アプリケーションは、比較的長いオーディオ及び/又はビデオクリップを記憶し、記録されたクリップを検索エンジンに送信することに、かなりのリソースを費やしている。検索エンジンは、記録されたビデオクリップのクエリを受信すると、このクリップに基づいてマッチングを実行することができる。既存の方法は、固定された継続時間、例えば、10又は12秒のクリップを必要とする。
モバイル装置におけるビデオ検索に関連する大抵の検索は、モバイル装置におけるコンパクトな記述子設計に焦点を当てている。この問題を解決するための最もポピュラーな方法は、準同一(near-duplicate)ビデオ検索のための画像コーディングのテクノロジーを通じて記述子を圧縮することであり、このことは、記述子が依存するデータモダリティのタイプに従って、3つのカテゴリ、すなわち、オーディオベースの方法、ビデオベースの方法、及び融合ベースの方法に分類されることができる。しかしながら、準同一ビデオ検索に対する多くの既存のアプローチは、主としてデスクトップシナリオに焦点を当てており、クエリビデオは大抵、モバイル装置により捕捉されたビデオではなく、大幅な歪みなしの、オリジナルのビデオのサブセットである。その上、複製ビデオ検索に対する従来のアプローチは前述のモバイルの挑戦を考慮していないため、既存のアプローチにおいて、記述子の計算コスト及びコンパクトさはしばしば無視されている。複製ビデオ検索に対する従来のアプローチはモバイルビデオ検索に適していない。
本文献は、モバイル装置におけるビデオ検索のための設備を説明するものであり、この設備は、モバイル装置で利用可能なコンピューティングリソースの利点を活かして、上記モバイル装置以外の装置により提示されているビデオコンテンツのオーディオ及びビデオ特性を抽出し、ビデオコンテンツの記録をクエリとして送信するのではなく、上記特性をクエリとして送信する。検索クエリとして使用されるオーディオ及びビデオ特性を抽出することによって、及び、上記オーディオ及びビデオ特性を、ビデオコンテンツの索引付けされたデータセットに記憶されたオーディオ及びビデオ特性とマッチングすることによって、上記設備は、サブミットされた各々のオーディオ及びビデオ特性について、特性が雑音のある状況、十分に明るくされていない状況、又は一貫性のない状況において抽出されたときを含め、候補ビデオを提供する。上記設備は、ビデオ入力の追加的な部分が取得されている間に候補ビデオの指標の提示を提供し、示されるべき候補ビデオのプログレッシブな精緻化(progressive refinement)を提供する。上記設備は、提供されている候補ビデオから選択がなされるまで、あるいは、候補ビデオの結果リストが安定するまで、例えば、候補ビデオの結果リストがある時間について変化しなくなり、検索が停止するまで、ビデオ入力の追加的な部分が取得されている間に提供されている候補ビデオの一覧表を改訂することを含め、候補ビデオの一覧表を提供する。上記設備は、候補ビデオの結果リストが安定している、例えば、ある時間について変化しなくなっていることに応答して、候補ビデオの指標の異なる提示を提供する。上記設備は、提供されている候補ビデオから選択がなされることに応答して、さらなるインターフェースの提示をさらに提供する。例えば、上記設備は、ブラウザを開くことを提供して、ユーザが選択されたビデオを購入し又は賃借することを可能にし、あるいはユーザが選択されたビデオに関するさらなる又は補助的な情報を見ることを可能にし、あるいはユーザが後の視聴のためにビデオの指標を保存することを可能にする。
本発明の概要は、以下に詳細な説明においてさらに説明される概念のうち選択されたものを簡素化された形式で紹介するために提供される。本発明の概要は、請求される対象事項の重要な特徴又は必須の特徴を識別するものではなく、請求される対象事項の範囲の決定を支援するものとして使用されるべきものでもない。上記の文脈によって及び本文献を通して許可されるとおり、用語「手法」は、例えば、方法、及び/又はコンピュータ実行可能命令、モジュール、アルゴリズム、ハードウェアロジック(例えば、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ・システム(SOC)、複合プログラマブルロジックデバイス(CPLD))を指すことがあり、かつ/あるいは、「設備(facility)」は、例えば、ハードウェアロジック(例えば、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ・システム(SOC)、複合プログラマブルロジックデバイス(CPLD))、他の装置、及び/又は他のシステムを指すことがある。
詳細な説明は、添付図面を参照して説明される。図面において、参照番号のうち最も左の(1又は複数の)桁は、その参照番号が最初に出現する図を識別する。同じ番号が、同様の特徴及びコンポーネントを参照するように図面の全体にわたって使用される。
テレビジョンにおけるビデオ提示からオーディオビデオを捕捉するモバイル装置を用いたモバイルビデオ検索の一実施例の絵図である。 図1の実施形態からのモバイルビデオ検索の例示的なユーザインターフェースの一部の絵図である。 モバイルビデオ検索を実施する例示的なアーキテクチャの絵図である。 モバイルビデオ検索のために構成された例示的なモバイル装置の選択コンポーネントを例示するブロック図である。 モバイルビデオ検索に採用され得る、レイヤ化されたオーディオビデオ索引付けのために構成された例示的なサーバ装置の選択コンポーネントを例示するブロック図である。 モバイルビデオ検索を実施するモバイル装置とレイヤ化されたオーディオビデオ索引付けを実施するサーバとを含むシステムの例示的なフレームワークの絵図である。 オーディオ指紋の抽出の一例の絵図である。 レイヤ化されたオーディオビデオ索引の一例の絵図である。 クライアント装置においてモバイルビデオ検索を実施するための例示的なプロセスのフロー図である。 レイヤ化されたオーディオビデオ索引を用いてサーバにおいてビデオ検索を実施するための例示的なプロセスのフロー図である。 レイヤ化されたオーディオビデオ索引を用いたサーバにおけるビデオ検索の間の、プログレッシブな処理の一実施例を例示するフロー図である。
モバイルビデオ検索ツールが、ビデオ検索についての関連結果を取得するための豊富な機能性セットを提供する。実際のビデオファイルの断片を採用する検索を主としてサポートするデスクトップコンピュータと比べて、モバイル装置が、様々な環境における結果の使用及び取得を容易にするのに採用され得る、ユーザ・インタラクションのための豊富なインターフェースセットを提供する。例えば、ファイルのアップロード及びダウンロード並びにデスクトップ環境において受け取られる従来のキーボード及びマウス入力の域を超えて、モバイル装置は、さらなるマルチモードの入力を受信することを可能にされる。モバイル装置インターフェースは、組み込みカメラを介したビジュアルモダリティと組み込みマイクロフォンを介したオーディオモダリティとを組み合わせることができる。
モバイル装置がこうした入力モダリティを組み合わせることができると同時に、モバイル装置からのビデオ検索は様々な挑戦に直面する。例えば、モバイルビデオ検索が直面する挑戦の1つは、ユーザが理想的な状況に満たないにもかかわらず、検索が所望され得ることである。環境は、雑音のあることがあり、一貫して明るくされておらず又はライティングの変動を伴うことがあり、かつ/あるいはインターネット接続のスピードの変動を伴う環境内であり得る。対照的に、デスクトップコンピュータからのビデオ検索には、典型的に、別の装置における、カメラ及び/又はマイクロフォンで捕捉されたビデオの提示の記録ではなく、ビデオファイルの断片をサブミットすることが含まれる。
モバイルビデオ検索が直面する他の挑戦には、モバイル装置のハードウェア制限が含まれる。モバイル装置のプロセッサ、例えば中央処理ユニット(CPU)及びグラフィクス処理ユニット(GPU)、並びにメモリは、依然として、デスクトップコンピュータに匹敵しない。厳しいメモリ及び計算制約は、大きいメモリコスト又は重い計算を伴うシグネチャ(signatures)を、モバイルクライアントに適さないものにする。さらに、ネットワーク及び帯域幅制限の否定的影響がある。モバイル装置では、ネットワーク接続はしばしば信頼できず、帯域幅は比較的小さい。本明細書に説明されるモバイルビデオ検索では、ネットワークを通じて通信されるデータのボリュームを低減し、究極的にはネットワーク待ち時間を低減するコンパクトなシグネチャを用いることによって、ボトルネック及び中断された接続の影響を制限することができる。さらに、検索するモバイル装置のユーザは、検索待ち時間に敏感である。プログレッシブな検索からの結果を含む、予備的な結果の提示は、従来のクエリクリップより短いものが捕捉されている間、ユーザに対して明白な待ち時間を低減する。
例えば、ユーザがミーティングへと歩いており、店頭のウィンドウのビデオ提示に気付くことがある。このユーザは、立ち止まってビデオを観る時間を有さないとしても、ツールを用いて、マッチするビデオをツールが返すまで、数秒のビデオを捕捉することができる。ユーザは、後の視聴のためにビデオの名称を保存することができる。この例において、提示からのオーディオと提示からのビデオ画像とを捕捉することができるクライアント側ツールは、捕捉されたコンテンツに対して軽量変換を実行する。この変換には、雑音のある街路の状況においてでさえも、オーディオ指紋を抽出することと、ビジュアルハッシュビット(visual hash bits)を抽出することとが含まれる。デスクトップコンピュータと比べて、モバイル装置の比較的制限されたメモリ及び計算リソースの点から見て、例えば、ビデオクリップを提示するために計算的に高価なシグネチャを抽出することは、実行不可能にされる可能性がある。さらに、処理のためにサーバにビデオクリップを送信するのに利用可能な帯域幅が利用可能でないことがあり、あるいは、伝送の継続時間が受け入れられないほど長いおそれがある。モバイル装置における計算キャパシティを採用することによって、ツールは変換を実行し、ネットワークを通じてかなり少ない量のデータを伝送することができる。例えば、オーディオ指紋の抽出は、1秒のビデオについて約0.5KBのデータをもたらし得る。同様に、ビデオからのビジュアルハッシュビットの抽出は、1秒のビデオについて約1.0KBのデータをもたらし得る。ゆえに、これらの組み合わせられた特性からなるオーディオビデオ・シグネチャ(audio-video signature)は、1秒のビデオクリップ全体を送信するためのデータの量と比べて、2KB未満のデータで送信されることができる。さらに、読み出しシステムについての減少された待ち時間のため、ビデオ入力が依然として取得されている間、例えば候補結果のプログレッシブな提示などについて、とり得るマッチが返されることができる。さらなる候補ビデオマッチが取得されておらず、あるいは結果リストが例えば3秒などの時間について変化しないとき、検索は、クエリにマッチするビデオが識別されたとして終わることができ、検索は自動的に停止することができ、ユーザインターフェースは、候補結果の安定化されたリストを反映するように変更されることができる。
本明細書に説明されるモバイルビデオ検索ツールの態様は、モバイル装置上で実行される検索アプリケーションとして、及び/又はアプリケーションプログラミングインターフェース(API)を介して、実施されることができる。モバイルビデオ検索ツールは、クエリのためにビデオ入力を捕捉し、オーディオ指紋とビジュアルハッシュビットとの抽出を実行して、オーディオビデオ・シグネチャを形成することができる。モバイル装置上で実行されるアプリケーションの場合、アプリケーションは、オーディオビデオ・シグネチャをビデオ検索クエリとして送信することができる。APIの場合、アプリケーションは、別のアプリケーションがビデオ検索のために使用するように、APIを介して、オーディオビデオ・シグネチャを編成するオーディオ指紋とビジュアルハッシュビットとを公開することができる。
クラウドにおいて、システムは、新規のレイヤ化されたオーディオビデオ(Layered Audio-VidEo;LAVE)索引付けスキームを用いて、大規模のビデオデータに索引を付けることができる。一方、クライアントにおいて、システムは、軽量の結合的(joint)オーディオビデオ・シグネチャをリアルタイムで抽出し、プログレッシブな方法で検索する。LAVEスキームは、結合的なマルチレイヤ化された(multi-layered)オーディオビデオ索引付けを通してオーディオビデオ・シグネチャを組み合わせ、該索引付けは、類似度計算において各々のシグネチャの個々の構造を保ち、その相関を組み合わせ段階において考慮する。結合的オーディオビデオ・シグネチャは、モバイル装置に対して計算的に安価であり、個々のオーディオ及びビジュアルモダリティからの判別可能力を補強する。ゆえに、オーディオビデオ・シグネチャは、クエリビデオの中の大きい変動、例えば雑音及び歪みに対して、ロバスト(robust)である。様々な実施形態において、学習されたハッシュ関数が、モバイル装置からネットワークを通じてサーバ又はクラウドなどに転送すべきビット数をかなり低減する。2パートのグラフ(two-part graph)の変換及びマッチングアルゴリズムがビデオ検索をプログレッシブにし、このことは、安定的な結果が達成されたときに検索が停止できることを意味する。本明細書に説明されるとおり、結果がある時間について、例えば3秒間変化しないとき、結果は安定的である。少なくとも1つの実施において、本明細書に記載されるシステムは、クエリビデオが10秒未満であったときに90%以上、例えば90.77%の精度を、クエリビデオが5秒未満であったときに約70%、例えば70.07%の精度を達成した。
本明細書に説明されるとおり、サーバ又はクラウドコンピューティング環境は、ネットワーク分散環境と呼ばれることもあり、この環境は、検索が実行されるビデオコンテンツのレイヤ化されたオーディオビデオ索引をホストすることができる。オーディオビデオ・シグネチャを取得するためのオーディオ指紋及びビジュアルハッシュビットの獲得の説明と同様に、サーバ又はクラウドコンピュータは、ビデオファイルのライブラリからのビデオファイルに対して、オーディオビデオ・シグネチャの抽出を実行することができる。抽出されたオーディオビデオ・シグネチャは、レイヤ化されたオーディオビデオ索引として記憶されることができ、このことは、他の検索構造と比べて、検索待ち時間を低減することができる。
様々な実施形態において、LAVEインデックスを検索することは、マルチステッププロセスを含む。少なくとも1つの実施形態において、第1に、ビデオ検索エンジンは、クエリからのオーディオ指紋をフィルタとして使用する。第2に、ビデオ検索エンジンは、フィルタされたセットからのキーフレームを、類似度について比較する。第3に、ビデオ検索エンジンは、最も近接した結果を取得するために幾何学的検証を実行する。ビデオ検索エンジンは、最も近接した複数の結果をランク付けしてもよい。ビデオ検索エンジンは、最も近接した結果を更新してもよく、かつ/あるいは、追加的なオーディオビデオ・シグネチャとしてのランク付けが、クエリから実行される。ビデオ検索エンジンは、クエリが由来するモバイル装置に向けて、候補結果ビデオの表現を送信することができる。いくつかの実施形態において、候補結果は、オーディオビデオの捕捉の提示と共有されるユーザインターフェース内に、上記捕捉が行われている間、提示されることができる。少なくとも1つの実施形態において、候補結果は、オーディオビデオの捕捉の提示と共有されるユーザインターフェース内に、オーディオビデオ・シグネチャを形成するようにクエリのためのビデオ入力の捕捉とオーディオ指紋及びビジュアルハッシュビットの抽出とが生じている間、プログレッシブに(progressively)提示されることができる。結果リストが安定する事象において、捕捉態様は終了することができ、ユーザインターフェースは、さらなる情報の有無にかかわらず、候補結果の安定的な一覧表の検索結果リストの提示に移行することができる。
少なくとも1つの実施形態において、本明細書に説明されるモバイルビデオ検索手法は、ネットワーク分散環境において実施される。ネットワーク分散環境には、1つ以上のタイプのコンピューティングリソースを含むことができ、上記コンピューティングリソースのタイプには、コンピューティング装置、ネットワーキング装置、及び/又は記憶装置を含むことができる。ネットワーク分散環境は、クラウドコンピューティング環境と呼ばれることもある。
様々な実施形態の態様が図1‐11を参照してさらに説明される。
実施例
図1は、本明細書に説明されるモバイル装置を用いたモバイルビデオ検索の例示的な実施形態の実施を示している。例示される例において、ユーザ102は、モバイルコンピューティング装置104、例えば、タブレット又はスマートフォンなどを使用している。図1において、モバイルコンピューティング装置104は、候補結果のリスト112を提示すると同時にモバイルビデオ検索ツール110を介してテレビジョン108上のビデオ提示106からオーディオ及びビジュアル入力を捕捉することを表すユーザインターフェースを備えて図示されている。少なくとも1つの実施形態において、候補結果のリスト112は、リアルタイムで又はリアルタイム付近で算出され、候補結果のプログレッシブなリスト112としてクライアントに返されることができる。候補結果に関連付けられた候補画像及び/又は候補テキストが、モバイル装置104の画面上のユーザインターフェース内の一覧表112に提示されることができる。例示される例において、モバイル装置104はWindows Phone(登録商標)装置を表すが、他のモバイルフォン、スマートフォン、タブレットコンピュータ、及び他のこうしたモバイル装置が類似的に採用されてもよい。モバイル装置104において、ハード又はソフトボタンのアクティブ化が、モバイルビデオ検索ツール110の起動を望むことを示すことができる。
図1の例示的な実施において、モバイルビデオ検索ツール110は、マイクロフォンのグラフィック114により表されるとおり、モバイル装置のマイクロフォンを介してオーディオ入力を捕捉することを示されている。しかしながら他の実装において、オーディオ捕捉は、異なるグラフィックにより表されてもよく、あるいは、対応するグラフィック無しに単純に理解されてもよい。同時に、モバイルビデオ検索ツール110は、ビジュアル捕捉116を表示するユーザインターフェースから明らかであるとおり、モバイル装置のカメラを介してビデオ入力を捕捉している。モバイルビデオ検索ツールは、オーディオ入力及びビジュアル入力を捕捉し続ける間、オーディオ入力のオーディオ指紋とビジュアル入力のビジュアルハッシュビットとを抽出して、検索における使用のために、例えば、LAVE索引付けされたデータセットを検索するために、クラウドに向けて送信することができる。さらに、モバイルビデオ検索ツールは、オーディオ入力及びビジュアル入力を捕捉し続ける間、候補検索結果のプログレッシブリスト112を受信することができる。候補結果に関連付けられた候補画像及び/又は候補テキストは、モバイル装置104の画面上のユーザインターフェース内の一覧表112に提示されることができる。例示される実施形態において、候補画像及び候補テキストを含む候補検索結果のプログレッシブなリスト112は、ユーザインターフェース内のビジュアル捕捉のそばに提示されているが、他の提示場所が考えられる。
様々な実施形態において、メモリを最適化するために、モバイル装置104はオーディオ入力又はビジュアル入力を記憶せず、代わって、モバイル装置104はオーディオ指紋及びビジュアルハッシュビットを記憶する。オーディオ指紋及びビジュアルハッシュビットを記憶することは、低い又は一貫性のない帯域幅状況、又は装置がネットワーク接続を欠いているときに、有用である可能性がある。
これまで、準同一ビデオの検索について全体的特徴が取り入れられてきており、これにおいて、ビデオはコンパクトな全体的シグネチャによって表される。こうした全体的特徴は、ビデオを表すためのタイムラインに関してグレーレベル強度分布を活用する時空間的特徴と、不変の全体的シグネチャを組み立てるための空間的及び時間的情報の組み合わせとを含んでいた。これら全体的表現は、大規模ビデオデータセットにおいて高速の読み出しスピードを達成するが、深刻な歪みを有する記録されたクエリビデオを適応させない。
全体的特徴と比べて、局所的記述子は、局所的不変性、例えばスケール(scale)及び方向(orientation)などを調査するので、より弁別的であり、記録されたビデオクエリの歪みに対してロバストである。しかしながら、計算の複雑さに起因して、歪みを包含し得る記録されたクエリビデオについて局所的記述子を採用することの効率は、御しにくくなる。いくつかのアプローチが、マッチング処理をスピードアップするための階層構造の組み立てとバグ・オブ・ワード(Bag-of-Words;BoW)を含む局所的記述子のマッチングのスピードとを向上させることを試みている。しかしながら、局所的記述子に基づくアプローチは、モバイル装置の限られたコンピューティング能力及びメモリに起因して、モバイル装置上で動作するための広範な最適化を必要とする。
オーディオは、準同一ビデオ検索において重要な役割を果たすことができる。一例が、類似オーディオ検索を行うために目印ベースのオーディオ指紋を採用しており、別の例が、類似ビデオ検索のためにオーディオ特徴を特性付けるための、BoWにより示唆された、バグ・オブ・オーディオ・ワード(bag of audio words;BoA)表現を含む。ビジュアル特徴と比べて、オーディオ特徴はよりロバストであり、計算的に効率が良く、コンパクトである可能性があり、このことはオーディオ特徴を、モバイルビデオ検索において採用するのに適切にする。
近年、結合的オーディオビジュアル準同一ビデオ検索は、大規模ビデオコピー検出に適用されてきている。特徴組み合わせの重要な問題は、オーディオ特徴とビデオ特徴との間の相関の識別である。既存の融合ストラテジには、早くの融合と遅くの融合とが含まれる。早くの融合ストラテジと遅くの融合ストラテジとの双方が、欠点を有する。例えば、早くの融合は、個々の特徴についての構造情報を保たず、一方、遅くの融合は、特徴間における相関を認識しない。
既存の早くの融合法及び遅くの融合法は、既存の準同一ビデオ検索法がモバイルビデオ検索に対して直接適合されて独特なモバイルの挑戦に対処することができるようにオーディオビデオ・シグネチャの利点を十分に取り出すことができない。
図2は、図1の実施形態に係るモバイルビデオ検索のユーザインターフェース内の例示的な安定化された結果一覧表200の絵図である。
上記の方法と比べて、本明細書に説明されるモバイルビデオ検索手法及び設備は、ビデオ入力が捕捉されている間、プログレッシブなモバイルビデオ検索を提供する。モバイルビデオ検索スキームは、オーディオ指紋とビジュアルハッシュビットとから導出することができるコンパクトなオーディオビデオ・シグネチャを、クラウドにプログレッシブに伝送する。LAVE索引付け手法は、ロバストなビデオ検索のためにオーディオビデオ・シグネチャの利点を活かす。さらに、ユーザの検索体験を向上させるように、プログレッシブなクエリ処理が、2パートのグラフベースの変換及びマッチング方法を採用する。
したがって、様々な実施において、モバイルビデオ検索ツールは、オーディオ指紋を取得するために目印ベースのオーディオ指紋法(Landmark-Based Audio Fingerprinting;LBAF)を採用することによって、ユーザがクエリを加速するのを助けるようにオーディオ入力を活用する。
一実施例において、204に示されるとおり、安定化された候補結果に関連付けられた候補画像が、モバイル装置104の画面上のユーザインターフェース内の一覧表200に提示されることができる。同時に、206に示されるとおり、候補結果に関連付けられたテキスト、例えばタイトル、キャラクタ名称等が、モバイル装置104の画面上のユーザインターフェース内の一覧表200に提示されることができる。図示される例において、結果一覧表は、水平リボンフォーマットにおいて提示される候補画像204と対応するタイトル206とを含み、上記一覧表から、特定の候補結果が、検索エリア202にドラッグされることによって、あるいはモバイル装置104の画面上の画像又はテキストのいずれかをタッチし又はその他の方法で選択することによって、選択されることができる。しかしながら、他のフォーマットが可能でもあり、考えられもする。例えば、候補画像の選択が、ブラウザを開かせ、モバイル装置上で視聴するために上記選択のコピーをユーザが購入し又は賃借する機会を提供することができ、かつ/あるいは、テキスト又はタイトルの選択が、関連付けられたビデオに関する情報を出し(bring up)、又は、関連付けられた画像の有無にかかわらず後のアクセスのためにタイトルを記憶することができる。
例示的なアーキテクチャ
以下に説明されるアーキテクチャはほんの一例を構成し、請求項をいずれか1つの特定のアーキテクチャ又は動作環境に限定することは意図されない。請求される対象事項の主旨及び範囲から逸脱することなく、他のアーキテクチャが使用されてもよい。図3は、モバイルビデオ検索を実施する例示的なアーキテクチャの絵図である。
いくつかの実施形態において、環境300の様々な装置及び/又はコンポーネントには1つ以上のネットワーク302が含まれ、ネットワーク302を通じて、モバイルコンピューティング装置304が少なくとも1つのサーバ306に接続されることができる。モバイルコンピューティング装置304は、モバイルコンピューティング装置104に対応し得るものであり、本明細書において、クライアント装置304又は単に装置304とも呼ばれる。環境300は、複数のネットワーク302、様々な装置304、及び/又は複数のサーバ306を含み得る。
様々な実施形態において、サーバ306は、例えば学校制度又は会社などのエンティティに特有のクラウドベースサービス又は集中型サービスをホストすることができる。環境は、リソースを共有し、負荷のバランスをとり、パフォーマンスを増大させ、フェイルオーバのサポート又は冗長性を提供するように、又はネットワーク302を通じて他の目的のために、クラスタ又は他のグループ化された構成において動作する1つ以上のコンピューティング装置をサーバ306が含むことができるシナリオを、サポートする。
例えば、ネットワーク302は、インターネットなどのパブリックネットワーク、機関及び/又は個人のイントラネットなどのプライベートネットワーク、又は、プライベートネットワークとパブリックネットワークとの何らかの組み合わせを含むことができる。ネットワーク302は、任意タイプの有線及び/又はワイヤレスネットワークをさらに含むことができ、これらに限られないが、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星ネットワーク、ケーブルネットワーク、Wi‐Fiネットワーク、WiMaxネットワーク、モバイル通信ネットワーク(例えば、3G、4G、及び同様のもの)、又はこれらの任意の組み合わせが含まれる。ネットワーク302は、インターネットプロトコル(IP)、トランスミッションコントロールプロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、又は他のタイプのプロトコルなどの、パケットベース及び/又はデータグラムベースのプロトコルを含む通信プロトコルを利用することができる。さらに、ネットワーク302は、スイッチ、ルータ、ゲートウェイ、アクセスポイント、ファイアウォール、基地局、リピータ、バックボーン装置、及び同様のものなどの、ネットワーク通信を容易にし及び/又はネットワークのハードウェア基盤を形成する複数の装置をさらに含むことができる。
いくつかの実施形態において、ネットワーク302は、ワイヤレスアクセスポイント(WAP)などのワイヤレスネットワークに対する接続を可能にする装置をさらに含むことができる。実施形態は、電気電子技術者協会(IEEE)802.11標準(例えば、802.11g、802.11n、及び同様のもの)及び他の標準をサポートするWAPを含む、様々な電磁気的周波数(例えば、無線周波数)を通じてデータを送信及び受信するWAPによる接続性をサポートする。
コンピュータ可読媒体
コンピュータ可読媒体は、この用語が本明細書において使用されるとき、少なくとも、2タイプのコンピュータ可読媒体、すなわち、コンピュータ記憶媒体と通信媒体とを含む。
コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のために任意の方法又はテクノロジーにおいて実施される揮発性及び不揮発性の、取外し可能及び取外し不能の媒体が含まれる。コンピュータ記憶媒体には、装置に、及び/又は、装置の一部である若しくは装置の外部にあるハードウェアコンポーネントに含まれる、有形の及び/又は物理的な形態の媒体が含まれ、これらに限られないが、ランダムアクセスメモリ(RAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、相変化メモリ(PRAM)、読取専用メモリ(ROM)、消去可能プログラマブル読取専用メモリ(EPROM)、電気的消去可能プログラマブル読取専用メモリ(EEPROM)、フラッシュメモリ、コンパクトディスク読取専用メモリ(CD‐ROM)、デジタル多用途ディスク(DVD)、光カード若しくは他の光学記憶媒体、磁気カセット、磁気テープ、磁気ディスクストレージ、磁気カード若しくは他の磁気記憶装置若しくは媒体、ソリッドステートメモリ装置、ストレージアレイ、ネットワークアタッチトストレージ、ストレージエリアネットワーク、ホスト型のコンピュータストレージ若しくは任意の他の記憶メモリ、記憶装置、及び/若しくは記憶媒体若しくはメモリテクノロジー、又は、コンピューティング装置によるアクセスのために情報を記憶し及び維持することに使用することができる任意の他の非伝送媒体が含まれる。
対照的に、通信媒体は、搬送波などの変調されたデータ信号又は他の伝送メカニズムにおいて、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータを具現化し得る。
本明細書に定義されるとおり、コンピュータ記憶媒体は、伝送を実行するのに必要なハードウェアコンポーネントの任意のものを除き、通信媒体を含まない。すなわち、コンピュータ記憶媒体は、本質的に、変調されたデータ信号、搬送波、又は伝搬された信号から専らなる通信媒体を、含まない。
様々な実施形態において、モバイルコンピューティング装置304は、装置304A‐304Eなどの装置を含む。実施形態は、装置304がリソースを共有するように又は他の目的のためにクラスタ又は他のグループ化された構成において動作する1つ以上のコンピューティング装置を含むことができるシナリオを、サポートする。それぞれ異なる様々なモバイル装置タイプとして例示されるが、装置304は他のモバイル装置タイプである可能性があり、例示されるモバイル装置タイプに限定されない。装置304には、入力/出力インターフェース310とコンピュータ可読媒体312とに動作可能に接続された1つ以上のプロセッサ308を有する任意タイプのモバイルコンピューティング装置を含むことができる。装置304は、例えば、スマートフォン304A、ラップトップコンピュータ304B、タブレットコンピュータ304C、電気通信装置304D、パーソナルデジタルアシスタント(PDA)304E、及び/又はこれらの組み合わせなどの、モバイルコンピューティング装置を含むことができる。装置304は、電子書籍リーダ、ウェアラブルコンピュータ、自動車用コンピュータ、ゲーム装置、モバイルシンクライアント、端末、及び/又はワークステーションをさらに含むことができる。いくつかの実施形態において、装置304は、モバイル装置以外である可能性があり、例えば、デスクトップコンピュータ、及び/又は、コンピューティング装置、電化製品又は別の種類の装置における統合のためのコンポーネントを含むことができる。
いくつかの実施形態において、装置304Aに関して図示されるとおり、コンピュータ可読媒体312は、オペレーティングシステム314と、モバイルビデオ検索のためのエンジン316と、CPU又はGPUなどのプロセッサ308によりロード可能及び実行可能な他のモジュール、プログラム、又はアプリケーション318とを含む、プロセッサ308により実行可能な命令を記憶することができる。別法として又はさらに、本明細書に説明される機能性は、少なくとも部分的に、1つ以上のハードウェアロジックコンポーネントによって実行されることができる。例えば、限定なしに、使用され得る例示的タイプのハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ(FPGA)、特定プログラム向け集積回路(ASIC)、特定プログラム向け標準製品(ASSP)、システムオンチップ・システム(SOC)、複合プログラマブルロジックデバイス(CPLD)等が含まれる。
様々な実施形態におけるコンピュータ可読媒体312が、コンピュータ記憶媒体を含むことがあり、これが今度は、上記で論じられたとおり、揮発性メモリ、不揮発性メモリ、及び/又は、他の永続的及び/又は補助的コンピュータ記憶媒体を含むことができる。ゆえに、コンピュータ可読媒体312は、コンピュータ記憶媒体として実施されるとき、装置に、及び/又は装置の一部である若しくは装置の外部にあるハードウェアコンポーネントに含まれる、有形の及び/又は物理的な形態の媒体を含み、これらに限られないが、ランダムアクセスメモリ(RAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、読取専用メモリ(ROM)、消去可能プログラマブル読取専用メモリ(EPROM)、電気的消去可能プログラマブル読取専用メモリ(EEPROM)、フラッシュメモリ、コンパクトディスク読取専用メモリ(CD‐ROM)、デジタル多用途ディスク(DVD)、光カード若しくは他の光学記憶媒体、磁気カセット、磁気テープ、磁気ディスクストレージ、磁気カード若しくは他の磁気記憶装置若しくは媒体、ソリッドステートメモリ装置、ストレージアレイ、ネットワークアタッチトストレージ、ストレージエリアネットワーク、ホスト型のコンピュータストレージ、又は、コンピューティング装置によるアクセスのために情報を記憶し及び維持することに使用することができる任意の他の記憶メモリ、記憶装置、及び/若しくは記憶媒体が含まれる。しかしながら、コンピュータ可読媒体312は、コンピュータ記憶媒体として実施されるとき、本質的に、伝搬された信号から専らなる通信媒体を含まない。
装置304は、装置304が他の装置と通信することを可能にするように1つ以上の入力/出力(I/O)インターフェース310をさらに含むことができる。装置304の入力/出力(I/O)インターフェース310は、ネットワーク302を通じてコンピューティング装置304と他の装置304及び/又はサーバ306などの他のネットワーク化された装置との間の通信を可能にするように1つ以上のネットワークインターフェースをさらに含むことができる。装置304の入力/出力(I/O)インターフェース310は、装置304がユーザ入力周辺装置(例えば、キーボード、マウス、ペン、ゲームコントローラ、オーディオ入力装置、ビジュアル入力装置、タッチ入力装置、ジェスチャの(gestural)入力装置、及び同様のもの)及び/又は出力周辺装置(例えば、ディスプレイ、プリンタ、オーディオスピーカー、触覚に関する(haptic)出力、及び同様のもの)などの他の装置と通信することを可能にすることができる。ネットワークインターフェースには、ネットワークを通じて通信を送信し及び受信するように1つ以上のネットワークインターフェースコントローラ(NIC)又は他のタイプの送受信器装置を含むことができる。
サーバ306は、入力/出力インターフェース322とコンピュータ可読媒体324とに動作可能に接続された1つ以上のプロセッサ320を有する任意タイプのコンピューティング装置を含むことができる。いくつかの実施形態において、サーバ306に関して図示されるとおり、コンピュータ可読媒体324は、オペレーティングシステム326と、レイヤ化されたオーディオビデオ・エンジン328のためのフレームワークと、CPU及び/又はGPUなどのプロセッサ320によりロード可能及び実行可能な他のモジュール、プログラム又はアプリケーション330とを含む、プロセッサ320により実行可能な命令を記憶することができる。別法として又はさらに、本明細書に説明される機能性は、少なくとも部分的に、1つ以上のハードウェアロジックコンポーネントによって実行されることができる。例えば、限定なしに、使用され得る例示的タイプのハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ(FPGA)、特定プログラム向け集積回路(ASIC)、特定プログラム向け標準製品(ASSP)、システムオンチップ・システム(SOC)、複合プログラマブルロジックデバイス(CPLD)等が含まれる。
コンピュータ可読媒体324は、コンピュータ記憶媒体として実施されるとき、揮発性メモリ、不揮発性メモリ、及び/又は、他の永続的及び/又は補助的コンピュータ可読記憶媒体を含むことができる。サーバ306は、サーバ306がユーザ入力周辺装置(例えば、キーボード、マウス、ペン、ゲームコントローラ、オーディオ入力装置、ビジュアル入力装置、タッチ入力装置、ジェスチャの入力装置、及び同様のもの)及び/又は出力周辺装置(例えば、ディスプレイ、プリンタ、オーディオスピーカー、触覚に関する出力、及び同様のもの)などの他の装置と通信することを可能にするように、1つ以上の入力/出力(I/O)インターフェース322をさらに含むことができる。サーバ306の入力/出力(I/O)インターフェース310は、ネットワーク302を通じてコンピューティングサーバ306と他のサーバ306又は装置304などの他のネットワーク化された装置との間の通信を可能にするように、1つ以上のネットワークインターフェースをさらに含むことができる。
様々な実施形態において、サーバ306は、学校制度又は会社などのエンティティに特有のクラウドベースサービス又は集中型サービスを表すことができる。サーバ306は、ユーザインターフェースを1つ以上の装置304に送信するためのプログラミングを含むことができる。サーバ306は、ユーザプロファイルを記憶し又はユーザプロファイルにアクセスすることができ、ユーザプロファイルは、エンティティによる収集をユーザが同意しているユーザアカウント番号、氏名、場所などの情報、及び/又は、信頼されていない環境において要注意のトランザクションにユーザが使用することができる1つ以上のクライアント装置304に関する情報を含むことができる。
例示的なモバイル装置
図4は、本明細書に説明されるモバイルビデオ検索設備を提供するように構成された例示的なモバイル装置104の選択コンポーネントを例示する。例示的なモバイル装置304には、パワーサプライ402と、1つ以上のプロセッサ404と、入力インターフェースとが含まれ、プロセッサ404は、プロセッサ308に対応し得るものであり、マイクロプロセッサを含むことができ、上記入力インターフェースは、入力/出力インターフェース310に対応し、ネットワークインターフェース406と1つ以上のカメラ408と1つ以上のマイクロフォン410とを含む。いくつかの事例において、さらなる入力インターフェース412が、タッチに基づくインターフェース及び/又はジェスチャに基づくインターフェースを含むことができる。例示的なモバイル装置304は、入力/出力インターフェース310に対応する、ディスプレイ414を含む出力インターフェースをさらに含み、いくつかの事例において、例えばスピーカー、プリンタ等のさらなる出力インターフェース416を含んでもよい。ネットワークインターフェース406は、モバイル装置304がネットワーク302を通じてデータを送信し及び/又は受信することを可能にする。ネットワークインターフェース406は、モバイル装置304が様々なタイプの通信を送信し及び/又は受信することを可能にするための他の通信インターフェースの任意の組み合わせをさらに表してもよく、これらに限られないが、ウェブベースデータと、セルラー電話ネットワークベースのデータとが含まれる。さらに、例示的なモバイル装置304はコンピュータ可読媒体418を含み、いくつかの実施形態において、コンピュータ可読媒体418はコンピュータ可読媒体312に対応する。コンピュータ可読媒体418は、オペレーティングシステム(OS)420と、ブラウザアプリケーション422と、モバイルビデオ検索ツール316と、任意数の他のアプリケーション又はモジュール424とを記憶し、これらは、コンピュータ可読命令としてコンピュータ可読媒体418に記憶され、少なくとも部分的にプロセッサ404上で実行される。
ブラウザアプリケーション422は、インターネットを通じて利用可能なウェブコンテンツにアクセスできるためのユーザインターフェースを提供するようにモバイル装置304上で実行されることができる様々なアプリケーションのうち任意のものを表す。
他のアプリケーション又はモジュール424は、モバイル装置304上で実行可能な任意数の他のアプリケーションを含み得る。こうした他のアプリケーションには、例えば、電子メールアプリケーション、カレンダアプリケーション、トランザクションモジュール、音楽プレーヤ、カメラアプリケーション、計算器、1つ以上のゲーム、1つ以上の生産性ツール、メッセージングアプリケーション、加速度計、及び同様のものを含み得る。
モバイルビデオ検索ツール316には、オーディオ抽出モジュール426と、ビデオ抽出モジュール428と、シグネチャモジュール430と、結果モジュール432と、ユーザインターフェースモジュール434と、任意数の他のモバイルビデオ検索モジュール436とのうち、1つ以上が含まれる。オーディオ抽出モジュール426は、LBAFなどのオーディオ指紋を抽出することができる。
ビデオ抽出モジュール428は、迅速に抽出されるだけでなくモーション状況、ぼやけ状況、一貫性のないライティング状況などの歪みに対してロバストでもある、ビデオ記述子を採用する。ビデオ抽出モジュール428は、局所的ビデオ特徴から、スピードアップされたロバストな特徴(Speeded-Up Robust Features;SURF)などの生の(raw)特徴を抽出することができる。しかしながら、生のSURF特徴を送信することは、受け入れられないほど大量のエネルギーをモバイル装置に消費させる可能性があり、長くかかり過ぎてユーザが受け入れることができない可能性がある。様々な実施形態において、ビデオ抽出モジュールは、局所的特徴をハッシュビットに圧縮するようにハッシュ法を使用し、モバイルコンピューティング装置104の軽い計算及びメモリリソースと調和する。
シグネチャモジュール430は、オーディオ抽出モジュール426からのオーディオ指紋及び/又はビデオ抽出モジュール428からのビジュアルハッシュビットに少なくとも基づいてLAVE検索を実行するためのプログラミングのすべて又は一部と調和して動作し、該すべて又は一部を編成し得る。
ユーザインターフェースモジュール434は、モバイル装置104についての他の機械的及び/又はソフトウェアユーザインターフェースコンポーネントの動作のためのプログラミングのすべて又は一部と調和して動作し、該すべて又は一部を編成し得る。例えば、ユーザインターフェースモジュール434は、プロセッサ404により実行されることができ、モバイルビデオ検索ツール316の文脈において、ハード又はソフト選択ボタン、ホーム画面ボタン、戻るボタン、及び/又は開始ボタンの機能を制御することができる。ユーザインターフェースモジュール434は、結果モジュール432により受信された候補結果一覧表のうち特定一覧表の提示及び選択を可能にする。例えば、ユーザインターフェースモジュール434は、112及び/又は200において図示されたとおり、モバイル装置104の画面上にスクロール可能なリボンフォーマットにおいて提示される特定候補一覧表の提示及び選択を提供する。
いくつかの実施形態において、他のインタラクティブなマルチモードの画像検索コンポーネント436が、モバイルビデオ検索を実行するために他のインタラクティブなデータのコンテキストを適用することができる。例えば、使用され得る他のコンテキストデータは、これらに限られないが、直近の検索、メッセージング情報、直近にアクセスされたアプリケーションを識別するデータ(例えば、ブラウザ検索、ムービー一覧化アプリ等)、及び同様のものを含み得る。
図4においてモバイル装置304のコンピュータ可読媒体418上に記憶されるものとして例示されたが、いくつかの実施において、モバイルビデオ検索ツール316又はその一部分は、1つ以上のサーバ306に記憶され、かつ/あるいはクラウドベースの実施を介して実行されることができる。さらに、いくつかの実施において、モバイルビデオ検索ツール316又はその一部分は、モバイル装置304によりアクセス可能な任意の形態のコンピュータ可読媒体を用いて実施されることができる。さらに、いくつかの実施形態において、オペレーティングシステム420、ブラウザアプリケーション422、モバイルビデオ検索ツール316、及び/又は他のアプリケーション若しくはモジュール424のうち、1つ以上のコンポーネントが、モバイル装置304の一部である又はモバイル装置304にアクセス可能である集積回路の一部として実施されてもよい。さらに、モバイル装置304上で実施されるものとして例示され説明されたが、いくつかの実施形態において、本明細書に説明されるモバイルビデオ検索ツール316により提供されるデータアクセス及び他の機能性は、オーディオ及びビジュアル入力のために構成された、ユーザがビデオ検索を実行することができる、任意の他タイプのコンピューティング装置上で実施されてもよく、該コンピューティング装置は、これらに限られないが、デスクトップコンピュータシステム、ゲームシステム及び/又はテレビジョンシステムを含む。
例示的なサーバ装置
図5は、本明細書に説明されるモバイルビデオ検索設備としてレイヤ化されたオーディオビデオ索引付けを提供するように構成された例示的なサーバ装置306の選択コンポーネントを例示するブロック図である。例示的なサーバ306には、パワーサプライ502と、1つ以上のプロセッサ504と、入力インターフェースとが含まれ、プロセッサ504は、プロセッサ320に対応し得るものであり、マイクロプロセッサを含むことができ、上記入力インターフェースは、入力/出力インターフェース322に対応し、ネットワークインターフェース506を含む。いくつかの事例において、例示的なサーバ306は、1つ以上のさらなる入力インターフェース508、例えば、キーボード、ソフトキー、マイクロフォン、カメラ等を含み得る。ネットワークインターフェース506に加えて、例示的なサーバ装置306は、1つ以上のさらなる出力インターフェース510をさらに含むことができ、出力インターフェース510は、入力出力インターフェース322に対応し、例えばディスプレイ、スピーカー、プリンタ等の出力インターフェースを含む。ネットワークインターフェース506は、サーバ306がネットワーク302を通じてデータを送信し及び/又は受信することを可能にする。ネットワークインターフェース506は、サーバ306が様々なタイプの通信を送信し及び/又は受信することを可能にするための他の通信インターフェースの任意の組み合わせをさらに表してもよく、これらに限られないが、ウェブベースデータと、セルラー電話ネットワークベースのデータとが含まれる。さらに、例示的なサーバ306はコンピュータ可読媒体512を含み、いくつかの実施形態において、コンピュータ可読媒体512はコンピュータ可読媒体324に対応する。コンピュータ可読媒体512は、オペレーティングシステム(OS)514、LAVE索引516、レイヤ化されたオーディオビデオ・エンジン328と、任意数の他のアプリケーション又はモジュール518とを記憶し、これらは、コンピュータ実行可能命令としてコンピュータ可読媒体512に記憶され、少なくとも部分的にプロセッサ504上で実行される。
他のアプリケーション又はモジュール518は、サーバ306上で実行可能な任意数の他アプリケーションを含み得る。こうした他のアプリケーションには、例えば、電子メールアプリケーション、カレンダアプリケーション、トランザクションモジュール、音楽プレーヤ、カメラアプリケーション、計算器、1つ以上のゲーム、1つ以上の生産性ツール、メッセージングアプリケーション、加速度計、及び同様のものを含み得る。
レイヤ化されたオーディオビデオ・エンジン328には、オーディオ抽出モジュール524と、ビデオ抽出モジュール526と、LAVE検索モジュール528と、幾何学的検証モジュール530と、プログレッシブクエリモジュール532と、判断モジュール534とのうち、少なくとも1つが含まれる。
図5においてサーバ306のコンピュータ可読媒体512上に記憶されるものとして例示されたが、いくつかの実施において、レイヤ化されたオーディオビデオ・エンジン328又はその一部分は、1つ以上のさらなるサーバ306上に記憶され、かつ/あるいはクラウドベースの実施を介して実行されることができる。さらに、いくつかの実施において、レイヤ化されたオーディオビデオ・エンジン328又はその一部分は、サーバ306によりアクセス可能である任意の形態のコンピュータ可読媒体を用いて実施されることができる。さらに、いくつかの実施形態において、オペレーティングシステム514、LAVE索引516、及び/又は他のアプリケーション若しくはモジュール518のうち、1つ以上のコンポーネントが、サーバ306の一部である又はサーバ306にアクセス可能である集積回路の一部として実施されてもよい。さらに、サーバ306上で実施されるものとして例示され説明されたが、いくつかの実施形態において、本明細書に説明されるレイヤ化されたオーディオビデオ・エンジン328により提供されるデータアクセス及び他の機能性は、オーディオ及びビジュアル索引付けのために構成され、ビデオクエリ入力に基づいてビデオ検索を実行することができる任意の他タイプのコンピューティング装置上で実施されてもよく、該コンピューティング装置は、これらに限られないが、デスクトップコンピュータシステム、ヘッドエンド(head end)テレビジョン配信システム、及びラップトップコンピュータシステムを含む。
図6の600は、モバイルビデオ検索を実施するモバイル装置と、レイヤ化されたオーディオビデオ索引付けを実施するサーバ又はクラウドコンピューティング環境との、例示的なフレームワークの絵図であり、上記サーバ又はクラウドコンピューティング環境は、ネットワーク分散環境と呼ばれることもある。フレームワーク600は、オフライン段階602とオンライン段階604とを用いて例示される。フレームワーク600は少なくとも1つのサーバ606を含むことができ、サーバ606は、様々な実施形態においてサーバ306に対応し、例えば、ウェブサーバ、アプリケーションサーバ、任意数の他のデータサーバを含み得る。同時に、フレームワーク600は少なくとも1つのクライアント608を含むことができ、クライアント608は、様々な実施形態において装置104及び/又は304に対応する。
様々な実施形態において、クライアント608は、ネットワークを通じて、例えばネットワーク302通じてデータを伝送し及び受信するように構成された、任意タイプのモバイルコンピューティング装置を表す。例えば、クライアント608は、モバイルフォン、スマートフォン、パーソナルデジタルアシスタント(PDA)、ネットブック、タブレットコンピュータ、ハンドヘルドコンピュータ、及び低減されたフォームファクタ及びリソース制限により特性付けられた他のこうしたモバイルコンピューティング装置として実施されてもよい。
オフライン段階602において、クラウドコンピューティングのパワーを使用して、大規模ソースビデオデータセット610を記憶することができ、該データセット610には、数千のビデオを含み得る。612において、レイヤ化されたオーディオビデオ索引付けアプリケーション、例えばLAVE328が、大規模ソースビデオデータセット610からのビデオの個々について、オーディオビデオ記述子を抽出する。効果的な結合的オーディオビデオ記述子は、モバイルビデオ検索システムにおいて、複雑なモバイルビデオ捕捉状況(例えば、サイレントビデオ、又は低いビジュアル品質のぼやけたビデオ)からのクエリビデオの変動に対してロバストであることになる。様々な実施形態において、結合的な記述子の選択は、3つの特性、すなわち、1)記録されたクエリビデオの変動に対してロバストであること、2)モバイル装置上で計算するのに安価であること、及び、3)モバイルビデオ検索のために索引を付けるのが容易であることに、少なくとも部分的に基づく。少なくとも1つの実施形態において、LAVESアプリケーションは、オーディオ指紋614を取得するのに目印ベースのオーディオ指紋法(LBAF)を、ビジュアルハッシュビット616を取得するのにスピードアップされたロバストな特徴(SURF)を採用する。618において、LAVEアプリケーション328は、上記記述子を用いてLAVE索引620を構築し、記憶する。
オンラインクエリ段階604には、装置304などのクライアント装置608がクエリビデオクリップを捕捉する間に(622)実行されることができる、下記の動作が含まれる。1)モバイル装置での軽量オーディオビデオ記述子のリアルタイム抽出(624)。モバイルビデオ検索ツール316は、オーディオビデオ・シグネチャ(ビジュアルハッシュビット626及びオーディオ指紋628を含む)をサーバ606に向けて送信する。様々な実施形態において、モバイルビデオ検索ツール316は、所定の間隔(intervals)において、例えば、2秒の間隔において、1秒の間隔において、1/2秒の間隔において等でシグネチャを送信する。2)サーバ606は、シグネチャ、例えば、2秒のシグネチャ、1秒のシグネチャ、1/2秒のシグネチャ等を受信する。630に図示されるとおり、サーバ606は、LAVE索引620を通して類似ビデオキーフレーム632についての検索を行う。3)634に図示されるとおり、サーバ606は、幾何学的検証に基づくビジュアルのランク付けを使用して、検索結果を精緻化する。幾何学的検証は、クエリ特性636をソース特性638と比較する。各々のマッチしたクエリ、例えば、1秒のクエリとソースビデオのキーフレームとについて、2パートのグラフ内の1つのノードが受信されたクエリを表すことができ、別のノードがソースビデオからの候補マッチングキーフレームを表すことができる。グラフにおいて、端部(edge)が、クエリノードを候補マッチングキーフレームノードに接続する。4)640に図示されるとおり、サーバ606は、ビデオ検索をプログレッシブにするように2パートのグラフの変換及びマッチングを介してプログレッシブクエリ処理を実行する。プログレッシブクエリ処理640の詳細は、アルゴリズム1に図示されている。例えば、新しいクエリが到着した場合、636において、新しいクエリノードが追加されることになる。それから、2パートのグラフの端部は、返される結果に従って更新されることになる。プログレッシブクエリ640の間、2パートのグラフの端部の数が変化しない場合、マッチしたビデオの類似度スコアは変化しないことになり、そうでない場合、マッチしたビデオの類似度スコアが更新されることになる。
642において、ある時間について、例えば、連続2秒、連続3秒、連続4秒の所定時間の間、検索結果及び/又は類似度スコアにおける変化がない場合、判断モジュール534は、安定的な検索結果が達成されたと決定する。いくつかの実施形態において、642において、ある時間について、例えば、ある可変時間及び/又はある相対的時間の間、検索結果及び/又は類似度スコアにおける変更がない場合、判断モジュール534は、安定的な検索結果が達成されたと決定する。安定的な検索結果が達成されたとき、検索処理は自動的に終わることができ、644において、結果がモバイル装置に返されることになる。いくつかの実施形態において、検索結果が安定的であるとき、結果は、646に図示されるとおり、検索が安定的であると合図するユーザインターフェースにおけるクライアント装置608での提示のために返される。しかしながら、検索結果が所望の時間について安定的でないとき、検索処理は継続され、648において、判断モジュール534は、ビデオ捕捉622の間のユーザインターフェースに図示されるとおり、検索が完了していないと示すやり方で装置608に結果を返す。
例示される例において、モバイル装置304などのクライアント装置608は、622に図示されるとおり、マイクロフォン及びカメラを介してビデオ入力を受信してビデオクエリを起動する。システムは、628に図示されるとおり、LBAFなどのオーディオ指紋を抽出するために、モジュール426などのオーディオ抽出モジュールを採用する。システムは、626に図示されるとおり、ビジュアルハッシュビットを抽出するために、モジュール428などのビデオ抽出モジュールをさらに採用する。
ビジュアルハッシュビットに関して、ビデオ抽出モジュール、例えば、ビデオ抽出モジュール428及び/又はビデオ抽出モジュール526などは、局所的特徴をハッシュビットに圧縮するためにハッシュ法を使用することができる。例えば、ビデオ抽出モジュールは、最小損失ハッシュ(Minimal Loss Hashing)又はスペクトルハッシュ(Spectral Hashing)を使用して、ハッシュ関数、例えば、h=sign(vx−t)により表されるハッシュ関数を学習して、hを算出することができる。これにおいて、xはSURF記述子ベクトルを表し、vは学習されたハッシュマトリクスを表し、tは閾値スカラを表し、hは学習されたビジュアルハッシュビットを表す。いくつかの実施形態において、ビデオ抽出モジュールはバイナリコードを80ビットに制限することができる。こうした実施形態において、ビデオ抽出モジュールは8ビットを使用してSURF記述子の角度値を保存することができ、これは、図6の634に関連して論じられた、将来の幾何学的検証に使用されることになる。したがって、ビデオ抽出モジュールは、各SURF特徴をv={h ,r }に圧縮することができ、これは、論じられた例において、ちょうど88ビットとすることができる。
ビデオ抽出モジュールは、様々なモバイル装置における異なるカメラ解像度に起因する差を最小化するように、クエリ画像を小さいピクチャにスケール変更する(scale)ことができる。クエリ画像を小さいピクチャにスケール変更することで、モバイル装置における特徴抽出スピードを向上させることができ、伝送される必要がある特徴点の数を減らすことができる。いくつかの実施において、こうしたスケール変更は、精度へのわずかな影響でクエリスピードを向上させる。例えば、スケール変更の後、平均で1つのフレームについて75のSURF点があり、このことは、モバイル装置が上記フレームについて1KB未満のビジュアル特徴をサーバに伝送することを可能にする。
図7は、オーディオ指紋の抽出の一例の絵図である。様々なオーディオ特徴間で、LBAFが多くの準同一ビデオ検索方法において広く使用されている。その高速の計算、効率的なメモリ、及び不変の翻訳(invariant translation)が、モバイルビデオ検索にも適する。様々な実施において、オーディオ抽出モジュール、例えば、オーディオ抽出モジュール426及び/又はオーディオ抽出モジュール524などが、オーディオ指紋、例えばLBAFなどを抽出する。702において、オーディオ抽出モジュールは、オーディオ情報を、短い、部分的に重なる、長さfmt及びストライドfmdのフレームへと区分する。704において、オーディオ抽出モジュールは、各フレームについて、スペクトログラムを算出する。706において、オーディオ抽出モジュールは、フレームのスペクトログラム上に、候補ピーク、例えば、708a及び708bなどを設定する。いくつかの実施形態において、オーディオ抽出モジュールは、少なくとも3つの基準、すなわち、その近傍(neighbors)すべてより高いエネルギーのコンテンツ、その近傍より高い振幅、及び密度基準に従って、フレームのスペクトログラム上に候補ピークを設定する。710において、オーディオ抽出モジュールは、ピークからアンカー点712を選び、アンカー点についての対応するターゲットゾーン714を識別する。各アンカー点712は、ターゲットゾーン714内の候補ピークと順次ペアにされる。アンカー点‐候補ピークペアは、目印と呼ばれ得る。各目印は、l={t ,f ,Δt ,Δf }として表されることができ、これにおいて、t 及びf は、アンカー点の時間オフセット及び周波数であり、Δt 及びΔf は、アンカー点とターゲットゾーン内のペアにされた点との間の時間及び周波数差である。オーディオ抽出モジュールは、指紋をl={h ,t }へと圧縮することができ、これにおいて、h はf ,Δt 及びΔf のハッシュ値である。異なるlが、同じh を有し得る。
一実施において、ハッシュビットh に対する25ビット未満への制約において、fmt=256ms及びfmd=32msである。t について15ビットであるとき、lの長さ=40ビットである。少なくとも1つの実施形態において、1秒のオーディオクリップについて、オーディオ抽出モジュールは合計で100個の目印を選ぶ可能性がある。ゆえに、オーディオ抽出モジュールは、オーディオ指紋法のために、秒当たりほんの0.5KBに、伝送すべきデータの量を低減することができる。
この例において、特徴抽出を通して、モバイル装置は100個のオーディオ特徴点及び75個のビジュアル特徴点を取得し、このことは、効率的な圧縮により、ビデオコンテンツの秒あたり2KB未満のオーディオビジュアル・シグネチャがネットワークを通じて伝送されることを表す。
図8は、レイヤ化されたオーディオビデオ(LAVE)索引付けスキーム800の一例の絵図である。800に図示されるとおり、LAVEスキームは、2つのレイヤ802及び804を採用する。第1のレイヤ802は索引エントリを表し、該索引エントリは、オーディオ索引806及びビジュアル索引808から編成されるマルチ索引を包含する。第2のレイヤ804はビジュアルハッシュビットを表し、該ビジュアルハッシュビットは、第2のレイヤのビジュアル索引付け810を含む。LAVEスキームは、特徴マッチング及び組み合わせのために、第2レイヤビジュアル索引付け810のビジュアルハッシュビットを使用する。第1のレイヤにおける検索の後、システムは、オーディオ索引から及びビジュアル索引から、精緻化された類似ビジュアル特徴点を取得することができる。したがって、この文脈における組み合わせには、オーディオ索引からの及びビジュアル索引からの精緻化された類似ビジュアル特徴点を一緒に融合することと、これらから最も(上位K個の)類似のビジュアル特徴点を選択することとが含まれる。
上記の構造に対して2つの利点があり、すなわち、1)上記構造は、階層的分解ストラテジを採用することによってビジュアル点検索スピードを向上させ、及び、2)上記構造は、オーディオ及びビジュアル信号の補足的性質を生かす。第1のレイヤ802内の異なる索引付けエントリは、オーディオシグネチャ及びビジュアルシグネチャの個々の構造を保つ。第2のレイヤ804において、オーディオ及びビジュアルの組み合わせが、ビジュアルハッシュビットのハミング距離によって重み付けされることができる。
LAVE索引の構築
様々な実施形態において、ビジュアル特徴と対照的に、オーディオ特徴は、例えばほんの25ビットで各点を表すように、高度に圧縮されることができる。圧縮は、LAVE検索モジュール528がオーディオ索引の線形検索を行うことを可能にする。LAVE索引516を構築するために、618に図示される処理などの処理が、第1のレイヤ802の一部としてオーディオ索引を使用することができ、第1のレイヤのオーディオ索引内の各バケット、例えば806a、h が、ビデオID、オーディオ時間オフセットt、及びキーフレーム番号tによって第2のレイヤに関連付けられることができ、例えば、806aaとIDとt 、806aa’とIDi’とti’ などであり、806bについて、例えばhk+1 であり、806cについて、例えばhk+2 であるなどする。オーディオ索引付けを通して、レイヤ化されたオーディオビデオ・エンジン328は、第2のレイヤ内で検索されるべきビジュアル点の数を精緻化することができ、このことが検索スピードを向上させる。
しかしながら、オーディオが大きく変更され、あるいは失われることは、第2のレイヤ内の最も近接した近傍を見つけることを困難にする可能性がある。レイヤ化されたオーディオビデオ・エンジン328は、マルチ索引を使用してこの問題を解決する。レイヤ化されたオーディオビデオ・エンジン328は、m個の異なるハッシュテーブルによって第2レイヤビジュアル索引からのハッシュビットに索引を付け、このことが第1レイヤのビジュアル索引を組み立てる。レイヤ化されたオーディオビデオ・エンジン328は、第1のレイヤ内のビジュアル索引のハッシュビットh subを第2のレイヤ内のハッシュビットからランダムに選択し、例えば、808a h sub、808a’ hn’ sub、808b hn+1 sub、808b’ hn’+1 sub、808c hn+2 sub、808c’ hn’+2 sub、808d hn+3 sub、808d’ hn’+3 sub、808e hn+4 sub、808e’ hn’+4 sub、808f hn+5 sub、808f’ hn’+5 sub等である。受信されたビジュアル点について、少なくとも1つのこうしたハッシュテーブル内の、クエリに対して近接に入るエントリが、考えられる近傍候補である。それから、レイヤ化されたオーディオビジュアル・エンジン328は、第2レイヤ索引810を用いて妥当性について候補をチェックし、例えば、810a ID,t 、810a’ h 、810a’’ r 、810b ID,t 、810b’ hn+1 、810b’’ ri+1 、810c ID,t 、810c’ hn+2 、810c’’ ri+2 などである。既存の手法とは対照的に、レイヤ化されたオーディオビデオ・エンジン328は、m+1のマルチ索引、すなわち、m個のビジュアル索引及び1つのオーディオ索引を採用する。m+1個のマルチ索引により精緻化されたすべての結果が第2のレイヤ内で一緒に組み合わせられ、上位N個の類似結果が選択される。オーディオ索引は、ビジュアル索引についての数mを低減させる。少なくとも1つの実施において、上記設備は1つのビジュアル索引で動作する。
LAVE索引の検索
様々な実施形態において、LAVE索引付けにおける検索処理は、下記のように提示されることができる。P={l,l,・・・,l}が受信したオーディオクエリ点を表し、P={v,v,・・・,v}が受信したビジュアルクエリ点を表すとする。検索処理、例えば検索処理630を通して、LAVE検索モジュール528は、各クエリビジュアル点について、上位K個のビジュアル点を返すことができる。
ステップ1では、Pの中の各オーディオ点lについて、LAVE検索モジュール528は、オーディオ索引内の線形検索によって、最も近い近似の近傍(nearest approximate neighbors)を獲得する。それから、LAVE検索モジュール528は、異なる候補クラスタC={c,c,・・・,c}に、マッチングペアを割り当てる。LAVE検索モジュール528は、その最も近い近似の近傍が同じビデオから来る場合、同じクラスタに2つのペアを割り当てる。
ステップ2では、LAVE検索モジュール528は、時間的検証によってクラスタを再順序付けする。例えば、LAVE検索モジュール528は、マッチングペアの中の2つのLBAFの時間差を意味するように、時間的距離をΔtによって表すことができる。Δtのヒストグラムはcの中のすべてのペアについて計算されることができ、cのスコアはh/Mに等しく、これにおいて、hはヒストグラムの最大値を表す。このスコアは、類似度計算にさらに使用されてもよい。それから、上位K’個の候補クラスタが選ばれる。第2のレイヤ内の上位K’個の候補クラスタに関連付けられたバケットは、サブセットと見なされることができる。
ステップ3では、Pの中の各vについて、KのLAVE検索モジュール528が、下記のとおり最も近い近似の近傍を取得することができる。a)上位K個の近似の近傍が、第2のレイヤのサブセット内の線形検索によって決定されることができる。b)マルチ索引索引付け方法を使用して、他の上位K個の最も近い近傍点を検索する。c)2K個の最も近い近傍点が類似の距離によって再順序付けされることができ、上位K個の最も近い点が選択されることができる。
ステップ4では、LAVE検索モジュール528は、上位K個の最も近いビジュアル点を検索結果として返すことができる。
要約すると、上記処理によれば、LAVE検索モジュール528は、2つの段階においてオーディオ及びビジュアル情報を組み合わせる。第1の段階は、ステップ1〜ステップ3aである。この段階では、モバイルビデオ検索は、粗いフィルタとしてより高く圧縮されたオーディオ情報を、細かいフィルタとしてより判別可能なビジュアル情報を使用して、全体的な検索スピードを向上させる。さらに、類似度が別個のレイヤにおいて計算されるので、この組み合わせ段階は、各シグネチャの個々の構造をさらに保つことができる。第2の段階は、ステップ3b〜ステップ4である。オーディオ検索の正確さに大きく依存する第1の組み合わせ段階とは対照的に、第2の段階では、オーディオ及びビジュアル情報の組み合わせは、ビジュアルハッシュビットのハミング距離によって重み付けされることができる。上記2段階は、ロバストなモバイルビデオ検索のために、オーディオ及びビジュアル信号の補足的性質を生かす。m+1個のマルチ索引、すなわち、m個のビジュアル索引及び1つのオーディオ索引に起因して、LAVE索引を検索することの計算的複雑さは、LAVE検索モジュール528が最も近いビジュアル近傍点を検索するのに使用するマルチ索引索引付け方法に基づくことができる。
幾何学的検証
様々な実施形態において、幾何学的検証、例えば、幾何学的検証モジュール530による幾何学的検証634などが、下記のとおり提示されることができる。幾何学的検証は、クエリの類似ソースキーフレームを得るように、上位N点をハフ変換(Hough Transfer)法で使用することができ、局所的特徴の空間的一貫性を考慮する後続の幾何学的検証(GV)634が、偽陽性マッチを拒否することに使用されることができる。GVの時間消費を低減するために、幾何学的検証モジュール530は、高速の及び効果的なGVベースのランク付けステップを採用して、最も類似の画像を見つけることができる。少なくとも1つの実施において、この方法は、局所的特徴の場所情報がネットワークを通じて送信される必要がないように、記述子の方向を利用する。上記方法は、複製画像のマッチした記述子が同じ方向差を有するべきであると仮定する。ゆえに、2つの複製画像について、幾何学的検証モジュール530は、各々のマッチした局所的特徴ペア間の方向距離Δθを算出する。それから、幾何学的検証モジュール530は、すべてのΔθをC個のビンへと量子化し、例えばC=10である。さらに、幾何学的検証モジュール530は、ピークについてヒストグラムをスキャンし、ピーク値として全体的な方向差を設定する。幾何学的検証モジュール530はピーク内のペアの数から幾何学的検証スコアを取得し、これは総ペア数によって正規化される。
プログレッシブクエリ
様々な実施形態において、プログレッシブなクエリの処理、例えば、プログレッシブクエリ640が、プログレッシブクエリモジュール532によって実行される。既存のモバイルビデオ検索システム(すなわち、すべてのクエリデータを得た後の検索)とは対照的に、本明細書に記載されるプログレッシブクエリ処理は、クエリコストをかなり低減させ、ユーザの検索体験を向上させることができる。プログレッシブクエリモジュール532は、例えば、各クエリが到着した後、又は各クエリの到着に応答して、次のクエリに進み、読み出し結果を動的に算出することができる。検索は、安定的な結果が達成されたときに終わることができる。
アルゴリズム1は、少なくとも1つの実施形態についてのプログレッシブクエリ処理の一例を提供する。
Figure 0006321153
本明細書に説明されるレイヤ化されたオーディオビデオ・システムにおいて、プログレッシブクエリ処理は、2パートのグラフの変換及びマッチングアルゴリズムを介して実施されることができる。図6に図示されるとおり、各々のマッチしたクエリ及びソースビデオについて、プログレッシブクエリモジュール532は、2パートのグラフG={N,E}を使用してマッチングを表すことができる。2パートのグラフにおいて、クエリノード636はq∈Qにより表されることができ、時間kにおける受信されたクエリを意味し、ソースノード638はsn,m∈Sにより表されることができ、ソースビデオVの中のm番目のキーフレームを意味する。Rが、クエリqについての、すべての返される類似キーフレームsn,mを意味するとする。sn,m∈Rの場合、端部ek,m∈Eであることになる。各秒の時間の検索の後、プログレッシブクエリモジュール532は2パートのグラフGを更新することができ、それから、マッチングの類似度スコアがGを通してプログレッシブに算出されることができる。
アルゴリズム1は、プログレッシブクエリ処理の詳細の一実施形態を例示する。新しいクエリが到着した場合、例えば636において、新しいクエリノードが追加されることになる。それから、2パートのグラフの端部が、返される結果に従って更新されることになる。プログレッシブクエリ640の間、2パートのグラフの端部の数が変化しない場合、マッチしたビデオの類似度スコアが変化しないことになり、そうでない場合、マッチしたビデオの類似度スコアは下記のとおり更新されることができる。第一に、プログレッシブクエリモジュール532は、Gの最大サイズマッチング(Maximum Size Matching;MSM)Mを算出することができる。|M|>aの場合、プログレッシブクエリモジュール532は、式1に従い類似度スコアWを算出することができる。
Figure 0006321153
式1において、Sim(Q,V,W )はオーディオコンテンツ類似度に助力し、これは式2に従い計算されることができる。
Figure 0006321153
式2において、wk,i はクエリqとビデオVとの間のオーディオ類似度を表し、|Q|はクエリ長を表す。Sim(Q,V,W )は、式3に従いビジュアル類似度を示す。
Figure 0006321153
式3において、wk,i はクエリqとビデオVとの間のビジュアル類似度を表し、Sim(Q,V)は時間的順序類似度を示す。このスコアは、マッチしたビデオが類似の時間的順序を有するべきであることを保証する。GのMSM Mを所与として、その時間的マッチング番号は、例えば、最長共通部分列(Longest Common Subsequence;LCSS)によって算出されることができる。LCSSは編集距離のバリエーションであり、これをプログレッシブクエリモジュール532が使用して、式4に従い時間的順序に沿ってマッチしたMのフレームペアの数を表すことができる。
Figure 0006321153
ゆえに、Sim(Q,V)は式5に従って得ることができる。
Figure 0006321153
QとVとの間の類似度すべてを計算した後、プログレッシブクエリモジュール532は、上位K個のビデオを検索結果として返すことができる。様々な実施形態において、本明細書に説明されるプログレッシブクエリ処理640の計算的複雑さは、O(|G|×|N|×|E|)であり、これにおいて、|G|は2パートのグラフの数を表し、|N|は頂点(vertices)の数を表し、|E|は各々の2パートのグラフ内の端部の数を表す。しかしながら、少なくとも1つの実施において、類似度算出処理に消費される時間は、|E|が大抵の2パートのグラフにおいて変化しないため、O(|G|×|N|×|E|)未満である。
例示的な動作
図9〜11は、本明細書に説明されるLAVE索引付けされたデータセットのモバイルビデオ検索の態様を実施する例示的なプロセスを例示している。上記プロセスは、論理フローグラフ内のブロックの集合として例示され、該グラフは、ハードウェア、ソフトウェア、又はこれらの組み合わせにおいて実施されることができる一連の動作を表す。ソフトウェアの文脈において、ブロックは1つ以上のコンピュータ可読媒体上のコンピュータ実行可能命令を表し、該命令は、1つ以上のプロセッサにより実行されると、列挙された動作をプロセッサに実行させる。
このことは、ソフトウェアが価値のある、別個に取引可能な有用品であり得ることを認める。所望の機能を実行するために「データ処理能力のない(dumb)」又は標準のハードウェア上で実行され又はこれを制御するソフトウェアを包含することが意図される。さらに、所望の機能を実行するためにハードウェアの構成を「記述し」又は定義するソフトウェア、例えば、シリコンチップの設計又はユニバーサルプログラマブルチップの構成に使用されるような、HDL(ハードウェア記述言語)ソフトウェアなどを包含することが意図される。
処理が説明されている順序は、限定とみなされることは意図されず、説明される処理ブロックのうち任意数が、任意の順序において組み合わせられて処理を実施し、あるいは処理を交互に入れ替えることができることに留意する。さらに、個々のブロックは、本明細書に説明される対象事項の主旨及び範囲から逸脱することなく、処理から削除されてもよい。さらに、処理が図1〜8を参照して上記で説明されたモバイル装置304及びサーバ306を参照して説明されるが、いくつかの実施形態において、上記で説明されたとおり、クラウドベースのアーキテクチャを含む他のコンピュータアーキテクチャが、全体として又は部分的に、上記処理のうち1つ以上の部分を実施してもよい。
図9は、装置304などのクライアント装置上でモバイルビデオ検索ツールを実施するための例示的なプロセス900を例示している。プロセス900はクライアント装置上で実行されるものとして説明されるが、いくつかの実施形態において、クライアント装置とサーバとを含むシステムがプロセス900の態様を実行することができ、該システムは、上記で説明されたとおり、ネットワークベースの又はクラウドの構成内に複数の装置を含み得る。
本明細書に説明されたモバイルビデオ検索ツールの態様は、モバイル装置上で実行される検索アプリケーションとして、及び/又はいくつかの実施形態においてアプリケーションプログラミングインターフェース(API)を介して、実施されることができる。モバイルビデオ検索ツールは、クエリのためのビデオ入力を捕捉し、オーディオ指紋及びビジュアルハッシュビットの抽出を実行してオーディオビデオ・シグネチャを形成することができる。モバイル装置上で実行されるアプリケーションの場合、アプリケーションは、オーディオビデオ・シグネチャをビデオ検索クエリとして送信することができる。APIの場合、アプリケーションは、別のアプリケーションがビデオ検索のために使用するように、APIを介して、オーディオビデオ・シグネチャを編成するオーディオ指紋及びビジュアルハッシュビットを公開することができる。この場合、ビデオ検索のためにAPIにアクセスするアプリケーションは、オーディオビデオ・シグネチャをビデオ検索クエリとして送信することができる。
ブロック902において、モバイルビデオ検索ツール316などのビデオ検索ツールを介して入力としてビデオコンテンツを受信するように構成された、装置304などの装置が、ビデオコンテンツを入力として受信する。様々な実施形態において、ビデオコンテンツを入力として受信することは、装置304に関連付けられたマイクロフォン410及び/又はカメラ408などの1つ以上の入力装置又はコンポーネントが、マイクロフォンを介してビデオコンテンツからオーディオ入力を捕捉すること、及び/又はタイムスライスにおいてカメラを介してビデオコンテンツからビジュアル入力を捕捉することを含む。いくつかの実施形態において、ビデオコンテンツを入力として受信することは、APIを介して公開されたビデオコンテンツに関連付けられたオーディオ入力及び/又はビジュアル入力を受信することを含む。いくつかの実施形態において、ビデオコンテンツのタイムスライスは、上記装置に関連付けられていないビデオ出力装置から、上記装置に関連付けられた入力装置により受信される。様々な実施形態において、複数のタイムスライスのうちの個々のスライスの長さは、少なくとも約0.1秒、多くて約10.0秒を含む。少なくとも1つの実施形態において、各タイムスライスは、1秒のビデオコンテンツを表すことができる。
ブロック904において、オーディオビデオ抽出器、例えば、オーディオ抽出モジュール426及び/又はビデオ抽出モジュール428のうち1つ以上などを介して、ビデオコンテンツのタイムスライスについてのオーディオビデオ記述子を抽出するように構成された、装置304などの装置は、ビデオコンテンツのタイムスライスについてのオーディオビデオ記述子を含む抽出を実行する。様々な実施形態において、ビデオコンテンツのタイムスライスについてのオーディオビデオ記述子を抽出することは、タイムスライスに対応するビデオコンテンツの聴覚及び/又はビジュアル特性を取得することを含む。
いくつかの実施形態において、ブロック906において、オーディオ抽出モジュール426などのオーディオ抽出モジュールを介してビデオコンテンツのタイムスライスについての聴覚特性を抽出するように構成された、装置304などの装置は、オーディオビデオ・シグネチャの生成における使用のために、タイムスライスに対応するビデオコンテンツのオーディオ指紋を含む抽出を実行する。
いくつかの実施形態において、ブロック908において、ビデオ抽出モジュール428などのビデオ抽出モジュールを介してビデオコンテンツのタイムスライスについてのビジュアル特性を抽出するように構成された、装置304などの装置は、オーディオビデオ・シグネチャの生成における使用のために、タイムスライスに対応するビデオコンテンツの少なくとも1つのビジュアルハッシュビットを含む抽出を実行する。
ブロック910において、シグネチャモジュール430などのシグネチャ生成器を介してオーディオビデオ・シグネチャを生成するように構成された、装置304などの装置は、抽出されたオーディオビデオ記述子に少なくとも部分的に基づいて、ビデオコンテンツのタイムスライスのうち1つ以上に関連付けられたオーディオビデオ・シグネチャを生成する。いくつかの実施形態において、オーディオビデオ・シグネチャは、少なくとも、ビデオコンテンツのタイムスライスに関連付けられたオーディオ指紋及びビデオハッシュビットを含む。様々な実施形態において、装置上でのオーディオビデオ・シグネチャの生成はアプリケーションによって実行されることができ、生成されたオーディオビデオ・シグネチャは、検索のためにアプリケーションにより使用され、あるいはAPIによりアプリケーションから提供されることができる。いくつかの実施形態において、装置上でのオーディオビデオ・シグネチャの生成は、APIが生の記述子の抽出を提供することを含むことができ、該APIから、装置上又は装置外にあり得る別のアプリケーションがオーディオビデオ・シグネチャを生成することができる。
ブロック912において、シグネチャモジュール430などのシグネチャモジュールを介してオーディオビデオ・シグネチャを提供するように構成された、装置304などの装置は、クエリとして、抽出されたオーディオビデオ記述子に少なくとも部分的に基づいて生成された、ビデオコンテンツのタイムスライスのうち1つ以上に関連付けられたオーディオビデオ・シグネチャを提供する。様々な実施形態において、オーディオビデオ・シグネチャを提供することは、データセットに向けてクエリとしてオーディオビデオ・シグネチャを送信することを含む。様々な実施形態において、データセットは、レイヤ化されたオーディオビデオ索引付けされたデータセットを含む。
ブロック914において、結果モジュール432などの結果モジュールを介してクエリに応答して候補結果を受信するように構成された、装置304などの装置は、クエリに応答して候補結果を受信する。様々な実施形態において、クエリに応答して候補結果を受信することは、受信されているビデオコンテンツのタイムスライスの終わりに到達する前に候補結果のプログレッシブな一覧表として候補結果を受信することを含む。
ブロック916において、ユーザインターフェースモジュール434などのユーザインターフェースモジュールを介してクエリに応答して候補結果を提示するように構成された、装置304などの装置は、候補結果を提示させる。様々な実施形態において、候補結果を提示することは、受信されているビデオコンテンツのタイムスライスの終わりに到達する前に装置のユーザインターフェース内に候補結果を提示することを含む。いくつかの実施形態において、候補結果を提示することは、受信されているビデオコンテンツのタイムスライスの終わりに到達する前に装置のユーザインターフェース内に更新された候補結果を提示することを含む。こうした更新された候補結果は、プログレッシブな候補結果一覧表のためにプログレッシブな候補結果を表すことができる。
図10は、LAVE索引516などのレイヤ化されたオーディオビデオ索引を用いてサーバ306などのサーバ上でビデオ検索を実施するための例示的なプロセス1000を例示している。
プロセス1000はサーバ上で実行されるものとして説明されるが、いくつかの実施形態において、1つ以上のサーバを含むシステムがプロセス1000を実行することができ、該システムは、上記で説明されたとおりのネットワークベース構成又はクラウド構成内の複数の装置といくつかの事例において少なくとも1つのクライアント装置とを含み得る。
ブロック1002において、レイヤ化されたオーディオビデオ・エンジン328などのレイヤ化されたオーディオビデオ・エンジンを介して入力としてクエリ・オーディオビデオ・シグネチャを受信するように構成された、サーバ306などの装置が、入力としてクエリ・オーディオビデオ・シグネチャを受信する。様々な実施形態において、クエリ・オーディオビデオ・シグネチャは、レイヤ化されたオーディオビデオ検索のために入力として受信される。いくつかの実施形態において、クエリ・オーディオビデオ・シグネチャは、装置304などのモバイル装置から、レイヤ化されたオーディオビデオ検索のために入力として受信される。
ブロック1004において、クエリ・オーディオビデオ・シグネチャに対して類似性を有するエントリを識別するためにレイヤ化されたオーディオビデオ索引を検索するように構成された、サーバ306などの装置、例えばLAVE検索モジュール528などが、クエリ・オーディオビデオ・シグネチャに対して類似性を有するレイヤ化されたオーディオビデオ索引内のエントリを識別するように、レイヤ化されたオーディオビデオ・エンジンに関連付けられたレイヤ化されたオーディオビデオ索引の検索を実行する。様々な実施形態において、検索は、クエリ・オーディオビデオ・シグネチャに対して閾値を上回る類似度を有するエントリを識別する。様々な非排他的な事例において、上記閾値には、所定の類似度閾値、可変の類似度閾値、相対的類似度閾値、及び/又はリアルタイムで決定される類似度閾値を含むことができる。
ブロック1006において、クエリ・オーディオビデオ・シグネチャに対して類似性を有するエントリの幾何学的検証を実行するように構成された、サーバ306などの装置、例えば、幾何学的検証モジュール530などが、クエリ・オーディオビデオ・シグネチャに対して類似性を有するレイヤ化されたオーディオ・ビデオ索引からのエントリの幾何学的検証を実行する。様々な実施形態において、幾何学的検証を実行することは、クエリ・オーディオビデオ・シグネチャからのそれぞれのキーフレームと、類似性を有するレイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行することを含む。
ブロック1008において、候補結果を送信するように構成された、サーバ306などの装置、例えば判断モジュール534などが、クエリ・オーディオビデオ・シグネチャと類似である候補結果を送信する。様々な実施形態において、幾何学的検証を介して識別された候補結果を送信することは、クエリ・オーディオビデオ・シグネチャがモバイル装置304などのモバイル装置から受信されており、該モバイル装置に向けて、幾何学的検証を介して識別された候補結果を送信することを含む。
図11は、LAVE索引516などのレイヤ化されたオーディオビデオ索引を用いてサーバ306などのサーバ上でビデオ検索を実施するための別の例示的なプロセス1100を例示している。
プロセス1100は、サーバ上で実行されるものとして説明されるが、いくつかの実施形態において、1つ以上のサーバを含むシステムがプロセス1100を実行することができ、該システムは、上記で説明されたとおりのネットワークベース構成又はクラウド構成内の複数の装置といくつかの事例において少なくとも1つのクライアント装置とを含み得る。
ブロック1102、1104及び1106において、プロセス1000に関連して説明されたとおりに構成された、例えばレイヤ化されたオーディオビデオ・エンジン328などを用いた、サーバ306などの装置が、ブロック1002、1004及び1006に対応する動作をそれぞれ実行する。
ブロック1108において、プログレッシブな処理を実行するように構成された、サーバ306などの装置、例えばプログレッシブクエリモジュール532などが、幾何学的検証を介して識別された候補結果を処理する。様々な実施形態において、幾何学的検証を介して識別された候補結果を処理することは、それぞれのオーディオビデオ・シグネチャを有するエントリをプログレッシブに処理することを含む。いくつかの実施形態において、それぞれのオーディオビデオ・シグネチャを有するエントリをプログレッシブに処理することは、2パートのグラフベースの変換及びマッチングを採用することを含む。
ブロック1110において、候補結果を送信するように構成された、サーバ306などの装置、例えば判断モジュール534などが、プログレッシブな処理に従った候補結果を送信する。様々な実施形態において、プログレッシブな処理に従った候補結果を送信することは、クエリ・オーディオビデオ・シグネチャがモバイル装置304などのモバイル装置から受信されており、該モバイル装置に向けて、プログレッシブな処理に従った候補結果を送信することを含む。いくつかの実施形態において、プログレッシブな処理に従った候補結果を送信することは、候補結果が更新されたと示すための構成において候補結果を送信することを含み、検索は、例えば112などのように継続されることになる。いくつかの実施形態において、プログレッシブな処理に従った候補結果を送信することは、候補結果が更新されていないと示すための構成において、安定化された候補結果を送信することをさらに含み、検索は、例えば200などのように終えられることになる。
ブロック1112において、候補結果を送信するように構成された、サーバ306などの装置、例えば判断モジュール534などが、プログレッシブな処理からの候補結果が安定的であるかを決定する。様々な実施形態において、プログレッシブな処理からの候補結果が安定的であるかを決定することは、候補結果が維持されているかに少なくとも部分的に基づいて、候補結果を更新すべきかを決定することを含む。いくつかの実施形態において、プログレッシブな処理からの候補結果が安定的であるかを決定することは、候補結果がある時間について安定的であるかを決定することを含む。いくつかの実施形態において、上記時間の期間は秒単位で測定される。いくつかの実施形態において、上記時間の期間は2秒である。いくつかの実施形態において、上記時間の期間は3秒である。いくつかの実施形態において、上記時間の期間は可変であり、及び/又は、プログレッシブクエリ処理が検索を終えることなく実行されている回数に対して相対的である。
いくつかの実施形態において、候補結果がブロック1112において安定的であると決定されることに応答して、ブロック1114において、クエリを終了するように構成されたサーバ306などの装置、例えば判断モジュール534などが、オーディオビデオ・コンテンツに対応する検索を終える。様々な実施形態において、ブロック1112において候補結果がある時間について安定的であると決定されたときは、オーディオビデオコンテンツに対応する受信、検索、実行、及び処理を終えることを含む。いくつかの実施形態において、ブロック1114において検索を終えることには、候補結果が更新されていないと示すための構成において、プログレッシブな処理に従った候補結果を送信することを含むことができ、検索は、例えば200のユーザインターフェース内などのように、終えられている。
いくつかの実施形態において、候補結果がブロック1112において安定的でないと決定されることに応答して、クエリを終了するように構成されたサーバ306などの装置、例えば判断モジュール534などが、検索を継続する。様々な実施形態において、ブロック1112において候補結果がある時間について安定的でないと決定されるときは、ブロック1102にフローを戻すことによって検索を継続することを含み、このことは、オーディオビデオ・コンテンツに対応する受信、検索、実行、及び処理を繰り返すことを含むことができる。いくつかの実施形態において、ブロック1102にフローを戻すことによって検索を継続することには、候補結果が例えば200のユーザインターフェース内などにおいて更新されているかを示すための構成において、プログレッシブな処理に従った候補結果を送信することを含むことができる。
さらなる実施形態例
実施形態Aは一方法を含み、該方法は、ビデオデータセットにアクセスするステップと、上記ビデオデータセットからのそれぞれのビデオに対してオーディオビデオ記述子抽出を実行するステップと、上記それぞれのビデオのタイムスライスに関連付けられた一連のオーディオビデオ・シグネチャを生成するステップと、エントリが上記一連のオーディオビデオ・シグネチャを含むレイヤ化されたオーディオビデオ索引を構築するステップと、を含む。
実施形態Bは一方法を含み、該方法は、ビデオデータセットの中の個々のビデオに対応するオーディオビデオ記述子を抽出するステップと、オーディオ索引を獲得するステップであり、上記オーディオ索引は上記オーディオビデオ記述子からのオーディオ指紋を含む、ステップと、ビジュアル索引を獲得するステップであり、上記ビジュアル索引は上記オーディオビデオ記述子からのビジュアルハッシュビットを含む、ステップと、上記オーディオ索引と上記ビジュアル索引の少なくとも一部とを関連付けることによってマルチ索引を含む第1のレイヤを作成するステップと、上記ビジュアル索引を含む第2のレイヤを作成するステップと、上記第1のレイヤのマルチ索引と上記第2のレイヤのビジュアル索引との間の時間関係を維持するステップと、を含む。
実施形態Cは、実施形態A及び/又はBに関連して説明された方法を含み、これにおいて、第1のレイヤを作成するためのビジュアル索引の少なくとも一部は、第2のレイヤからのハッシュビットのランダム選択を含む。
実施形態Dは、実施形態A、B、及び/又はCに関連して説明された方法を含み、オーディオ索引を介して第2のレイヤ内で検索されるべきビジュアル点の数を精緻化するステップをさらに含む。
実施形態Eは一方法を含み、該方法は、レイヤ化されたオーディオビデオ・エンジンにおいてビデオコンテンツに関連するクエリ・オーディオビデオ・シグネチャを受信するステップと、上記レイヤ化されたオーディオビデオ・エンジンに関連付けられた、レイヤ化されたオーディオビデオ索引を検索して、上記クエリ・オーディオビデオ・シグネチャに対して閾値を上回る類似度を有する、上記レイヤ化されたオーディオビデオ索引内のエントリを識別するステップと、上記クエリ・オーディオビデオ・シグネチャからのそれぞれのキーフレームと、上記類似度を有する上記レイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行するステップと、上記幾何学的検証を介して識別された候補結果を送信するステップと、を含む。
実施形態Fは一方法を含み、該方法は、レイヤ化されたオーディオビデオ・エンジンにおいてビデオコンテンツに関連するクエリ・オーディオビデオ・シグネチャを受信するステップと、上記レイヤ化されたオーディオビデオ・エンジンに関連付けられた、レイヤ化されたオーディオビデオ索引を検索して、上記クエリ・オーディオビデオ・シグネチャに対して閾値を上回る類似度を有する、上記レイヤ化されたオーディオビデオ索引内のエントリを識別するステップと、上記クエリ・オーディオビデオ・シグネチャからのそれぞれのキーフレームと、上記類似度を有する上記レイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行するステップと、それぞれのオーディオビデオ・シグネチャを有するエントリをプログレッシブに処理するステップと、候補結果が安定的であるかを決定するステップと、上記候補結果が維持されるかに少なくとも部分的に基づいて、上記候補結果を更新するかを決定するステップと、上記候補結果が維持されるかに従って識別された候補結果を送信するステップと、上記候補結果が所定の時間について維持されない事象において、上記オーディオビデオ・コンテンツに対応する上記受信するステップ、検索するステップ、実行するステップ、及び処理するステップを、繰り返すステップと、上記候補結果が所定の時間について維持される事象において、上記オーディオビデオ・コンテンツに対応する上記受信するステップ、検索するステップ、実行するステップ、及び処理するステップを、終えるステップと、を含む。
結び
モバイル装置を通して利用可能な機能性及びデータアクセスは増え続けており、こうした装置は、増え続ける量のデータへのアクセスをユーザに外出中に提供する、個人のインターネットサーフィンのコンシェルジュとして役立っている。本明細書に説明されたとおり、モバイル装置により利用可能にされるコンピューティングリソースを活用することによって、モバイルビデオ検索ツールが、ビデオのクリップそれ自体をクエリとして送信することなしに、ビデオ検索を効果的に実行することができる。
モバイルビデオ検索システムは、構造的特徴及び/又は方法論的動作に固有の言語において説明されたが、別記の請求項に定義される特徴及び動作は、必ずしも説明された具体的な特徴又は動作に限定されないことが理解されるべきである。むしろ、具体的な特徴及び動作は、請求項を実施する例示的な形態として開示されている。

Claims (10)

  1. コンピューティング装置の入力コンポーネントを介して、ビデオコンテンツの複数のタイムスライスを受信するステップと、
    前記ビデオコンテンツの前記タイムスライスの聴覚特性及びビジュアル特性を取得するために、前記ビデオコンテンツの前記タイムスライスに対してオーディオビデオ記述子の抽出を実行するステップと、
    抽出された前記オーディオビデオ記述子に少なくとも部分的に基づいて、前記ビデオコンテンツの前記タイムスライスのうち1つ以上に関連付けられるオーディオビデオシグネチャを生成するステップであって、前記オーディオビデオシグネチャが、前記ビデオコンテンツの前記1つ以上のタイムスライスに関連付けられるオーディオ指紋及びビジュアルハッシュビットを含むステップと、
    データセットに向けて、クエリとして、前記ビデオコンテンツの前記1つ以上のタイムスライスに関連付けられる前記オーディオビデオシグネチャを送信するステップと、
    前記ビデオコンテンツの前記タイムスライスの終わりに到達する前に、前記クエリの候補結果を受信するステップと、
    前記ビデオコンテンツの前記タイムスライスの終わりに到達する前に、前記候補結果のうち少なくとも一部を提示するステップと、
    を含む方法。
  2. 前記ビデオコンテンツの前記タイムスライスは、前記コンピューティング装置に関連付けられたカメラ入力装置又はマイクロフォン入力装置のうち少なくとも1つによって直接的又は間接的に受信される、請求項1に記載の方法。
  3. 前記ビデオコンテンツの前記タイムスライスは、前記コンピューティング装置に関連付けられていないビデオ出力装置から受信される、請求項1又は請求項2に記載の方法。
  4. 前記クエリの終わりにおいて、最終結果と該最終結果に関連する情報とを受信するステップと、
    前記最終結果と該最終結果に関連する前記情報とを提示して、前記クエリの終わりを示すステップと、
    をさらに含む請求項1乃至3のうちいずれか1項に記載の方法。
  5. 前記データセットは、レイヤ化されたオーディオビデオ索引付けされたデータセットを含む、請求項1乃至4のうちいずれか1項に記載の方法。
  6. 前記タイムスライスの個々のタイムスライスの長さは少なくとも約0.1秒、多くて約10.0秒を含む、請求項1乃至5のうちいずれか1項に記載の方法。
  7. 請求項1乃至6のうちいずれか1項に記載の方法を実行するように構成されたシステム。
  8. 装置に請求項1乃至6のうちいずれか1項に記載の方法を実行させるコンピュータプログラム。
  9. レイヤ化されたオーディオビデオエンジンにおいてビデオコンテンツに関連するクエリオーディオビデオシグネチャを受信するステップと、
    前記レイヤ化されたオーディオビデオエンジンに関連付けられる、レイヤ化されたオーディオビデオ索引を検索して、前記クエリオーディオビデオシグネチャに対して閾値を上回る類似度を有する、前記レイヤ化されたオーディオビデオ索引内のエントリを識別するステップと、
    前記クエリオーディオビデオシグネチャからのそれぞれのキーフレームと、前記類似度を有する前記レイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行するステップと、
    それぞれのオーディオビデオシグネチャを有し、かつ前記幾何学的検証により識別されたエントリをプログレッシブに処理して、候補結果を取得するステップと、
    前記候補結果が、所定の期間の間、安定的であるかどうか判断するステップと
    前記候補結果が安定的であると決定されるかに少なくとも部分的に基づいて、前記候補結果を更新するかどうか判断するステップと、
    前記候補結果が安定的であると判断されるかどうかに従って候補結果を送信するステップと、
    を含む方法。
  10. 装置に請求項9に記載の方法を実行させるコンピュータプログラム。
JP2016519808A 2013-10-21 2013-10-21 モバイルビデオ検索 Active JP6321153B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/085585 WO2015058332A1 (en) 2013-10-21 2013-10-21 Mobile video search

Publications (2)

Publication Number Publication Date
JP2017502533A JP2017502533A (ja) 2017-01-19
JP6321153B2 true JP6321153B2 (ja) 2018-05-09

Family

ID=52992108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016519808A Active JP6321153B2 (ja) 2013-10-21 2013-10-21 モバイルビデオ検索

Country Status (11)

Country Link
US (2) US10452712B2 (ja)
EP (1) EP3061035B1 (ja)
JP (1) JP6321153B2 (ja)
KR (2) KR102197364B1 (ja)
CN (1) CN105917359B (ja)
AU (1) AU2013403805B2 (ja)
BR (1) BR112016007145A8 (ja)
CA (1) CA2924764C (ja)
MX (1) MX2016005070A (ja)
RU (1) RU2647696C2 (ja)
WO (1) WO2015058332A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495451B2 (en) 2013-01-07 2016-11-15 Gracenote, Inc. Identifying video content via fingerprint matching
US9323840B2 (en) * 2013-01-07 2016-04-26 Gracenote, Inc. Video fingerprinting
US10268667B1 (en) 2014-07-23 2019-04-23 Evernote Corporation Contextual optimization of news streams associated with content entry
US9805099B2 (en) * 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
US10521472B2 (en) * 2015-02-27 2019-12-31 Realnetworks, Inc. Composing media stories method and system
JP2016181808A (ja) * 2015-03-24 2016-10-13 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
CN106557765A (zh) * 2015-09-29 2017-04-05 欧姆龙株式会社 注意检测装置以及注意检测方法
US11003692B2 (en) * 2015-12-28 2021-05-11 Facebook, Inc. Systems and methods for online clustering of content items
RU2634211C1 (ru) 2016-07-06 2017-10-24 Общество с ограниченной ответственностью "Траст" Способ и система анализа протоколов взаимодействия вредоносных программ с центрами управления и выявления компьютерных атак
DE102016212888A1 (de) 2016-07-14 2018-01-18 Siemens Healthcare Gmbh Bestimmen einer Bildserie abhängig von einer Signaturmenge
RU2649793C2 (ru) 2016-08-03 2018-04-04 ООО "Группа АйБи" Способ и система выявления удаленного подключения при работе на страницах веб-ресурса
RU2634209C1 (ru) 2016-09-19 2017-10-24 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ автогенерации решающих правил для систем обнаружения вторжений с обратной связью
US20180101540A1 (en) * 2016-10-10 2018-04-12 Facebook, Inc. Diversifying Media Search Results on Online Social Networks
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
RU2637477C1 (ru) 2016-12-29 2017-12-04 Общество с ограниченной ответственностью "Траст" Система и способ обнаружения фишинговых веб-страниц
RU2671991C2 (ru) 2016-12-29 2018-11-08 Общество с ограниченной ответственностью "Траст" Система и способ сбора информации для обнаружения фишинга
US10218911B2 (en) * 2017-03-22 2019-02-26 Htc Corporation Mobile device, operating method of mobile device, and non-transitory computer readable storage medium
RU172737U1 (ru) * 2017-04-18 2017-07-21 Общество с ограниченной ответственностью "ДЖЕНТ КЛАБ" Устройство для идентификации музыкальных произведений
KR101961132B1 (ko) * 2017-06-08 2019-03-25 김준희 오디오 특징값 추출을 통한 동영상 인코딩 방법 및 장치
CN107748750A (zh) * 2017-08-30 2018-03-02 百度在线网络技术(北京)有限公司 相似视频查找方法、装置、设备及存储介质
US11284062B2 (en) * 2017-09-05 2022-03-22 Texas Instruments Incorporated Automotive display validation
RU2689816C2 (ru) 2017-11-21 2019-05-29 ООО "Группа АйБи" Способ для классифицирования последовательности действий пользователя (варианты)
US10629242B2 (en) 2017-12-06 2020-04-21 International Business Machines Corporation Recording user activity on a computer
RU2668710C1 (ru) 2018-01-17 2018-10-02 Общество с ограниченной ответственностью "Группа АйБи ТДС" Вычислительное устройство и способ для обнаружения вредоносных доменных имен в сетевом трафике
RU2680736C1 (ru) 2018-01-17 2019-02-26 Общество с ограниченной ответственностью "Группа АйБи ТДС" Сервер и способ для определения вредоносных файлов в сетевом трафике
RU2677361C1 (ru) 2018-01-17 2019-01-16 Общество с ограниченной ответственностью "Траст" Способ и система децентрализованной идентификации вредоносных программ
RU2677368C1 (ru) * 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система для автоматического определения нечетких дубликатов видеоконтента
RU2676247C1 (ru) 2018-01-17 2018-12-26 Общество С Ограниченной Ответственностью "Группа Айби" Способ и компьютерное устройство для кластеризации веб-ресурсов
RU2681699C1 (ru) 2018-02-13 2019-03-12 Общество с ограниченной ответственностью "Траст" Способ и сервер для поиска связанных сетевых ресурсов
US11055346B2 (en) * 2018-08-03 2021-07-06 Gracenote, Inc. Tagging an image with audio-related metadata
CN109246446A (zh) * 2018-11-09 2019-01-18 东方明珠新媒体股份有限公司 比较视频内容相似性的方法、装置和设备
KR102043366B1 (ko) * 2018-11-21 2019-12-05 (주)터보소프트 최대 공통 뷰를 이용한 공간참조 영상들간의 궤적 유사도 측정방법
RU2708508C1 (ru) 2018-12-17 2019-12-09 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для выявления подозрительных пользователей в системах обмена сообщениями
RU2701040C1 (ru) 2018-12-28 2019-09-24 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
CN111506772B (zh) * 2019-01-31 2023-05-09 北京小犀智能科技中心(有限合伙) 基于图像特征提取的以图搜影方法及系统
CA3129691A1 (en) * 2019-02-11 2020-08-20 Gemiini Educational Systems, Inc. Verbal expression system
WO2020176005A1 (ru) 2019-02-27 2020-09-03 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система идентификации пользователя по клавиатурному почерку
KR20220077120A (ko) 2019-07-03 2022-06-08 페인티드 도그, 인크. 지각 프레임 해싱을 통한 동영상 메타데이터 식별 및 검색
US11099811B2 (en) 2019-09-24 2021-08-24 Rovi Guides, Inc. Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
US20210089781A1 (en) * 2019-09-24 2021-03-25 Rovi Guides, Inc. Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion
RU2728498C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его исходному коду
RU2728497C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его машинному коду
RU2743974C1 (ru) 2019-12-19 2021-03-01 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ сканирования защищенности элементов сетевой архитектуры
CN113132752B (zh) 2019-12-30 2023-02-24 阿里巴巴集团控股有限公司 视频处理方法及装置
CN113132753A (zh) 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法及装置、视频封面生成方法及装置
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
CN111339356B (zh) * 2020-02-21 2023-07-18 北京字节跳动网络技术有限公司 视频检索中防误判方法、装置及电子设备
SG10202001963TA (en) 2020-03-04 2021-10-28 Group Ib Global Private Ltd System and method for brand protection based on the search results
CN113297452A (zh) * 2020-05-26 2021-08-24 阿里巴巴集团控股有限公司 多级检索方法、多级检索装置及电子设备
US11475090B2 (en) 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
RU2743619C1 (ru) 2020-08-06 2021-02-20 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система генерации списка индикаторов компрометации
US11538248B2 (en) * 2020-10-27 2022-12-27 International Business Machines Corporation Summarizing videos via side information
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN113094551B (zh) * 2021-02-19 2023-09-19 深圳市麦谷科技有限公司 行车记录仪视频的检索方法、装置、服务端及检索系统
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
CN113139093A (zh) * 2021-05-06 2021-07-20 北京百度网讯科技有限公司 视频搜索方法及装置、计算机设备和介质
CN113190695B (zh) * 2021-05-06 2024-05-14 北京百度网讯科技有限公司 多媒体数据搜索方法及装置、计算机设备和介质
NL2030861B1 (en) 2021-06-01 2023-03-14 Trust Ltd System and method for external monitoring a cyberattack surface
EP4120267A1 (en) * 2021-07-14 2023-01-18 Utopia Music AG Apparatus, method and computer program code for processing audio stream
KR102672722B1 (ko) * 2021-12-22 2024-06-05 경기대학교 산학협력단 동영상 관계 탐지 시스템

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100538701C (zh) 2000-07-31 2009-09-09 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
CN1445696A (zh) 2002-03-18 2003-10-01 朗迅科技公司 自动检索图像数据库中相似图象的方法
KR100597398B1 (ko) 2004-01-15 2006-07-06 삼성전자주식회사 비디오 클립을 검색하는 장치 및 방법
JP4403937B2 (ja) * 2004-09-29 2010-01-27 カシオ計算機株式会社 カメラ装置、情報処理装置、被写体識別方法
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US20130191368A1 (en) 2005-10-26 2013-07-25 c/o Cortica, Ltd. System and method for using multimedia content as search queries
TWI442773B (zh) 2006-11-30 2014-06-21 Dolby Lab Licensing Corp 抽取視訊與音訊信號內容之特徵以提供此等信號之可靠識別的技術
CA2683192C (en) 2007-05-15 2013-12-31 Tivo Inc. Media data content search system
US8171030B2 (en) 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
CN100530196C (zh) 2007-11-16 2009-08-19 北京交通大学 一种基于分层匹配的快速音频广告识别方法
US8195689B2 (en) 2009-06-10 2012-06-05 Zeitera, Llc Media fingerprinting and identification system
US9367544B2 (en) 2008-06-18 2016-06-14 Gracenote, Inc. Method for efficient database formation and search on media devices acting synchronously with television programming
WO2010006334A1 (en) 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8498978B2 (en) 2008-12-30 2013-07-30 Yahoo! Inc. Slideshow video file detection
KR101028956B1 (ko) * 2009-07-31 2011-04-12 포항공과대학교 산학협력단 모바일 iptv 서비스를 제공하는 방법 및 이를 위한 시스템
US8515933B2 (en) 2009-08-18 2013-08-20 Industrial Technology Research Institute Video search method, video search system, and method thereof for establishing video database
EP2507744A2 (en) 2009-12-02 2012-10-10 QUALCOMM Incorporated Feature matching by clustering detected keypoints in query and model images
US9443147B2 (en) * 2010-04-26 2016-09-13 Microsoft Technology Licensing, Llc Enriching online videos by content detection, searching, and information aggregation
US9508011B2 (en) 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US8694533B2 (en) * 2010-05-19 2014-04-08 Google Inc. Presenting mobile content based on programming context
US9047516B2 (en) * 2010-06-18 2015-06-02 Verizon Patent And Licensing Inc. Content fingerprinting
US20120117051A1 (en) 2010-11-05 2012-05-10 Microsoft Corporation Multi-modal approach to search query input
US20130014136A1 (en) * 2011-07-06 2013-01-10 Manish Bhatia Audience Atmospherics Monitoring Platform Methods
US20120201472A1 (en) 2011-02-08 2012-08-09 Autonomy Corporation Ltd System for the tagging and augmentation of geographically-specific locations using a visual data stream
RU2452001C1 (ru) 2011-03-15 2012-05-27 Общество С Ограниченной Ответственностью "Виси Рус" Способ отображения рекламы на ресурсах интернет в зависимости от их комбинированного содержания
RU2459281C1 (ru) 2011-09-15 2012-08-20 Общество с ограниченной ответственностью "Цифрасофт" Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала
US8892572B2 (en) 2011-12-30 2014-11-18 Cellco Partnership Video search system and method of use
US9609395B2 (en) * 2012-03-26 2017-03-28 Max Abecassis Second screen subtitles function
CN102682091A (zh) * 2012-04-25 2012-09-19 腾讯科技(深圳)有限公司 基于云服务的视觉搜索方法和系统
WO2014179810A1 (en) * 2013-05-03 2014-11-06 Digimarc Corporation Watermarking and signal recogniton for managing and sharing captured content, metadata discovery and related arrangements
US9570630B2 (en) * 2013-06-26 2017-02-14 Mediatek Inc. Schottky diode structure

Also Published As

Publication number Publication date
EP3061035A4 (en) 2016-09-14
EP3061035B1 (en) 2023-03-22
US20200142928A1 (en) 2020-05-07
KR20160074500A (ko) 2016-06-28
BR112016007145A2 (pt) 2017-08-01
AU2013403805B2 (en) 2019-08-15
CN105917359A (zh) 2016-08-31
CA2924764A1 (en) 2015-04-30
US20160267179A1 (en) 2016-09-15
RU2016115348A (ru) 2017-10-25
US10452712B2 (en) 2019-10-22
MX2016005070A (es) 2016-07-19
RU2647696C2 (ru) 2018-03-16
EP3061035A1 (en) 2016-08-31
AU2013403805A1 (en) 2016-03-31
BR112016007145A8 (pt) 2020-03-03
WO2015058332A1 (en) 2015-04-30
CN105917359B (zh) 2021-01-26
KR102197364B1 (ko) 2020-12-31
JP2017502533A (ja) 2017-01-19
KR102567285B1 (ko) 2023-08-14
CA2924764C (en) 2020-03-10
KR20210000326A (ko) 2021-01-04

Similar Documents

Publication Publication Date Title
JP6321153B2 (ja) モバイルビデオ検索
WO2015169188A1 (en) Method, apparatus, and system for loading webpage application program
EP3420473A1 (en) Expert detection in social networks
EP2758912B1 (en) Methods and apparatus for progressive pattern matching in a mobile environment
JP2021034003A (ja) 人物識別方法、装置、電子デバイス、記憶媒体、及びプログラム
WO2015152876A1 (en) Hash table construction for utilization in recognition of target object in image
US11115338B2 (en) Intelligent conversion of internet domain names to vector embeddings
TW202004525A (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
CN112995757B (zh) 视频剪裁方法及装置
TW202004524A (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
KR20150101846A (ko) 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
JP6578679B2 (ja) 画像処理装置及びプログラム
US11868358B1 (en) Contextualized novelty for personalized discovery
US20230237089A1 (en) Method of processing multimodal retrieval tasks, and an apparatus for the same
JP5389754B2 (ja) 画像検索装置及びプログラム
JP2022541832A (ja) 画像を検索するための方法及び装置
KR20150033448A (ko) 착용 가능한 디바이스를 이용하여 객체를 검색하는 방법 및 객체를 검색하는 디바이스.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180404

R150 Certificate of patent or registration of utility model

Ref document number: 6321153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250