JP6321153B2

JP6321153B2 - モバイルビデオ検索

Info

Publication number: JP6321153B2
Application number: JP2016519808A
Authority: JP
Inventors: メイ，タオ; リ，シペン; リウ，ウー
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2013-10-21
Filing date: 2013-10-21
Publication date: 2018-05-09
Anticipated expiration: 2033-10-21
Also published as: EP3061035A4; EP3061035B1; US20200142928A1; KR20160074500A; BR112016007145A2; AU2013403805B2; CN105917359A; CA2924764A1; US20160267179A1; RU2016115348A; US10452712B2; MX2016005070A; RU2647696C2; EP3061035A1; AU2013403805A1; BR112016007145A8; WO2015058332A1; CN105917359B; KR102197364B1; JP2017502533A

Description

著作権表示及び許可
本特許文献の開示の一部分は、著作権保護を受けている素材を含み得る。著作権所有者は、特許文献又は特許開示が特許商標庁の特許ファイル又はレコードに現れるときは、何人によるそのファクシミリ複製に対しても異論はないが、その他の場合はいかなる著作権の権利も留保する。下記の表示が本文献に適用されるものとする：Ｃｏｐｙｒｉｇｈｔ（ｃ）２０１３、ＭｉｃｒｏｓｏｆｔＣｏｒｐ。

インターネット及びＷｏｒｌｄＷｉｄｅＷｅｂへのアクセスを有するモバイル装置がますます一般的になってきており、増え続ける量のデータへのアクセスをユーザに外出中に提供する、個人のインターネットサーフィンのコンシェルジュとして役立っている。

モバイル装置は、現在、いくつかのタイプの検索、具体的にはビデオコンテンツの検索に資するプラットフォームを、検索対象を記録してその記録をクエリとして送信するようにリソースを費やすことなしには提供していない。

モバイル装置のためのいくつかの検索アプリケーションは、モバイル装置に組み込まれたカメラで撮られた写真をビジュアルクエリとしてサポートしており、このことは、キャプチャツーサーチ（capture-to-search）と呼ばれる。キャプチャツーサーチにおいて、通常、ピクチャが最初スナップされる。それから、そのスナップショットが、様々な垂直的ドメイン（vertical domains）におけるマッチについて検索するためのクエリとしてサブミットされる。別の検索アプリケーションは、モバイル装置に組み込まれたマイクロフォンから記録されるオーディオを、オーディオクエリとしてサポートしている。例えば、ＩＮＴＯＮＯＷは、ユーザがクエリとして使用されるオーディオを記録することを可能にする。しかしながら、そのサウンドは、最大で約１２秒の期間、記録される。それから、上記サウンド記録は、様々な垂直的ドメインにおけるマッチについて検索するためのクエリとしてサブミットされる。この処理は、記録状況が雑音のある場合、又は記録がサイレントであるようなサウンドなしのビデオの場合、うまく作用しない。

オーディオファイルのためのいくつかの検索エンジンは、さらにより長い記録時間を使用する。しかしながら、典型的なオーディオ検索エンジンは、オーディオについてビデオと組み合わせて検索せず、実際の記録がクエリとしてサブミットされることを依然として必要とする。

さらに別の検索アプリケーションは、モバイル装置に組み込まれたカメラで撮られたビデオ画像を、ビジュアルクエリとしてサポートしており、このことは、ビデオのキャプチャツーサーチと呼ばれ得る。ＶＩＤＥＯＳＵＲＦは、ビデオのキャプチャツーサーチの一例である。ＶＩＤＥＯＳＵＲＦにおいて、ビデオ画像は、少なくとも１０秒の期間捕捉され、記憶される。それから、ユーザが検索のために判別可能なビジュアルコンテンツを選び、そして、そのビデオ画像クリップが、マッチするビデオについて検索するためのクエリとしてサブミットされる。

既存のモバイルビデオ検索アプリケーションは、比較的長いオーディオ及び／又はビデオクリップを記憶し、記録されたクリップを検索エンジンに送信することに、かなりのリソースを費やしている。検索エンジンは、記録されたビデオクリップのクエリを受信すると、このクリップに基づいてマッチングを実行することができる。既存の方法は、固定された継続時間、例えば、１０又は１２秒のクリップを必要とする。

モバイル装置におけるビデオ検索に関連する大抵の検索は、モバイル装置におけるコンパクトな記述子設計に焦点を当てている。この問題を解決するための最もポピュラーな方法は、準同一（near-duplicate）ビデオ検索のための画像コーディングのテクノロジーを通じて記述子を圧縮することであり、このことは、記述子が依存するデータモダリティのタイプに従って、３つのカテゴリ、すなわち、オーディオベースの方法、ビデオベースの方法、及び融合ベースの方法に分類されることができる。しかしながら、準同一ビデオ検索に対する多くの既存のアプローチは、主としてデスクトップシナリオに焦点を当てており、クエリビデオは大抵、モバイル装置により捕捉されたビデオではなく、大幅な歪みなしの、オリジナルのビデオのサブセットである。その上、複製ビデオ検索に対する従来のアプローチは前述のモバイルの挑戦を考慮していないため、既存のアプローチにおいて、記述子の計算コスト及びコンパクトさはしばしば無視されている。複製ビデオ検索に対する従来のアプローチはモバイルビデオ検索に適していない。

本文献は、モバイル装置におけるビデオ検索のための設備を説明するものであり、この設備は、モバイル装置で利用可能なコンピューティングリソースの利点を活かして、上記モバイル装置以外の装置により提示されているビデオコンテンツのオーディオ及びビデオ特性を抽出し、ビデオコンテンツの記録をクエリとして送信するのではなく、上記特性をクエリとして送信する。検索クエリとして使用されるオーディオ及びビデオ特性を抽出することによって、及び、上記オーディオ及びビデオ特性を、ビデオコンテンツの索引付けされたデータセットに記憶されたオーディオ及びビデオ特性とマッチングすることによって、上記設備は、サブミットされた各々のオーディオ及びビデオ特性について、特性が雑音のある状況、十分に明るくされていない状況、又は一貫性のない状況において抽出されたときを含め、候補ビデオを提供する。上記設備は、ビデオ入力の追加的な部分が取得されている間に候補ビデオの指標の提示を提供し、示されるべき候補ビデオのプログレッシブな精緻化（progressive refinement）を提供する。上記設備は、提供されている候補ビデオから選択がなされるまで、あるいは、候補ビデオの結果リストが安定するまで、例えば、候補ビデオの結果リストがある時間について変化しなくなり、検索が停止するまで、ビデオ入力の追加的な部分が取得されている間に提供されている候補ビデオの一覧表を改訂することを含め、候補ビデオの一覧表を提供する。上記設備は、候補ビデオの結果リストが安定している、例えば、ある時間について変化しなくなっていることに応答して、候補ビデオの指標の異なる提示を提供する。上記設備は、提供されている候補ビデオから選択がなされることに応答して、さらなるインターフェースの提示をさらに提供する。例えば、上記設備は、ブラウザを開くことを提供して、ユーザが選択されたビデオを購入し又は賃借することを可能にし、あるいはユーザが選択されたビデオに関するさらなる又は補助的な情報を見ることを可能にし、あるいはユーザが後の視聴のためにビデオの指標を保存することを可能にする。

本発明の概要は、以下に詳細な説明においてさらに説明される概念のうち選択されたものを簡素化された形式で紹介するために提供される。本発明の概要は、請求される対象事項の重要な特徴又は必須の特徴を識別するものではなく、請求される対象事項の範囲の決定を支援するものとして使用されるべきものでもない。上記の文脈によって及び本文献を通して許可されるとおり、用語「手法」は、例えば、方法、及び／又はコンピュータ実行可能命令、モジュール、アルゴリズム、ハードウェアロジック（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ・システム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ））を指すことがあり、かつ／あるいは、「設備（facility）」は、例えば、ハードウェアロジック（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ・システム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ））、他の装置、及び／又は他のシステムを指すことがある。

詳細な説明は、添付図面を参照して説明される。図面において、参照番号のうち最も左の（１又は複数の）桁は、その参照番号が最初に出現する図を識別する。同じ番号が、同様の特徴及びコンポーネントを参照するように図面の全体にわたって使用される。
テレビジョンにおけるビデオ提示からオーディオビデオを捕捉するモバイル装置を用いたモバイルビデオ検索の一実施例の絵図である。図１の実施形態からのモバイルビデオ検索の例示的なユーザインターフェースの一部の絵図である。モバイルビデオ検索を実施する例示的なアーキテクチャの絵図である。モバイルビデオ検索のために構成された例示的なモバイル装置の選択コンポーネントを例示するブロック図である。モバイルビデオ検索に採用され得る、レイヤ化されたオーディオビデオ索引付けのために構成された例示的なサーバ装置の選択コンポーネントを例示するブロック図である。モバイルビデオ検索を実施するモバイル装置とレイヤ化されたオーディオビデオ索引付けを実施するサーバとを含むシステムの例示的なフレームワークの絵図である。オーディオ指紋の抽出の一例の絵図である。レイヤ化されたオーディオビデオ索引の一例の絵図である。クライアント装置においてモバイルビデオ検索を実施するための例示的なプロセスのフロー図である。レイヤ化されたオーディオビデオ索引を用いてサーバにおいてビデオ検索を実施するための例示的なプロセスのフロー図である。レイヤ化されたオーディオビデオ索引を用いたサーバにおけるビデオ検索の間の、プログレッシブな処理の一実施例を例示するフロー図である。

モバイルビデオ検索ツールが、ビデオ検索についての関連結果を取得するための豊富な機能性セットを提供する。実際のビデオファイルの断片を採用する検索を主としてサポートするデスクトップコンピュータと比べて、モバイル装置が、様々な環境における結果の使用及び取得を容易にするのに採用され得る、ユーザ・インタラクションのための豊富なインターフェースセットを提供する。例えば、ファイルのアップロード及びダウンロード並びにデスクトップ環境において受け取られる従来のキーボード及びマウス入力の域を超えて、モバイル装置は、さらなるマルチモードの入力を受信することを可能にされる。モバイル装置インターフェースは、組み込みカメラを介したビジュアルモダリティと組み込みマイクロフォンを介したオーディオモダリティとを組み合わせることができる。

モバイル装置がこうした入力モダリティを組み合わせることができると同時に、モバイル装置からのビデオ検索は様々な挑戦に直面する。例えば、モバイルビデオ検索が直面する挑戦の１つは、ユーザが理想的な状況に満たないにもかかわらず、検索が所望され得ることである。環境は、雑音のあることがあり、一貫して明るくされておらず又はライティングの変動を伴うことがあり、かつ／あるいはインターネット接続のスピードの変動を伴う環境内であり得る。対照的に、デスクトップコンピュータからのビデオ検索には、典型的に、別の装置における、カメラ及び／又はマイクロフォンで捕捉されたビデオの提示の記録ではなく、ビデオファイルの断片をサブミットすることが含まれる。

モバイルビデオ検索が直面する他の挑戦には、モバイル装置のハードウェア制限が含まれる。モバイル装置のプロセッサ、例えば中央処理ユニット（ＣＰＵ）及びグラフィクス処理ユニット（ＧＰＵ）、並びにメモリは、依然として、デスクトップコンピュータに匹敵しない。厳しいメモリ及び計算制約は、大きいメモリコスト又は重い計算を伴うシグネチャ（signatures）を、モバイルクライアントに適さないものにする。さらに、ネットワーク及び帯域幅制限の否定的影響がある。モバイル装置では、ネットワーク接続はしばしば信頼できず、帯域幅は比較的小さい。本明細書に説明されるモバイルビデオ検索では、ネットワークを通じて通信されるデータのボリュームを低減し、究極的にはネットワーク待ち時間を低減するコンパクトなシグネチャを用いることによって、ボトルネック及び中断された接続の影響を制限することができる。さらに、検索するモバイル装置のユーザは、検索待ち時間に敏感である。プログレッシブな検索からの結果を含む、予備的な結果の提示は、従来のクエリクリップより短いものが捕捉されている間、ユーザに対して明白な待ち時間を低減する。

例えば、ユーザがミーティングへと歩いており、店頭のウィンドウのビデオ提示に気付くことがある。このユーザは、立ち止まってビデオを観る時間を有さないとしても、ツールを用いて、マッチするビデオをツールが返すまで、数秒のビデオを捕捉することができる。ユーザは、後の視聴のためにビデオの名称を保存することができる。この例において、提示からのオーディオと提示からのビデオ画像とを捕捉することができるクライアント側ツールは、捕捉されたコンテンツに対して軽量変換を実行する。この変換には、雑音のある街路の状況においてでさえも、オーディオ指紋を抽出することと、ビジュアルハッシュビット（visual hash bits）を抽出することとが含まれる。デスクトップコンピュータと比べて、モバイル装置の比較的制限されたメモリ及び計算リソースの点から見て、例えば、ビデオクリップを提示するために計算的に高価なシグネチャを抽出することは、実行不可能にされる可能性がある。さらに、処理のためにサーバにビデオクリップを送信するのに利用可能な帯域幅が利用可能でないことがあり、あるいは、伝送の継続時間が受け入れられないほど長いおそれがある。モバイル装置における計算キャパシティを採用することによって、ツールは変換を実行し、ネットワークを通じてかなり少ない量のデータを伝送することができる。例えば、オーディオ指紋の抽出は、１秒のビデオについて約０．５ＫＢのデータをもたらし得る。同様に、ビデオからのビジュアルハッシュビットの抽出は、１秒のビデオについて約１．０ＫＢのデータをもたらし得る。ゆえに、これらの組み合わせられた特性からなるオーディオビデオ・シグネチャ（audio-video signature）は、１秒のビデオクリップ全体を送信するためのデータの量と比べて、２ＫＢ未満のデータで送信されることができる。さらに、読み出しシステムについての減少された待ち時間のため、ビデオ入力が依然として取得されている間、例えば候補結果のプログレッシブな提示などについて、とり得るマッチが返されることができる。さらなる候補ビデオマッチが取得されておらず、あるいは結果リストが例えば３秒などの時間について変化しないとき、検索は、クエリにマッチするビデオが識別されたとして終わることができ、検索は自動的に停止することができ、ユーザインターフェースは、候補結果の安定化されたリストを反映するように変更されることができる。

本明細書に説明されるモバイルビデオ検索ツールの態様は、モバイル装置上で実行される検索アプリケーションとして、及び／又はアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、実施されることができる。モバイルビデオ検索ツールは、クエリのためにビデオ入力を捕捉し、オーディオ指紋とビジュアルハッシュビットとの抽出を実行して、オーディオビデオ・シグネチャを形成することができる。モバイル装置上で実行されるアプリケーションの場合、アプリケーションは、オーディオビデオ・シグネチャをビデオ検索クエリとして送信することができる。ＡＰＩの場合、アプリケーションは、別のアプリケーションがビデオ検索のために使用するように、ＡＰＩを介して、オーディオビデオ・シグネチャを編成するオーディオ指紋とビジュアルハッシュビットとを公開することができる。

クラウドにおいて、システムは、新規のレイヤ化されたオーディオビデオ（Layered Audio-VidEo；ＬＡＶＥ）索引付けスキームを用いて、大規模のビデオデータに索引を付けることができる。一方、クライアントにおいて、システムは、軽量の結合的（joint）オーディオビデオ・シグネチャをリアルタイムで抽出し、プログレッシブな方法で検索する。ＬＡＶＥスキームは、結合的なマルチレイヤ化された（multi-layered）オーディオビデオ索引付けを通してオーディオビデオ・シグネチャを組み合わせ、該索引付けは、類似度計算において各々のシグネチャの個々の構造を保ち、その相関を組み合わせ段階において考慮する。結合的オーディオビデオ・シグネチャは、モバイル装置に対して計算的に安価であり、個々のオーディオ及びビジュアルモダリティからの判別可能力を補強する。ゆえに、オーディオビデオ・シグネチャは、クエリビデオの中の大きい変動、例えば雑音及び歪みに対して、ロバスト（robust）である。様々な実施形態において、学習されたハッシュ関数が、モバイル装置からネットワークを通じてサーバ又はクラウドなどに転送すべきビット数をかなり低減する。２パートのグラフ（two-part graph）の変換及びマッチングアルゴリズムがビデオ検索をプログレッシブにし、このことは、安定的な結果が達成されたときに検索が停止できることを意味する。本明細書に説明されるとおり、結果がある時間について、例えば３秒間変化しないとき、結果は安定的である。少なくとも１つの実施において、本明細書に記載されるシステムは、クエリビデオが１０秒未満であったときに９０％以上、例えば９０．７７％の精度を、クエリビデオが５秒未満であったときに約７０％、例えば７０．０７％の精度を達成した。

本明細書に説明されるとおり、サーバ又はクラウドコンピューティング環境は、ネットワーク分散環境と呼ばれることもあり、この環境は、検索が実行されるビデオコンテンツのレイヤ化されたオーディオビデオ索引をホストすることができる。オーディオビデオ・シグネチャを取得するためのオーディオ指紋及びビジュアルハッシュビットの獲得の説明と同様に、サーバ又はクラウドコンピュータは、ビデオファイルのライブラリからのビデオファイルに対して、オーディオビデオ・シグネチャの抽出を実行することができる。抽出されたオーディオビデオ・シグネチャは、レイヤ化されたオーディオビデオ索引として記憶されることができ、このことは、他の検索構造と比べて、検索待ち時間を低減することができる。

様々な実施形態において、ＬＡＶＥインデックスを検索することは、マルチステッププロセスを含む。少なくとも１つの実施形態において、第１に、ビデオ検索エンジンは、クエリからのオーディオ指紋をフィルタとして使用する。第２に、ビデオ検索エンジンは、フィルタされたセットからのキーフレームを、類似度について比較する。第３に、ビデオ検索エンジンは、最も近接した結果を取得するために幾何学的検証を実行する。ビデオ検索エンジンは、最も近接した複数の結果をランク付けしてもよい。ビデオ検索エンジンは、最も近接した結果を更新してもよく、かつ／あるいは、追加的なオーディオビデオ・シグネチャとしてのランク付けが、クエリから実行される。ビデオ検索エンジンは、クエリが由来するモバイル装置に向けて、候補結果ビデオの表現を送信することができる。いくつかの実施形態において、候補結果は、オーディオビデオの捕捉の提示と共有されるユーザインターフェース内に、上記捕捉が行われている間、提示されることができる。少なくとも１つの実施形態において、候補結果は、オーディオビデオの捕捉の提示と共有されるユーザインターフェース内に、オーディオビデオ・シグネチャを形成するようにクエリのためのビデオ入力の捕捉とオーディオ指紋及びビジュアルハッシュビットの抽出とが生じている間、プログレッシブに（progressively）提示されることができる。結果リストが安定する事象において、捕捉態様は終了することができ、ユーザインターフェースは、さらなる情報の有無にかかわらず、候補結果の安定的な一覧表の検索結果リストの提示に移行することができる。

少なくとも１つの実施形態において、本明細書に説明されるモバイルビデオ検索手法は、ネットワーク分散環境において実施される。ネットワーク分散環境には、１つ以上のタイプのコンピューティングリソースを含むことができ、上記コンピューティングリソースのタイプには、コンピューティング装置、ネットワーキング装置、及び／又は記憶装置を含むことができる。ネットワーク分散環境は、クラウドコンピューティング環境と呼ばれることもある。

様々な実施形態の態様が図１‐１１を参照してさらに説明される。

実施例
図１は、本明細書に説明されるモバイル装置を用いたモバイルビデオ検索の例示的な実施形態の実施を示している。例示される例において、ユーザ１０２は、モバイルコンピューティング装置１０４、例えば、タブレット又はスマートフォンなどを使用している。図１において、モバイルコンピューティング装置１０４は、候補結果のリスト１１２を提示すると同時にモバイルビデオ検索ツール１１０を介してテレビジョン１０８上のビデオ提示１０６からオーディオ及びビジュアル入力を捕捉することを表すユーザインターフェースを備えて図示されている。少なくとも１つの実施形態において、候補結果のリスト１１２は、リアルタイムで又はリアルタイム付近で算出され、候補結果のプログレッシブなリスト１１２としてクライアントに返されることができる。候補結果に関連付けられた候補画像及び／又は候補テキストが、モバイル装置１０４の画面上のユーザインターフェース内の一覧表１１２に提示されることができる。例示される例において、モバイル装置１０４はＷｉｎｄｏｗｓＰｈｏｎｅ（登録商標）装置を表すが、他のモバイルフォン、スマートフォン、タブレットコンピュータ、及び他のこうしたモバイル装置が類似的に採用されてもよい。モバイル装置１０４において、ハード又はソフトボタンのアクティブ化が、モバイルビデオ検索ツール１１０の起動を望むことを示すことができる。

図１の例示的な実施において、モバイルビデオ検索ツール１１０は、マイクロフォンのグラフィック１１４により表されるとおり、モバイル装置のマイクロフォンを介してオーディオ入力を捕捉することを示されている。しかしながら他の実装において、オーディオ捕捉は、異なるグラフィックにより表されてもよく、あるいは、対応するグラフィック無しに単純に理解されてもよい。同時に、モバイルビデオ検索ツール１１０は、ビジュアル捕捉１１６を表示するユーザインターフェースから明らかであるとおり、モバイル装置のカメラを介してビデオ入力を捕捉している。モバイルビデオ検索ツールは、オーディオ入力及びビジュアル入力を捕捉し続ける間、オーディオ入力のオーディオ指紋とビジュアル入力のビジュアルハッシュビットとを抽出して、検索における使用のために、例えば、ＬＡＶＥ索引付けされたデータセットを検索するために、クラウドに向けて送信することができる。さらに、モバイルビデオ検索ツールは、オーディオ入力及びビジュアル入力を捕捉し続ける間、候補検索結果のプログレッシブリスト１１２を受信することができる。候補結果に関連付けられた候補画像及び／又は候補テキストは、モバイル装置１０４の画面上のユーザインターフェース内の一覧表１１２に提示されることができる。例示される実施形態において、候補画像及び候補テキストを含む候補検索結果のプログレッシブなリスト１１２は、ユーザインターフェース内のビジュアル捕捉のそばに提示されているが、他の提示場所が考えられる。

様々な実施形態において、メモリを最適化するために、モバイル装置１０４はオーディオ入力又はビジュアル入力を記憶せず、代わって、モバイル装置１０４はオーディオ指紋及びビジュアルハッシュビットを記憶する。オーディオ指紋及びビジュアルハッシュビットを記憶することは、低い又は一貫性のない帯域幅状況、又は装置がネットワーク接続を欠いているときに、有用である可能性がある。

これまで、準同一ビデオの検索について全体的特徴が取り入れられてきており、これにおいて、ビデオはコンパクトな全体的シグネチャによって表される。こうした全体的特徴は、ビデオを表すためのタイムラインに関してグレーレベル強度分布を活用する時空間的特徴と、不変の全体的シグネチャを組み立てるための空間的及び時間的情報の組み合わせとを含んでいた。これら全体的表現は、大規模ビデオデータセットにおいて高速の読み出しスピードを達成するが、深刻な歪みを有する記録されたクエリビデオを適応させない。

全体的特徴と比べて、局所的記述子は、局所的不変性、例えばスケール（scale）及び方向（orientation）などを調査するので、より弁別的であり、記録されたビデオクエリの歪みに対してロバストである。しかしながら、計算の複雑さに起因して、歪みを包含し得る記録されたクエリビデオについて局所的記述子を採用することの効率は、御しにくくなる。いくつかのアプローチが、マッチング処理をスピードアップするための階層構造の組み立てとバグ・オブ・ワード（Bag-of-Words；ＢｏＷ）を含む局所的記述子のマッチングのスピードとを向上させることを試みている。しかしながら、局所的記述子に基づくアプローチは、モバイル装置の限られたコンピューティング能力及びメモリに起因して、モバイル装置上で動作するための広範な最適化を必要とする。

オーディオは、準同一ビデオ検索において重要な役割を果たすことができる。一例が、類似オーディオ検索を行うために目印ベースのオーディオ指紋を採用しており、別の例が、類似ビデオ検索のためにオーディオ特徴を特性付けるための、ＢｏＷにより示唆された、バグ・オブ・オーディオ・ワード（bag of audio words；ＢｏＡ）表現を含む。ビジュアル特徴と比べて、オーディオ特徴はよりロバストであり、計算的に効率が良く、コンパクトである可能性があり、このことはオーディオ特徴を、モバイルビデオ検索において採用するのに適切にする。

近年、結合的オーディオビジュアル準同一ビデオ検索は、大規模ビデオコピー検出に適用されてきている。特徴組み合わせの重要な問題は、オーディオ特徴とビデオ特徴との間の相関の識別である。既存の融合ストラテジには、早くの融合と遅くの融合とが含まれる。早くの融合ストラテジと遅くの融合ストラテジとの双方が、欠点を有する。例えば、早くの融合は、個々の特徴についての構造情報を保たず、一方、遅くの融合は、特徴間における相関を認識しない。

既存の早くの融合法及び遅くの融合法は、既存の準同一ビデオ検索法がモバイルビデオ検索に対して直接適合されて独特なモバイルの挑戦に対処することができるようにオーディオビデオ・シグネチャの利点を十分に取り出すことができない。

図２は、図１の実施形態に係るモバイルビデオ検索のユーザインターフェース内の例示的な安定化された結果一覧表２００の絵図である。

上記の方法と比べて、本明細書に説明されるモバイルビデオ検索手法及び設備は、ビデオ入力が捕捉されている間、プログレッシブなモバイルビデオ検索を提供する。モバイルビデオ検索スキームは、オーディオ指紋とビジュアルハッシュビットとから導出することができるコンパクトなオーディオビデオ・シグネチャを、クラウドにプログレッシブに伝送する。ＬＡＶＥ索引付け手法は、ロバストなビデオ検索のためにオーディオビデオ・シグネチャの利点を活かす。さらに、ユーザの検索体験を向上させるように、プログレッシブなクエリ処理が、２パートのグラフベースの変換及びマッチング方法を採用する。

したがって、様々な実施において、モバイルビデオ検索ツールは、オーディオ指紋を取得するために目印ベースのオーディオ指紋法（Landmark-Based Audio Fingerprinting；ＬＢＡＦ）を採用することによって、ユーザがクエリを加速するのを助けるようにオーディオ入力を活用する。

一実施例において、２０４に示されるとおり、安定化された候補結果に関連付けられた候補画像が、モバイル装置１０４の画面上のユーザインターフェース内の一覧表２００に提示されることができる。同時に、２０６に示されるとおり、候補結果に関連付けられたテキスト、例えばタイトル、キャラクタ名称等が、モバイル装置１０４の画面上のユーザインターフェース内の一覧表２００に提示されることができる。図示される例において、結果一覧表は、水平リボンフォーマットにおいて提示される候補画像２０４と対応するタイトル２０６とを含み、上記一覧表から、特定の候補結果が、検索エリア２０２にドラッグされることによって、あるいはモバイル装置１０４の画面上の画像又はテキストのいずれかをタッチし又はその他の方法で選択することによって、選択されることができる。しかしながら、他のフォーマットが可能でもあり、考えられもする。例えば、候補画像の選択が、ブラウザを開かせ、モバイル装置上で視聴するために上記選択のコピーをユーザが購入し又は賃借する機会を提供することができ、かつ／あるいは、テキスト又はタイトルの選択が、関連付けられたビデオに関する情報を出し（bring up）、又は、関連付けられた画像の有無にかかわらず後のアクセスのためにタイトルを記憶することができる。

例示的なアーキテクチャ
以下に説明されるアーキテクチャはほんの一例を構成し、請求項をいずれか１つの特定のアーキテクチャ又は動作環境に限定することは意図されない。請求される対象事項の主旨及び範囲から逸脱することなく、他のアーキテクチャが使用されてもよい。図３は、モバイルビデオ検索を実施する例示的なアーキテクチャの絵図である。

いくつかの実施形態において、環境３００の様々な装置及び／又はコンポーネントには１つ以上のネットワーク３０２が含まれ、ネットワーク３０２を通じて、モバイルコンピューティング装置３０４が少なくとも１つのサーバ３０６に接続されることができる。モバイルコンピューティング装置３０４は、モバイルコンピューティング装置１０４に対応し得るものであり、本明細書において、クライアント装置３０４又は単に装置３０４とも呼ばれる。環境３００は、複数のネットワーク３０２、様々な装置３０４、及び／又は複数のサーバ３０６を含み得る。

様々な実施形態において、サーバ３０６は、例えば学校制度又は会社などのエンティティに特有のクラウドベースサービス又は集中型サービスをホストすることができる。環境は、リソースを共有し、負荷のバランスをとり、パフォーマンスを増大させ、フェイルオーバのサポート又は冗長性を提供するように、又はネットワーク３０２を通じて他の目的のために、クラスタ又は他のグループ化された構成において動作する１つ以上のコンピューティング装置をサーバ３０６が含むことができるシナリオを、サポートする。

例えば、ネットワーク３０２は、インターネットなどのパブリックネットワーク、機関及び／又は個人のイントラネットなどのプライベートネットワーク、又は、プライベートネットワークとパブリックネットワークとの何らかの組み合わせを含むことができる。ネットワーク３０２は、任意タイプの有線及び／又はワイヤレスネットワークをさらに含むことができ、これらに限られないが、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、衛星ネットワーク、ケーブルネットワーク、Ｗｉ‐Ｆｉネットワーク、ＷｉＭａｘネットワーク、モバイル通信ネットワーク（例えば、３Ｇ、４Ｇ、及び同様のもの）、又はこれらの任意の組み合わせが含まれる。ネットワーク３０２は、インターネットプロトコル（ＩＰ）、トランスミッションコントロールプロトコル（ＴＣＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、又は他のタイプのプロトコルなどの、パケットベース及び／又はデータグラムベースのプロトコルを含む通信プロトコルを利用することができる。さらに、ネットワーク３０２は、スイッチ、ルータ、ゲートウェイ、アクセスポイント、ファイアウォール、基地局、リピータ、バックボーン装置、及び同様のものなどの、ネットワーク通信を容易にし及び／又はネットワークのハードウェア基盤を形成する複数の装置をさらに含むことができる。

いくつかの実施形態において、ネットワーク３０２は、ワイヤレスアクセスポイント（ＷＡＰ）などのワイヤレスネットワークに対する接続を可能にする装置をさらに含むことができる。実施形態は、電気電子技術者協会（ＩＥＥＥ）８０２．１１標準（例えば、８０２．１１ｇ、８０２．１１ｎ、及び同様のもの）及び他の標準をサポートするＷＡＰを含む、様々な電磁気的周波数（例えば、無線周波数）を通じてデータを送信及び受信するＷＡＰによる接続性をサポートする。

コンピュータ可読媒体
コンピュータ可読媒体は、この用語が本明細書において使用されるとき、少なくとも、２タイプのコンピュータ可読媒体、すなわち、コンピュータ記憶媒体と通信媒体とを含む。

コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のために任意の方法又はテクノロジーにおいて実施される揮発性及び不揮発性の、取外し可能及び取外し不能の媒体が含まれる。コンピュータ記憶媒体には、装置に、及び／又は、装置の一部である若しくは装置の外部にあるハードウェアコンポーネントに含まれる、有形の及び／又は物理的な形態の媒体が含まれ、これらに限られないが、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、コンパクトディスク読取専用メモリ（ＣＤ‐ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、光カード若しくは他の光学記憶媒体、磁気カセット、磁気テープ、磁気ディスクストレージ、磁気カード若しくは他の磁気記憶装置若しくは媒体、ソリッドステートメモリ装置、ストレージアレイ、ネットワークアタッチトストレージ、ストレージエリアネットワーク、ホスト型のコンピュータストレージ若しくは任意の他の記憶メモリ、記憶装置、及び／若しくは記憶媒体若しくはメモリテクノロジー、又は、コンピューティング装置によるアクセスのために情報を記憶し及び維持することに使用することができる任意の他の非伝送媒体が含まれる。

対照的に、通信媒体は、搬送波などの変調されたデータ信号又は他の伝送メカニズムにおいて、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータを具現化し得る。

本明細書に定義されるとおり、コンピュータ記憶媒体は、伝送を実行するのに必要なハードウェアコンポーネントの任意のものを除き、通信媒体を含まない。すなわち、コンピュータ記憶媒体は、本質的に、変調されたデータ信号、搬送波、又は伝搬された信号から専らなる通信媒体を、含まない。

様々な実施形態において、モバイルコンピューティング装置３０４は、装置３０４Ａ‐３０４Ｅなどの装置を含む。実施形態は、装置３０４がリソースを共有するように又は他の目的のためにクラスタ又は他のグループ化された構成において動作する１つ以上のコンピューティング装置を含むことができるシナリオを、サポートする。それぞれ異なる様々なモバイル装置タイプとして例示されるが、装置３０４は他のモバイル装置タイプである可能性があり、例示されるモバイル装置タイプに限定されない。装置３０４には、入力／出力インターフェース３１０とコンピュータ可読媒体３１２とに動作可能に接続された１つ以上のプロセッサ３０８を有する任意タイプのモバイルコンピューティング装置を含むことができる。装置３０４は、例えば、スマートフォン３０４Ａ、ラップトップコンピュータ３０４Ｂ、タブレットコンピュータ３０４Ｃ、電気通信装置３０４Ｄ、パーソナルデジタルアシスタント（ＰＤＡ）３０４Ｅ、及び／又はこれらの組み合わせなどの、モバイルコンピューティング装置を含むことができる。装置３０４は、電子書籍リーダ、ウェアラブルコンピュータ、自動車用コンピュータ、ゲーム装置、モバイルシンクライアント、端末、及び／又はワークステーションをさらに含むことができる。いくつかの実施形態において、装置３０４は、モバイル装置以外である可能性があり、例えば、デスクトップコンピュータ、及び／又は、コンピューティング装置、電化製品又は別の種類の装置における統合のためのコンポーネントを含むことができる。

いくつかの実施形態において、装置３０４Ａに関して図示されるとおり、コンピュータ可読媒体３１２は、オペレーティングシステム３１４と、モバイルビデオ検索のためのエンジン３１６と、ＣＰＵ又はＧＰＵなどのプロセッサ３０８によりロード可能及び実行可能な他のモジュール、プログラム、又はアプリケーション３１８とを含む、プロセッサ３０８により実行可能な命令を記憶することができる。別法として又はさらに、本明細書に説明される機能性は、少なくとも部分的に、１つ以上のハードウェアロジックコンポーネントによって実行されることができる。例えば、限定なしに、使用され得る例示的タイプのハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定プログラム向け集積回路（ＡＳＩＣ）、特定プログラム向け標準製品（ＡＳＳＰ）、システムオンチップ・システム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）等が含まれる。

様々な実施形態におけるコンピュータ可読媒体３１２が、コンピュータ記憶媒体を含むことがあり、これが今度は、上記で論じられたとおり、揮発性メモリ、不揮発性メモリ、及び／又は、他の永続的及び／又は補助的コンピュータ記憶媒体を含むことができる。ゆえに、コンピュータ可読媒体３１２は、コンピュータ記憶媒体として実施されるとき、装置に、及び／又は装置の一部である若しくは装置の外部にあるハードウェアコンポーネントに含まれる、有形の及び／又は物理的な形態の媒体を含み、これらに限られないが、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、コンパクトディスク読取専用メモリ（ＣＤ‐ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、光カード若しくは他の光学記憶媒体、磁気カセット、磁気テープ、磁気ディスクストレージ、磁気カード若しくは他の磁気記憶装置若しくは媒体、ソリッドステートメモリ装置、ストレージアレイ、ネットワークアタッチトストレージ、ストレージエリアネットワーク、ホスト型のコンピュータストレージ、又は、コンピューティング装置によるアクセスのために情報を記憶し及び維持することに使用することができる任意の他の記憶メモリ、記憶装置、及び／若しくは記憶媒体が含まれる。しかしながら、コンピュータ可読媒体３１２は、コンピュータ記憶媒体として実施されるとき、本質的に、伝搬された信号から専らなる通信媒体を含まない。

装置３０４は、装置３０４が他の装置と通信することを可能にするように１つ以上の入力／出力（Ｉ／Ｏ）インターフェース３１０をさらに含むことができる。装置３０４の入力／出力（Ｉ／Ｏ）インターフェース３１０は、ネットワーク３０２を通じてコンピューティング装置３０４と他の装置３０４及び／又はサーバ３０６などの他のネットワーク化された装置との間の通信を可能にするように１つ以上のネットワークインターフェースをさらに含むことができる。装置３０４の入力／出力（Ｉ／Ｏ）インターフェース３１０は、装置３０４がユーザ入力周辺装置（例えば、キーボード、マウス、ペン、ゲームコントローラ、オーディオ入力装置、ビジュアル入力装置、タッチ入力装置、ジェスチャの（gestural）入力装置、及び同様のもの）及び／又は出力周辺装置（例えば、ディスプレイ、プリンタ、オーディオスピーカー、触覚に関する（haptic）出力、及び同様のもの）などの他の装置と通信することを可能にすることができる。ネットワークインターフェースには、ネットワークを通じて通信を送信し及び受信するように１つ以上のネットワークインターフェースコントローラ（ＮＩＣ）又は他のタイプの送受信器装置を含むことができる。

サーバ３０６は、入力／出力インターフェース３２２とコンピュータ可読媒体３２４とに動作可能に接続された１つ以上のプロセッサ３２０を有する任意タイプのコンピューティング装置を含むことができる。いくつかの実施形態において、サーバ３０６に関して図示されるとおり、コンピュータ可読媒体３２４は、オペレーティングシステム３２６と、レイヤ化されたオーディオビデオ・エンジン３２８のためのフレームワークと、ＣＰＵ及び／又はＧＰＵなどのプロセッサ３２０によりロード可能及び実行可能な他のモジュール、プログラム又はアプリケーション３３０とを含む、プロセッサ３２０により実行可能な命令を記憶することができる。別法として又はさらに、本明細書に説明される機能性は、少なくとも部分的に、１つ以上のハードウェアロジックコンポーネントによって実行されることができる。例えば、限定なしに、使用され得る例示的タイプのハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定プログラム向け集積回路（ＡＳＩＣ）、特定プログラム向け標準製品（ＡＳＳＰ）、システムオンチップ・システム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）等が含まれる。

コンピュータ可読媒体３２４は、コンピュータ記憶媒体として実施されるとき、揮発性メモリ、不揮発性メモリ、及び／又は、他の永続的及び／又は補助的コンピュータ可読記憶媒体を含むことができる。サーバ３０６は、サーバ３０６がユーザ入力周辺装置（例えば、キーボード、マウス、ペン、ゲームコントローラ、オーディオ入力装置、ビジュアル入力装置、タッチ入力装置、ジェスチャの入力装置、及び同様のもの）及び／又は出力周辺装置（例えば、ディスプレイ、プリンタ、オーディオスピーカー、触覚に関する出力、及び同様のもの）などの他の装置と通信することを可能にするように、１つ以上の入力／出力（Ｉ／Ｏ）インターフェース３２２をさらに含むことができる。サーバ３０６の入力／出力（Ｉ／Ｏ）インターフェース３１０は、ネットワーク３０２を通じてコンピューティングサーバ３０６と他のサーバ３０６又は装置３０４などの他のネットワーク化された装置との間の通信を可能にするように、１つ以上のネットワークインターフェースをさらに含むことができる。

様々な実施形態において、サーバ３０６は、学校制度又は会社などのエンティティに特有のクラウドベースサービス又は集中型サービスを表すことができる。サーバ３０６は、ユーザインターフェースを１つ以上の装置３０４に送信するためのプログラミングを含むことができる。サーバ３０６は、ユーザプロファイルを記憶し又はユーザプロファイルにアクセスすることができ、ユーザプロファイルは、エンティティによる収集をユーザが同意しているユーザアカウント番号、氏名、場所などの情報、及び／又は、信頼されていない環境において要注意のトランザクションにユーザが使用することができる１つ以上のクライアント装置３０４に関する情報を含むことができる。

例示的なモバイル装置
図４は、本明細書に説明されるモバイルビデオ検索設備を提供するように構成された例示的なモバイル装置１０４の選択コンポーネントを例示する。例示的なモバイル装置３０４には、パワーサプライ４０２と、１つ以上のプロセッサ４０４と、入力インターフェースとが含まれ、プロセッサ４０４は、プロセッサ３０８に対応し得るものであり、マイクロプロセッサを含むことができ、上記入力インターフェースは、入力／出力インターフェース３１０に対応し、ネットワークインターフェース４０６と１つ以上のカメラ４０８と１つ以上のマイクロフォン４１０とを含む。いくつかの事例において、さらなる入力インターフェース４１２が、タッチに基づくインターフェース及び／又はジェスチャに基づくインターフェースを含むことができる。例示的なモバイル装置３０４は、入力／出力インターフェース３１０に対応する、ディスプレイ４１４を含む出力インターフェースをさらに含み、いくつかの事例において、例えばスピーカー、プリンタ等のさらなる出力インターフェース４１６を含んでもよい。ネットワークインターフェース４０６は、モバイル装置３０４がネットワーク３０２を通じてデータを送信し及び／又は受信することを可能にする。ネットワークインターフェース４０６は、モバイル装置３０４が様々なタイプの通信を送信し及び／又は受信することを可能にするための他の通信インターフェースの任意の組み合わせをさらに表してもよく、これらに限られないが、ウェブベースデータと、セルラー電話ネットワークベースのデータとが含まれる。さらに、例示的なモバイル装置３０４はコンピュータ可読媒体４１８を含み、いくつかの実施形態において、コンピュータ可読媒体４１８はコンピュータ可読媒体３１２に対応する。コンピュータ可読媒体４１８は、オペレーティングシステム（ＯＳ）４２０と、ブラウザアプリケーション４２２と、モバイルビデオ検索ツール３１６と、任意数の他のアプリケーション又はモジュール４２４とを記憶し、これらは、コンピュータ可読命令としてコンピュータ可読媒体４１８に記憶され、少なくとも部分的にプロセッサ４０４上で実行される。

ブラウザアプリケーション４２２は、インターネットを通じて利用可能なウェブコンテンツにアクセスできるためのユーザインターフェースを提供するようにモバイル装置３０４上で実行されることができる様々なアプリケーションのうち任意のものを表す。

他のアプリケーション又はモジュール４２４は、モバイル装置３０４上で実行可能な任意数の他のアプリケーションを含み得る。こうした他のアプリケーションには、例えば、電子メールアプリケーション、カレンダアプリケーション、トランザクションモジュール、音楽プレーヤ、カメラアプリケーション、計算器、１つ以上のゲーム、１つ以上の生産性ツール、メッセージングアプリケーション、加速度計、及び同様のものを含み得る。

モバイルビデオ検索ツール３１６には、オーディオ抽出モジュール４２６と、ビデオ抽出モジュール４２８と、シグネチャモジュール４３０と、結果モジュール４３２と、ユーザインターフェースモジュール４３４と、任意数の他のモバイルビデオ検索モジュール４３６とのうち、１つ以上が含まれる。オーディオ抽出モジュール４２６は、ＬＢＡＦなどのオーディオ指紋を抽出することができる。

ビデオ抽出モジュール４２８は、迅速に抽出されるだけでなくモーション状況、ぼやけ状況、一貫性のないライティング状況などの歪みに対してロバストでもある、ビデオ記述子を採用する。ビデオ抽出モジュール４２８は、局所的ビデオ特徴から、スピードアップされたロバストな特徴（Speeded-Up Robust Features；ＳＵＲＦ）などの生の（raw）特徴を抽出することができる。しかしながら、生のＳＵＲＦ特徴を送信することは、受け入れられないほど大量のエネルギーをモバイル装置に消費させる可能性があり、長くかかり過ぎてユーザが受け入れることができない可能性がある。様々な実施形態において、ビデオ抽出モジュールは、局所的特徴をハッシュビットに圧縮するようにハッシュ法を使用し、モバイルコンピューティング装置１０４の軽い計算及びメモリリソースと調和する。

シグネチャモジュール４３０は、オーディオ抽出モジュール４２６からのオーディオ指紋及び／又はビデオ抽出モジュール４２８からのビジュアルハッシュビットに少なくとも基づいてＬＡＶＥ検索を実行するためのプログラミングのすべて又は一部と調和して動作し、該すべて又は一部を編成し得る。

ユーザインターフェースモジュール４３４は、モバイル装置１０４についての他の機械的及び／又はソフトウェアユーザインターフェースコンポーネントの動作のためのプログラミングのすべて又は一部と調和して動作し、該すべて又は一部を編成し得る。例えば、ユーザインターフェースモジュール４３４は、プロセッサ４０４により実行されることができ、モバイルビデオ検索ツール３１６の文脈において、ハード又はソフト選択ボタン、ホーム画面ボタン、戻るボタン、及び／又は開始ボタンの機能を制御することができる。ユーザインターフェースモジュール４３４は、結果モジュール４３２により受信された候補結果一覧表のうち特定一覧表の提示及び選択を可能にする。例えば、ユーザインターフェースモジュール４３４は、１１２及び／又は２００において図示されたとおり、モバイル装置１０４の画面上にスクロール可能なリボンフォーマットにおいて提示される特定候補一覧表の提示及び選択を提供する。

いくつかの実施形態において、他のインタラクティブなマルチモードの画像検索コンポーネント４３６が、モバイルビデオ検索を実行するために他のインタラクティブなデータのコンテキストを適用することができる。例えば、使用され得る他のコンテキストデータは、これらに限られないが、直近の検索、メッセージング情報、直近にアクセスされたアプリケーションを識別するデータ（例えば、ブラウザ検索、ムービー一覧化アプリ等）、及び同様のものを含み得る。

図４においてモバイル装置３０４のコンピュータ可読媒体４１８上に記憶されるものとして例示されたが、いくつかの実施において、モバイルビデオ検索ツール３１６又はその一部分は、１つ以上のサーバ３０６に記憶され、かつ／あるいはクラウドベースの実施を介して実行されることができる。さらに、いくつかの実施において、モバイルビデオ検索ツール３１６又はその一部分は、モバイル装置３０４によりアクセス可能な任意の形態のコンピュータ可読媒体を用いて実施されることができる。さらに、いくつかの実施形態において、オペレーティングシステム４２０、ブラウザアプリケーション４２２、モバイルビデオ検索ツール３１６、及び／又は他のアプリケーション若しくはモジュール４２４のうち、１つ以上のコンポーネントが、モバイル装置３０４の一部である又はモバイル装置３０４にアクセス可能である集積回路の一部として実施されてもよい。さらに、モバイル装置３０４上で実施されるものとして例示され説明されたが、いくつかの実施形態において、本明細書に説明されるモバイルビデオ検索ツール３１６により提供されるデータアクセス及び他の機能性は、オーディオ及びビジュアル入力のために構成された、ユーザがビデオ検索を実行することができる、任意の他タイプのコンピューティング装置上で実施されてもよく、該コンピューティング装置は、これらに限られないが、デスクトップコンピュータシステム、ゲームシステム及び／又はテレビジョンシステムを含む。

例示的なサーバ装置
図５は、本明細書に説明されるモバイルビデオ検索設備としてレイヤ化されたオーディオビデオ索引付けを提供するように構成された例示的なサーバ装置３０６の選択コンポーネントを例示するブロック図である。例示的なサーバ３０６には、パワーサプライ５０２と、１つ以上のプロセッサ５０４と、入力インターフェースとが含まれ、プロセッサ５０４は、プロセッサ３２０に対応し得るものであり、マイクロプロセッサを含むことができ、上記入力インターフェースは、入力／出力インターフェース３２２に対応し、ネットワークインターフェース５０６を含む。いくつかの事例において、例示的なサーバ３０６は、１つ以上のさらなる入力インターフェース５０８、例えば、キーボード、ソフトキー、マイクロフォン、カメラ等を含み得る。ネットワークインターフェース５０６に加えて、例示的なサーバ装置３０６は、１つ以上のさらなる出力インターフェース５１０をさらに含むことができ、出力インターフェース５１０は、入力出力インターフェース３２２に対応し、例えばディスプレイ、スピーカー、プリンタ等の出力インターフェースを含む。ネットワークインターフェース５０６は、サーバ３０６がネットワーク３０２を通じてデータを送信し及び／又は受信することを可能にする。ネットワークインターフェース５０６は、サーバ３０６が様々なタイプの通信を送信し及び／又は受信することを可能にするための他の通信インターフェースの任意の組み合わせをさらに表してもよく、これらに限られないが、ウェブベースデータと、セルラー電話ネットワークベースのデータとが含まれる。さらに、例示的なサーバ３０６はコンピュータ可読媒体５１２を含み、いくつかの実施形態において、コンピュータ可読媒体５１２はコンピュータ可読媒体３２４に対応する。コンピュータ可読媒体５１２は、オペレーティングシステム（ＯＳ）５１４、ＬＡＶＥ索引５１６、レイヤ化されたオーディオビデオ・エンジン３２８と、任意数の他のアプリケーション又はモジュール５１８とを記憶し、これらは、コンピュータ実行可能命令としてコンピュータ可読媒体５１２に記憶され、少なくとも部分的にプロセッサ５０４上で実行される。

他のアプリケーション又はモジュール５１８は、サーバ３０６上で実行可能な任意数の他アプリケーションを含み得る。こうした他のアプリケーションには、例えば、電子メールアプリケーション、カレンダアプリケーション、トランザクションモジュール、音楽プレーヤ、カメラアプリケーション、計算器、１つ以上のゲーム、１つ以上の生産性ツール、メッセージングアプリケーション、加速度計、及び同様のものを含み得る。

レイヤ化されたオーディオビデオ・エンジン３２８には、オーディオ抽出モジュール５２４と、ビデオ抽出モジュール５２６と、ＬＡＶＥ検索モジュール５２８と、幾何学的検証モジュール５３０と、プログレッシブクエリモジュール５３２と、判断モジュール５３４とのうち、少なくとも１つが含まれる。

図５においてサーバ３０６のコンピュータ可読媒体５１２上に記憶されるものとして例示されたが、いくつかの実施において、レイヤ化されたオーディオビデオ・エンジン３２８又はその一部分は、１つ以上のさらなるサーバ３０６上に記憶され、かつ／あるいはクラウドベースの実施を介して実行されることができる。さらに、いくつかの実施において、レイヤ化されたオーディオビデオ・エンジン３２８又はその一部分は、サーバ３０６によりアクセス可能である任意の形態のコンピュータ可読媒体を用いて実施されることができる。さらに、いくつかの実施形態において、オペレーティングシステム５１４、ＬＡＶＥ索引５１６、及び／又は他のアプリケーション若しくはモジュール５１８のうち、１つ以上のコンポーネントが、サーバ３０６の一部である又はサーバ３０６にアクセス可能である集積回路の一部として実施されてもよい。さらに、サーバ３０６上で実施されるものとして例示され説明されたが、いくつかの実施形態において、本明細書に説明されるレイヤ化されたオーディオビデオ・エンジン３２８により提供されるデータアクセス及び他の機能性は、オーディオ及びビジュアル索引付けのために構成され、ビデオクエリ入力に基づいてビデオ検索を実行することができる任意の他タイプのコンピューティング装置上で実施されてもよく、該コンピューティング装置は、これらに限られないが、デスクトップコンピュータシステム、ヘッドエンド（head end）テレビジョン配信システム、及びラップトップコンピュータシステムを含む。

図６の６００は、モバイルビデオ検索を実施するモバイル装置と、レイヤ化されたオーディオビデオ索引付けを実施するサーバ又はクラウドコンピューティング環境との、例示的なフレームワークの絵図であり、上記サーバ又はクラウドコンピューティング環境は、ネットワーク分散環境と呼ばれることもある。フレームワーク６００は、オフライン段階６０２とオンライン段階６０４とを用いて例示される。フレームワーク６００は少なくとも１つのサーバ６０６を含むことができ、サーバ６０６は、様々な実施形態においてサーバ３０６に対応し、例えば、ウェブサーバ、アプリケーションサーバ、任意数の他のデータサーバを含み得る。同時に、フレームワーク６００は少なくとも１つのクライアント６０８を含むことができ、クライアント６０８は、様々な実施形態において装置１０４及び／又は３０４に対応する。

様々な実施形態において、クライアント６０８は、ネットワークを通じて、例えばネットワーク３０２通じてデータを伝送し及び受信するように構成された、任意タイプのモバイルコンピューティング装置を表す。例えば、クライアント６０８は、モバイルフォン、スマートフォン、パーソナルデジタルアシスタント（ＰＤＡ）、ネットブック、タブレットコンピュータ、ハンドヘルドコンピュータ、及び低減されたフォームファクタ及びリソース制限により特性付けられた他のこうしたモバイルコンピューティング装置として実施されてもよい。

オフライン段階６０２において、クラウドコンピューティングのパワーを使用して、大規模ソースビデオデータセット６１０を記憶することができ、該データセット６１０には、数千のビデオを含み得る。６１２において、レイヤ化されたオーディオビデオ索引付けアプリケーション、例えばＬＡＶＥ３２８が、大規模ソースビデオデータセット６１０からのビデオの個々について、オーディオビデオ記述子を抽出する。効果的な結合的オーディオビデオ記述子は、モバイルビデオ検索システムにおいて、複雑なモバイルビデオ捕捉状況（例えば、サイレントビデオ、又は低いビジュアル品質のぼやけたビデオ）からのクエリビデオの変動に対してロバストであることになる。様々な実施形態において、結合的な記述子の選択は、３つの特性、すなわち、１）記録されたクエリビデオの変動に対してロバストであること、２）モバイル装置上で計算するのに安価であること、及び、３）モバイルビデオ検索のために索引を付けるのが容易であることに、少なくとも部分的に基づく。少なくとも１つの実施形態において、ＬＡＶＥＳアプリケーションは、オーディオ指紋６１４を取得するのに目印ベースのオーディオ指紋法（ＬＢＡＦ）を、ビジュアルハッシュビット６１６を取得するのにスピードアップされたロバストな特徴（ＳＵＲＦ）を採用する。６１８において、ＬＡＶＥアプリケーション３２８は、上記記述子を用いてＬＡＶＥ索引６２０を構築し、記憶する。

オンラインクエリ段階６０４には、装置３０４などのクライアント装置６０８がクエリビデオクリップを捕捉する間に（６２２）実行されることができる、下記の動作が含まれる。１）モバイル装置での軽量オーディオビデオ記述子のリアルタイム抽出（６２４）。モバイルビデオ検索ツール３１６は、オーディオビデオ・シグネチャ（ビジュアルハッシュビット６２６及びオーディオ指紋６２８を含む）をサーバ６０６に向けて送信する。様々な実施形態において、モバイルビデオ検索ツール３１６は、所定の間隔（intervals）において、例えば、２秒の間隔において、１秒の間隔において、１／２秒の間隔において等でシグネチャを送信する。２）サーバ６０６は、シグネチャ、例えば、２秒のシグネチャ、１秒のシグネチャ、１／２秒のシグネチャ等を受信する。６３０に図示されるとおり、サーバ６０６は、ＬＡＶＥ索引６２０を通して類似ビデオキーフレーム６３２についての検索を行う。３）６３４に図示されるとおり、サーバ６０６は、幾何学的検証に基づくビジュアルのランク付けを使用して、検索結果を精緻化する。幾何学的検証は、クエリ特性６３６をソース特性６３８と比較する。各々のマッチしたクエリ、例えば、１秒のクエリとソースビデオのキーフレームとについて、２パートのグラフ内の１つのノードが受信されたクエリを表すことができ、別のノードがソースビデオからの候補マッチングキーフレームを表すことができる。グラフにおいて、端部（edge）が、クエリノードを候補マッチングキーフレームノードに接続する。４）６４０に図示されるとおり、サーバ６０６は、ビデオ検索をプログレッシブにするように２パートのグラフの変換及びマッチングを介してプログレッシブクエリ処理を実行する。プログレッシブクエリ処理６４０の詳細は、アルゴリズム１に図示されている。例えば、新しいクエリが到着した場合、６３６において、新しいクエリノードが追加されることになる。それから、２パートのグラフの端部は、返される結果に従って更新されることになる。プログレッシブクエリ６４０の間、２パートのグラフの端部の数が変化しない場合、マッチしたビデオの類似度スコアは変化しないことになり、そうでない場合、マッチしたビデオの類似度スコアが更新されることになる。

６４２において、ある時間について、例えば、連続２秒、連続３秒、連続４秒の所定時間の間、検索結果及び／又は類似度スコアにおける変化がない場合、判断モジュール５３４は、安定的な検索結果が達成されたと決定する。いくつかの実施形態において、６４２において、ある時間について、例えば、ある可変時間及び／又はある相対的時間の間、検索結果及び／又は類似度スコアにおける変更がない場合、判断モジュール５３４は、安定的な検索結果が達成されたと決定する。安定的な検索結果が達成されたとき、検索処理は自動的に終わることができ、６４４において、結果がモバイル装置に返されることになる。いくつかの実施形態において、検索結果が安定的であるとき、結果は、６４６に図示されるとおり、検索が安定的であると合図するユーザインターフェースにおけるクライアント装置６０８での提示のために返される。しかしながら、検索結果が所望の時間について安定的でないとき、検索処理は継続され、６４８において、判断モジュール５３４は、ビデオ捕捉６２２の間のユーザインターフェースに図示されるとおり、検索が完了していないと示すやり方で装置６０８に結果を返す。

例示される例において、モバイル装置３０４などのクライアント装置６０８は、６２２に図示されるとおり、マイクロフォン及びカメラを介してビデオ入力を受信してビデオクエリを起動する。システムは、６２８に図示されるとおり、ＬＢＡＦなどのオーディオ指紋を抽出するために、モジュール４２６などのオーディオ抽出モジュールを採用する。システムは、６２６に図示されるとおり、ビジュアルハッシュビットを抽出するために、モジュール４２８などのビデオ抽出モジュールをさらに採用する。

ビジュアルハッシュビットに関して、ビデオ抽出モジュール、例えば、ビデオ抽出モジュール４２８及び／又はビデオ抽出モジュール５２６などは、局所的特徴をハッシュビットに圧縮するためにハッシュ法を使用することができる。例えば、ビデオ抽出モジュールは、最小損失ハッシュ（Minimal Loss Hashing）又はスペクトルハッシュ（Spectral Hashing）を使用して、ハッシュ関数、例えば、ｈ^ｖ＝ｓｉｇｎ（ｖ^ｔｘ−ｔ）により表されるハッシュ関数を学習して、ｈ^ｖを算出することができる。これにおいて、ｘはＳＵＲＦ記述子ベクトルを表し、ｖは学習されたハッシュマトリクスを表し、ｔは閾値スカラを表し、ｈ^ｖは学習されたビジュアルハッシュビットを表す。いくつかの実施形態において、ビデオ抽出モジュールはバイナリコードを８０ビットに制限することができる。こうした実施形態において、ビデオ抽出モジュールは８ビットを使用してＳＵＲＦ記述子の角度値を保存することができ、これは、図６の６３４に関連して論じられた、将来の幾何学的検証に使用されることになる。したがって、ビデオ抽出モジュールは、各ＳＵＲＦ特徴をｖ_ｉ＝｛ｈ_ｉ ^ｖ，ｒ_ｉ ^ｖ｝に圧縮することができ、これは、論じられた例において、ちょうど８８ビットとすることができる。

ビデオ抽出モジュールは、様々なモバイル装置における異なるカメラ解像度に起因する差を最小化するように、クエリ画像を小さいピクチャにスケール変更する（scale）ことができる。クエリ画像を小さいピクチャにスケール変更することで、モバイル装置における特徴抽出スピードを向上させることができ、伝送される必要がある特徴点の数を減らすことができる。いくつかの実施において、こうしたスケール変更は、精度へのわずかな影響でクエリスピードを向上させる。例えば、スケール変更の後、平均で１つのフレームについて７５のＳＵＲＦ点があり、このことは、モバイル装置が上記フレームについて１ＫＢ未満のビジュアル特徴をサーバに伝送することを可能にする。

図７は、オーディオ指紋の抽出の一例の絵図である。様々なオーディオ特徴間で、ＬＢＡＦが多くの準同一ビデオ検索方法において広く使用されている。その高速の計算、効率的なメモリ、及び不変の翻訳（invariant translation）が、モバイルビデオ検索にも適する。様々な実施において、オーディオ抽出モジュール、例えば、オーディオ抽出モジュール４２６及び／又はオーディオ抽出モジュール５２４などが、オーディオ指紋、例えばＬＢＡＦなどを抽出する。７０２において、オーディオ抽出モジュールは、オーディオ情報を、短い、部分的に重なる、長さｆ_ｍｔ及びストライドｆ_ｍｄのフレームへと区分する。７０４において、オーディオ抽出モジュールは、各フレームについて、スペクトログラムを算出する。７０６において、オーディオ抽出モジュールは、フレームのスペクトログラム上に、候補ピーク、例えば、７０８ａ及び７０８ｂなどを設定する。いくつかの実施形態において、オーディオ抽出モジュールは、少なくとも３つの基準、すなわち、その近傍（neighbors）すべてより高いエネルギーのコンテンツ、その近傍より高い振幅、及び密度基準に従って、フレームのスペクトログラム上に候補ピークを設定する。７１０において、オーディオ抽出モジュールは、ピークからアンカー点７１２を選び、アンカー点についての対応するターゲットゾーン７１４を識別する。各アンカー点７１２は、ターゲットゾーン７１４内の候補ピークと順次ペアにされる。アンカー点‐候補ピークペアは、目印と呼ばれ得る。各目印は、ｌ_ｉ＝｛ｔ_ｉ ^ａ，ｆ_ｉ ^ａ，Δｔ_ｉ ^ａ，Δｆ_ｉ ^ａ｝として表されることができ、これにおいて、ｔ_ｉ ^ａ及びｆ_ｉ ^ａは、アンカー点の時間オフセット及び周波数であり、Δｔ_ｉ ^ａ及びΔｆ_ｉ ^ａは、アンカー点とターゲットゾーン内のペアにされた点との間の時間及び周波数差である。オーディオ抽出モジュールは、指紋をｌ_ｉ＝｛ｈ_ｋ ^ａ，ｔ_ｉ ^ａ｝へと圧縮することができ、これにおいて、ｈ_ｋ ^ａはｆ_ｉ ^ａ，Δｔ_ｉ ^ａ及びΔｆ_ｉ ^ａのハッシュ値である。異なるｌ_ｉが、同じｈ_ｋ ^ａを有し得る。

一実施において、ハッシュビットｈ_ｋ ^ａに対する２５ビット未満への制約において、ｆ_ｍｔ＝２５６ｍｓ及びｆ_ｍｄ＝３２ｍｓである。ｔ_ｉ ^ａについて１５ビットであるとき、ｌ_ｉの長さ＝４０ビットである。少なくとも１つの実施形態において、１秒のオーディオクリップについて、オーディオ抽出モジュールは合計で１００個の目印を選ぶ可能性がある。ゆえに、オーディオ抽出モジュールは、オーディオ指紋法のために、秒当たりほんの０．５ＫＢに、伝送すべきデータの量を低減することができる。

この例において、特徴抽出を通して、モバイル装置は１００個のオーディオ特徴点及び７５個のビジュアル特徴点を取得し、このことは、効率的な圧縮により、ビデオコンテンツの秒あたり２ＫＢ未満のオーディオビジュアル・シグネチャがネットワークを通じて伝送されることを表す。

図８は、レイヤ化されたオーディオビデオ（ＬＡＶＥ）索引付けスキーム８００の一例の絵図である。８００に図示されるとおり、ＬＡＶＥスキームは、２つのレイヤ８０２及び８０４を採用する。第１のレイヤ８０２は索引エントリを表し、該索引エントリは、オーディオ索引８０６及びビジュアル索引８０８から編成されるマルチ索引を包含する。第２のレイヤ８０４はビジュアルハッシュビットを表し、該ビジュアルハッシュビットは、第２のレイヤのビジュアル索引付け８１０を含む。ＬＡＶＥスキームは、特徴マッチング及び組み合わせのために、第２レイヤビジュアル索引付け８１０のビジュアルハッシュビットを使用する。第１のレイヤにおける検索の後、システムは、オーディオ索引から及びビジュアル索引から、精緻化された類似ビジュアル特徴点を取得することができる。したがって、この文脈における組み合わせには、オーディオ索引からの及びビジュアル索引からの精緻化された類似ビジュアル特徴点を一緒に融合することと、これらから最も（上位Ｋ個の）類似のビジュアル特徴点を選択することとが含まれる。

上記の構造に対して２つの利点があり、すなわち、１）上記構造は、階層的分解ストラテジを採用することによってビジュアル点検索スピードを向上させ、及び、２）上記構造は、オーディオ及びビジュアル信号の補足的性質を生かす。第１のレイヤ８０２内の異なる索引付けエントリは、オーディオシグネチャ及びビジュアルシグネチャの個々の構造を保つ。第２のレイヤ８０４において、オーディオ及びビジュアルの組み合わせが、ビジュアルハッシュビットのハミング距離によって重み付けされることができる。

ＬＡＶＥ索引の構築
様々な実施形態において、ビジュアル特徴と対照的に、オーディオ特徴は、例えばほんの２５ビットで各点を表すように、高度に圧縮されることができる。圧縮は、ＬＡＶＥ検索モジュール５２８がオーディオ索引の線形検索を行うことを可能にする。ＬＡＶＥ索引５１６を構築するために、６１８に図示される処理などの処理が、第１のレイヤ８０２の一部としてオーディオ索引を使用することができ、第１のレイヤのオーディオ索引内の各バケット、例えば８０６ａ、ｈ_ｋ ^ａが、ビデオＩＤ、オーディオ時間オフセットｔ^ａ、及びキーフレーム番号ｔ^ｖによって第２のレイヤに関連付けられることができ、例えば、８０６ａａとＩＤ_ｉとｔ_ｉ ^ａ、８０６ａａ’とＩＤ_ｉ’とｔ_ｉ’ ^ａなどであり、８０６ｂについて、例えばｈ_ｋ＋１ ^ａであり、８０６ｃについて、例えばｈ_ｋ＋２ ^ａであるなどする。オーディオ索引付けを通して、レイヤ化されたオーディオビデオ・エンジン３２８は、第２のレイヤ内で検索されるべきビジュアル点の数を精緻化することができ、このことが検索スピードを向上させる。

しかしながら、オーディオが大きく変更され、あるいは失われることは、第２のレイヤ内の最も近接した近傍を見つけることを困難にする可能性がある。レイヤ化されたオーディオビデオ・エンジン３２８は、マルチ索引を使用してこの問題を解決する。レイヤ化されたオーディオビデオ・エンジン３２８は、ｍ個の異なるハッシュテーブルによって第２レイヤビジュアル索引からのハッシュビットに索引を付け、このことが第１レイヤのビジュアル索引を組み立てる。レイヤ化されたオーディオビデオ・エンジン３２８は、第１のレイヤ内のビジュアル索引のハッシュビットｈ_ｎ ^ｓｕｂを第２のレイヤ内のハッシュビットからランダムに選択し、例えば、８０８ａｈ_ｎ ^ｓｕｂ、８０８ａ’ ｈ_ｎ’ ^ｓｕｂ、８０８ｂｈ_ｎ＋１ ^ｓｕｂ、８０８ｂ’ ｈ_ｎ’＋１ ^ｓｕｂ、８０８ｃｈ_ｎ＋２ ^ｓｕｂ、８０８ｃ’ ｈ_ｎ’＋２ ^ｓｕｂ、８０８ｄｈ_ｎ＋３ ^ｓｕｂ、８０８ｄ’ ｈ_ｎ’＋３ ^ｓｕｂ、８０８ｅｈ_ｎ＋４ ^ｓｕｂ、８０８ｅ’ ｈ_ｎ’＋４ ^ｓｕｂ、８０８ｆｈ_ｎ＋５ ^ｓｕｂ、８０８ｆ’ ｈ_ｎ’＋５ ^ｓｕｂ等である。受信されたビジュアル点について、少なくとも１つのこうしたハッシュテーブル内の、クエリに対して近接に入るエントリが、考えられる近傍候補である。それから、レイヤ化されたオーディオビジュアル・エンジン３２８は、第２レイヤ索引８１０を用いて妥当性について候補をチェックし、例えば、８１０ａＩＤ_ｉ，ｔ_ｍ ^ｖ、８１０ａ’ ｈ_ｎ ^ｖ、８１０ａ’’ ｒ_ｉ ^ｖ、８１０ｂＩＤ_ｉ，ｔ_ｍ ^ｖ、８１０ｂ’ ｈ_ｎ＋１ ^ｖ、８１０ｂ’’ ｒ_ｉ＋１ ^ｖ、８１０ｃＩＤ_ｉ，ｔ_ｍ ^ｖ、８１０ｃ’ ｈ_ｎ＋２ ^ｖ、８１０ｃ’’ ｒ_ｉ＋２ ^ｖなどである。既存の手法とは対照的に、レイヤ化されたオーディオビデオ・エンジン３２８は、ｍ＋１のマルチ索引、すなわち、ｍ個のビジュアル索引及び１つのオーディオ索引を採用する。ｍ＋１個のマルチ索引により精緻化されたすべての結果が第２のレイヤ内で一緒に組み合わせられ、上位Ｎ個の類似結果が選択される。オーディオ索引は、ビジュアル索引についての数ｍを低減させる。少なくとも１つの実施において、上記設備は１つのビジュアル索引で動作する。

ＬＡＶＥ索引の検索
様々な実施形態において、ＬＡＶＥ索引付けにおける検索処理は、下記のように提示されることができる。Ｐ_ａ＝｛ｌ_１，ｌ_２，・・・，ｌ_Ｍ｝が受信したオーディオクエリ点を表し、Ｐ_ｖ＝｛ｖ_１，ｖ_２，・・・，ｖ_Ｌ｝が受信したビジュアルクエリ点を表すとする。検索処理、例えば検索処理６３０を通して、ＬＡＶＥ検索モジュール５２８は、各クエリビジュアル点について、上位Ｋ個のビジュアル点を返すことができる。

ステップ１では、Ｐ_ａの中の各オーディオ点ｌ_ｍについて、ＬＡＶＥ検索モジュール５２８は、オーディオ索引内の線形検索によって、最も近い近似の近傍（nearest approximate neighbors）を獲得する。それから、ＬＡＶＥ検索モジュール５２８は、異なる候補クラスタＣ＝｛ｃ_１，ｃ_２，・・・，ｃ_Ｎ｝に、マッチングペアを割り当てる。ＬＡＶＥ検索モジュール５２８は、その最も近い近似の近傍が同じビデオから来る場合、同じクラスタに２つのペアを割り当てる。

ステップ２では、ＬＡＶＥ検索モジュール５２８は、時間的検証によってクラスタを再順序付けする。例えば、ＬＡＶＥ検索モジュール５２８は、マッチングペアの中の２つのＬＢＡＦの時間差を意味するように、時間的距離をΔｔによって表すことができる。Δｔのヒストグラムはｃ_ｎの中のすべてのペアについて計算されることができ、ｃ_ｎのスコアはｈ_ｎ／Ｍに等しく、これにおいて、ｈ_ｎはヒストグラムの最大値を表す。このスコアは、類似度計算にさらに使用されてもよい。それから、上位Ｋ’個の候補クラスタが選ばれる。第２のレイヤ内の上位Ｋ’個の候補クラスタに関連付けられたバケットは、サブセットと見なされることができる。

ステップ３では、Ｐ_ｖの中の各ｖ_ｌについて、ＫのＬＡＶＥ検索モジュール５２８が、下記のとおり最も近い近似の近傍を取得することができる。ａ）上位Ｋ個の近似の近傍が、第２のレイヤのサブセット内の線形検索によって決定されることができる。ｂ）マルチ索引索引付け方法を使用して、他の上位Ｋ個の最も近い近傍点を検索する。ｃ）２Ｋ個の最も近い近傍点が類似の距離によって再順序付けされることができ、上位Ｋ個の最も近い点が選択されることができる。

ステップ４では、ＬＡＶＥ検索モジュール５２８は、上位Ｋ個の最も近いビジュアル点を検索結果として返すことができる。

要約すると、上記処理によれば、ＬＡＶＥ検索モジュール５２８は、２つの段階においてオーディオ及びビジュアル情報を組み合わせる。第１の段階は、ステップ１〜ステップ３ａである。この段階では、モバイルビデオ検索は、粗いフィルタとしてより高く圧縮されたオーディオ情報を、細かいフィルタとしてより判別可能なビジュアル情報を使用して、全体的な検索スピードを向上させる。さらに、類似度が別個のレイヤにおいて計算されるので、この組み合わせ段階は、各シグネチャの個々の構造をさらに保つことができる。第２の段階は、ステップ３ｂ〜ステップ４である。オーディオ検索の正確さに大きく依存する第１の組み合わせ段階とは対照的に、第２の段階では、オーディオ及びビジュアル情報の組み合わせは、ビジュアルハッシュビットのハミング距離によって重み付けされることができる。上記２段階は、ロバストなモバイルビデオ検索のために、オーディオ及びビジュアル信号の補足的性質を生かす。ｍ＋１個のマルチ索引、すなわち、ｍ個のビジュアル索引及び１つのオーディオ索引に起因して、ＬＡＶＥ索引を検索することの計算的複雑さは、ＬＡＶＥ検索モジュール５２８が最も近いビジュアル近傍点を検索するのに使用するマルチ索引索引付け方法に基づくことができる。

幾何学的検証
様々な実施形態において、幾何学的検証、例えば、幾何学的検証モジュール５３０による幾何学的検証６３４などが、下記のとおり提示されることができる。幾何学的検証は、クエリの類似ソースキーフレームを得るように、上位Ｎ点をハフ変換（Hough Transfer）法で使用することができ、局所的特徴の空間的一貫性を考慮する後続の幾何学的検証（ＧＶ）６３４が、偽陽性マッチを拒否することに使用されることができる。ＧＶの時間消費を低減するために、幾何学的検証モジュール５３０は、高速の及び効果的なＧＶベースのランク付けステップを採用して、最も類似の画像を見つけることができる。少なくとも１つの実施において、この方法は、局所的特徴の場所情報がネットワークを通じて送信される必要がないように、記述子の方向を利用する。上記方法は、複製画像のマッチした記述子が同じ方向差を有するべきであると仮定する。ゆえに、２つの複製画像について、幾何学的検証モジュール５３０は、各々のマッチした局所的特徴ペア間の方向距離Δθ_ｄを算出する。それから、幾何学的検証モジュール５３０は、すべてのΔθ_ｄをＣ個のビンへと量子化し、例えばＣ＝１０である。さらに、幾何学的検証モジュール５３０は、ピークについてヒストグラムをスキャンし、ピーク値として全体的な方向差を設定する。幾何学的検証モジュール５３０はピーク内のペアの数から幾何学的検証スコアを取得し、これは総ペア数によって正規化される。

プログレッシブクエリ
様々な実施形態において、プログレッシブなクエリの処理、例えば、プログレッシブクエリ６４０が、プログレッシブクエリモジュール５３２によって実行される。既存のモバイルビデオ検索システム（すなわち、すべてのクエリデータを得た後の検索）とは対照的に、本明細書に記載されるプログレッシブクエリ処理は、クエリコストをかなり低減させ、ユーザの検索体験を向上させることができる。プログレッシブクエリモジュール５３２は、例えば、各クエリが到着した後、又は各クエリの到着に応答して、次のクエリに進み、読み出し結果を動的に算出することができる。検索は、安定的な結果が達成されたときに終わることができる。

アルゴリズム１は、少なくとも１つの実施形態についてのプログレッシブクエリ処理の一例を提供する。

本明細書に説明されるレイヤ化されたオーディオビデオ・システムにおいて、プログレッシブクエリ処理は、２パートのグラフの変換及びマッチングアルゴリズムを介して実施されることができる。図６に図示されるとおり、各々のマッチしたクエリ及びソースビデオについて、プログレッシブクエリモジュール５３２は、２パートのグラフＧ＝｛Ｎ，Ｅ｝を使用してマッチングを表すことができる。２パートのグラフにおいて、クエリノード６３６はｑ_ｋ∈Ｑにより表されることができ、時間ｋにおける受信されたクエリを意味し、ソースノード６３８はｓ_ｎ，ｍ∈Ｓにより表されることができ、ソースビデオＶ_ｎの中のｍ番目のキーフレームを意味する。Ｒ_ｋが、クエリｑ_ｋについての、すべての返される類似キーフレームｓ_ｎ，ｍを意味するとする。ｓ_ｎ，ｍ∈Ｒ_ｋの場合、端部ｅ_ｋ，ｍ∈Ｅであることになる。各秒の時間の検索の後、プログレッシブクエリモジュール５３２は２パートのグラフＧ_ｉを更新することができ、それから、マッチングの類似度スコアがＧ_ｉを通してプログレッシブに算出されることができる。

アルゴリズム１は、プログレッシブクエリ処理の詳細の一実施形態を例示する。新しいクエリが到着した場合、例えば６３６において、新しいクエリノードが追加されることになる。それから、２パートのグラフの端部が、返される結果に従って更新されることになる。プログレッシブクエリ６４０の間、２パートのグラフの端部の数が変化しない場合、マッチしたビデオの類似度スコアが変化しないことになり、そうでない場合、マッチしたビデオの類似度スコアは下記のとおり更新されることができる。第一に、プログレッシブクエリモジュール５３２は、Ｇ_ｉの最大サイズマッチング（Maximum Size Matching；ＭＳＭ）Ｍ_ｉを算出することができる。｜Ｍ_ｉ｜＞ａの場合、プログレッシブクエリモジュール５３２は、式１に従い類似度スコアＷ_ｉを算出することができる。

式１において、Ｓｉｍ_ａ（Ｑ，Ｖ_ｉ，Ｗ_ｉ ^ａ）はオーディオコンテンツ類似度に助力し、これは式２に従い計算されることができる。

式２において、ｗ_ｋ，ｉ ^ａはクエリｑ_ｋとビデオＶ_ｉとの間のオーディオ類似度を表し、｜Ｑ｜はクエリ長を表す。Ｓｉｍ_ｖ（Ｑ，Ｖ_ｉ，Ｗ_ｉ ^ｖ）は、式３に従いビジュアル類似度を示す。

式３において、ｗ_ｋ，ｉ ^ｖはクエリｑ_ｋとビデオＶ_ｉとの間のビジュアル類似度を表し、Ｓｉｍ_ｔ（Ｑ，Ｖ_ｉ）は時間的順序類似度を示す。このスコアは、マッチしたビデオが類似の時間的順序を有するべきであることを保証する。Ｇ_ｋのＭＳＭＭ_ｉを所与として、その時間的マッチング番号は、例えば、最長共通部分列（Longest Common Subsequence；ＬＣＳＳ）によって算出されることができる。ＬＣＳＳは編集距離のバリエーションであり、これをプログレッシブクエリモジュール５３２が使用して、式４に従い時間的順序に沿ってマッチしたＭ_ｋのフレームペアの数を表すことができる。

ゆえに、Ｓｉｍ_ｔ（Ｑ，Ｖ_ｉ）は式５に従って得ることができる。

ＱとＶとの間の類似度すべてを計算した後、プログレッシブクエリモジュール５３２は、上位Ｋ個のビデオを検索結果として返すことができる。様々な実施形態において、本明細書に説明されるプログレッシブクエリ処理６４０の計算的複雑さは、Ｏ（｜Ｇ｜×｜Ｎ_ｉ｜×｜Ｅ_ｉ｜）であり、これにおいて、｜Ｇ｜は２パートのグラフの数を表し、｜Ｎ_ｉ｜は頂点（vertices）の数を表し、｜Ｅ_ｉ｜は各々の２パートのグラフ内の端部の数を表す。しかしながら、少なくとも１つの実施において、類似度算出処理に消費される時間は、｜Ｅ_ｉ｜が大抵の２パートのグラフにおいて変化しないため、Ｏ（｜Ｇ｜×｜Ｎ_ｉ｜×｜Ｅ_ｉ｜）未満である。

例示的な動作
図９〜１１は、本明細書に説明されるＬＡＶＥ索引付けされたデータセットのモバイルビデオ検索の態様を実施する例示的なプロセスを例示している。上記プロセスは、論理フローグラフ内のブロックの集合として例示され、該グラフは、ハードウェア、ソフトウェア、又はこれらの組み合わせにおいて実施されることができる一連の動作を表す。ソフトウェアの文脈において、ブロックは１つ以上のコンピュータ可読媒体上のコンピュータ実行可能命令を表し、該命令は、１つ以上のプロセッサにより実行されると、列挙された動作をプロセッサに実行させる。

このことは、ソフトウェアが価値のある、別個に取引可能な有用品であり得ることを認める。所望の機能を実行するために「データ処理能力のない（dumb）」又は標準のハードウェア上で実行され又はこれを制御するソフトウェアを包含することが意図される。さらに、所望の機能を実行するためにハードウェアの構成を「記述し」又は定義するソフトウェア、例えば、シリコンチップの設計又はユニバーサルプログラマブルチップの構成に使用されるような、ＨＤＬ（ハードウェア記述言語）ソフトウェアなどを包含することが意図される。

処理が説明されている順序は、限定とみなされることは意図されず、説明される処理ブロックのうち任意数が、任意の順序において組み合わせられて処理を実施し、あるいは処理を交互に入れ替えることができることに留意する。さらに、個々のブロックは、本明細書に説明される対象事項の主旨及び範囲から逸脱することなく、処理から削除されてもよい。さらに、処理が図１〜８を参照して上記で説明されたモバイル装置３０４及びサーバ３０６を参照して説明されるが、いくつかの実施形態において、上記で説明されたとおり、クラウドベースのアーキテクチャを含む他のコンピュータアーキテクチャが、全体として又は部分的に、上記処理のうち１つ以上の部分を実施してもよい。

図９は、装置３０４などのクライアント装置上でモバイルビデオ検索ツールを実施するための例示的なプロセス９００を例示している。プロセス９００はクライアント装置上で実行されるものとして説明されるが、いくつかの実施形態において、クライアント装置とサーバとを含むシステムがプロセス９００の態様を実行することができ、該システムは、上記で説明されたとおり、ネットワークベースの又はクラウドの構成内に複数の装置を含み得る。

本明細書に説明されたモバイルビデオ検索ツールの態様は、モバイル装置上で実行される検索アプリケーションとして、及び／又はいくつかの実施形態においてアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、実施されることができる。モバイルビデオ検索ツールは、クエリのためのビデオ入力を捕捉し、オーディオ指紋及びビジュアルハッシュビットの抽出を実行してオーディオビデオ・シグネチャを形成することができる。モバイル装置上で実行されるアプリケーションの場合、アプリケーションは、オーディオビデオ・シグネチャをビデオ検索クエリとして送信することができる。ＡＰＩの場合、アプリケーションは、別のアプリケーションがビデオ検索のために使用するように、ＡＰＩを介して、オーディオビデオ・シグネチャを編成するオーディオ指紋及びビジュアルハッシュビットを公開することができる。この場合、ビデオ検索のためにＡＰＩにアクセスするアプリケーションは、オーディオビデオ・シグネチャをビデオ検索クエリとして送信することができる。

ブロック９０２において、モバイルビデオ検索ツール３１６などのビデオ検索ツールを介して入力としてビデオコンテンツを受信するように構成された、装置３０４などの装置が、ビデオコンテンツを入力として受信する。様々な実施形態において、ビデオコンテンツを入力として受信することは、装置３０４に関連付けられたマイクロフォン４１０及び／又はカメラ４０８などの１つ以上の入力装置又はコンポーネントが、マイクロフォンを介してビデオコンテンツからオーディオ入力を捕捉すること、及び／又はタイムスライスにおいてカメラを介してビデオコンテンツからビジュアル入力を捕捉することを含む。いくつかの実施形態において、ビデオコンテンツを入力として受信することは、ＡＰＩを介して公開されたビデオコンテンツに関連付けられたオーディオ入力及び／又はビジュアル入力を受信することを含む。いくつかの実施形態において、ビデオコンテンツのタイムスライスは、上記装置に関連付けられていないビデオ出力装置から、上記装置に関連付けられた入力装置により受信される。様々な実施形態において、複数のタイムスライスのうちの個々のスライスの長さは、少なくとも約０．１秒、多くて約１０．０秒を含む。少なくとも１つの実施形態において、各タイムスライスは、１秒のビデオコンテンツを表すことができる。

ブロック９０４において、オーディオビデオ抽出器、例えば、オーディオ抽出モジュール４２６及び／又はビデオ抽出モジュール４２８のうち１つ以上などを介して、ビデオコンテンツのタイムスライスについてのオーディオビデオ記述子を抽出するように構成された、装置３０４などの装置は、ビデオコンテンツのタイムスライスについてのオーディオビデオ記述子を含む抽出を実行する。様々な実施形態において、ビデオコンテンツのタイムスライスについてのオーディオビデオ記述子を抽出することは、タイムスライスに対応するビデオコンテンツの聴覚及び／又はビジュアル特性を取得することを含む。

いくつかの実施形態において、ブロック９０６において、オーディオ抽出モジュール４２６などのオーディオ抽出モジュールを介してビデオコンテンツのタイムスライスについての聴覚特性を抽出するように構成された、装置３０４などの装置は、オーディオビデオ・シグネチャの生成における使用のために、タイムスライスに対応するビデオコンテンツのオーディオ指紋を含む抽出を実行する。

いくつかの実施形態において、ブロック９０８において、ビデオ抽出モジュール４２８などのビデオ抽出モジュールを介してビデオコンテンツのタイムスライスについてのビジュアル特性を抽出するように構成された、装置３０４などの装置は、オーディオビデオ・シグネチャの生成における使用のために、タイムスライスに対応するビデオコンテンツの少なくとも１つのビジュアルハッシュビットを含む抽出を実行する。

ブロック９１０において、シグネチャモジュール４３０などのシグネチャ生成器を介してオーディオビデオ・シグネチャを生成するように構成された、装置３０４などの装置は、抽出されたオーディオビデオ記述子に少なくとも部分的に基づいて、ビデオコンテンツのタイムスライスのうち１つ以上に関連付けられたオーディオビデオ・シグネチャを生成する。いくつかの実施形態において、オーディオビデオ・シグネチャは、少なくとも、ビデオコンテンツのタイムスライスに関連付けられたオーディオ指紋及びビデオハッシュビットを含む。様々な実施形態において、装置上でのオーディオビデオ・シグネチャの生成はアプリケーションによって実行されることができ、生成されたオーディオビデオ・シグネチャは、検索のためにアプリケーションにより使用され、あるいはＡＰＩによりアプリケーションから提供されることができる。いくつかの実施形態において、装置上でのオーディオビデオ・シグネチャの生成は、ＡＰＩが生の記述子の抽出を提供することを含むことができ、該ＡＰＩから、装置上又は装置外にあり得る別のアプリケーションがオーディオビデオ・シグネチャを生成することができる。

ブロック９１２において、シグネチャモジュール４３０などのシグネチャモジュールを介してオーディオビデオ・シグネチャを提供するように構成された、装置３０４などの装置は、クエリとして、抽出されたオーディオビデオ記述子に少なくとも部分的に基づいて生成された、ビデオコンテンツのタイムスライスのうち１つ以上に関連付けられたオーディオビデオ・シグネチャを提供する。様々な実施形態において、オーディオビデオ・シグネチャを提供することは、データセットに向けてクエリとしてオーディオビデオ・シグネチャを送信することを含む。様々な実施形態において、データセットは、レイヤ化されたオーディオビデオ索引付けされたデータセットを含む。

ブロック９１４において、結果モジュール４３２などの結果モジュールを介してクエリに応答して候補結果を受信するように構成された、装置３０４などの装置は、クエリに応答して候補結果を受信する。様々な実施形態において、クエリに応答して候補結果を受信することは、受信されているビデオコンテンツのタイムスライスの終わりに到達する前に候補結果のプログレッシブな一覧表として候補結果を受信することを含む。

ブロック９１６において、ユーザインターフェースモジュール４３４などのユーザインターフェースモジュールを介してクエリに応答して候補結果を提示するように構成された、装置３０４などの装置は、候補結果を提示させる。様々な実施形態において、候補結果を提示することは、受信されているビデオコンテンツのタイムスライスの終わりに到達する前に装置のユーザインターフェース内に候補結果を提示することを含む。いくつかの実施形態において、候補結果を提示することは、受信されているビデオコンテンツのタイムスライスの終わりに到達する前に装置のユーザインターフェース内に更新された候補結果を提示することを含む。こうした更新された候補結果は、プログレッシブな候補結果一覧表のためにプログレッシブな候補結果を表すことができる。

図１０は、ＬＡＶＥ索引５１６などのレイヤ化されたオーディオビデオ索引を用いてサーバ３０６などのサーバ上でビデオ検索を実施するための例示的なプロセス１０００を例示している。

プロセス１０００はサーバ上で実行されるものとして説明されるが、いくつかの実施形態において、１つ以上のサーバを含むシステムがプロセス１０００を実行することができ、該システムは、上記で説明されたとおりのネットワークベース構成又はクラウド構成内の複数の装置といくつかの事例において少なくとも１つのクライアント装置とを含み得る。

ブロック１００２において、レイヤ化されたオーディオビデオ・エンジン３２８などのレイヤ化されたオーディオビデオ・エンジンを介して入力としてクエリ・オーディオビデオ・シグネチャを受信するように構成された、サーバ３０６などの装置が、入力としてクエリ・オーディオビデオ・シグネチャを受信する。様々な実施形態において、クエリ・オーディオビデオ・シグネチャは、レイヤ化されたオーディオビデオ検索のために入力として受信される。いくつかの実施形態において、クエリ・オーディオビデオ・シグネチャは、装置３０４などのモバイル装置から、レイヤ化されたオーディオビデオ検索のために入力として受信される。

ブロック１００４において、クエリ・オーディオビデオ・シグネチャに対して類似性を有するエントリを識別するためにレイヤ化されたオーディオビデオ索引を検索するように構成された、サーバ３０６などの装置、例えばＬＡＶＥ検索モジュール５２８などが、クエリ・オーディオビデオ・シグネチャに対して類似性を有するレイヤ化されたオーディオビデオ索引内のエントリを識別するように、レイヤ化されたオーディオビデオ・エンジンに関連付けられたレイヤ化されたオーディオビデオ索引の検索を実行する。様々な実施形態において、検索は、クエリ・オーディオビデオ・シグネチャに対して閾値を上回る類似度を有するエントリを識別する。様々な非排他的な事例において、上記閾値には、所定の類似度閾値、可変の類似度閾値、相対的類似度閾値、及び／又はリアルタイムで決定される類似度閾値を含むことができる。

ブロック１００６において、クエリ・オーディオビデオ・シグネチャに対して類似性を有するエントリの幾何学的検証を実行するように構成された、サーバ３０６などの装置、例えば、幾何学的検証モジュール５３０などが、クエリ・オーディオビデオ・シグネチャに対して類似性を有するレイヤ化されたオーディオ・ビデオ索引からのエントリの幾何学的検証を実行する。様々な実施形態において、幾何学的検証を実行することは、クエリ・オーディオビデオ・シグネチャからのそれぞれのキーフレームと、類似性を有するレイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行することを含む。

ブロック１００８において、候補結果を送信するように構成された、サーバ３０６などの装置、例えば判断モジュール５３４などが、クエリ・オーディオビデオ・シグネチャと類似である候補結果を送信する。様々な実施形態において、幾何学的検証を介して識別された候補結果を送信することは、クエリ・オーディオビデオ・シグネチャがモバイル装置３０４などのモバイル装置から受信されており、該モバイル装置に向けて、幾何学的検証を介して識別された候補結果を送信することを含む。

図１１は、ＬＡＶＥ索引５１６などのレイヤ化されたオーディオビデオ索引を用いてサーバ３０６などのサーバ上でビデオ検索を実施するための別の例示的なプロセス１１００を例示している。

プロセス１１００は、サーバ上で実行されるものとして説明されるが、いくつかの実施形態において、１つ以上のサーバを含むシステムがプロセス１１００を実行することができ、該システムは、上記で説明されたとおりのネットワークベース構成又はクラウド構成内の複数の装置といくつかの事例において少なくとも１つのクライアント装置とを含み得る。

ブロック１１０２、１１０４及び１１０６において、プロセス１０００に関連して説明されたとおりに構成された、例えばレイヤ化されたオーディオビデオ・エンジン３２８などを用いた、サーバ３０６などの装置が、ブロック１００２、１００４及び１００６に対応する動作をそれぞれ実行する。

ブロック１１０８において、プログレッシブな処理を実行するように構成された、サーバ３０６などの装置、例えばプログレッシブクエリモジュール５３２などが、幾何学的検証を介して識別された候補結果を処理する。様々な実施形態において、幾何学的検証を介して識別された候補結果を処理することは、それぞれのオーディオビデオ・シグネチャを有するエントリをプログレッシブに処理することを含む。いくつかの実施形態において、それぞれのオーディオビデオ・シグネチャを有するエントリをプログレッシブに処理することは、２パートのグラフベースの変換及びマッチングを採用することを含む。

ブロック１１１０において、候補結果を送信するように構成された、サーバ３０６などの装置、例えば判断モジュール５３４などが、プログレッシブな処理に従った候補結果を送信する。様々な実施形態において、プログレッシブな処理に従った候補結果を送信することは、クエリ・オーディオビデオ・シグネチャがモバイル装置３０４などのモバイル装置から受信されており、該モバイル装置に向けて、プログレッシブな処理に従った候補結果を送信することを含む。いくつかの実施形態において、プログレッシブな処理に従った候補結果を送信することは、候補結果が更新されたと示すための構成において候補結果を送信することを含み、検索は、例えば１１２などのように継続されることになる。いくつかの実施形態において、プログレッシブな処理に従った候補結果を送信することは、候補結果が更新されていないと示すための構成において、安定化された候補結果を送信することをさらに含み、検索は、例えば２００などのように終えられることになる。

ブロック１１１２において、候補結果を送信するように構成された、サーバ３０６などの装置、例えば判断モジュール５３４などが、プログレッシブな処理からの候補結果が安定的であるかを決定する。様々な実施形態において、プログレッシブな処理からの候補結果が安定的であるかを決定することは、候補結果が維持されているかに少なくとも部分的に基づいて、候補結果を更新すべきかを決定することを含む。いくつかの実施形態において、プログレッシブな処理からの候補結果が安定的であるかを決定することは、候補結果がある時間について安定的であるかを決定することを含む。いくつかの実施形態において、上記時間の期間は秒単位で測定される。いくつかの実施形態において、上記時間の期間は２秒である。いくつかの実施形態において、上記時間の期間は３秒である。いくつかの実施形態において、上記時間の期間は可変であり、及び／又は、プログレッシブクエリ処理が検索を終えることなく実行されている回数に対して相対的である。

いくつかの実施形態において、候補結果がブロック１１１２において安定的であると決定されることに応答して、ブロック１１１４において、クエリを終了するように構成されたサーバ３０６などの装置、例えば判断モジュール５３４などが、オーディオビデオ・コンテンツに対応する検索を終える。様々な実施形態において、ブロック１１１２において候補結果がある時間について安定的であると決定されたときは、オーディオビデオコンテンツに対応する受信、検索、実行、及び処理を終えることを含む。いくつかの実施形態において、ブロック１１１４において検索を終えることには、候補結果が更新されていないと示すための構成において、プログレッシブな処理に従った候補結果を送信することを含むことができ、検索は、例えば２００のユーザインターフェース内などのように、終えられている。

いくつかの実施形態において、候補結果がブロック１１１２において安定的でないと決定されることに応答して、クエリを終了するように構成されたサーバ３０６などの装置、例えば判断モジュール５３４などが、検索を継続する。様々な実施形態において、ブロック１１１２において候補結果がある時間について安定的でないと決定されるときは、ブロック１１０２にフローを戻すことによって検索を継続することを含み、このことは、オーディオビデオ・コンテンツに対応する受信、検索、実行、及び処理を繰り返すことを含むことができる。いくつかの実施形態において、ブロック１１０２にフローを戻すことによって検索を継続することには、候補結果が例えば２００のユーザインターフェース内などにおいて更新されているかを示すための構成において、プログレッシブな処理に従った候補結果を送信することを含むことができる。

さらなる実施形態例
実施形態Ａは一方法を含み、該方法は、ビデオデータセットにアクセスするステップと、上記ビデオデータセットからのそれぞれのビデオに対してオーディオビデオ記述子抽出を実行するステップと、上記それぞれのビデオのタイムスライスに関連付けられた一連のオーディオビデオ・シグネチャを生成するステップと、エントリが上記一連のオーディオビデオ・シグネチャを含むレイヤ化されたオーディオビデオ索引を構築するステップと、を含む。

実施形態Ｂは一方法を含み、該方法は、ビデオデータセットの中の個々のビデオに対応するオーディオビデオ記述子を抽出するステップと、オーディオ索引を獲得するステップであり、上記オーディオ索引は上記オーディオビデオ記述子からのオーディオ指紋を含む、ステップと、ビジュアル索引を獲得するステップであり、上記ビジュアル索引は上記オーディオビデオ記述子からのビジュアルハッシュビットを含む、ステップと、上記オーディオ索引と上記ビジュアル索引の少なくとも一部とを関連付けることによってマルチ索引を含む第１のレイヤを作成するステップと、上記ビジュアル索引を含む第２のレイヤを作成するステップと、上記第１のレイヤのマルチ索引と上記第２のレイヤのビジュアル索引との間の時間関係を維持するステップと、を含む。

実施形態Ｃは、実施形態Ａ及び／又はＢに関連して説明された方法を含み、これにおいて、第１のレイヤを作成するためのビジュアル索引の少なくとも一部は、第２のレイヤからのハッシュビットのランダム選択を含む。

実施形態Ｄは、実施形態Ａ、Ｂ、及び／又はＣに関連して説明された方法を含み、オーディオ索引を介して第２のレイヤ内で検索されるべきビジュアル点の数を精緻化するステップをさらに含む。

実施形態Ｅは一方法を含み、該方法は、レイヤ化されたオーディオビデオ・エンジンにおいてビデオコンテンツに関連するクエリ・オーディオビデオ・シグネチャを受信するステップと、上記レイヤ化されたオーディオビデオ・エンジンに関連付けられた、レイヤ化されたオーディオビデオ索引を検索して、上記クエリ・オーディオビデオ・シグネチャに対して閾値を上回る類似度を有する、上記レイヤ化されたオーディオビデオ索引内のエントリを識別するステップと、上記クエリ・オーディオビデオ・シグネチャからのそれぞれのキーフレームと、上記類似度を有する上記レイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行するステップと、上記幾何学的検証を介して識別された候補結果を送信するステップと、を含む。

実施形態Ｆは一方法を含み、該方法は、レイヤ化されたオーディオビデオ・エンジンにおいてビデオコンテンツに関連するクエリ・オーディオビデオ・シグネチャを受信するステップと、上記レイヤ化されたオーディオビデオ・エンジンに関連付けられた、レイヤ化されたオーディオビデオ索引を検索して、上記クエリ・オーディオビデオ・シグネチャに対して閾値を上回る類似度を有する、上記レイヤ化されたオーディオビデオ索引内のエントリを識別するステップと、上記クエリ・オーディオビデオ・シグネチャからのそれぞれのキーフレームと、上記類似度を有する上記レイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行するステップと、それぞれのオーディオビデオ・シグネチャを有するエントリをプログレッシブに処理するステップと、候補結果が安定的であるかを決定するステップと、上記候補結果が維持されるかに少なくとも部分的に基づいて、上記候補結果を更新するかを決定するステップと、上記候補結果が維持されるかに従って識別された候補結果を送信するステップと、上記候補結果が所定の時間について維持されない事象において、上記オーディオビデオ・コンテンツに対応する上記受信するステップ、検索するステップ、実行するステップ、及び処理するステップを、繰り返すステップと、上記候補結果が所定の時間について維持される事象において、上記オーディオビデオ・コンテンツに対応する上記受信するステップ、検索するステップ、実行するステップ、及び処理するステップを、終えるステップと、を含む。

結び
モバイル装置を通して利用可能な機能性及びデータアクセスは増え続けており、こうした装置は、増え続ける量のデータへのアクセスをユーザに外出中に提供する、個人のインターネットサーフィンのコンシェルジュとして役立っている。本明細書に説明されたとおり、モバイル装置により利用可能にされるコンピューティングリソースを活用することによって、モバイルビデオ検索ツールが、ビデオのクリップそれ自体をクエリとして送信することなしに、ビデオ検索を効果的に実行することができる。

モバイルビデオ検索システムは、構造的特徴及び／又は方法論的動作に固有の言語において説明されたが、別記の請求項に定義される特徴及び動作は、必ずしも説明された具体的な特徴又は動作に限定されないことが理解されるべきである。むしろ、具体的な特徴及び動作は、請求項を実施する例示的な形態として開示されている。

Claims

コンピューティング装置の入力コンポーネントを介して、ビデオコンテンツの複数のタイムスライスを受信するステップと、
前記ビデオコンテンツの前記タイムスライスの聴覚特性及びビジュアル特性を取得するために、前記ビデオコンテンツの前記タイムスライスに対してオーディオビデオ記述子の抽出を実行するステップと、
抽出された前記オーディオビデオ記述子に少なくとも部分的に基づいて、前記ビデオコンテンツの前記タイムスライスのうち１つ以上に関連付けられるオーディオビデオシグネチャを生成するステップであって、前記オーディオビデオシグネチャが、前記ビデオコンテンツの前記１つ以上のタイムスライスに関連付けられるオーディオ指紋及びビジュアルハッシュビットを含むステップと、
データセットに向けて、クエリとして、前記ビデオコンテンツの前記１つ以上のタイムスライスに関連付けられる前記オーディオビデオシグネチャを送信するステップと、
前記ビデオコンテンツの前記タイムスライスの終わりに到達する前に、前記クエリの候補結果を受信するステップと、
前記ビデオコンテンツの前記タイムスライスの終わりに到達する前に、前記候補結果のうち少なくとも一部を提示するステップと、
を含む方法。
前記ビデオコンテンツの前記タイムスライスは、前記コンピューティング装置に関連付けられたカメラ入力装置又はマイクロフォン入力装置のうち少なくとも１つによって直接的又は間接的に受信される、請求項１に記載の方法。
前記ビデオコンテンツの前記タイムスライスは、前記コンピューティング装置に関連付けられていないビデオ出力装置から受信される、請求項１又は請求項２に記載の方法。
前記クエリの終わりにおいて、最終結果と該最終結果に関連する情報とを受信するステップと、
前記最終結果と該最終結果に関連する前記情報とを提示して、前記クエリの終わりを示すステップと、
をさらに含む請求項１乃至３のうちいずれか１項に記載の方法。
前記データセットは、レイヤ化されたオーディオビデオ索引付けされたデータセットを含む、請求項１乃至４のうちいずれか１項に記載の方法。
前記タイムスライスの個々のタイムスライスの長さは少なくとも約０．１秒、多くて約１０．０秒を含む、請求項１乃至５のうちいずれか１項に記載の方法。
請求項１乃至６のうちいずれか１項に記載の方法を実行するように構成されたシステム。
装置に請求項１乃至６のうちいずれか１項に記載の方法を実行させるコンピュータプログラム。
レイヤ化されたオーディオビデオエンジンにおいてビデオコンテンツに関連するクエリオーディオビデオシグネチャを受信するステップと、
前記レイヤ化されたオーディオビデオエンジンに関連付けられる、レイヤ化されたオーディオビデオ索引を検索して、前記クエリオーディオビデオシグネチャに対して閾値を上回る類似度を有する、前記レイヤ化されたオーディオビデオ索引内のエントリを識別するステップと、
前記クエリオーディオビデオシグネチャからのそれぞれのキーフレームと、前記類似度を有する前記レイヤ化されたオーディオビデオ索引からのエントリとの幾何学的検証を実行するステップと、
それぞれのオーディオビデオシグネチャを有し、かつ前記幾何学的検証により識別されたエントリをプログレッシブに処理して、候補結果を取得するステップと、
前記候補結果が、所定の期間の間、安定的であるかどうかを判断するステップと、
前記候補結果が安定的であると決定されるかに少なくとも部分的に基づいて、前記候補結果を更新するかどうかを判断するステップと、
前記候補結果が安定的であると判断されるかどうかに従って候補結果を送信するステップと、
を含む方法。
装置に請求項９に記載の方法を実行させるコンピュータプログラム。