JP2022537894A

JP2022537894A - オーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法

Info

Publication number: JP2022537894A
Application number: JP2021569952A
Authority: JP
Inventors: ヨウスケタカダ; ケンロウアワシマ; ヤスノリニイ
Original assignee: グラスバレーカナダ
Priority date: 2019-05-24
Filing date: 2020-05-22
Publication date: 2022-08-31
Also published as: CA3139473A1; US20200374422A1; WO2020237355A1; EP3977751A1; EP3977751A4

Abstract

オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。システムは、シーンのオーディオ及びビデオデータをキャプチャする１つ以上のビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成された、オーディオデータ、メタデータ、及びビデオデータのためのデータストアとを含む。その上、システムは、オーディオデータを解析し、ビデオデータ内の重複するビデオクリップの１つ以上のグループを決定し、１つ以上のグループ内のそれぞれのビデオクリップのオフセット情報を生成するオーディオアナライザを含む。そして、メタデータアナライザが、カメラ識別データに基づいて、重複するビデオクリップの１つ以上のグループを補正し、シーケンスジェネレータが、補正された１つ以上のグループに基づいて、同期されたオーディオを有する複数のビデオシーケンスを生成する。

Description

関連出願の相互参照
本出願は２０２０年５月１９日に出願された米国特許出願第１６／８７８，３５６号の優先権を主張し、それは２０１９年５月２４日に出願された米国特許仮出願第６２／８５２，６４９号の優先権を主張し、その全内容はここに参照により組み入れられる。

本開示は、概してビデオ編集及び制作に関し、特にオーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法に関する。

オーディオデータを用いてビデオクリップを同期する技術は、今日存在し、ビデオ編集ソフト内で利用できる。しかし、ユーザーは、現在利用できる技術を適用する前に、適切なビデオクリップを選択する必要がある。それ故、多数のシーンのビデオクリップがその選択において組み合わされると、現在の技術は適切に働かない。その上、特に大量のビデオクリップがタイムコード機能を有しない非放送グレードのカメラで未整理に撮影された場合、多数のカメラによってキャプチャされたシーンの編集はかなりの制作時間を必要とする。

例えば、放送グレードのカムコーダを使用する場合、フリーランタイムコード機能は、標準的であり、多数のクリップを同期するためによく使用される。しかし、コンテンツをキャプチャする一定のユーザーは、概してフリーランタイムコード機能を有しないアクションタイプのカメラ（例えばＧｏＰＲＯ（登録商標）又は同様のもの）を使用することがある。この場合、顧客はオーディオを使用したクリップの同期に困ることがある。

このように、幾つかの既存の製品はオーディオ情報を使用した同期技術を特徴とするが、これらの技術は、範囲を限定されており、特に効率的でユーザー／リソースに優しいわけではない。

従って、例示的な態様によれば、オーディオデータを用いてビデオクリップを同期するように構成されたシステム及び方法が開示される。ここに記述された例示的な態様によれば、ユーザーはビデオクリップの事前の選択を必要としない。その代わりに、選択されたクリップが多数のシーンで撮影された場合、多数のビデオシーケンスが自動的に生成されるだろう。

概して、システムは、シーンに関係したビデオ及びオーディオデータをキャプチャするように構成された１つ以上のビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成された、オーディオ、メタデータ、及びビデオデータを格納するように構成されたデータストアと、ビデオ及びオーディオデータを受信し、ビデオデータ内のタイムコードデータをオーディオデータ内のメタデータと比較し、タイムコード情報に基づいて、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成されたオーディオ同期モジュールとを備える。

例示的な態様によれば、オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。この態様において、システムは、それぞれ、シーンのオーディオ及びビデオデータをキャプチャし、ビデオデータに対するタイムコードデータを生成するように構成された複数のより多くのビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成されたオーディオ及びビデオデータと、生成されたタイムコードデータ及びカメラ識別データを含むメタデータとを格納するように構成されたデータストアと、オーディオデータを解析し、ビデオデータ内の重複するビデオクリップのグループを、重複するビデオクリップのグループに関連したオーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、重複するビデオクリップのグループ内のそれぞれのビデオクリップが特徴点から時間オフセットされているそれぞれの時間を表すグループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、生成されたタイムコードデータ及びそれぞれのキャプチャ装置のカメラ識別データに基づいて、重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルとして生成されるシーケンスジェネレータと、を含む。

例示的な態様の改善において、カメラ識別データはそれぞれのビデオキャプチャ装置のリール名及びシリアル情報を含む。

例示的な態様の別の改善において、オーディオアナライザは、さらに、複数のビデオキャプチャ装置に関連したオーディオ信号を比較して共通の特徴点を見つけることで、重複するビデオクリップのグループを決定するように構成される。その上、オーディオアナライザは、さらに、複数のビデオキャプチャ装置によってキャプチャされたそれぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、オーディオ信号を比較するように構成され得る。

例示的な態様の別の改善において、ビデオデータ内の重複するビデオクリップのグループは、時間オフセットが特徴点に対して予め定められた時間内にあることを基づいたビデオデータのサブセットである。

さらに別の例示的な態様において、オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。この態様において、システムは、シーンのビデオデータをキャプチャし、ビデオデータに対するタイムコードデータを生成するように構成された少なくとも１つのビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成されたビデオデータと、ビデオデータに対するオーディオと、生成されたタイムコードデータを含むメタデータとを格納するように構成されたデータストアと、オーディオデータを解析し、ビデオデータ内の重複するビデオクリップのグループを、重複するビデオクリップのグループに関連したオーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、重複するビデオクリップのグループ内のそれぞれのビデオクリップが特徴点から時間オフセットされているそれぞれの時間を表すグループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、ビデオデータの生成されたタイムコードデータ及びそれぞれのビデオクリップの生成されたオフセット情報に基づいて、重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成されたシーケンスジェネレータと、を含む。

さらに別の例示的な態様において、オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。この態様において、システムは、シーンのビデオデータをキャプチャし、ビデオデータに対するタイムコードデータを生成するように構成されたビデオキャプチャ装置と、ビデオデータに関連したオーディオデータを解析し、ビデオデータ内の重複するビデオクリップのグループを、重複するビデオクリップのグループに関連したオーディオデータの特徴点に基づいて決定するように構成され、さらに、グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、ビデオデータの生成されたタイムコードデータ及びそれぞれのビデオクリップの生成されたオフセット情報に基づいて、重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、重複するビデオクリップのグループに対して、オーディオデータからの同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルの一部として生成されるシーケンスジェネレータと、を含む。

上述の例示的な態様の簡略化された概要は、本開示の基本的な理解を提供することに役立つ。この概要は、考えられる全ての態様の広範囲にわたる概観ではなく、全ての態様の主要又は重要な要素を識別することも、本開示の任意又は全ての態様の範囲を記述することも意図されていない。その唯一の目的は、以下の本開示のより詳細な説明の前置きとして、簡略化された形で１つ以上の態様を示すことにある。前述されたことの達成のために、本開示の１つ以上の態様は、特許請求の範囲に記述されて例示的に指摘された特徴を含む。

本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期するシステムのブロック図である。本開示の例示的な態様による、ビデオデータの構成要素を示すブロック図である。本開示の例示的な態様による、オーディオデータの構成要素を示すブロック図である。本開示の例示的な態様による、オーディオ同期エンジンをさらに詳細に示すブロック図である。本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期する方法のフロー図である。例示的な態様による、タスク完了のために同等物を識別するシステム及び方法の態様が実装され得るコンピュータシステムを示すブロック図である。

次に、本開示の様々な態様が図面に関連して記述され、同様の符号は最後まで同様の構成要素を参照するために使用される。以下の記述において、説明の目的で、本開示の１つ以上の態様の完全な理解を促進するために、多数の具体的な詳細が記載されている。しかし、幾つか又は全ての例において、以下に記述された任意の態様が、以下に記述された具体的な設計詳細を採用することなく実施され得ることは、明らかだろう。他の例において、１つ以上の態様の記述を容易にするために、周知の構造及び装置がブロック図の形で示されている。以下では、本開示の基本的な理解を提供するために、本開示の１つ以上の態様の簡略化された概要を示す。

現在の技術の限界は、特定のカメラによってキャプチャされた全てのクリップが互いに近いタイミングで撮影されているという前提にある。しかし、例えばビデオ編集ソフトで選択されたクリップが別々の時間に撮影された場合、現在の技術はこれらのクリップの間でオーディオを適切に同期することができない。例えば、ビデオ／オーディオ同期のために８つのクリップを選択した場合、これらのクリップのうちの３つは例えば午前１０時にほぼ同時に撮影され、これらのクリップのうちの５つは午後１１時頃に同時に撮影されている。本開示の態様によれば、３つのクリップはグループとして識別され、１つのシーケンスが生成されるだろう。残りの５つのクリップは別のグループとして識別され、別のシーケンスがこれらのクリップに対して生成されるだろう。

図１は、本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期するためのシステム１００のブロック図である。図示されているように、システム１００は、シーン１０１のビデオ及びオーディオデータ１～Ｎをキャプチャするための複数のビデオキャプチャ装置（例えばカメラ）１１０－１、１１０－２、１１０－３、１１０－４～１１０－Ｎ（集合的に「ビデオキャプチャ装置１１０」と言う）を備える。例示的な態様において、ビデオキャプチャ装置１１０は、オーディオキャプチャ機能を備え、オーディオデータ１０４（例えばオーディオクリップ）を生成するように構成されるが、幾つかの態様において、ビデオキャプチャ装置と別個に離れた追加のマイクロフォンが使用されてもよい。その上、シーン１０１の撮影はライブでもよいが、他の態様において、ビデオ及びオーディオデータ１～Ｎは、例えばビデオデータベース又はサーバに収集及び保存される。システム１００は、オーディオデータ及びビデオデータを同期し、シーケンス１、２、…Ｍとして示される一連のビデオストリーム１～Ｍを生成するように構成されたオーディオ同期エンジン１２０をさらに備える。例示的な態様において、同期されたデータを有するビデオクリップのこれらのシーケンスは、当業者に理解されるように、制作前のさらなる編集のためのビデオ編集ツールに提供され得る。

例示的な態様において、ビデオキャプチャ装置１１０－１～１１０－Ｎは、シーン１０１に関係したイメージ及びオーディオデータを生成する標準的な撮影カメラであり、キャプチャされたコンテンツに関係したタイムコードデータも生成する。これらのカメラのそれぞれは、シーン１０１の異なる眺め、又は全く異なるシーンを記録しているだろうから、別々のデータを生成する。幾つかの態様において、ビデオキャプチャ装置１１０－１～１１０－Ｎは、同じ対象を同時に記録し、幾つかの態様において、カメラ１１０はほぼ同時ぐらいに幾つかのビデオを撮るが、１つ以上のビデオクリップが異なる時間にキャプチャされる。例えば、カメラ１１０－１及びカメラ１１０－２は同じ車の運転のシーンを撮影することもあるが、カメラ１１０－１は運転者に焦点を合わせ、カメラ１１０－２は乗客又は同様の者に焦点を合わせる。幾つかの態様において、それぞれのカメラは、ビデオデータを識別するために、カメラ識別データ（例えば識別メタデータ）を生成してもよく、又はカメラ識別データを手動で入力できてもよい。カメラ識別データは、例示的な態様において、カメラのリール名及びカメラのシリアル情報を含んでもよい。

システム１００は、最適な視聴のために、全く異なるオーディオストリーム及びビデオデータを同期し、１つ以上のコヒーレントなビデオストリームのシーケンスを生成する能力をビデオ編集者に与える。オーディオ同期エンジン１２０は複数のカメラ１１０－１～１１０－Ｎ（即ちビデオキャプチャ装置）からビデオ及びオーディオデータ１～Ｎを受信する。幾つかの態様において、オーディオ同期エンジン１２０は、ビデオ及びオーディオデータが受信されたときに動的な同期を行うように構成されるが、他の態様において、オーディオ同期エンジン１２０は、オーディオ及びビデオデータがキャプチャされた後のいつかに、データストア１４０からオーディオ及び／又はビデオデータを取得する。幾つかの態様において、データストア１４０は一種のデータベースでもよいが、他の態様において、データストア１４０は、ファイルサーバ、又は単に物理的若しくはクラウドデータストレージでもよい。

続いて、オーディオ同期エンジン１２０は、指定された時間範囲のビデオ及びオーディオデータ１～Ｎをデータストア１４０から取得した後、どのビデオクリップが関係し、どれが関係しないかを決定するように構成される。例えば、図１は、ビデオデータの２つのグループ、即ち、ビデオデータ１及びビデオデータ３を含むグループ１２２、ビデオデータ２及びビデオデータ４を含むグループ１２４が生成されることを示している。幾つかのビデオ、例えばビデオデータＮは、他のクリップに関係しないと決定されてもよい。グループは、ビデオデータ内のビデオが同時に又は同じ時間枠内で撮られたが、グループ化されていないビデオデータはオーディオ一致部分を有しないことを示してもよい。換言すれば、オーディオ同期エンジン１２０は、例えばメディアコンテンツがキャプチャされた時間枠を示す、ビデオキャプチャ装置によって生成されたそれぞれのメタデータに基づいて、ビデオデータを自動的にグループ化するように構成され得る。

例示的な態様によれば、オーディオ同期エンジン１２０はオーディオデータからのオーディオ信号を解析及び検査するように構成される。それから、オーディオ同期エンジン１２０は、重複するビデオクリップをオフセット時間値と共に決定することに加えて、ビデオデータからのどのクリップが同時に撮影されているかを決定し得る。例示的な態様において、オーディオ同期エンジン１２０は、それぞれのカメラに関連したオーディオ信号を比較し、特徴点を見つけることで、この重複を決定するように構成される。幾つかの例示的な態様において、この比較は、周波数スペクトル解析、音量比較、及びオーディオデータに基づいてビデオクリップ内の重複時間を決定することを助ける他の技術を用いて行われる。幾つかの態様において、エンジン１２０は、最も高い確率で同時に撮影されたクリップグループ又はクラスタを選択するためのスコアを生成する。従って、オーディオ同期エンジン１２０は、先に見つけられた特徴点に基づいたそれぞれのクリップのオフセット情報と共に、このメタデータを用いてビデオクリップのクラスタを作成するように構成され、それぞれのクラスタは、重複するタイミングで撮影された多数のクリップからなる。それから、オーディオ同期エンジン１２０は、クラスタのビデオデータからのタイムコードデータ及びカメラからのカメラ識別データを検査し、クラスタ、例えばビデオグループ１２２、１２４の精度を向上させる。それは、例えば、生成されたタイムコードデータが正しいカメラ識別データを有するだろうカメラのビデオコンテンツと調和しない場合、定められたクラスタから１つ以上のビデオクリップを削除することによって行われる。

オーディオ同期エンジン１２０は、この情報を使用して、オーディオ解析部の出力を補正し、完成したシーケンス１～Ｍを生成する。例えば、一連のオーディオクリップがただ１つの曲を多数回記録している場合、曲は概して歌詞又はフレーズを繰り返すため、全てのオーディオクリップが１つのグループ内にあることが大いに起こり得る。タイムコード又は他の時間に関連した情報が参照される場合、オーディオ同期エンジン１２０はクリップを複数のグループに分けるかもしれない。シーケンス１～Ｍは、同期されたオーディオ及びビデオを個々のビデオストリーム内に有する。幾つかの態様では、ただ１つのカメラ、例えばカメラ１１０－１が、一部が第１の時間に生じ、一部が第２の時間に生じる多数のビデオクリップ（例えばビデオデータ）を生成する。オーディオ同期エンジン１２０は、全てのビデオクリップを受信又は選択するが、ビデオデータ内のそれらの時間及び他のデータに応じてそれらをグループにまとめ、オーディオデータ１０４を使用して、２つの別個のシーケンス、第１の時間のビデオの１つのシーケンス及び第２の時間のビデオの１つのシーケンスを生成する。例示的な態様において、オーディオ同期エンジン１２０は、さらに、一緒に生成されてグループ化された複数のビデオシーケンスを含むビデオ編集ファイルを生成するように構成され、ビデオ編集ファイルは、さらなるビデオ制作又はプレイアウト前のさらなる処理のためにビデオソフトウェア編集アプリケーション（例えばサードパーティ編集ソフトウェア又はアプリケーション）に送信され得る。

図２は、本開示の例示的な態様による、ビデオデータの構成要素を示すブロック図である。図２に示されるビデオデータは、図１に関連して上述されたキャプチャされたビデオに相当することに留意されたい。図示されているように、ビデオデータ（例えばビデオデータ１）は、イメージデータ２００（例えば実際のメディアエッセンス）、タイムコードデータ２０２、カメラ識別データ２０６、及びオーディオデータ２０８を含む。例示的な態様において、イメージデータ２００は、ビデオのいろいろなフレーム、色情報等のシーン１０１の視覚的な側面に関係してキャプチャされた全てのデータを含む。タイムコードデータ２０２は、少なくとも、同期情報を提供するビデオ及びオーディオデータの記録日２１０及び記録時間２１２を含む。幾つかの態様において、タイムコード情報は、後の同期のために、正確な時間がフレームに割り当てられるように、イメージデータ２００内のビデオシーケンスのそれぞれのフレームに連動している。カメラ識別データ２０６は、リール名及び／又はカメラシリアル情報等を含み、異なるシーン、眺め、色設定、又は同様のものの記録を区別するためにオーディオ同期エンジン１２０に提供される。

例示的な態様において、カメラ識別データは、自動的に生成されてもよく、予め決められた期間内に生成された他のクリップのものと一致してもよい。あるいは、ユーザーが、カメラ識別データを割り当て、同時にキャプチャされたクリップに同じ識別情報（ＩＤ）を割り当てることを選択してもよい。例示的な態様において、カメラ識別データは、オーディオ同期エンジン１２０にサポートデータを提供して、精度を向上させ、生成されたビデオクリップのクラスタ化を補正する。

図３は、本開示の例示的な態様による、オーディオデータの構成要素を示すブロック図である。オーディオデータ２０８は、それぞれのカメラによってキャプチャされた生のオーディオ３００、及びメタデータ３０２を含んでもよい。幾つかの態様において、生のオーディオ３００は、圧縮され、若しくはオーディオ同期エンジン１２０に圧縮されないで送られ、又はデータストア１４０に格納されてもよい。メタデータ３０２は、オーディオ同期エンジン１２０によるビデオデータの同期を助けるために、オーディオデータがキャプチャされたそれぞれの時間で生のオーディオ３００にインデックスを付ける時間関連情報を含む。

図４は、本開示の例示的な態様による、オーディオ同期エンジン１２０をさらに詳細に示すブロック図である。例示的な態様において、オーディオ同期エンジン１２０のそれぞれの構成要素は、ここに記述されるアルゴリズムを実行するように構成された１つ以上のモジュールとして実装され得る。その上、「モジュール」という用語は、例えば特定用途向け集積回路（ＡＳＩＣ）若しくはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）によるハードウェアを用いて、又は、例えば、マイクロプロセッサシステムと、（実行中に）マイクロプロセッサシステムを特殊目的の装置に変える、モジュールの機能を実装するための一連の命令とによるハードウェアとソフトウェアの組み合わせとして実装された、現実の装置、構成要素、又は構成要素の配置を表す。また、モジュールは、ハードウェアだけで容易になる特定の機能と、ハードウェアとソフトウェアの組み合わせによって容易になる他の機能の２つを組み合わせとして実装され得る。特定の実装では、モジュールの少なくとも一部、場合によってモジュールの全てが汎用コンピュータのプロセッサ上で実行され得る。従って、それぞれのモジュールは、いろいろな適切な構成で実現され得、ここで例示された実施例に限定されるべきではない。

例示的な態様によれば、オーディオ同期エンジン１２０は、メタデータアナライザ４００、オーディオアナライザ４０１、及びシーケンスジェネレータ４０４を備える。オーディオアナライザ４０１は、それぞれのデータセットに対して、ビデオデータ１～Ｎ及び関連したオーディオデータ２０８を受信するように構成される。それから、オーディオアナライザ４０１は、ビデオデータ１～Ｎを（ビデオデータ１～Ｎに関連した）オーディオデータ２０８と共に解析し、重複する時間に撮影されたクリップを見つけるように構成される。例示的な態様において、シーケンスジェネレータ４０４は、オーディオデータを解析し、ビデオデータに対して最適な同期点を決定するように構成され、ビデオデータは、この同期点（例えば、先に論じられた特徴点）及びビデオデータの基準時間に基づいて、オーディオデータと並べられ得る。重複する時間に撮影されたそれらのクリップはいろいろなグループにクラスタ化される。オーディオアナライザ４０１は、メタデータアナライザ４００を呼び出し、オーディオデータ２０８のメタデータ内で指定された時間をビデオデータ１～Ｎのタイムコードデータ２０２及びカメラ識別データ２０６と比較し、精度を向上させ、クリップのグループへのクラスタ化を補正するように構成される。タイムコードとメタデータが比較されると、シーケンスジェネレータ４０４は、オーディオアナライザ４０１からの同期結果を用いてシーケンス１～Ｍを生成する。

例示的な態様において、メタデータアナライザ４００が、タイムコード又は記録日時に基づいて、ビデオデータ１～Ｎのシーンが矛盾すると決定した場合、複数のシーケンスが作成される。同じカメラ識別データを有するビデオデータは一緒に解析されないが、その代わりに、異なるカメラ識別データを有する又はカメラ識別データを有しないビデオデータは一緒に解析されて同期される。

図５は、本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期する方法のフロー図である。その方法は、当業者に理解されるように、上述されたようなシステムの構成要素を用いて実装され得ることを理解すべきである。

方法５００は、例えば、複数のカメラ１１０－１～１１０－Ｎ（即ちビデオキャプチャ装置）の本質の内容であり得る５０２から始まる。方法は、オーディオ及びビデオデータが図１に示されるオーディオ同期エンジン１２０によって受信される５０４に進む。例示的な態様において、ビデオデータは、図２に例示されるような幾つかの構成要素を含み、オーディオデータは、図３に例示されるような幾つかの構成要素を含む。具体的に、ビデオデータはタイムコードデータ及びカメラ識別データを含み、一方、オーディオデータは、オーディオデータのキャプチャに関係したメタデータを含めて、生のオーディオに関係したメタデータを含む。幾つかの態様において、オーディオ及びビデオデータはそれぞれのキャプチャ装置（例えばマイクロフォン及びビデオカメラ）から直接に受信されるが、他の態様において、データは、データストア、例えばデータストア１４０から受信又は取得されてもよい。幾つかの態様において、ビデオデータは、ビデオカメラのようなライブソースから、及びデータストアから同時に受信され得る。

５０６において、オーディオ同期エンジン１２０は、オーディオデータを解析し、重複する時間に撮影されたビデオクリップのグループを見つける。例示的な態様において、オーディオ解析は、周波数スペクトル又は同様のものを解析することで、関係したビデオクリップに特徴点を設けることを含む。それぞれのグループは１つ以上のカメラによって日中の同様の時間にキャプチャされたクリップを含む。例えば、第１カメラ及び第２カメラが午前１０時頃にシーンをキャプチャしていたが、後に、これらのカメラが異なる時間に異なるシーンを撮影していた場合、クリップの第１セットはただ１つのグループにまとめられるが、他のクリップは、関係したビデオデータを含む１つ以上の異なるグループにある。

それから、方法は、オーディオ同期エンジン１２０がそれぞれのクラスタ化されたグループ内のそれぞれのビデオクリップに対してオフセット情報を生成する５０８に進む。換言すれば、オフセットは、ビデオクリップがオーディオデータの見つけられた特徴点（例えば、グループ内のビデオクリップ間の共通のオーディオ点）からオフセットされている時間を表し、従ってクリップをクラスタ又はグループに固定し、これらが関係したビデオクリップであることを証明する。

５１０において、オーディオ同期エンジン１２０は、同期されたオーディオ情報を有する複数のビデオシーケンスを生成するために、タイムコードデータ、カメラ識別データ等に基づいて、それぞれのクラスタ化されたグループを補正する。例示的な態様において、オーディオ同期エンジン１２０は、カメラ識別データを使用して、重複していないビデオクリップが誤って同じグループにクラスタ化されたかどうかを決定する。一態様において、ステップ５１０は、クラスタ化されたグループがステップ５０２～５０８に基づいて正しいと決定された場合に実行されない選択ステップであり得ることに留意されたい。

方法は、例えば、先に論じられたような同期されたメディアシーケンス１～Ｎの生成で終了し得る５２０で終わる。

図６は、オーディオデータを用いてビデオクリップを同期するシステム及び方法の態様が実装され得るコンピュータシステム２０を示すブロック図である。コンピュータシステム２０はシステム１００又はその中の任意の構成要素に相当し得ることに留意すべきである。コンピュータシステム２０は、多数のコンピューティング装置の形態、又はただ１つのコンピューティング装置の形態、例えば、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、モバイルコンピューティング装置、スマートフォン、タブレットコンピュータ、サーバ、メインフレーム、組み込み機器、及びコンピューティング装置の他の形態であり得る。

図示されているように、コンピュータシステム２０は、中央処理装置（ＣＰＵ）２１と、システムメモリ２２と、中央処理装置２１に関連したメモリを含めて、いろいろなシステム構成要素を接続するシステムバス２３とを含む。システムバス２３は、バスメモリ又はバスメモリコントローラ、周辺バス、及び他の任意のバスアーキテクチャと相互に作用可能なローカルバスを備えてもよい。バスの例は、ＰＣＩ、ＩＳＡ、ＰＣＩ－Ｅｘｐｒｅｓｓ、ＨｙｐｅｒＴｒａｎｓｐｏｒｔ^ＴＭ、ＩｎｆｉｎｉＢａｎｄ^ＴＭ、シリアルＡＴＡ、Ｉ^２Ｃ、及び他の適切な相互接続器を含んでもよい。中央処理装置２１（プロセッサとも呼ばれる）は、ただ１つ又は多数のコアを有するただ１つ又は多数のプロセッサを含んでもよい。プロセッサ２１は、本開示の技術を実装する１つ以上のコンピュータ実行可能コードを実行してもよい。システムメモリ２２は、ここで使用されるデータ及び／又はプロセッサ２１によって実行可能なコンピュータプログラムを格納するためのどんなメモリでもよい。システムメモリ２２は、ランダムアクセスメモリ（ＲＡＭ）２５のような揮発性メモリ、及び、リードオンリーメモリ（ＲＯＭ）２４、フラッシュメモリ等のような不揮発性メモリ、又はそれらの任意の組み合わせを含んでもよい。ベーシックインプット/アウトプットシステム（ＢＩＯＳ）２６は、コンピュータシステム２０の構成要素間で情報を転送するための基本的な手順、例えばＲＯＭ２４を使用してオペレーティングシステムをロードするときのものを格納してもよい。

コンピュータシステム２０は、１つ以上の取外し可能な記憶装置２７、１つ以上の取外し不可能な記憶装置２８、又はそれらの組み合わせのような１つ以上の記憶装置を含んでもよい。１つ以上の取外し可能な記憶装置２７及び取外し不可能な記憶装置２８は記憶装置インターフェース３２を介してシステムバス２３に接続される。一態様において、記憶装置及び対応するコンピュータ可読記憶媒体は、コンピュータ命令、データ構造、プログラムモジュール、及びコンピュータシステム２０の他のデータを記憶するための電力に依存しないモジュールである。システムメモリ２２、取外し可能な記憶装置２７、及び取外し不可能な記憶装置２８は、いろいろなコンピュータ可読記憶媒体を使用してもよい。コンピュータ可読記憶媒体の例は、キャッシュ、ＳＲＡＭ、ＤＲＡＭ、ゼロキャパシタＲＡＭ、ツイントランジスタＲＡＭ、ｅＤＲＡＭ、ＥＤＯＲＡＭ、ＤＤＲＲＡＭ、ＥＥＰＲＯＭ、ＮＲＡＭ、ＲＲＡＭ、ＳＯＮＯＳ、ＰＲＡＭのようなマシンメモリ、例えばソリッドステートドライブ（ＳＳＤ）又はフラッシュドライブ内のフラッシュメモリ又は他のメモリ技術、磁気カセット、磁気テープ、及び例えばハードディスクドライブ又はフロッピーディスク内の磁気ディスクストレージ、例えばコンパクトディスク（ＣＤ－ＲＯＭ）又はデジタル多用途ディスク（ＤＶＤ）内の光学ストレージ、並びに、所望のデータを格納するために使用されてもよく、コンピュータシステム２０によってアクセスされ得る他の任意の媒体である。

コンピュータシステム２０のシステムメモリ２２、取外し可能な記憶装置２７、及び取外し不可能な記憶装置２８は、オペレーティングシステム３５、追加のプログラムアプリケーション３７、他のプログラムモジュール３８、及びプログラムデータ３９を格納するために使用されてもよい。コンピュータシステム２０は、シリアルポート、パラレルポート、ユニバーサルシリアルバス（ＵＳＢ）のような１つ以上のＩ／Ｏポートを介して、キーボード、マウス、スタイラス、ゲームコントローラ、音声入力装置、タッチ式入力装置のような入力装置４０、若しくはプリンタ若しくはスキャナのような他の周辺装置からのデータを伝達するための周辺インターフェース４６、又は他の周辺インターフェースを含んでもよい。また、１つ以上のモニタ、プロジェクタ、又は統合ディスプレイのようなディスプレイ装置４７が、ビデオアダプタのような出力インターフェース４８を介してシステムバス２３に接続されてもよい。ディスプレイ装置４７に加えて、コンピュータシステム２０は、スピーカ及び他の視聴覚装置のような他の周辺出力装置（図示せず）を備え付けられてもよい。

コンピュータシステム２０は、１つ以上のリモートコンピュータ４９へのネットワーク接続を用いて、ネットワーク環境で作動してもよい。１つ又は複数のリモートコンピュータ４９は、コンピュータシステム２０の性質を記述する際に前述された構成要素のほとんど又は全てを含むローカルコンピュータワークステーション又はサーバでもよい。また、ルータ、ネットワークステーション、ピア装置、又は他のネットワークノードのような、しかしそれらに限定されない他の装置が、コンピュータネットワークに存在してもよい。コンピュータシステム２０は、ローカルエリアコンピュータネットワーク（ＬＡＮ）５０、ワイドエリアコンピュータネットワーク（ＷＡＮ）、イントラネット、及びインターネットのような１つ以上のネットワークを介してリモートコンピュータ４９と通信するための１つ以上のネットワークインターフェース５１又はネットワークアダプタを含んでもよい。ネットワークインターフェース５１の例は、イーサネットインターフェース、フレームリレーインターフェース、ＳＯＮＥＴインターフェース、及びワイヤレスインターフェースを含んでもよい。

本開示の態様は、システム、方法、及び／又はコンピュータプログラム製品でもよい。コンピュータプログラム製品は１つ又は複数のコンピュータ可読記憶媒体を含んでもよく、それはプロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令をその上に有する。

コンピュータ可読記憶媒体は、コンピューティングシステム２０のようなコンピューティング装置のプロセッサによってアクセスされ得る命令又はデータ構造の形態のプログラムコードを保持及び格納し得る有形の装置であり得る。コンピュータ可読記憶媒体は、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又はそれらの任意の適切な組み合わせでもよい。例として、そのようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、ＥＥＰＲＯＭ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、フラッシュメモリ、ハードディスク、ポータブルコンピュータディスケット、メモリースティック、フロッピーディスクを、又は、パンチカード若しくは溝内の隆起した構造のような機械的に符号化された装置さえ含み得る。溝内の隆起した構造はその上に記録された命令を有する。ここで、コンピュータ可読記憶媒体は、それ自体、電波若しくは他の自由に伝播する電磁波、導波管若しくは伝送媒体を伝播する電磁波、又は電線を通して伝送される電気信号のような一時的な信号であるとは解釈されない。

ここに記述されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング装置に、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／若しくはワイヤレスネットワークを介して、外部コンピュータ若しくは外部記憶装置にダウンロードされ得る。ネットワークは、銅製の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び／又はエッジサーバを備えてもよい。それぞれのコンピューティング装置のネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング装置内のコンピュータ可読記憶媒体への記憶のためにコンピュータ可読プログラム命令を転送する。

本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、オブジェクト指向プログラミング言語及び従来の手続き型プログラミング言語を含めて、１つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードかオブジェクトコードのどちらかでもよい。コンピュータ可読プログラム命令は、完全にユーザーのコンピュータ上で、部分的にユーザーのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、部分的にユーザーのコンピュータ上でかつ部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ＬＡＮ又はＷＡＮを含めて、任意のタイプのネットワークを介してユーザーのコンピュータに接続されてもよく、又は接続は外部コンピュータに（例えばインターネットを介して）なされてもよい。幾つかの態様において、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本開示の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用し、電子回路を個性化することで、コンピュータ可読プログラム命令を実行してもよい。

いろいろな態様において、本開示に記述されているシステム及び方法は、モジュールの観点から扱われ得る。ここで使用される「モジュール」という用語は、例えば特定用途向け集積回路（ＡＳＩＣ）若しくはＦＰＧＡによるハードウェアを用いて、又は、例えば、マイクロプロセッサシステムと、（実行中に）マイクロプロセッサシステムを特殊目的の装置に変える、モジュールの機能を実装するための一連の命令とによるハードウェアとソフトウェアの組み合わせとして実装された、現実の装置、構成要素、又は構成要素の配置を表す。また、モジュールは、ハードウェアだけで容易になる特定の機能と、ハードウェアとソフトウェアの組み合わせによって容易になる他の機能の２つを組み合わせとして実装されてもよい。特定の実装では、モジュールの少なくとも一部、場合によってモジュールの全てが（上述の図５でより詳細に記述されたような）コンピュータシステムのプロセッサ上で実行されてもよい。従って、それぞれのモジュールは、いろいろな適切な構成で実現されてもよく、ここで例示された任意の特定の実施に限定されるべきではない。

明瞭さのために、態様の普通の特徴の全てがここで開示されているわけではない。本開示の任意の実際の実装の開発において、開発者の特定の目標を達成するために、多数の実装特有の決定がなされなければならず、これらの特定の目標は異なる実装及び異なる開発者に対して違うだろうことが理解されるだろう。そのような開発努力は複雑で時間を必要とするかもしれないが、それにもかかわらず、本開示を利用できる当業者にとって工学上の普通の仕事だろうことが理解される。

さらに、ここで使用されている言葉遣い又は用語は、説明のためであり、限定のためではなく、本明細書の用語又は言葉遣いは、ここに示された教示及び手引きを考慮して、関連する技術分野の当業者の知識と組み合わせて、当業者によって解釈されることが理解されるべきである。その上、本明細書又は特許請求の範囲のどの用語も、明記されていない限り、一般的でない又は特別な意味を有することは意図されていない。

ここに開示されているいろいろな態様は、例としてここで言及されている既知のモジュールと同等の現在及び将来の既知のものを包含する。その上、態様及び適用が示され記述されたが、本開示を利用できる当業者にとって、ここに開示された発明的概念から外れずに、上述よりも多くの変更が可能であることは明らかだろう。

Claims

オーディオデータを用いてビデオクリップを同期するためのシステムであって、
それぞれ、シーンのオーディオ及びビデオデータをキャプチャし、前記ビデオデータに対するタイムコードデータを生成するように構成された複数のより多くのビデオキャプチャ装置と、
それぞれのキャプチャ装置によって生成された前記オーディオ及びビデオデータと、前記生成されたタイムコードデータ及びカメラ識別データを含むメタデータとを格納するように構成されたデータストアと、
前記オーディオデータを解析し、前記ビデオデータ内の重複するビデオクリップのグループを、前記重複するビデオクリップのグループに関連した前記オーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、前記重複するビデオクリップのグループ内のそれぞれのビデオクリップが前記特徴点から時間オフセットされているそれぞれの時間を表す前記グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、
前記生成されたタイムコードデータ及び前記それぞれのキャプチャ装置の前記カメラ識別データに基づいて、前記重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、
前記重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、前記複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルとして生成されるシーケンスジェネレータと、を備える、システム。
前記カメラ識別データはそれぞれのビデオキャプチャ装置のリール名及びシリアル情報を含む、請求項１に記載のシステム。
前記オーディオアナライザは、さらに、前記複数のビデオキャプチャ装置に関連したオーディオ信号を比較して前記共通の特徴点を見つけることで、前記重複するビデオクリップのグループを決定するように構成される、請求項１に記載のシステム。
前記オーディオアナライザは、さらに、前記複数のビデオキャプチャ装置によってキャプチャされた前記それぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、前記オーディオ信号を比較するように構成される、請求項３に記載のシステム。
前記ビデオデータ内の前記重複するビデオクリップのグループは、前記時間オフセットが前記特徴点に対して予め定められた時間内にあることを基づいた前記ビデオデータのサブセットである、請求項１に記載のシステム。
オーディオデータを用いてビデオクリップを同期するためのシステムであって、
シーンのビデオデータをキャプチャし、前記ビデオデータに対するタイムコードデータを生成するように構成された少なくとも１つのビデオキャプチャ装置と、
それぞれのキャプチャ装置によって生成されたビデオデータと、前記ビデオデータに対するオーディオと、前記生成されたタイムコードデータを含むメタデータとを格納するように構成されたデータストアと、
前記オーディオデータを解析し、前記ビデオデータ内の重複するビデオクリップのグループを、前記重複するビデオクリップのグループに関連した前記オーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、前記重複するビデオクリップのグループ内のそれぞれのビデオクリップが前記特徴点から時間オフセットされているそれぞれの時間を表す前記グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、
前記ビデオデータの前記生成されたタイムコードデータ及びそれぞれのビデオクリップの前記生成されたオフセット情報に基づいて、前記重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、
前記重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成されたシーケンスジェネレータと、を備える、システム。
前記複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルの一部として生成される、請求項６に記載のシステム。
前記データストアは、前記少なくとも１つのビデオキャプチャ装置のカメラ識別データを格納するように構成される、請求項６に記載のシステム。
前記メタデータアナライザは、前記少なくとも１つのビデオキャプチャ装置の前記カメラ識別データに基づいて、前記重複するビデオクリップのグループを補正するように構成される、請求項７に記載のシステム。
前記カメラ識別データは前記少なくとも１つのビデオキャプチャ装置のリール名及びシリアル情報を含む、請求項９に記載のシステム。
前記オーディオアナライザは、さらに、前記少なくとも１つのビデオキャプチャ装置に関連したオーディオ信号を比較して、前記それぞれのビデオデータに共通する前記特徴点を見つけることで、前記重複するビデオクリップのグループを決定するように構成される、請求項６に記載のシステム。
前記オーディオアナライザは、さらに、前記少なくとも１つのビデオキャプチャ装置によってキャプチャされた前記それぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、前記オーディオ信号を比較するように構成される、請求項１１に記載のシステム。
前記ビデオデータ内の前記重複するビデオクリップのグループは、前記時間オフセットが前記特徴点に対して予め定められた時間内にあることに基づいた前記ビデオデータのサブセットである、請求項６に記載のシステム。
オーディオデータを用いてビデオクリップを同期するためのシステムであって、
シーンのビデオデータをキャプチャし、前記ビデオデータに対するタイムコードデータを生成するように構成されたビデオキャプチャ装置と、
前記ビデオデータに関連したオーディオデータを解析し、前記ビデオデータ内の重複するビデオクリップのグループを、前記重複するビデオクリップのグループに関連した前記オーディオデータの特徴点に基づいて決定するように構成され、さらに、前記グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、
前記ビデオデータの前記生成されたタイムコードデータ及びそれぞれのビデオクリップの前記生成されたオフセット情報に基づいて、前記重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、
前記重複するビデオクリップのグループに対して、前記オーディオデータからの同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、前記複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルの一部として生成されるシーケンスジェネレータと、を備える、システム。
前記キャプチャ装置によって生成された前記ビデオデータと、前記ビデオデータに対する前記オーディオデータと、前記生成されたタイムコードデータを含むメタデータとを格納するように構成されたデータストアをさらに備える、請求項１４に記載のシステム。
前記グループ内のそれぞれのビデオクリップの前記生成されたオフセット情報は、前記重複するビデオクリップのグループ内のそれぞれのビデオクリップが前記特徴点から時間オフセットされているそれぞれの時間を表す、請求項１４に記載のシステム。
前記データストアは、前記ビデオキャプチャ装置のカメラ識別データを格納するように構成され、前記メタデータアナライザは、前記ビデオキャプチャ装置の前記カメラ識別データに基づいて、前記重複するビデオクリップのグループを補正するように構成される、請求項１６に記載のシステム。
前記カメラ識別データは前記ビデオキャプチャ装置のリール名及びシリアル情報を含む、請求項１７に記載のシステム。
前記オーディオアナライザは、さらに、前記ビデオキャプチャ装置に関連したオーディオ信号を比較して、前記それぞれのビデオデータに共通する前記特徴点を見つけることで、前記重複するビデオクリップのグループを決定するように構成される、請求項１４に記載のシステム。
前記オーディオアナライザは、さらに、前記ビデオキャプチャ装置によってキャプチャされた前記それぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、前記オーディオ信号を比較するように構成される、請求項１９に記載のシステム。
前記ビデオデータ内の前記重複するビデオクリップのグループは、前記時間オフセットが前記特徴点に対して予め定められた時間内にあることに基づいた前記ビデオデータのサブセットである、請求項１５に記載のシステム。