JP2022537894A - オーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法 - Google Patents

オーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法 Download PDF

Info

Publication number
JP2022537894A
JP2022537894A JP2021569952A JP2021569952A JP2022537894A JP 2022537894 A JP2022537894 A JP 2022537894A JP 2021569952 A JP2021569952 A JP 2021569952A JP 2021569952 A JP2021569952 A JP 2021569952A JP 2022537894 A JP2022537894 A JP 2022537894A
Authority
JP
Japan
Prior art keywords
video
data
audio
clips
overlapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021569952A
Other languages
English (en)
Inventor
ヨウスケ タカダ
ケンロウ アワシマ
ヤスノリ ニイ
Original Assignee
グラス バレー カナダ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グラス バレー カナダ filed Critical グラス バレー カナダ
Publication of JP2022537894A publication Critical patent/JP2022537894A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • H04N5/06Generation of synchronising signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2665Gathering content from different sources, e.g. Internet and satellite
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Astronomy & Astrophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。システムは、シーンのオーディオ及びビデオデータをキャプチャする1つ以上のビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成された、オーディオデータ、メタデータ、及びビデオデータのためのデータストアとを含む。その上、システムは、オーディオデータを解析し、ビデオデータ内の重複するビデオクリップの1つ以上のグループを決定し、1つ以上のグループ内のそれぞれのビデオクリップのオフセット情報を生成するオーディオアナライザを含む。そして、メタデータアナライザが、カメラ識別データに基づいて、重複するビデオクリップの1つ以上のグループを補正し、シーケンスジェネレータが、補正された1つ以上のグループに基づいて、同期されたオーディオを有する複数のビデオシーケンスを生成する。

Description

関連出願の相互参照
本出願は2020年5月19日に出願された米国特許出願第16/878,356号の優先権を主張し、それは2019年5月24日に出願された米国特許仮出願第62/852,649号の優先権を主張し、その全内容はここに参照により組み入れられる。
本開示は、概してビデオ編集及び制作に関し、特にオーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法に関する。
オーディオデータを用いてビデオクリップを同期する技術は、今日存在し、ビデオ編集ソフト内で利用できる。しかし、ユーザーは、現在利用できる技術を適用する前に、適切なビデオクリップを選択する必要がある。それ故、多数のシーンのビデオクリップがその選択において組み合わされると、現在の技術は適切に働かない。その上、特に大量のビデオクリップがタイムコード機能を有しない非放送グレードのカメラで未整理に撮影された場合、多数のカメラによってキャプチャされたシーンの編集はかなりの制作時間を必要とする。
例えば、放送グレードのカムコーダを使用する場合、フリーランタイムコード機能は、標準的であり、多数のクリップを同期するためによく使用される。しかし、コンテンツをキャプチャする一定のユーザーは、概してフリーランタイムコード機能を有しないアクションタイプのカメラ(例えばGoPRO(登録商標)又は同様のもの)を使用することがある。この場合、顧客はオーディオを使用したクリップの同期に困ることがある。
このように、幾つかの既存の製品はオーディオ情報を使用した同期技術を特徴とするが、これらの技術は、範囲を限定されており、特に効率的でユーザー/リソースに優しいわけではない。
従って、例示的な態様によれば、オーディオデータを用いてビデオクリップを同期するように構成されたシステム及び方法が開示される。ここに記述された例示的な態様によれば、ユーザーはビデオクリップの事前の選択を必要としない。その代わりに、選択されたクリップが多数のシーンで撮影された場合、多数のビデオシーケンスが自動的に生成されるだろう。
概して、システムは、シーンに関係したビデオ及びオーディオデータをキャプチャするように構成された1つ以上のビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成された、オーディオ、メタデータ、及びビデオデータを格納するように構成されたデータストアと、ビデオ及びオーディオデータを受信し、ビデオデータ内のタイムコードデータをオーディオデータ内のメタデータと比較し、タイムコード情報に基づいて、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成されたオーディオ同期モジュールとを備える。
例示的な態様によれば、オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。この態様において、システムは、それぞれ、シーンのオーディオ及びビデオデータをキャプチャし、ビデオデータに対するタイムコードデータを生成するように構成された複数のより多くのビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成されたオーディオ及びビデオデータと、生成されたタイムコードデータ及びカメラ識別データを含むメタデータとを格納するように構成されたデータストアと、オーディオデータを解析し、ビデオデータ内の重複するビデオクリップのグループを、重複するビデオクリップのグループに関連したオーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、重複するビデオクリップのグループ内のそれぞれのビデオクリップが特徴点から時間オフセットされているそれぞれの時間を表すグループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、生成されたタイムコードデータ及びそれぞれのキャプチャ装置のカメラ識別データに基づいて、重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルとして生成されるシーケンスジェネレータと、を含む。
例示的な態様の改善において、カメラ識別データはそれぞれのビデオキャプチャ装置のリール名及びシリアル情報を含む。
例示的な態様の別の改善において、オーディオアナライザは、さらに、複数のビデオキャプチャ装置に関連したオーディオ信号を比較して共通の特徴点を見つけることで、重複するビデオクリップのグループを決定するように構成される。その上、オーディオアナライザは、さらに、複数のビデオキャプチャ装置によってキャプチャされたそれぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、オーディオ信号を比較するように構成され得る。
例示的な態様の別の改善において、ビデオデータ内の重複するビデオクリップのグループは、時間オフセットが特徴点に対して予め定められた時間内にあることを基づいたビデオデータのサブセットである。
さらに別の例示的な態様において、オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。この態様において、システムは、シーンのビデオデータをキャプチャし、ビデオデータに対するタイムコードデータを生成するように構成された少なくとも1つのビデオキャプチャ装置と、それぞれのキャプチャ装置によって生成されたビデオデータと、ビデオデータに対するオーディオと、生成されたタイムコードデータを含むメタデータとを格納するように構成されたデータストアと、オーディオデータを解析し、ビデオデータ内の重複するビデオクリップのグループを、重複するビデオクリップのグループに関連したオーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、重複するビデオクリップのグループ内のそれぞれのビデオクリップが特徴点から時間オフセットされているそれぞれの時間を表すグループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、ビデオデータの生成されたタイムコードデータ及びそれぞれのビデオクリップの生成されたオフセット情報に基づいて、重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成されたシーケンスジェネレータと、を含む。
さらに別の例示的な態様において、オーディオデータを用いてビデオクリップを同期するためのシステムが提供される。この態様において、システムは、シーンのビデオデータをキャプチャし、ビデオデータに対するタイムコードデータを生成するように構成されたビデオキャプチャ装置と、ビデオデータに関連したオーディオデータを解析し、ビデオデータ内の重複するビデオクリップのグループを、重複するビデオクリップのグループに関連したオーディオデータの特徴点に基づいて決定するように構成され、さらに、グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、ビデオデータの生成されたタイムコードデータ及びそれぞれのビデオクリップの生成されたオフセット情報に基づいて、重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、重複するビデオクリップのグループに対して、オーディオデータからの同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルの一部として生成されるシーケンスジェネレータと、を含む。
上述の例示的な態様の簡略化された概要は、本開示の基本的な理解を提供することに役立つ。この概要は、考えられる全ての態様の広範囲にわたる概観ではなく、全ての態様の主要又は重要な要素を識別することも、本開示の任意又は全ての態様の範囲を記述することも意図されていない。その唯一の目的は、以下の本開示のより詳細な説明の前置きとして、簡略化された形で1つ以上の態様を示すことにある。前述されたことの達成のために、本開示の1つ以上の態様は、特許請求の範囲に記述されて例示的に指摘された特徴を含む。
本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期するシステムのブロック図である。 本開示の例示的な態様による、ビデオデータの構成要素を示すブロック図である。 本開示の例示的な態様による、オーディオデータの構成要素を示すブロック図である。 本開示の例示的な態様による、オーディオ同期エンジンをさらに詳細に示すブロック図である。 本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期する方法のフロー図である。 例示的な態様による、タスク完了のために同等物を識別するシステム及び方法の態様が実装され得るコンピュータシステムを示すブロック図である。
次に、本開示の様々な態様が図面に関連して記述され、同様の符号は最後まで同様の構成要素を参照するために使用される。以下の記述において、説明の目的で、本開示の1つ以上の態様の完全な理解を促進するために、多数の具体的な詳細が記載されている。しかし、幾つか又は全ての例において、以下に記述された任意の態様が、以下に記述された具体的な設計詳細を採用することなく実施され得ることは、明らかだろう。他の例において、1つ以上の態様の記述を容易にするために、周知の構造及び装置がブロック図の形で示されている。以下では、本開示の基本的な理解を提供するために、本開示の1つ以上の態様の簡略化された概要を示す。
現在の技術の限界は、特定のカメラによってキャプチャされた全てのクリップが互いに近いタイミングで撮影されているという前提にある。しかし、例えばビデオ編集ソフトで選択されたクリップが別々の時間に撮影された場合、現在の技術はこれらのクリップの間でオーディオを適切に同期することができない。例えば、ビデオ/オーディオ同期のために8つのクリップを選択した場合、これらのクリップのうちの3つは例えば午前10時にほぼ同時に撮影され、これらのクリップのうちの5つは午後11時頃に同時に撮影されている。本開示の態様によれば、3つのクリップはグループとして識別され、1つのシーケンスが生成されるだろう。残りの5つのクリップは別のグループとして識別され、別のシーケンスがこれらのクリップに対して生成されるだろう。
図1は、本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期するためのシステム100のブロック図である。図示されているように、システム100は、シーン101のビデオ及びオーディオデータ1~Nをキャプチャするための複数のビデオキャプチャ装置(例えばカメラ)110-1、110-2、110-3、110-4~110-N(集合的に「ビデオキャプチャ装置110」と言う)を備える。例示的な態様において、ビデオキャプチャ装置110は、オーディオキャプチャ機能を備え、オーディオデータ104(例えばオーディオクリップ)を生成するように構成されるが、幾つかの態様において、ビデオキャプチャ装置と別個に離れた追加のマイクロフォンが使用されてもよい。その上、シーン101の撮影はライブでもよいが、他の態様において、ビデオ及びオーディオデータ1~Nは、例えばビデオデータベース又はサーバに収集及び保存される。システム100は、オーディオデータ及びビデオデータを同期し、シーケンス1、2、…Mとして示される一連のビデオストリーム1~Mを生成するように構成されたオーディオ同期エンジン120をさらに備える。例示的な態様において、同期されたデータを有するビデオクリップのこれらのシーケンスは、当業者に理解されるように、制作前のさらなる編集のためのビデオ編集ツールに提供され得る。
例示的な態様において、ビデオキャプチャ装置110-1~110-Nは、シーン101に関係したイメージ及びオーディオデータを生成する標準的な撮影カメラであり、キャプチャされたコンテンツに関係したタイムコードデータも生成する。これらのカメラのそれぞれは、シーン101の異なる眺め、又は全く異なるシーンを記録しているだろうから、別々のデータを生成する。幾つかの態様において、ビデオキャプチャ装置110-1~110-Nは、同じ対象を同時に記録し、幾つかの態様において、カメラ110はほぼ同時ぐらいに幾つかのビデオを撮るが、1つ以上のビデオクリップが異なる時間にキャプチャされる。例えば、カメラ110-1及びカメラ110-2は同じ車の運転のシーンを撮影することもあるが、カメラ110-1は運転者に焦点を合わせ、カメラ110-2は乗客又は同様の者に焦点を合わせる。幾つかの態様において、それぞれのカメラは、ビデオデータを識別するために、カメラ識別データ(例えば識別メタデータ)を生成してもよく、又はカメラ識別データを手動で入力できてもよい。カメラ識別データは、例示的な態様において、カメラのリール名及びカメラのシリアル情報を含んでもよい。
システム100は、最適な視聴のために、全く異なるオーディオストリーム及びビデオデータを同期し、1つ以上のコヒーレントなビデオストリームのシーケンスを生成する能力をビデオ編集者に与える。オーディオ同期エンジン120は複数のカメラ110-1~110-N(即ちビデオキャプチャ装置)からビデオ及びオーディオデータ1~Nを受信する。幾つかの態様において、オーディオ同期エンジン120は、ビデオ及びオーディオデータが受信されたときに動的な同期を行うように構成されるが、他の態様において、オーディオ同期エンジン120は、オーディオ及びビデオデータがキャプチャされた後のいつかに、データストア140からオーディオ及び/又はビデオデータを取得する。幾つかの態様において、データストア140は一種のデータベースでもよいが、他の態様において、データストア140は、ファイルサーバ、又は単に物理的若しくはクラウドデータストレージでもよい。
続いて、オーディオ同期エンジン120は、指定された時間範囲のビデオ及びオーディオデータ1~Nをデータストア140から取得した後、どのビデオクリップが関係し、どれが関係しないかを決定するように構成される。例えば、図1は、ビデオデータの2つのグループ、即ち、ビデオデータ1及びビデオデータ3を含むグループ122、ビデオデータ2及びビデオデータ4を含むグループ124が生成されることを示している。幾つかのビデオ、例えばビデオデータNは、他のクリップに関係しないと決定されてもよい。グループは、ビデオデータ内のビデオが同時に又は同じ時間枠内で撮られたが、グループ化されていないビデオデータはオーディオ一致部分を有しないことを示してもよい。換言すれば、オーディオ同期エンジン120は、例えばメディアコンテンツがキャプチャされた時間枠を示す、ビデオキャプチャ装置によって生成されたそれぞれのメタデータに基づいて、ビデオデータを自動的にグループ化するように構成され得る。
例示的な態様によれば、オーディオ同期エンジン120はオーディオデータからのオーディオ信号を解析及び検査するように構成される。それから、オーディオ同期エンジン120は、重複するビデオクリップをオフセット時間値と共に決定することに加えて、ビデオデータからのどのクリップが同時に撮影されているかを決定し得る。例示的な態様において、オーディオ同期エンジン120は、それぞれのカメラに関連したオーディオ信号を比較し、特徴点を見つけることで、この重複を決定するように構成される。幾つかの例示的な態様において、この比較は、周波数スペクトル解析、音量比較、及びオーディオデータに基づいてビデオクリップ内の重複時間を決定することを助ける他の技術を用いて行われる。幾つかの態様において、エンジン120は、最も高い確率で同時に撮影されたクリップグループ又はクラスタを選択するためのスコアを生成する。従って、オーディオ同期エンジン120は、先に見つけられた特徴点に基づいたそれぞれのクリップのオフセット情報と共に、このメタデータを用いてビデオクリップのクラスタを作成するように構成され、それぞれのクラスタは、重複するタイミングで撮影された多数のクリップからなる。それから、オーディオ同期エンジン120は、クラスタのビデオデータからのタイムコードデータ及びカメラからのカメラ識別データを検査し、クラスタ、例えばビデオグループ122、124の精度を向上させる。それは、例えば、生成されたタイムコードデータが正しいカメラ識別データを有するだろうカメラのビデオコンテンツと調和しない場合、定められたクラスタから1つ以上のビデオクリップを削除することによって行われる。
オーディオ同期エンジン120は、この情報を使用して、オーディオ解析部の出力を補正し、完成したシーケンス1~Mを生成する。例えば、一連のオーディオクリップがただ1つの曲を多数回記録している場合、曲は概して歌詞又はフレーズを繰り返すため、全てのオーディオクリップが1つのグループ内にあることが大いに起こり得る。タイムコード又は他の時間に関連した情報が参照される場合、オーディオ同期エンジン120はクリップを複数のグループに分けるかもしれない。シーケンス1~Mは、同期されたオーディオ及びビデオを個々のビデオストリーム内に有する。幾つかの態様では、ただ1つのカメラ、例えばカメラ110-1が、一部が第1の時間に生じ、一部が第2の時間に生じる多数のビデオクリップ(例えばビデオデータ)を生成する。オーディオ同期エンジン120は、全てのビデオクリップを受信又は選択するが、ビデオデータ内のそれらの時間及び他のデータに応じてそれらをグループにまとめ、オーディオデータ104を使用して、2つの別個のシーケンス、第1の時間のビデオの1つのシーケンス及び第2の時間のビデオの1つのシーケンスを生成する。例示的な態様において、オーディオ同期エンジン120は、さらに、一緒に生成されてグループ化された複数のビデオシーケンスを含むビデオ編集ファイルを生成するように構成され、ビデオ編集ファイルは、さらなるビデオ制作又はプレイアウト前のさらなる処理のためにビデオソフトウェア編集アプリケーション(例えばサードパーティ編集ソフトウェア又はアプリケーション)に送信され得る。
図2は、本開示の例示的な態様による、ビデオデータの構成要素を示すブロック図である。図2に示されるビデオデータは、図1に関連して上述されたキャプチャされたビデオに相当することに留意されたい。図示されているように、ビデオデータ(例えばビデオデータ1)は、イメージデータ200(例えば実際のメディアエッセンス)、タイムコードデータ202、カメラ識別データ206、及びオーディオデータ208を含む。例示的な態様において、イメージデータ200は、ビデオのいろいろなフレーム、色情報等のシーン101の視覚的な側面に関係してキャプチャされた全てのデータを含む。タイムコードデータ202は、少なくとも、同期情報を提供するビデオ及びオーディオデータの記録日210及び記録時間212を含む。幾つかの態様において、タイムコード情報は、後の同期のために、正確な時間がフレームに割り当てられるように、イメージデータ200内のビデオシーケンスのそれぞれのフレームに連動している。カメラ識別データ206は、リール名及び/又はカメラシリアル情報等を含み、異なるシーン、眺め、色設定、又は同様のものの記録を区別するためにオーディオ同期エンジン120に提供される。
例示的な態様において、カメラ識別データは、自動的に生成されてもよく、予め決められた期間内に生成された他のクリップのものと一致してもよい。あるいは、ユーザーが、カメラ識別データを割り当て、同時にキャプチャされたクリップに同じ識別情報(ID)を割り当てることを選択してもよい。例示的な態様において、カメラ識別データは、オーディオ同期エンジン120にサポートデータを提供して、精度を向上させ、生成されたビデオクリップのクラスタ化を補正する。
図3は、本開示の例示的な態様による、オーディオデータの構成要素を示すブロック図である。オーディオデータ208は、それぞれのカメラによってキャプチャされた生のオーディオ300、及びメタデータ302を含んでもよい。幾つかの態様において、生のオーディオ300は、圧縮され、若しくはオーディオ同期エンジン120に圧縮されないで送られ、又はデータストア140に格納されてもよい。メタデータ302は、オーディオ同期エンジン120によるビデオデータの同期を助けるために、オーディオデータがキャプチャされたそれぞれの時間で生のオーディオ300にインデックスを付ける時間関連情報を含む。
図4は、本開示の例示的な態様による、オーディオ同期エンジン120をさらに詳細に示すブロック図である。例示的な態様において、オーディオ同期エンジン120のそれぞれの構成要素は、ここに記述されるアルゴリズムを実行するように構成された1つ以上のモジュールとして実装され得る。その上、「モジュール」という用語は、例えば特定用途向け集積回路(ASIC)若しくはフィールドプログラマブルゲートアレイ(FPGA)によるハードウェアを用いて、又は、例えば、マイクロプロセッサシステムと、(実行中に)マイクロプロセッサシステムを特殊目的の装置に変える、モジュールの機能を実装するための一連の命令とによるハードウェアとソフトウェアの組み合わせとして実装された、現実の装置、構成要素、又は構成要素の配置を表す。また、モジュールは、ハードウェアだけで容易になる特定の機能と、ハードウェアとソフトウェアの組み合わせによって容易になる他の機能の2つを組み合わせとして実装され得る。特定の実装では、モジュールの少なくとも一部、場合によってモジュールの全てが汎用コンピュータのプロセッサ上で実行され得る。従って、それぞれのモジュールは、いろいろな適切な構成で実現され得、ここで例示された実施例に限定されるべきではない。
例示的な態様によれば、オーディオ同期エンジン120は、メタデータアナライザ400、オーディオアナライザ401、及びシーケンスジェネレータ404を備える。オーディオアナライザ401は、それぞれのデータセットに対して、ビデオデータ1~N及び関連したオーディオデータ208を受信するように構成される。それから、オーディオアナライザ401は、ビデオデータ1~Nを(ビデオデータ1~Nに関連した)オーディオデータ208と共に解析し、重複する時間に撮影されたクリップを見つけるように構成される。例示的な態様において、シーケンスジェネレータ404は、オーディオデータを解析し、ビデオデータに対して最適な同期点を決定するように構成され、ビデオデータは、この同期点(例えば、先に論じられた特徴点)及びビデオデータの基準時間に基づいて、オーディオデータと並べられ得る。重複する時間に撮影されたそれらのクリップはいろいろなグループにクラスタ化される。オーディオアナライザ401は、メタデータアナライザ400を呼び出し、オーディオデータ208のメタデータ内で指定された時間をビデオデータ1~Nのタイムコードデータ202及びカメラ識別データ206と比較し、精度を向上させ、クリップのグループへのクラスタ化を補正するように構成される。タイムコードとメタデータが比較されると、シーケンスジェネレータ404は、オーディオアナライザ401からの同期結果を用いてシーケンス1~Mを生成する。
例示的な態様において、メタデータアナライザ400が、タイムコード又は記録日時に基づいて、ビデオデータ1~Nのシーンが矛盾すると決定した場合、複数のシーケンスが作成される。同じカメラ識別データを有するビデオデータは一緒に解析されないが、その代わりに、異なるカメラ識別データを有する又はカメラ識別データを有しないビデオデータは一緒に解析されて同期される。
図5は、本開示の例示的な態様による、オーディオデータを用いてビデオクリップを同期する方法のフロー図である。その方法は、当業者に理解されるように、上述されたようなシステムの構成要素を用いて実装され得ることを理解すべきである。
方法500は、例えば、複数のカメラ110-1~110-N(即ちビデオキャプチャ装置)の本質の内容であり得る502から始まる。方法は、オーディオ及びビデオデータが図1に示されるオーディオ同期エンジン120によって受信される504に進む。例示的な態様において、ビデオデータは、図2に例示されるような幾つかの構成要素を含み、オーディオデータは、図3に例示されるような幾つかの構成要素を含む。具体的に、ビデオデータはタイムコードデータ及びカメラ識別データを含み、一方、オーディオデータは、オーディオデータのキャプチャに関係したメタデータを含めて、生のオーディオに関係したメタデータを含む。幾つかの態様において、オーディオ及びビデオデータはそれぞれのキャプチャ装置(例えばマイクロフォン及びビデオカメラ)から直接に受信されるが、他の態様において、データは、データストア、例えばデータストア140から受信又は取得されてもよい。幾つかの態様において、ビデオデータは、ビデオカメラのようなライブソースから、及びデータストアから同時に受信され得る。
506において、オーディオ同期エンジン120は、オーディオデータを解析し、重複する時間に撮影されたビデオクリップのグループを見つける。例示的な態様において、オーディオ解析は、周波数スペクトル又は同様のものを解析することで、関係したビデオクリップに特徴点を設けることを含む。それぞれのグループは1つ以上のカメラによって日中の同様の時間にキャプチャされたクリップを含む。例えば、第1カメラ及び第2カメラが午前10時頃にシーンをキャプチャしていたが、後に、これらのカメラが異なる時間に異なるシーンを撮影していた場合、クリップの第1セットはただ1つのグループにまとめられるが、他のクリップは、関係したビデオデータを含む1つ以上の異なるグループにある。
それから、方法は、オーディオ同期エンジン120がそれぞれのクラスタ化されたグループ内のそれぞれのビデオクリップに対してオフセット情報を生成する508に進む。換言すれば、オフセットは、ビデオクリップがオーディオデータの見つけられた特徴点(例えば、グループ内のビデオクリップ間の共通のオーディオ点)からオフセットされている時間を表し、従ってクリップをクラスタ又はグループに固定し、これらが関係したビデオクリップであることを証明する。
510において、オーディオ同期エンジン120は、同期されたオーディオ情報を有する複数のビデオシーケンスを生成するために、タイムコードデータ、カメラ識別データ等に基づいて、それぞれのクラスタ化されたグループを補正する。例示的な態様において、オーディオ同期エンジン120は、カメラ識別データを使用して、重複していないビデオクリップが誤って同じグループにクラスタ化されたかどうかを決定する。一態様において、ステップ510は、クラスタ化されたグループがステップ502~508に基づいて正しいと決定された場合に実行されない選択ステップであり得ることに留意されたい。
方法は、例えば、先に論じられたような同期されたメディアシーケンス1~Nの生成で終了し得る520で終わる。
図6は、オーディオデータを用いてビデオクリップを同期するシステム及び方法の態様が実装され得るコンピュータシステム20を示すブロック図である。コンピュータシステム20はシステム100又はその中の任意の構成要素に相当し得ることに留意すべきである。コンピュータシステム20は、多数のコンピューティング装置の形態、又はただ1つのコンピューティング装置の形態、例えば、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、モバイルコンピューティング装置、スマートフォン、タブレットコンピュータ、サーバ、メインフレーム、組み込み機器、及びコンピューティング装置の他の形態であり得る。
図示されているように、コンピュータシステム20は、中央処理装置(CPU)21と、システムメモリ22と、中央処理装置21に関連したメモリを含めて、いろいろなシステム構成要素を接続するシステムバス23とを含む。システムバス23は、バスメモリ又はバスメモリコントローラ、周辺バス、及び他の任意のバスアーキテクチャと相互に作用可能なローカルバスを備えてもよい。バスの例は、PCI、ISA、PCI-Express、HyperTransportTM、InfiniBandTM、シリアルATA、IC、及び他の適切な相互接続器を含んでもよい。中央処理装置21(プロセッサとも呼ばれる)は、ただ1つ又は多数のコアを有するただ1つ又は多数のプロセッサを含んでもよい。プロセッサ21は、本開示の技術を実装する1つ以上のコンピュータ実行可能コードを実行してもよい。システムメモリ22は、ここで使用されるデータ及び/又はプロセッサ21によって実行可能なコンピュータプログラムを格納するためのどんなメモリでもよい。システムメモリ22は、ランダムアクセスメモリ(RAM)25のような揮発性メモリ、及び、リードオンリーメモリ(ROM)24、フラッシュメモリ等のような不揮発性メモリ、又はそれらの任意の組み合わせを含んでもよい。ベーシックインプット/アウトプットシステム(BIOS)26は、コンピュータシステム20の構成要素間で情報を転送するための基本的な手順、例えばROM24を使用してオペレーティングシステムをロードするときのものを格納してもよい。
コンピュータシステム20は、1つ以上の取外し可能な記憶装置27、1つ以上の取外し不可能な記憶装置28、又はそれらの組み合わせのような1つ以上の記憶装置を含んでもよい。1つ以上の取外し可能な記憶装置27及び取外し不可能な記憶装置28は記憶装置インターフェース32を介してシステムバス23に接続される。一態様において、記憶装置及び対応するコンピュータ可読記憶媒体は、コンピュータ命令、データ構造、プログラムモジュール、及びコンピュータシステム20の他のデータを記憶するための電力に依存しないモジュールである。システムメモリ22、取外し可能な記憶装置27、及び取外し不可能な記憶装置28は、いろいろなコンピュータ可読記憶媒体を使用してもよい。コンピュータ可読記憶媒体の例は、キャッシュ、SRAM、DRAM、ゼロキャパシタRAM、ツイントランジスタRAM、eDRAM、EDO RAM、DDR RAM、EEPROM、NRAM、RRAM、SONOS、PRAMのようなマシンメモリ、例えばソリッドステートドライブ(SSD)又はフラッシュドライブ内のフラッシュメモリ又は他のメモリ技術、磁気カセット、磁気テープ、及び例えばハードディスクドライブ又はフロッピーディスク内の磁気ディスクストレージ、例えばコンパクトディスク(CD-ROM)又はデジタル多用途ディスク(DVD)内の光学ストレージ、並びに、所望のデータを格納するために使用されてもよく、コンピュータシステム20によってアクセスされ得る他の任意の媒体である。
コンピュータシステム20のシステムメモリ22、取外し可能な記憶装置27、及び取外し不可能な記憶装置28は、オペレーティングシステム35、追加のプログラムアプリケーション37、他のプログラムモジュール38、及びプログラムデータ39を格納するために使用されてもよい。コンピュータシステム20は、シリアルポート、パラレルポート、ユニバーサルシリアルバス(USB)のような1つ以上のI/Oポートを介して、キーボード、マウス、スタイラス、ゲームコントローラ、音声入力装置、タッチ式入力装置のような入力装置40、若しくはプリンタ若しくはスキャナのような他の周辺装置からのデータを伝達するための周辺インターフェース46、又は他の周辺インターフェースを含んでもよい。また、1つ以上のモニタ、プロジェクタ、又は統合ディスプレイのようなディスプレイ装置47が、ビデオアダプタのような出力インターフェース48を介してシステムバス23に接続されてもよい。ディスプレイ装置47に加えて、コンピュータシステム20は、スピーカ及び他の視聴覚装置のような他の周辺出力装置(図示せず)を備え付けられてもよい。
コンピュータシステム20は、1つ以上のリモートコンピュータ49へのネットワーク接続を用いて、ネットワーク環境で作動してもよい。1つ又は複数のリモートコンピュータ49は、コンピュータシステム20の性質を記述する際に前述された構成要素のほとんど又は全てを含むローカルコンピュータワークステーション又はサーバでもよい。また、ルータ、ネットワークステーション、ピア装置、又は他のネットワークノードのような、しかしそれらに限定されない他の装置が、コンピュータネットワークに存在してもよい。コンピュータシステム20は、ローカルエリアコンピュータネットワーク(LAN)50、ワイドエリアコンピュータネットワーク(WAN)、イントラネット、及びインターネットのような1つ以上のネットワークを介してリモートコンピュータ49と通信するための1つ以上のネットワークインターフェース51又はネットワークアダプタを含んでもよい。ネットワークインターフェース51の例は、イーサネットインターフェース、フレームリレーインターフェース、SONETインターフェース、及びワイヤレスインターフェースを含んでもよい。
本開示の態様は、システム、方法、及び/又はコンピュータプログラム製品でもよい。コンピュータプログラム製品は1つ又は複数のコンピュータ可読記憶媒体を含んでもよく、それはプロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令をその上に有する。
コンピュータ可読記憶媒体は、コンピューティングシステム20のようなコンピューティング装置のプロセッサによってアクセスされ得る命令又はデータ構造の形態のプログラムコードを保持及び格納し得る有形の装置であり得る。コンピュータ可読記憶媒体は、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又はそれらの任意の適切な組み合わせでもよい。例として、そのようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、EEPROM、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、フラッシュメモリ、ハードディスク、ポータブルコンピュータディスケット、メモリースティック、フロッピーディスクを、又は、パンチカード若しくは溝内の隆起した構造のような機械的に符号化された装置さえ含み得る。溝内の隆起した構造はその上に記録された命令を有する。ここで、コンピュータ可読記憶媒体は、それ自体、電波若しくは他の自由に伝播する電磁波、導波管若しくは伝送媒体を伝播する電磁波、又は電線を通して伝送される電気信号のような一時的な信号であるとは解釈されない。
ここに記述されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング装置に、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/若しくはワイヤレスネットワークを介して、外部コンピュータ若しくは外部記憶装置にダウンロードされ得る。ネットワークは、銅製の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/又はエッジサーバを備えてもよい。それぞれのコンピューティング装置のネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング装置内のコンピュータ可読記憶媒体への記憶のためにコンピュータ可読プログラム命令を転送する。
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、オブジェクト指向プログラミング言語及び従来の手続き型プログラミング言語を含めて、1つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードかオブジェクトコードのどちらかでもよい。コンピュータ可読プログラム命令は、完全にユーザーのコンピュータ上で、部分的にユーザーのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、部分的にユーザーのコンピュータ上でかつ部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、LAN又はWANを含めて、任意のタイプのネットワークを介してユーザーのコンピュータに接続されてもよく、又は接続は外部コンピュータに(例えばインターネットを介して)なされてもよい。幾つかの態様において、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本開示の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用し、電子回路を個性化することで、コンピュータ可読プログラム命令を実行してもよい。
いろいろな態様において、本開示に記述されているシステム及び方法は、モジュールの観点から扱われ得る。ここで使用される「モジュール」という用語は、例えば特定用途向け集積回路(ASIC)若しくはFPGAによるハードウェアを用いて、又は、例えば、マイクロプロセッサシステムと、(実行中に)マイクロプロセッサシステムを特殊目的の装置に変える、モジュールの機能を実装するための一連の命令とによるハードウェアとソフトウェアの組み合わせとして実装された、現実の装置、構成要素、又は構成要素の配置を表す。また、モジュールは、ハードウェアだけで容易になる特定の機能と、ハードウェアとソフトウェアの組み合わせによって容易になる他の機能の2つを組み合わせとして実装されてもよい。特定の実装では、モジュールの少なくとも一部、場合によってモジュールの全てが(上述の図5でより詳細に記述されたような)コンピュータシステムのプロセッサ上で実行されてもよい。従って、それぞれのモジュールは、いろいろな適切な構成で実現されてもよく、ここで例示された任意の特定の実施に限定されるべきではない。
明瞭さのために、態様の普通の特徴の全てがここで開示されているわけではない。本開示の任意の実際の実装の開発において、開発者の特定の目標を達成するために、多数の実装特有の決定がなされなければならず、これらの特定の目標は異なる実装及び異なる開発者に対して違うだろうことが理解されるだろう。そのような開発努力は複雑で時間を必要とするかもしれないが、それにもかかわらず、本開示を利用できる当業者にとって工学上の普通の仕事だろうことが理解される。
さらに、ここで使用されている言葉遣い又は用語は、説明のためであり、限定のためではなく、本明細書の用語又は言葉遣いは、ここに示された教示及び手引きを考慮して、関連する技術分野の当業者の知識と組み合わせて、当業者によって解釈されることが理解されるべきである。その上、本明細書又は特許請求の範囲のどの用語も、明記されていない限り、一般的でない又は特別な意味を有することは意図されていない。
ここに開示されているいろいろな態様は、例としてここで言及されている既知のモジュールと同等の現在及び将来の既知のものを包含する。その上、態様及び適用が示され記述されたが、本開示を利用できる当業者にとって、ここに開示された発明的概念から外れずに、上述よりも多くの変更が可能であることは明らかだろう。

Claims (21)

  1. オーディオデータを用いてビデオクリップを同期するためのシステムであって、
    それぞれ、シーンのオーディオ及びビデオデータをキャプチャし、前記ビデオデータに対するタイムコードデータを生成するように構成された複数のより多くのビデオキャプチャ装置と、
    それぞれのキャプチャ装置によって生成された前記オーディオ及びビデオデータと、前記生成されたタイムコードデータ及びカメラ識別データを含むメタデータとを格納するように構成されたデータストアと、
    前記オーディオデータを解析し、前記ビデオデータ内の重複するビデオクリップのグループを、前記重複するビデオクリップのグループに関連した前記オーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、前記重複するビデオクリップのグループ内のそれぞれのビデオクリップが前記特徴点から時間オフセットされているそれぞれの時間を表す前記グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、
    前記生成されたタイムコードデータ及び前記それぞれのキャプチャ装置の前記カメラ識別データに基づいて、前記重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、
    前記重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、前記複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルとして生成されるシーケンスジェネレータと、を備える、システム。
  2. 前記カメラ識別データはそれぞれのビデオキャプチャ装置のリール名及びシリアル情報を含む、請求項1に記載のシステム。
  3. 前記オーディオアナライザは、さらに、前記複数のビデオキャプチャ装置に関連したオーディオ信号を比較して前記共通の特徴点を見つけることで、前記重複するビデオクリップのグループを決定するように構成される、請求項1に記載のシステム。
  4. 前記オーディオアナライザは、さらに、前記複数のビデオキャプチャ装置によってキャプチャされた前記それぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、前記オーディオ信号を比較するように構成される、請求項3に記載のシステム。
  5. 前記ビデオデータ内の前記重複するビデオクリップのグループは、前記時間オフセットが前記特徴点に対して予め定められた時間内にあることを基づいた前記ビデオデータのサブセットである、請求項1に記載のシステム。
  6. オーディオデータを用いてビデオクリップを同期するためのシステムであって、
    シーンのビデオデータをキャプチャし、前記ビデオデータに対するタイムコードデータを生成するように構成された少なくとも1つのビデオキャプチャ装置と、
    それぞれのキャプチャ装置によって生成されたビデオデータと、前記ビデオデータに対するオーディオと、前記生成されたタイムコードデータを含むメタデータとを格納するように構成されたデータストアと、
    前記オーディオデータを解析し、前記ビデオデータ内の重複するビデオクリップのグループを、前記重複するビデオクリップのグループに関連した前記オーディオデータの共通の特徴点に基づいて決定するように構成され、さらに、前記重複するビデオクリップのグループ内のそれぞれのビデオクリップが前記特徴点から時間オフセットされているそれぞれの時間を表す前記グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、
    前記ビデオデータの前記生成されたタイムコードデータ及びそれぞれのビデオクリップの前記生成されたオフセット情報に基づいて、前記重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、
    前記重複するビデオクリップのグループに対して、同期されたオーディオを有する複数のビデオシーケンスを生成するように構成されたシーケンスジェネレータと、を備える、システム。
  7. 前記複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルの一部として生成される、請求項6に記載のシステム。
  8. 前記データストアは、前記少なくとも1つのビデオキャプチャ装置のカメラ識別データを格納するように構成される、請求項6に記載のシステム。
  9. 前記メタデータアナライザは、前記少なくとも1つのビデオキャプチャ装置の前記カメラ識別データに基づいて、前記重複するビデオクリップのグループを補正するように構成される、請求項7に記載のシステム。
  10. 前記カメラ識別データは前記少なくとも1つのビデオキャプチャ装置のリール名及びシリアル情報を含む、請求項9に記載のシステム。
  11. 前記オーディオアナライザは、さらに、前記少なくとも1つのビデオキャプチャ装置に関連したオーディオ信号を比較して、前記それぞれのビデオデータに共通する前記特徴点を見つけることで、前記重複するビデオクリップのグループを決定するように構成される、請求項6に記載のシステム。
  12. 前記オーディオアナライザは、さらに、前記少なくとも1つのビデオキャプチャ装置によってキャプチャされた前記それぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、前記オーディオ信号を比較するように構成される、請求項11に記載のシステム。
  13. 前記ビデオデータ内の前記重複するビデオクリップのグループは、前記時間オフセットが前記特徴点に対して予め定められた時間内にあることに基づいた前記ビデオデータのサブセットである、請求項6に記載のシステム。
  14. オーディオデータを用いてビデオクリップを同期するためのシステムであって、
    シーンのビデオデータをキャプチャし、前記ビデオデータに対するタイムコードデータを生成するように構成されたビデオキャプチャ装置と、
    前記ビデオデータに関連したオーディオデータを解析し、前記ビデオデータ内の重複するビデオクリップのグループを、前記重複するビデオクリップのグループに関連した前記オーディオデータの特徴点に基づいて決定するように構成され、さらに、前記グループ内のそれぞれのビデオクリップのオフセット情報を生成するように構成されたオーディオアナライザと、
    前記ビデオデータの前記生成されたタイムコードデータ及びそれぞれのビデオクリップの前記生成されたオフセット情報に基づいて、前記重複するビデオクリップのグループを補正するように構成されたメタデータアナライザと、
    前記重複するビデオクリップのグループに対して、前記オーディオデータからの同期されたオーディオを有する複数のビデオシーケンスを生成するように構成され、前記複数のビデオシーケンスは、ビデオソフトウェア編集アプリケーションによる編集のために構成されるビデオ編集ファイルの一部として生成されるシーケンスジェネレータと、を備える、システム。
  15. 前記キャプチャ装置によって生成された前記ビデオデータと、前記ビデオデータに対する前記オーディオデータと、前記生成されたタイムコードデータを含むメタデータとを格納するように構成されたデータストアをさらに備える、請求項14に記載のシステム。
  16. 前記グループ内のそれぞれのビデオクリップの前記生成されたオフセット情報は、前記重複するビデオクリップのグループ内のそれぞれのビデオクリップが前記特徴点から時間オフセットされているそれぞれの時間を表す、請求項14に記載のシステム。
  17. 前記データストアは、前記ビデオキャプチャ装置のカメラ識別データを格納するように構成され、前記メタデータアナライザは、前記ビデオキャプチャ装置の前記カメラ識別データに基づいて、前記重複するビデオクリップのグループを補正するように構成される、請求項16に記載のシステム。
  18. 前記カメラ識別データは前記ビデオキャプチャ装置のリール名及びシリアル情報を含む、請求項17に記載のシステム。
  19. 前記オーディオアナライザは、さらに、前記ビデオキャプチャ装置に関連したオーディオ信号を比較して、前記それぞれのビデオデータに共通する前記特徴点を見つけることで、前記重複するビデオクリップのグループを決定するように構成される、請求項14に記載のシステム。
  20. 前記オーディオアナライザは、さらに、前記ビデオキャプチャ装置によってキャプチャされた前記それぞれのオーディオデータの周波数スペクトル解析又は音量比較に基づいて、前記オーディオ信号を比較するように構成される、請求項19に記載のシステム。
  21. 前記ビデオデータ内の前記重複するビデオクリップのグループは、前記時間オフセットが前記特徴点に対して予め定められた時間内にあることに基づいた前記ビデオデータのサブセットである、請求項15に記載のシステム。
JP2021569952A 2019-05-24 2020-05-22 オーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法 Pending JP2022537894A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962852649P 2019-05-24 2019-05-24
US62/852,649 2019-05-24
US16/878,356 US20200374422A1 (en) 2019-05-24 2020-05-19 System and method of synchronizing video and audio clips with audio data
US16/878,356 2020-05-19
PCT/CA2020/050697 WO2020237355A1 (en) 2019-05-24 2020-05-22 System and method of synchronizing video and audio clips with audio data

Publications (1)

Publication Number Publication Date
JP2022537894A true JP2022537894A (ja) 2022-08-31

Family

ID=73456366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569952A Pending JP2022537894A (ja) 2019-05-24 2020-05-22 オーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法

Country Status (5)

Country Link
US (1) US20200374422A1 (ja)
EP (1) EP3977751A4 (ja)
JP (1) JP2022537894A (ja)
CA (1) CA3139473A1 (ja)
WO (1) WO2020237355A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11082755B2 (en) * 2019-09-18 2021-08-03 Adam Kunsberg Beat based editing
US20210173866A1 (en) * 2019-12-05 2021-06-10 Toyota Motor North America, Inc. Transport sound profile
US11631435B1 (en) * 2022-02-18 2023-04-18 Gopro, Inc. Systems and methods for correcting media capture-times

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009042858A1 (en) * 2007-09-28 2009-04-02 Gracenote, Inc. Synthesizing a presentation of a multimedia event
JP5687886B2 (ja) * 2010-11-26 2015-03-25 フォスター電機株式会社 映像・音声同期方法、映像・音声同期システムおよび映像同期音声調整装置
US8621355B2 (en) * 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
US9792955B2 (en) * 2011-11-14 2017-10-17 Apple Inc. Automatic generation of multi-camera media clips
US10158907B1 (en) * 2017-10-10 2018-12-18 Shazam Investments Ltd. Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings

Also Published As

Publication number Publication date
CA3139473A1 (en) 2020-12-03
US20200374422A1 (en) 2020-11-26
WO2020237355A1 (en) 2020-12-03
EP3977751A1 (en) 2022-04-06
EP3977751A4 (en) 2023-05-03

Similar Documents

Publication Publication Date Title
JP2022537894A (ja) オーディオデータを用いてビデオ及びオーディオクリップを同期するシステム及び方法
US8111326B1 (en) Post-capture generation of synchronization points for audio to synchronize video portions captured at multiple cameras
US9143742B1 (en) Automated aggregation of related media content
US20070088764A1 (en) Method and apparatus for synchronizing multimedia content with device which supports multi-server environment
US20100209069A1 (en) System and Method for Pre-Engineering Video Clips
TWI522823B (zh) 用於跨多種裝置之智慧型媒體展示技術
US11315600B2 (en) Dynamic generation of videos based on emotion and sentiment recognition
WO2017157135A1 (zh) 媒体信息处理方法及媒体信息处理装置、存储介质
WO2021050728A1 (en) Method and system for pairing visual content with audio content
US20150088513A1 (en) Sound processing system and related method
CN111046226B (zh) 一种音乐的调音方法及装置
WO2020093876A1 (zh) 视频编辑方法、装置、计算机设备及可读存储介质
US20210326599A1 (en) System and method for automatically detecting and marking logical scenes in media content
US10365885B1 (en) Systems and methods for composition of audio content from multi-object audio
US9858337B2 (en) Management, categorization, contextualizing and sharing of metadata-based content for media
US20190311746A1 (en) Indexing media content library using audio track fingerprinting
JP6182578B2 (ja) メディア資産を比較する方法およびシステム
TWI676391B (zh) 視頻搜索方法及裝置
EP3252770A1 (en) Automated identification and processing of audiovisual data
US10372742B2 (en) Apparatus and method for tagging topic to content
WO2017107309A1 (zh) 控制方法、控制装置、终端及音频同步播放系统
US10219047B1 (en) Media content matching using contextual information
US10452874B2 (en) System and method for identifying and tagging assets within an AV file
US20230215469A1 (en) System and method for enhancing multimedia content with visual effects automatically based on audio characteristics
KR20190060027A (ko) 주요 등장인물의 감성에 기반한 비디오 자동 편집 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905