JP5873222B2 - ソーシャルメディアビデオのインターストリーム音声同期化 - Google Patents
ソーシャルメディアビデオのインターストリーム音声同期化 Download PDFInfo
- Publication number
- JP5873222B2 JP5873222B2 JP2015531978A JP2015531978A JP5873222B2 JP 5873222 B2 JP5873222 B2 JP 5873222B2 JP 2015531978 A JP2015531978 A JP 2015531978A JP 2015531978 A JP2015531978 A JP 2015531978A JP 5873222 B2 JP5873222 B2 JP 5873222B2
- Authority
- JP
- Japan
- Prior art keywords
- pair
- time offset
- video
- probability distribution
- audio signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 93
- 230000005236 sound signal Effects 0.000 claims description 40
- 238000009826 distribution Methods 0.000 claims description 29
- 239000000203 mixture Substances 0.000 claims description 21
- 238000005314 correlation function Methods 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 15
- 230000000644 propagated effect Effects 0.000 claims 1
- 230000001902 propagating effect Effects 0.000 claims 1
- 230000003252 repetitive effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 230000015654 memory Effects 0.000 description 15
- 238000003860 storage Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000009472 formulation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
を確保し、タイムスタンプがわかっており、画像に沿って記録される、ハードウェア信号によって「ゲンロック」される。セミプロのシナリオでは、「ゲンロックされた」カメラは高価であり、あまり頻繁には使用されず、したがって、最近のアプローチでは、「ゲンロック」されていない場合でも、様々な信号間の時間的なオフセットをどのように解決するかの探索がなされるようになってきた。
この要約は、本開示のいくつかの態様の基本的な理解を提供するために、単純化した形態での一連の概念を紹介するものである。この要約は、開示の広範な概要ではなく、開示の主要または重要な要素を特定したり、あるいは開示の範囲を線引きしたりする意図はない。この要約は単に、下記に提供した詳細な説明の前置きとして、開示の概念の一部を提示するものである。
ここで本発明の様々な例を説明する。以下の説明は、これらの例の説明を完全に理解して実施可能にするための具体的な詳細を提供する。ただし、当業者は多くのこれらの詳細がなくとも実施可能であることを理解する。同様に、当業者は発明が、本書では詳細に説明されていないその他多くの明らかな特徴を含むことも理解する。さらに、一部の公知の構造または機能は、関連する説明を不必要に不明瞭にすることを避けるために、下記に表
示や詳細な説明がなされていないこともある。
図1は、本書で提示された方法で対処されている複数シーケンスの同期化問題の一例を図示する。図1に示す複数シーケンスの同期化問題は、4つのビデオ記録(「ビデオシーケンス」、「ビデオクリップ」、およびこれに類するものと言われることある)101-104を含み、複数の信号を同期化する方法の様々な実施形態および特徴についての以下の説明のための状況を提供する。
1.1. ペアでの整合
プロセスはステップ300で開始され、そこで、各記録の音声信号が一つおきの記録と整合される。例えば、図1を参照して、ビデオ記録101-104のそれぞれの音声信号が互いに整合されて音声記録のペアが形成される。例えば、「ビデオ1」101の信号が、「ビデオ2」102の信号、「ビデオ3」103の信号、および「ビデオ4」104の信号104と整合され(図1で、それぞれ「整合1-2」、「整合1-3」、および「整合1-4」で表されている)、「ビデオ2」102の信号が、「ビデオ3」103の信号および「ビデオ4」104の信号と整合され(図1で、それぞれ「整合2-3」および「整合2-4」で表されている)、ならびに「ビデオ3」103の信号が、「ビデオ4」104の信号と整合される(図1で、「整合3-4」として表されている)。
図3に図示したプロセスを再び参照するが、音声記録の各ペアについて、ステップ300は、図4に示す整合プロセスについて上述のとおり、記録間での一組のN可能性のある時間オフセット(例えば、時間オフセット候補)を得る。ステップ305では、信頼度測定が、ステップ300でのそれぞれのペアによる整合について推定されたそれぞれの時間オフセット候補に割り当てられる。それぞれの時間オフセット候補に割り当てられた信頼度測定は、その方法が特定の時間オフセットが関与する信号のペアについてどの程度の信頼性で正しいものであるかの測定である。
ステップ305で、それぞれのペアによる整合について、信頼度測定が時間オフセット候補のそれぞれにいったん割り当てられると、図3に図示したプロセスはステップ310に移行し、整合したすべての記録のペアの時間オフセット候補が組み合わされて、例えば参照時系列に対するそれぞれの音声信号についての最終的な時間オフセットが測定される。
図1で図示した複数シーケンスの同期化問題は、図2に図示したものなどのグラフ表示を使用して公式化ができ、ここでそれぞれの最高点(本書で「ノード」と言う)は確率変数を表す。複数シーケンスの同期化問題のグラフによる公式化において、それぞれのノード(図2でm12、m13、m14、m23、m24、およびm34として識別)は、ビデオ記録101-104のうちの2つの間の整合を表す。例えば、図1および2を参照するが、ノードm24は、ビデオ記録102およびビデオ記録104の間の整合を表す。さらに、それぞれのノード(例えば、ノードm12、m13、m14、m23、m24、およびm34のそれぞれ)が表す確率変数は、それぞれのペアによる整合の時間オフセットである。例えば、ノードm24は、ビデオ記録102およびビデオ記録104の間の時間オフセットを表す。
確率伝搬法(BP)は、グラフモデル(例えば、図2に示す複数シーケンスの同期化問題のグラフ表示)上で推論を実行するための強力なメッセージ伝達のアルゴリズムである。確率伝搬法は、任意の観測ノード220を条件として、それぞれの未観測ノード230の周辺分布の計算に使用できる。以下のセクションは、上述の複数シーケンスの同期化問題に適した、確率伝搬法フレームワークの再公式化を提供する。
図3および4に図示したプロセスについて上述のとおり、音声記録のそれぞれのペアによる整合について一組の時間オフセット候補が生成される。さらに、それぞれの時間オフセット候補は、割り当てられた信頼度測定であり、これは、少なくとも一部の実施形態では、0〜100の範囲としうる。それぞれのペアによる整合についての情報は、その分布がガウス混合である確率変数としてモデル化できる。
図2に図示したグラフ公式化を参照するが、局所的証拠φi(χi)は観測ノード220である。それぞれのノードiについて、図3および4について上述のペアによる同期化アルゴリズムは、対応する整合について次の一組の時間オフセットを生成すると想定される:
元のBP公式化において、信頼度およびメッセージは、独立したオピニオンプールの仕組みを使用して計算され、その一例を図6Aに示す。独立したオピニオンプールの仕組みで、集合的なオピニオンは、個別のオピニオンの積である:
本開示のBP公式化に従い、ノードiからノードjまでのメッセージは、次の方程式を使用して計算される。
確率伝搬法の反復が開始される前に、信頼度およびメッセージを初期化する必要がある。ノードiでの信頼度は、単にその局所的証拠として初期化される:
5. 信頼度およびメッセージの更新
本書で提示されているアルゴリズムの毎回の反復時、信頼度およびメッセージの両方が更新される。少なくとも一つの実施形態で、信頼度は方程式(5)を使用して更新される。図8は、ノードiでの信頼度の更新について全体的なプロセスを図示する。図5を参照して、ノードiで更新された信頼度は、(1)局所的証拠φi(χi)(重みがαi)と、(2)ノードmji(χj)jに隣接するすべてのノードから来るメッセージの重み付きの和である。
の全体的なプロセスを図示する。第一の段階で、ノードiからノードjにメッセージを更新するために、ノードiについての情報は、まずその局所的証拠φi(χi)を使用して、同様に、ノードjを除くノードiに隣接したすべてのノードからのメッセージを使用して、更新されなければならない。第二の段階は、ノードiおよびノードjの両方に共通に隣接するノードkを識別する。ノードpでの信頼度、bp(χp)、ならびにノードiについての更新済み情報を用いて、2つガウス混合の和が、最終的な更新済みメッセージを得るために使用される。
上述の、および図8および9で図示した更新プロセス中、ガウス混合のサイズは成長し続ける。こうした成長は、潜在的にメモリ問題につながる可能性があるため、本書で説明した方法は、固定数のガウス混合のみを保つことにより、余分なコンポーネントの除去を実行するよう設計しうる。例えば、確率分布(Z)が多くの局所的モードを持つと仮定すると、これは、信頼度および様々なメッセージを計算するケースとなる。次に、ガウス混合の数が5に固定されている場合、本書で説明した方法は、所定の確率分布Zから最も高いピーク5つを検出し、それらのピークを最終的な5つの混合体の平均値として使用する。次に、方法は、これら5つのガウスコンポーネントの重み、πkを正規化し、それらの重みの和が1.0になるようにする。次に、それぞれのガウスコンポーネントの分散が、以下のとおり設定される。
本書で説明した一つ以上の実施形態に従い、本書で公式化したアルゴリズムの全体的なプロセスは、以下のとおりである:
(i) 方程式(1)を使用した局所的証拠の計算(例えば、「観測ノード」から発生する確率分布メッセージ)、
(ii)方程式(8)を使用した、グラフの各エッジ内のメッセージの計算、
(iii)方程式(5)を使用した信頼度の更新、および
(iv)方程式(7)を使用した、各ノードでの確率を組み合わせることによるメッセージの更新。
ロック図である。非常に基本的な構成1101で、コンピューティング装置1100は、一般に一つ以上のプロセッサ1110およびシステムメモリ1120を含む。メモリーバス1130は、プロセッサ1110とシステムメモリ1120の間の通信に使用しうる。
を選ぶかもしれない。一つ以上のその他のシナリオで、実施者は、ハードウェア、ソフトウェア、および/またはファームウェアの何らかの組み合わせを選ぶかもしれない。
から複数形に言い換えることができる。様々な単数形/複数形の入れ替えが、明瞭化を図るために、本書で明示的に記載されている場合がある。
Claims (15)
- 音声信号を同期化する方法であって、前記方法が、
音声信号のペアを整合して、ビデオ記録の対応するペア間の時間オフセット候補を推定する段階と、
音声信号の前記対応するペアの特徴に基づき、信頼度測定をビデオ記録のそれぞれのペアのそれぞれの前記時間オフセット候補に割り当てる段階と、
前記時間オフセット候補に基づき確率分布を生成する段階と、
ビデオ記録のペアのグラフ表示をもとに、反復技術を使用して、前記対応するビデオ記録のそれぞれについて、任意の基準時系列に対する最終的な時間オフセットを推定する段階とを含む方法であって、ここで、前記反復技術が、すべての時間オフセット候補全体について、前記確率分布を最終的確率分布に組み込み、また、グラフ表示が、それぞれペアによる音声信号の整合を表すノードを含む方法。 - 前記音声信号のペアの整合に、
時間領域での信号ペア間の相関関数の生成、
前記音声信号のペアの整合に、信号ペア間の位相相関を使用した相関関数の生成、および、
前記音声信号のペアの整合に、各信号のスペクトログラムに基づく相関関数の生成、
の中の少なくとも1つを含む、請求項1に記載の方法。 - 前記信頼度測定をビデオ記録のそれぞれのペアのそれぞれの前記時間オフセット候補に割り当てる段階に、信頼度測定を任意の単一のペア間での整合の選択グループに割り当てる段階を含む、請求項1または請求項2に記載の方法。
- 信頼度測定が、前記選択グループの傾斜、絶対的高さ、相対的高さ、およびピークの分散の測定値を組み合わせることにより生成される請求項3に記載の方法。
- 組み合わされた測定値が線形である、請求項3に記載の方法。
- 請求項1〜請求項5のいずれか1項に記載の方法であって、すべての前記音声信号のペアのすべての前記時間オフセット候補を組み合わせる段階が、
前記時間オフセット候補に基づき確率分布を生成する段階と、
確率伝搬法を使用して、最終的なそれぞれの時間オフセットを推定する段階とを含む、
方法。 - ビデオ記録のペアについての前記最終的時間オフセットが、前記組み合わせた確率分布において最大の確立を持つ時間オフセット候補として推定される、請求項1〜請求項6のいずれか1項に記載の方法。
- 共通のビデオ記録を持つ場合にグラフ表示内の前記ノードが互いに接続されている、請求項1〜請求項7のいずれか1項に記載の方法。
- 前記確率分布が、それぞれの確率分布がガウス混合分布により概算できる推定に基づき組み合わされる、請求項1〜請求項8のいずれか1項に記載の方法。
- 前記最終的確率分布がそれぞれのノード間のエッジに沿って確率分布を伝搬させることにより計算され、所定のノードで伝搬されたすべての前記確率分布が組み合わされる、請求項8に記載の方法。
- 複数のビデオ記録を同期化する方法であって、前記方法が、
ビデオ記録の少なくとも一つのペア間で時間オフセット候補を生成する段階と、
信頼度測定を、ビデオ記録の前記少なくとも一つのペアの音声信号に基づき、それぞれの前記時間オフセット候補に割り当てる段階と、
前記時間オフセット候補に基づき確率分布を生成する段階と、
ビデオ記録の前記少なくとも一つのペア間の最終的時間オフセットを、確率分布をすべての時間オフセット候補に対して最終的な確率分布に組み込む反復技術を使用して推定する段階とを含む方法。 - ビデオ記録の前記少なくとも一つのペアの音声信号を整合して、ビデオ記録の前記少なくとも一つのペア間の前記時間オフセット候補を生成する段階をさらに含む、請求項11に記載の方法。
- ビデオ記録の前記少なくとも一つのペアの前記音声信号の整合が、
時間領域での前記音声信号間の相関関数の生成、
前記音声信号間の位相相関を使用した相関関数の生成、および、
それぞれの前記音声信号のスペクトログラムの比較に基づく相関関数の生成
の中の少なくとも一つを含む、請求項12に記載の方法。 - 前記信頼度測定が、ビデオ記録の前記少なくとも一つのペアの前記音声信号について生成された相関関数の傾斜、絶対的高さ、相対的高さ、およびピークの分散のうち少なくとも一つの測定値に基づき、割り当てられる、請求項11〜請求項13のいずれか1項に記載の方法。
- 反復技術がビデオ記録の前記少なくとも一つのペアのグラフ表示に基づき、また、グラフ表示が、ビデオ記録の前記少なくとも一つのペアの音声信号のペアによる整合をそれぞれ表すノードを含む、請求項11〜請求項14のいずれか1項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/621,604 US8682144B1 (en) | 2012-09-17 | 2012-09-17 | Method for synchronizing multiple audio signals |
US13/621,604 | 2012-09-17 | ||
PCT/US2013/058371 WO2014042971A1 (en) | 2012-09-17 | 2013-09-06 | Inter-stream audio synchronisation of social media videos |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015536062A JP2015536062A (ja) | 2015-12-17 |
JP5873222B2 true JP5873222B2 (ja) | 2016-03-01 |
Family
ID=49263435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015531978A Active JP5873222B2 (ja) | 2012-09-17 | 2013-09-06 | ソーシャルメディアビデオのインターストリーム音声同期化 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8682144B1 (ja) |
EP (1) | EP2896043B1 (ja) |
JP (1) | JP5873222B2 (ja) |
WO (1) | WO2014042971A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012098432A1 (en) * | 2011-01-20 | 2012-07-26 | Nokia Corporation | An audio alignment apparatus |
US20130124999A1 (en) * | 2011-11-14 | 2013-05-16 | Giovanni Agnoli | Reference clips in a media-editing application |
WO2014049192A1 (en) * | 2012-09-26 | 2014-04-03 | Nokia Corporation | A method, an apparatus and a computer program for creating an audio composition signal |
EP2926339A4 (en) * | 2012-11-27 | 2016-08-03 | Nokia Technologies Oy | COMMONLY USED AUDIOSCENE DEVICE |
US9646650B2 (en) | 2013-05-28 | 2017-05-09 | Google Inc. | Automatically syncing recordings between two or more content recording devices |
US10754511B2 (en) * | 2013-11-20 | 2020-08-25 | Google Llc | Multi-view audio and video interactive playback |
GB201409147D0 (en) * | 2014-05-22 | 2014-07-09 | Queen Mary & Westfield College | Media processing |
EP3308548A1 (en) * | 2015-06-15 | 2018-04-18 | Piksel, Inc. | Processing content streaming |
JP6693180B2 (ja) * | 2016-03-09 | 2020-05-13 | ヤマハ株式会社 | 収録データ解析方法および収録データ解析装置 |
US10177958B2 (en) * | 2017-02-07 | 2019-01-08 | Da Sheng Inc. | Method for synchronously taking audio and video in order to proceed one-to-multi multimedia stream |
CN110741435B (zh) | 2017-06-27 | 2021-04-27 | 杜比国际公司 | 音频信号处理的方法、系统和介质 |
US10158907B1 (en) * | 2017-10-10 | 2018-12-18 | Shazam Investments Ltd. | Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings |
US10856024B2 (en) * | 2019-03-27 | 2020-12-01 | Microsoft Technology Licensing, Llc | Audio synchronization of correlated video feeds |
US11283586B1 (en) | 2020-09-05 | 2022-03-22 | Francis Tiong | Method to estimate and compensate for clock rate difference in acoustic sensors |
US11671551B2 (en) * | 2021-05-24 | 2023-06-06 | Sony Group Corporation | Synchronization of multi-device image data using multimodal sensor data |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU672070B2 (en) | 1993-02-26 | 1996-09-19 | Sony Corporation | Synchronization of audio/video information |
US7562228B2 (en) * | 2005-03-15 | 2009-07-14 | Microsoft Corporation | Forensic for fingerprint detection in multimedia |
JP4764332B2 (ja) * | 2006-12-28 | 2011-08-31 | 日本放送協会 | パラメータ情報作成装置及びパラメータ情報作成プログラム、並びに、イベント検出装置及びイベント検出プログラム |
US8205148B1 (en) | 2008-01-11 | 2012-06-19 | Bruce Sharpe | Methods and apparatus for temporal alignment of media |
JP2011205599A (ja) * | 2010-03-26 | 2011-10-13 | Toshiba Corp | 信号処理装置 |
IT1403658B1 (it) * | 2011-01-28 | 2013-10-31 | Universal Multimedia Access S R L | Procedimento e mezzi per scandire e/o sincronizzare eventi audio/video |
US8621355B2 (en) * | 2011-02-02 | 2013-12-31 | Apple Inc. | Automatic synchronization of media clips |
CN108090940A (zh) * | 2011-05-06 | 2018-05-29 | 西尔股份有限公司 | 基于文本的视频生成 |
US20130124999A1 (en) | 2011-11-14 | 2013-05-16 | Giovanni Agnoli | Reference clips in a media-editing application |
US9344606B2 (en) | 2012-01-24 | 2016-05-17 | Radical Switchcam Llc | System and method for compiling and playing a multi-channel video |
-
2012
- 2012-09-17 US US13/621,604 patent/US8682144B1/en active Active
-
2013
- 2013-09-06 EP EP13770735.2A patent/EP2896043B1/en active Active
- 2013-09-06 JP JP2015531978A patent/JP5873222B2/ja active Active
- 2013-09-06 WO PCT/US2013/058371 patent/WO2014042971A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US8682144B1 (en) | 2014-03-25 |
US20140079372A1 (en) | 2014-03-20 |
WO2014042971A1 (en) | 2014-03-20 |
EP2896043A1 (en) | 2015-07-22 |
JP2015536062A (ja) | 2015-12-17 |
EP2896043B1 (en) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5873222B2 (ja) | ソーシャルメディアビデオのインターストリーム音声同期化 | |
JP7503629B2 (ja) | ビデオを生成する方法および装置、電子デバイス、ならびにコンピュータ読取可能媒体 | |
JP2022523606A (ja) | 動画解析のためのゲーティングモデル | |
JP2014139734A (ja) | 情報処理装置および方法、並びにプログラム | |
CN110111808B (zh) | 音频信号处理方法及相关产品 | |
KR20070118635A (ko) | 오디오 및/또는 비주얼 데이터의 서머라이제이션 | |
TW202114404A (zh) | 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質 | |
JP6039577B2 (ja) | 音声処理装置、音声処理方法、プログラムおよび集積回路 | |
WO2023093356A1 (zh) | 图像生成方法及装置、电子设备和存储介质 | |
JP7355929B2 (ja) | ビデオ生成方法、装置、電子装置及びコンピュータ読み取り可能な媒体 | |
JP2022549719A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN114222196A (zh) | 一种剧情解说短视频的生成方法、装置及电子设备 | |
WO2023040520A1 (zh) | 视频配乐方法、装置、计算机设备和存储介质 | |
Vrysis et al. | jReporter: A smart voice-recording mobile application | |
Gupta et al. | Modeformer: Modality-preserving embedding for audio-video synchronization using transformers | |
TW201638608A (zh) | 使用音訊信號於裝置間之距離量測的技術 | |
Okaba et al. | An automated location detection method in multi-storey buildings using environmental sound classification based on a new center symmetric nonlinear pattern: CS-LBlock-Pat | |
US10108254B1 (en) | Apparatus and method for temporal synchronization of multiple signals | |
Rascon et al. | Acoustic interactions for robot audition: A corpus of real auditory scenes | |
Zhang et al. | Vision‐audio fusion SLAM in dynamic environments | |
US12033619B2 (en) | Intelligent media transcription | |
JP2017521638A (ja) | オーディオ信号を用いるデバイス間の距離の測定 | |
JP2006228162A (ja) | 情報処理装置およびプログラム | |
JP2014112190A (ja) | 信号区間分類装置、信号区間分類方法、およびプログラム | |
CN113488083A (zh) | 数据匹配方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150908 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150929 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5873222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |