JP5873222B2

JP5873222B2 - ソーシャルメディアビデオのインターストリーム音声同期化

Info

Publication number: JP5873222B2
Application number: JP2015531978A
Authority: JP
Inventors: チャン，ジャンヤン; コカラム，アニル; ムケルジー，デバーガ; クロフォード，アンドリュー・ジョセフ; ケリー，ダミアン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-09-17
Filing date: 2013-09-06
Publication date: 2016-03-01
Anticipated expiration: 2033-09-06
Also published as: JP2015536062A; WO2014042971A1; EP2896043B1; US20140079372A1; EP2896043A1; US8682144B1

Description

本開示は、一般に、信号を同期化する方法に関する。さらに具体的に言えば、本開示の態様は、記録の音声機能を使用した複数のビデオ記録の同期化に関する。

21世紀の幕開け直前以来、平均的消費者による音声およびビデオのコンテンツ製作の割合は、そうしたコンテンツを整理するシステムの可用性を超えて増加してきた。個人用メディア記録装置（例えば、スマートフォン）の飛躍的な数の増大および品質向上に伴い、人々がコンサート、スポーツイベント等の様々な社会的イベントで音声やビデオを記録することは一般的なことになってきた。ところが、記録したものを簡単な方法で共有することは依然として困難なままである。ソーシャルメディアサイトは、ユーザーに記録したものをアップロードして、他者に記録したものを閲覧してもらうよう示すための場を提供しているが、共有されたイベントの場合には、この機能性はほとんど偶発的なものであって、デザインによるものではない。

一つの重要な技術は、どうしたらそれぞれの記録を互いに時間的に関連付けることができるかを解決する収集システムの能力である。それは何故かといえば、ユーザーは一般にイベントを短い断片としてのみ記録し、モバイル機器間の「ハードウェア」の同期化という考えは存在しないためである。また、数多くのモバイル機器は、時間の計測をそのビデオストリームには組み込まない。数多くのユーザーが参加するコンサートなどの大規模なイベントでは、それらのユーザーの機器が集合的に、イベント時間全体を通したイベントの完全な記録だけでなく、かなり高い可能性で異なる視点からのイベントの完全な記録を持ちうる。ところが、ユニバーサル「クロック」（またはその等価物）を参照しなければ、記録されたデータをこのように（例えば、完全なイベントの記録として）閲覧することは不可能である。

「ソーシャル」ビデオ（例えば、ユーザーが撮ってソーシャルネットワークを介して共有したライブコンサート、スポーツイベント等のビデオクリップ）という状況においては、ビデオ同期化のためのしっかりとしたデザインの達成には、こうしたソーシャルビデオに固有の特性によって提示されるいくつかの課題を克服することが関与する。例えば、ソーシャルビデオは、音質が悪く、カメラの解像度が低い傾向にあり、ビデオが撮影された環境による局所的な雑音があり、極端なカメラぶれはよくある問題である。

ユニバーサルクロックへの参照を創出することで、また各ユーザーは他のユーザーの記録を見ることができるだけでなく、他の誰かがそのイベントを記録していたのと同じ時間に何を見たり聞いたりしていたかがわかるようになる。基本的に、メディア信号のみを使用して、様々な記録間での時間オフセットを解決しうる技術があれば、単一の参照時系列上にすべての記録を整列させることができる。その時点から、自動または手動の編集が実現可能なものとなる。

複数のカメラを使用してイベントを記録するという考えは、映画産業で長く使用されてきた。その産業では、「ヒーロー（hero）」またはメインのカメラがあり、異なる視点からシーンを撮影する重要性の低い「ウィットネス（witness）」カメラを伴うシーンがそれに続くことが一般的である。2005年以来、そのシーンについての3次元情報の取り込みを助けるためにウィットネス・ビュー（witness view）を使用することが一般的となってきた。これにより、ポストプロダクションにおけるさらなる創造性が許容される。セット上で、数多くのプロ用カメラは、各カメラからの各フレームが同時に記録されていること
を確保し、タイムスタンプがわかっており、画像に沿って記録される、ハードウェア信号によって「ゲンロック」される。セミプロのシナリオでは、「ゲンロックされた」カメラは高価であり、あまり頻繁には使用されず、したがって、最近のアプローチでは、「ゲンロック」されていない場合でも、様々な信号間の時間的なオフセットをどのように解決するかの探索がなされるようになってきた。

「カチンコ」のカタッという音が、複数のカメラビュー整列させるために編集者によって時々使用される。シーンに音源を配置し、記録間で音声信号を比較することによりそれをビューの同期化に使用する、いくつかのアプローチが考慮されてきた。他では、シーンそれ自体の役者の発話を使用することが考慮されてきた。

単一のイベント（例えば、スポーツイベント、コンサート、市民集会等）について、数百あるいは数千の記録がユーザーによってアップロードされるとすると、すべての記録間の時間シフトを自動的に解決する能力を持つことで、互いの記録の整列が可能となる。

要約
この要約は、本開示のいくつかの態様の基本的な理解を提供するために、単純化した形態での一連の概念を紹介するものである。この要約は、開示の広範な概要ではなく、開示の主要または重要な要素を特定したり、あるいは開示の範囲を線引きしたりする意図はない。この要約は単に、下記に提供した詳細な説明の前置きとして、開示の概念の一部を提示するものである。

本開示の一実施形態は、音声信号を同期化する方法に関し、その方法は、音声信号のペアを整合させて、対応するビデオ記録のペア間の時間オフセット候補を推定する段階と、対応する音声信号のペアの特徴に基づき、ビデオ記録の各ペアのそれぞれの時間オフセット候補に、信頼度測定を割り当てる段階と、音声信号のすべてのペアの時間オフセット候補を組み合わせて、対応するそれぞれのビデオ記録について、任意の参照時系列に対しての最終的な時間オフセットを推定する段階とを含む。

別の実施形態では、音声信号のすべてのペアの時間オフセット候補の組み合わせ段階には、時間オフセット候補に基づき確率分布を生成する段階と、ビデオ記録のペアのグラフ表示に基づき、反復技術を使用してそれぞれの最終的時間オフセットを推定する段階とが含まれ、ここで、反復技術では、すべての時間オフセット候補全体について、確率分布を最終的確率分布に組み込む。

開示の別の実施形態は、多数のビデオ記録を同期化する方法に関連し、この方法は、少なくとも一対のビデオ記録間の時間オフセット候補を生成する段階と、少なくとも一対のビデオ記録の音声信号に基づき、信頼度測定をそれぞれの時間オフセット候補に割り当てる段階と、時間オフセット候補と割り当てられた信頼度測定を組み合わせて、少なくとも一対のビデオ記録間の最終的時間オフセットを推定する段階とを含む。

開示のその他の実施形態では、本書で説明した方法には、音声信号のペアを整合する段階が、時間領域での信号ペア間の相関関数を生成する段階を含むこと、音声信号のペアを整合する段階が、信号ペア間の位相相関を使用して相関関数を生成する段階を含むこと、音声信号のペアを整合する段階が、各信号の分光写真に基づき相関関数を生成する段階を含むこと、ビデオ記録の各ペアのそれぞれの時間オフセット候補に信頼度測定を割り当てる段階が、信頼度測定を任意の単一ペア間での選択したグループの整合に割り当てる段階を含むこと、および/または信頼度測定が、傾斜、絶対高さ、相対高さ、および選択したグループのピークの変化の測定値を組み合わせて生成されることなどの追加的特徴のうち一つ以上を任意で含みうる。

本開示のさらなる応用範囲は、下記に提供した詳細な説明から明らかとなる。ただし、当然のことながら、当業者にとって発明の精神や範囲内での様々な変更や改造がこの詳細な説明から明らかとなるため、詳細な説明および具体的な例は、好ましい実施形態を示すものである一方で、例証の目的でのみ提供するものである。

本開示の、これらおよびその他の目的、特徴および特性は、添付した請求の範囲および図表と併せて下記の詳細な説明を研究することで、当業者にとってさらに明らかとなり、そのすべてはこの明細書の一部を形成する。図表において、
図1は、本書で説明した一つ以上の実施形態を実施しうる、複数シーケンスの同期化問題の例を図示したブロック図である。図2は、図1で示した複数シーケンスの同期化問題のグラフ表示であり、ここでノードは、本書で説明した一つ以上の実施形態により、ビデオシーケンス間の整合を表し、エッジは整合間での依存性を表す。図3は、本書で説明した一つ以上の実施形態により、同一のイベントの複数の記録を同期化する方法の一例を図示したフローチャートである。図4は、本書で説明した一つ以上の実施形態により、音声信号を整合するための方法の一例を図示したフローチャートである。図5は、本書で説明した一つ以上の実施形態により、確率伝搬法アルゴリズムの再公式化の一部としての、ガウス混合としてのオフセット確率変数のモデル化の例を図示する。図6Aは、本書で説明した一つ以上の実施形態により、確率伝搬法アルゴリズムの再公式化の一部としての、個別オピニオンを統合するための仕組みの一例を図示したグラフ表示を集めたものである。図6Bは、本書で説明した一つ以上の実施形態により、確率伝搬法アルゴリズムの再公式化の一部としての、個別オピニオンを統合するための仕組みの別の例を図示したグラフ表示を集めたものである。図7は、本書で説明した一つ以上の実施形態により、確率伝搬法アルゴリズムの一部としての、メッセージの計算の一例を図示する。図8は、図2に示すグラフ表示でのノードでの信頼度を更新する過程の一例を図示する。図9は、図2に示すグラフ表示でのノードでの隣接するノード間のメッセージを更新するための過程の一例を図示する。図10は、本書で説明した一つ以上の実施形態により、ガウス混合で余分なコンポーネントを取り除くための過程の一例を図示する。図11は、本書で説明した一つ以上の実施形態により、複数のビデオ記録の同期化のために配列したコンピューティング装置の一例を図示したブロック図である。

本書で提供した見出しは、便宜を図る目的のみであり、必ずしも請求した発明の範囲または意味に影響するものではない。

図表において、同一の参照番号および任意の頭字語は、理解を容易にし、および便宜を図るために、同一または類似した構造または機能性を持つ要素または行為を特定するものである。図表については、下記の詳細な説明の過程において詳細に説明する。

発明の詳細な説明
ここで本発明の様々な例を説明する。以下の説明は、これらの例の説明を完全に理解して実施可能にするための具体的な詳細を提供する。ただし、当業者は多くのこれらの詳細がなくとも実施可能であることを理解する。同様に、当業者は発明が、本書では詳細に説明されていないその他多くの明らかな特徴を含むことも理解する。さらに、一部の公知の構造または機能は、関連する説明を不必要に不明瞭にすることを避けるために、下記に表
示や詳細な説明がなされていないこともある。

本開示の実施形態は、同一イベントの複数のビデオシーケンスを同期化する方法に関する。特に、本開示は、同一イベントのビデオ記録（例えば、ビデオクリップまたはシーケンス）の音声信号をペアで整合するために可能性のある時間オフセットをとって、それらを組み合わせて、それぞれの記録のペア間で最も正確な時間オフセットを得る、アルゴリズムの設計を説明する。本書でさらに説明するとおり、各ペアでの整合のための考えらえるそれぞれの（例えば、候補の）時間オフセットには、そのシステムが記録のペアについて特定の時間オフセットがどれだけ信頼できるかに応じて、信頼度測定が割り当てられる。

注目すべきは、本開示は、音声信号、ビデオ信号、または両方を混合したものを含め、数多くのペアの信号の中から、可能性のある整合を組み合わせるための方法および技術を説明していることである。本書で提示した組み合せアルゴリズムは、確率分布について演算し、したがってそのアルゴリズムに関与する信号源は、さほど重要でない。したがって、数多くの実施形態および例は、特定の単一タイプの状況で説明するが、当然のことながら、特定の単一タイプは例証することのみを目的とするもので、本開示の範囲を限定する意図は全くない。

1. 複数シーケンス同期化：方法の概要
図1は、本書で提示された方法で対処されている複数シーケンスの同期化問題の一例を図示する。図1に示す複数シーケンスの同期化問題は、4つのビデオ記録（「ビデオシーケンス」、「ビデオクリップ」、およびこれに類するものと言われることある）101-104を含み、複数の信号を同期化する方法の様々な実施形態および特徴についての以下の説明のための状況を提供する。

複数のビデオシーケンスを同期化する単純なアプローチは、最適な整合のペアのビデオ記録101-104をとって、残りの記録を有益ではないものとして拒否する。ただし、例えば、記録時に、ビデオ録画101を記録するユーザーが、ビデオ録画102および103を記録するユーザーから離れて位置しているものの、ビデオ録画104を記録するユーザーに近いというシナリオを考慮する。さらに、ビデオ録画104を記録するユーザーは、ビデオ録画102および103を記録するユーザーの近くに位置していた。こうしたシナリオでは、遠く離れていることで、必ずしも同じ音声環境を共有しているとはいえないため、ビデオ記録101と104の間の相関は低い可能性が高い。ゆえに、101の周辺の局所的な音声は、104の周辺とは異なる可能性があり、そのため、そのペアで効果的なオフセット測定値を生じるためのそれらの間の相関は低すぎる可能性がある。ただし、本書で説明した同期化方法に従い、例えば、ビデオ記録101と102の間、およびビデオ記録102と104の間の相対的なオフセットを使用して、ビデオ記録101と104の間の時間オフセットが推測できる。これらのケースでは、記録は、共有した類似した音声環境（互いに近くにある）を持つことになり、そのため、それらの間の相関によって、有用な時間オフセット情報をより適切に得ることができる。

下記にさらに詳しく説明するとおり、本開示は、同一イベントのビデオ記録間のペアでの整合をすべてとり、それらを形式的に組み合わせて、それぞれの信号のペア間の最も正確な時間オフセットを得る方法を提供する。以下のセクションは、ペアでの整合、信頼度推定、および情報の組み合わせといった、3段階での同期化の方法を提示する。ただし、当然のことながら、方法は、3つの段階を含むものとして提示されるが、これは単に明瞭さのためであり、開示の範囲を限定する意図は全くない。

さらに、以下のセクションでは、図3に図示したプロセスの流れ図を参照する。
1.1. ペアでの整合
プロセスはステップ300で開始され、そこで、各記録の音声信号が一つおきの記録と整合される。例えば、図1を参照して、ビデオ記録101-104のそれぞれの音声信号が互いに整合されて音声記録のペアが形成される。例えば、「ビデオ1」101の信号が、「ビデオ2」102の信号、「ビデオ3」103の信号、および「ビデオ4」104の信号104と整合され（図1で、それぞれ「整合1-2」、「整合1-3」、および「整合1-4」で表されている）、「ビデオ2」102の信号が、「ビデオ3」103の信号および「ビデオ4」104の信号と整合され（図1で、それぞれ「整合2-3」および「整合2-4」で表されている）、ならびに「ビデオ3」103の信号が、「ビデオ4」104の信号と整合される（図1で、「整合3-4」として表されている）。

ステップ300で2つの音声信号を整合するために、当業者に知られている様々な方法のうち任意の方法を使用しうる。方法の一例は、2つの記録の音声信号の間（例えば、図1に示すとおり、ビデオ記録101およびビデオ記録102の音声信号間）の相関関数全体を単に測定し、およびその相関関数のピークが、2つの信号間の時間オフセットに対応する。方法の別の例は、位相相関であり、これは、音声信号のペアを整合する目的での複数チャネルの音声信号処理で使用される。

図4は、本開示の少なくとも一つの実施形態により、音声信号の整合（例えば、図3に表示したプロセスのステップ300での）に使用される方法の一例を図示したものである。ステップ400では、整合プロセスは、2つの時間領域音声信号のそれぞれの分光写真を推定することにより開始される。次にプロセスはステップ405に移行し、ここでそれぞれの信号の2-D分光写真間の相関が測定される。例えば、少なくとも一つの配列では、スペクトル漏れを防止するために、20ミリ秒（ms）の分析窓がハニング窓関数と共に使用される。ステップ405では、2つの信号についての相関関数は、一つの信号の分光写真を20ms間隔で撮影し、およびそれを5msの粒度を持つ他の信号の20ms間隔の分光写真と相関付けることにより、生成される。ステップ410では、ステップ405で生成された相関関数が検査され、トップのN相関ピークに対応するN時間オフセット（ここで「N」は任意数）が抽出される。少なくとも一つの実施において、N = 5である。下記にさらに詳細に説明するとおり、これらのN時間オフセットは、整合した音声信号のペア間の可能性のある時間オフセットを表す。

1.2. 信頼推定
図3に図示したプロセスを再び参照するが、音声記録の各ペアについて、ステップ300は、図4に示す整合プロセスについて上述のとおり、記録間での一組のN可能性のある時間オフセット（例えば、時間オフセット候補）を得る。ステップ305では、信頼度測定が、ステップ300でのそれぞれのペアによる整合について推定されたそれぞれの時間オフセット候補に割り当てられる。それぞれの時間オフセット候補に割り当てられた信頼度測定は、その方法が特定の時間オフセットが関与する信号のペアについてどの程度の信頼性で正しいものであるかの測定である。

少なくとも一つの実施形態で、この「信頼度測定」は、信号のペアについて生成された相関関数（例えば、図4に示すプロセスのステップ405で生成された相関関数）の一つ以上の以下のコンポーネント（例えば、特性）に依存する：（i）他の時間オフセット候補に対応する他のピークと比較した、時間オフセット候補に対応するピークの相対的高さ（例えば、ピークの高さの最大ピークの高さに対する比）、（ii）時間オフセット候補に対応するピークの絶対的高さ（例えば、ピークの絶対的高さが、正規化された相互相関測定から直接測定される場合）、（iii）時間オフセット候補に対応するピークの鮮鋭度（例えば、鮮鋭度がピークでの平均傾斜により測定されうる場合）、および（iv）Nオフセット候補に対応するNピークの全体的な分散。

当然のことながら、上述の信頼度測定は、本開示の方法に従い利用されうる信頼度測定の一例にすぎない。その他数多くの信頼度測定も、上述の信頼度測定に加えて、またはその代わりに使用されうる。例えば、信頼度測定は、時間オフセット候補に対応するピークの高さ、および/またはピークの幅に基づきうる。

さらに、少なくとも一つの実施形態で、信頼度測定は、上述のコンポーネント（i）-（iv）の重み付き組み合わせとしうる。例えば、信頼度測定は、それぞれ0.5、0.3、0.1、および0.1の重み条件のコンポーネント（i）-（iv）の組み合わせとしうる。別の実施形態において、異なる重み条件を信頼度測定のコンポーネントに割り当てることも、または一つ以上のコンポーネントに重み条件を割り当てて、残りのコンポーネントには割り当てないこともできる。

1.3. 情報の組み合わせ
ステップ305で、それぞれのペアによる整合について、信頼度測定が時間オフセット候補のそれぞれにいったん割り当てられると、図3に図示したプロセスはステップ310に移行し、整合したすべての記録のペアの時間オフセット候補が組み合わされて、例えば参照時系列に対するそれぞれの音声信号についての最終的な時間オフセットが測定される。

開示の少なくとも一つの実施形態で、方法は、上述のペアによる整合の情報を組み合わせるのに、確率伝搬法（BP）フレームワークをもとに公式化されたアルゴリズムを使用する。以下のセクションでは、確率伝搬法におけるアルゴリズムの基礎を含め、このアルゴリズムの詳細を説明する。以下において、後述のアルゴリズムの様々な特徴を図示した図5〜10を参照する。

下記にさらに詳細に説明するとおり、アルゴリズムの実行の最終結果は、関与する記録のペア間での様々な時間オフセットにおける信頼度を定義する、各ノードでの「信頼度」の分布が作成されることである。各ノードで最も大きな信頼度を持つ時間オフセットは、記録のペア間での最適な（例えば、最も正確な）時間オフセットとして選択される。

2. 複数シーケンスの同期化問題のグラフ表示
図1で図示した複数シーケンスの同期化問題は、図2に図示したものなどのグラフ表示を使用して公式化ができ、ここでそれぞれの最高点（本書で「ノード」と言う）は確率変数を表す。複数シーケンスの同期化問題のグラフによる公式化において、それぞれのノード（図2でm12、m13、m14、m23、m24、およびm34として識別）は、ビデオ記録101-104のうちの2つの間の整合を表す。例えば、図1および2を参照するが、ノードm24は、ビデオ記録102およびビデオ記録104の間の整合を表す。さらに、それぞれのノード（例えば、ノードm12、m13、m14、m23、m24、およびm34のそれぞれ）が表す確率変数は、それぞれのペアによる整合の時間オフセットである。例えば、ノードm24は、ビデオ記録102およびビデオ記録104の間の時間オフセットを表す。

図2に示す複数シーケンスの同期化問題のグラフ表示で、2つのノード（ノードm12、m13、m14、m23、m24、およびm34のうち2つ）の間のエッジ210は、対応する2つの整合の間に依存性があることを示す。少なくとも図示した公式化の例において、それらが1つのビデオ記録（例えば、図1に示すビデオ記録101-104のうち一つ）を共通して持つ場合に、2つの整合は依存していると考えられる。例えば、「整合1-3」（これは、ビデオ記録101およびビデオ記録103の間の整合を表し、図2でノードm13として識別されている）は、共通のビデオ記録103を共有しているため、エッジ 210によって「整合2-3」（これはビデオ記録102およびビデオ記録103の間の整合を表し、図2でノードm23として識別されている）に接続されている。

図2で、「観測」および「未観測」という用語は、アプリオリが存在する（そのため変化しない）確率分布を含むノードと、推定されることになる確率分布または「信頼度」を表すノードとを区別するためにのみ使用される。ゆえに、整合1-4に対応する「観測ノード」220は、整合1-4に対応する「局所的証拠」ノードを意味し、これによって、ビデオ記録101および104に対応する信号について、分光写真間の相関から5つの時間オフセット候補を選択することによって導かれた確率分布が得られる。整合1-4に対応する「未観測ノード」230は、接続された他のノードだけでなく、「局所的証拠」または「観測ノード」からの様々な「メッセージ」確率を使用して整合1-4で計算された信頼度となる。

3. 確率伝搬法の再公式化
確率伝搬法（BP）は、グラフモデル（例えば、図2に示す複数シーケンスの同期化問題のグラフ表示）上で推論を実行するための強力なメッセージ伝達のアルゴリズムである。確率伝搬法は、任意の観測ノード220を条件として、それぞれの未観測ノード230の周辺分布の計算に使用できる。以下のセクションは、上述の複数シーケンスの同期化問題に適した、確率伝搬法フレームワークの再公式化を提供する。

3.1. オフセット確率変数のモデル化
図3および4に図示したプロセスについて上述のとおり、音声記録のそれぞれのペアによる整合について一組の時間オフセット候補が生成される。さらに、それぞれの時間オフセット候補は、割り当てられた信頼度測定であり、これは、少なくとも一部の実施形態では、0〜100の範囲としうる。それぞれのペアによる整合についての情報は、その分布がガウス混合である確率変数としてモデル化できる。

式中、μ_k,σ_k ²,π_kは、それぞれk番目のガウスコンポーネントの平均、分散、および重みである。Kは、混合体中のガウスコンポーネントの数であり、これは少なくとも一つの実施において、5に設定される。ガウス混合としてのペアによる整合情報のモデル化の一例を図5に図示する。

3.2. 局所的証拠
図2に図示したグラフ公式化を参照するが、局所的証拠φ_i(χ_i)は観測ノード220である。それぞれのノードiについて、図3および4について上述のペアによる同期化アルゴリズムは、対応する整合について次の一組の時間オフセットを生成すると想定される：

ここで、c_kは、信頼値k番目のオフセットであり、オフセットはc₁>c₂>c₃>c₄> …等となるように並べ替えられる。本開示のBP再公式化で、ノードiの局所的証拠、φ_i(χ_i)は、以下のとおり、K = 5のコンポーネントのガウス混合の値をとる。

ここで、t_kは、k番目に高い信頼度測定を持つオフセットのタイムスタンプ、σ²であり、定数値（例えば、0.5）をとり、π_kは、k番目のガウスコンポーネントの重みである。その上、π_kは、次の正規化された信頼値として設定される：

3.3. オピニオンをリニアオピニオンプールと統合
元のBP公式化において、信頼度およびメッセージは、独立したオピニオンプールの仕組みを使用して計算され、その一例を図6Aに示す。独立したオピニオンプールの仕組みで、集合的なオピニオンは、個別のオピニオンの積である：

ただし、方程式（3）および（4）での上述の公式化は、本開示の問題の公式化には適さない可能性がある。例えば、2つのオフセットオピニオンが統合される図6Aに図示したシナリオでは、そのうち一方は信頼でき、他方は信頼できない。示された2つの分布の積は、ピークが下がっただけでなく、水平方向にも移動した結果を生成する。したがって、下記にさらに詳細に説明するとおり、本開示の方法は、水平方向の移動は最終的時間オフセットの変化を示すため、これが発生するのを防止するよう設計される。

図6Bで図示したグラフ表示を参照すると、本書で説明した方法は、オフセットオピニオンの一方が信頼でき、他方が信頼できないときに、結果的なピークを維持するために、リニアオピニオンプールの仕組み（上述し図6Aに図示した独立したオピニオンプールの仕組みではなく）を採用している。リニアオピニオンプールの仕組みで、集合的なオピニオンが、個別のオピニオンの和を使用して計算される。

ここで、α_iは、隣接するメッセージから入ってくる情報の局所的証拠間の重みのバランスをとるパラメータである。少なくとも一つの実施において、α_iは、以下のとおり計算される。

ここで、π₁=max{π_k}は、最も高いガウスコンポーネント（例えば、上記の方程式（2）によって提供されたもの）の重みである。

3.4. メッセージの計算
本開示のBP公式化に従い、ノードiからノードjまでのメッセージは、次の方程式を使用して計算される。

ここで、パラメータα_iは、上に提示した方程式（6）でのとおりに計算でき、N_iは、ノードiに接続されたノードの組で、およびノードqは、ノードiおよびノードjに共通した隣接ノードである。

本書で説明した方法の一つ以上の実施形態によるメッセージの計算は、2つのステップを含む。第一のステップは、ノードiの局所的証拠およびノードjを除きノードiに隣接するすべてのノードから入って来るメッセージを使用して、ノードiでの情報を更新することである。結果は、ガウス混合である。第二のステップは、ノードiおよびノードjの両方に接続されたグラフ表示内の唯一のノードである第三のノードpを探すことが含まれる。例えば、ノードiが、ビデオ「x」およびビデオ「y」の間の整合を表し、かつノードjが、ビデオ「x」およびビデオ「z」の間の整合を表す場合には、ノードpは、ビデオ「y」およびビデオ「z」の間の整合を表すノードとなる。

上記2つのガウス混合により以下が与えられる：

は、ノードqでの信頼度であり、および

4. 信頼度およびメッセージの初期化
確率伝搬法の反復が開始される前に、信頼度およびメッセージを初期化する必要がある。ノードiでの信頼度は、単にその局所的証拠として初期化される：

さらに、メッセージは、次の方法で初期化される：

ここで、ノードkは、ノードiおよびノードjに共通して隣接するノードである。
5. 信頼度およびメッセージの更新
本書で提示されているアルゴリズムの毎回の反復時、信頼度およびメッセージの両方が更新される。少なくとも一つの実施形態で、信頼度は方程式（5）を使用して更新される。図8は、ノードiでの信頼度の更新について全体的なプロセスを図示する。図5を参照して、ノードiで更新された信頼度は、（1）局所的証拠φ_i(χ_i)（重みがα_i）と、（2）ノードm_ji(χ_j)jに隣接するすべてのノードから来るメッセージの重み付きの和である。

一つ以上の実施形態によれば、メッセージ更新プロセス（例えば、方程式（7）で提供のとおり）は、2つの別個の段階を含む。図9は、ノードiからノードjへのメッセージ更新
の全体的なプロセスを図示する。第一の段階で、ノードiからノードjにメッセージを更新するために、ノードiについての情報は、まずその局所的証拠φ_i(χ_i)を使用して、同様に、ノードjを除くノードiに隣接したすべてのノードからのメッセージを使用して、更新されなければならない。第二の段階は、ノードiおよびノードjの両方に共通に隣接するノードkを識別する。ノードpでの信頼度、b_p(χ_p)、ならびにノードiについての更新済み情報を用いて、2つガウス混合の和が、最終的な更新済みメッセージを得るために使用される。

6. ガウス混合: 余分なコンポーネントの除去
上述の、および図8および9で図示した更新プロセス中、ガウス混合のサイズは成長し続ける。こうした成長は、潜在的にメモリ問題につながる可能性があるため、本書で説明した方法は、固定数のガウス混合のみを保つことにより、余分なコンポーネントの除去を実行するよう設計しうる。例えば、確率分布（Z）が多くの局所的モードを持つと仮定すると、これは、信頼度および様々なメッセージを計算するケースとなる。次に、ガウス混合の数が5に固定されている場合、本書で説明した方法は、所定の確率分布Zから最も高いピーク5つを検出し、それらのピークを最終的な5つの混合体の平均値として使用する。次に、方法は、これら5つのガウスコンポーネントの重み、π_kを正規化し、それらの重みの和が1.0になるようにする。次に、それぞれのガウスコンポーネントの分散が、以下のとおり設定される。

ここで、π_kはk番目のガウスコンポーネントの重みであり、βは定数のパラメータ（例えば、0.78に等しい）である。余分なコンポーネントの除去プロセスの一例を図10に図示する。

7. 最終アルゴリズム
本書で説明した一つ以上の実施形態に従い、本書で公式化したアルゴリズムの全体的なプロセスは、以下のとおりである：
（i）方程式（1）を使用した局所的証拠の計算（例えば、「観測ノード」から発生する確率分布メッセージ）、
（ii）方程式（8）を使用した、グラフの各エッジ内のメッセージの計算、
（iii）方程式（5）を使用した信頼度の更新、および
（iv）方程式（7）を使用した、各ノードでの確率を組み合わせることによるメッセージの更新。

代替的な実施形態は、多方向の直接整合の使用を含みうる。例えば、網羅的なペアでの整合の相関関数のすべての中から最適な整合を選択しうる。ただし、こうしたアプローチでは、必要なコンピュータの能力が高くなる。

図11は、複数のビデオ記録の音声信号のペアによる整合を形成し、対応する音声ペアの特徴に基づき記録の各ペア間の一組の時間オフセット候補を抽出し、特定の時間オフセット候補が記録のペアについて正しい信頼のレベルに基づき、信頼度測定をそれぞれの時間オフセット候補に割り当て、およびすべての時間オフセット候補（信頼度測定が割り当て済み）を組み合わせて、本開示の一つ以上の実施形態に従い各記録ペア間の最も正確な時間オフセットを得るために配列された、コンピューティング装置1100の一例を図示したブ
ロック図である。非常に基本的な構成1101で、コンピューティング装置1100は、一般に一つ以上のプロセッサ1110およびシステムメモリ1120を含む。メモリーバス1130は、プロセッサ1110とシステムメモリ1120の間の通信に使用しうる。

望ましい構成にもよるが、プロセッサ1110は、マイクロプロセッサ（μP）、マイクロコントローラ（μC）、デジタル信号プロセッサプロセッサ（DSP）、またはその任意の組合せを含む任意のタイプとすることができるが、それに限定されない。プロセッサ1110は、レベル1キャッシュ1111およびレベル2キャッシュ1112、プロセッサコア1113、およびレジスター1114などの一つ以上のレベルのキャッシュを含みうる。プロセッサコア1113は、算術論理演算ユニット（ALU）、浮動小数点演算ユニット（FPU）、デジタル信号処理コア（DSP Core）、またはその任意の組合せを含みうる。メモリコントローラ1115はプロセッサ1110と共に使用することができ、あるいは一部の実施形態においては、メモリコントローラ1115はプロセッサ1110と一体部品とすることができる。

望ましい構成にもよるが、システムメモリ1120は、揮発性メモリ（例えば、RAM）、不揮発性メモリ（例えば、ROM、フラッシュメモリなど）またはその任意の組合せを含む、任意のタイプとしうるが、それに限定されない。システムメモリ1120は、一般にオペレーティングシステム1121、一つ以上のアプリケーション1122、およびプログラムデータ1124を含む。少なくとも一部の実施形態で、アプリケーション1122は、複数のビデオ記録の音声信号のペアを整合し、それぞれの記録のペア間の可能性のあるすべての時間オフセットを組み合わせて、それぞれの記録のペア間の最も可能性の高い実際の時間オフセットを得るよう構成された、マルチシーケンスプロセッシングアルゴリズム1123を含む。マルチシーケンスプロセッシングアルゴリズム1123はさらに、対応する音声信号ペアの特徴に基づき、それぞれの記録のペア間の一組の可能性のある時間オフセットを生成し、および特定の時間オフセットが記録のペアについて正確である信頼のレベルに応じて、信頼度測定をそれぞれの可能性のある時間オフセットに割り当てるように配列される。

プログラムデータ1124は、それぞれの記録のペアについて一組の時間オフセット候補を生成し、対応する音声信号のペアの様々な特徴に基づき、信頼度測定をそれぞれの時間オフセット候補に割り当てるために有用な、整合および信頼度データ1125を含みうる。一部の実施形態において、アプリケーション1122は、それぞれ信頼度測定が割り当てられているすべての時間オフセット候補が、マルチシーケンスプロセッシングアルゴリズム1123を使用して組み合わされて、それぞれの記録のペア間での最も正確な実際の時間オフセットが得られるよう、オペレーティングシステム1121上でプログラムデータ1124を用いて演算できるように配列できる。

コンピューティング装置1100は、基本構成1101と必要な任意の装置およびインターフェースとの間の通信を促進するための、追加的な特徴および/または機能性、および追加的なインターフェースを持つことができる。例えば、バス/インターフェースコントローラ1140を、基本構成1101と一つ以上のデータ記憶装置1150との間の記憶装置インターフェースバス1141を介した通信を促進するために使用できる。データ記憶装置1150は、着脱可能記憶装置1151、着脱不可能記憶装置1152、またはその任意の組合せとすることができる。着脱可能記憶装置および着脱不可能記憶装置の例は、フレキシブルディスクドライブおよびハードディスクドライブ（HDD）などの磁気ディスク装置、コンパクトディスク（CD）ドライブまたはデジタル多目的ディスク（DVD）ドライブなどの光ディスクドライブ、ソリッドステートドライブ（SSD）、テープドライブおよびこれに類するものを含む。コンピュータ記憶媒体の例は、コンピュータ読取可能命令、データ構造、プログラムモジュール、および/またはその他のデータなど情報の保管のための任意の方法または技術で実施された、揮発性および不揮発性、着脱可能および着脱不可能の媒体を含むことができる。

システムメモリ1120、着脱可能記憶装置1151および着脱不可能記憶装置1152は、すべてコンピュータ記憶媒体の例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD-ROM、デジタル多目的ディスク（DVD）またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、あるいは望ましい情報を保存するために使用でき、およびコンピューティング装置1100によりアクセス可能なその他任意の媒体を含むが、これに限定されない。こうした任意のコンピュータ記憶媒体は、コンピューティング装置1100の一部とすることができる。

コンピューティング装置1100はまた、様々なインターフェース装置（例えば、出力インターフェース、周辺インターフェース、通信インターフェースなど）から、バス/インターフェースコントローラ1140を介した基本構成1101への通信を促進するためのインターフェースバス1142を含むことができる。出力装置1160の例は、グラフィック処理装置1161および音声処理装置1162を含み、そのいずれかまたは両方は、一つ以上のA/Vポート1163を介してディスプレイまたはスピーカーなどの様々な外部装置と通信するように構成できる。周辺インターフェース1170の例は、シリアルインターフェースコントローラ1171またはパラレルインターフェースコントローラ1172を含み、これは、一つ以上のI/Oポート1173を介して入力装置（例えば、キーボード、マウス、ペン、音声入力装置、タッチ入力装置など）またはその他の周辺装置（例えば、プリンター、スキャナーなど）などの外部装置と通信するよう構成することができる。

通信装置1180の一例は、一つ以上の通信ポート1182を介してネットワーク通信（図示せず）によって一つ以上のその他のコンピューティング装置1190との通信を促進するよう配列できるネットワークコントローラ1181を含む。通信接続は、通信媒体の一例である。通信媒体は一般に、コンピュータ読取可能命令、データ構造、プログラムモジュール、または搬送波またはその他の搬送機構などの変調データ信号でのその他のデータによって体化されることができ、任意の情報配信媒体を含む。「変調データ信号」は、その特性セットのうち一つ以上を持つか、または信号内の情報を符号化する方法で変更された信号とすることができる。一例として、また限定することなく、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および音響、無線周波数（RF）、赤外線（IR）およびその他の無線媒体などの無線媒体を含むことができる。コンピュータ可読媒体という用語は本明細書で使用される場合、記憶媒体および通信媒体の両方を含めることができる。

コンピューティング装置1100は、携帯電話、携帯情報端末（PDA）、携帯メディアプレーヤー装置、無線ウェブウォッチ装置、携帯ヘッドセット装置、アプリケーション固有の装置、または上記の任意の機能を含むハイブリッド装置などの、小規模なフォームファクターの携帯可能（またはモバイル）電子装置の一部として実施することができる。コンピューティング装置1100は、ラップトップコンピュータおよび非ラップトップコンピュータの両方の構成を含む、パーソナルコンピュータとして実施することもできる。

システムの態様をハードウェアおよびソフトウェアのどちらで実施するかにはそれほど差異は残されておらず、ハードウェアまたはソフトウェアの使用は、一般に（ただし、いつもそうとは限らず、ある一定の状況ではハードウェアかソフトウェアかの選択が重要なことがある）、コストと効率のトレードオフを表す設計上の選択である。それによって本書で説明したプロセスおよび/またはシステムおよび/またはその他の技術が影響を受けることのある様々な媒介物があり（例えば、ハードウェア、ソフトウェア、および/またはファームウェア）、また好ましい媒介物は、プロセスおよび/またはシステムおよび/またはその他の技術が配置される状況によって変化する。例えば、ある実施者が速度と正確さが最優先であると判断した場合、実施者は主にハードウェアおよび/またはファームウェア媒介物の方を選ぶかもしれず、柔軟性が最優先の場合、実施者は主にソフトウェア実施
を選ぶかもしれない。一つ以上のその他のシナリオで、実施者は、ハードウェア、ソフトウェア、および/またはファームウェアの何らかの組み合わせを選ぶかもしれない。

上述の詳細な説明では、ブロック線図、フローチャート、および/または例を使用しながら装置および/またはプロセスの様々な実施形態を記載してきた。こうしたブロック線図、フローチャート、および/または例が一つ以上の関数および/または演算を含む範囲において、そのようなブロック線図、フローチャート、または例にあるそれぞれの関数および/または演算は、広範なハードウェア、ソフトウェア、ファームウェア、または実質的にその任意の組合せによって個別的および/または集合的に実施できることが、当業者により理解される。

一つ以上の実施形態では、本書で説明した主題のいくつかの部分は、特定用途向け集積回路（ASIC）、再構築可能ゲートアレイ（FPGA）、デジタル信号プロセッサプロセッサ（DSP）、またはその他の集積形態を介して実施されうる。ただし、当業者は、本書で説明した実施形態の一部の態様は、その全体または一部において、一つ以上のコンピュータ上で実行される一つ以上のコンピュータプログラムとして（例えば、一つ以上のコンピュータシステム上で実行される一つ以上のプログラムとして）、一つ以上のプロセッサ上で実行される一つ以上のプログラムとして（例えば、一つ以上のマイクロプロセッサ上で実行される一つ以上のプログラムとして）、ファームウェアとして、または実質的にその任意の組合せとして、集積回路内に同等に実施できることがわかる。当業者はさらに、回路の設計および/またはソフトウェアおよび/またはファームウェア用のコードの記述は、本開示を踏まえての当業者の技能の範囲内に十分に収まることがわかる。

さらに、当業者は、本書で説明した主題のメカニズムは、様々な形態でのプログラム製品として配布できること、また本書で説明した主題の実例となる実施形態は、その配布を実際に行うために使用される信号を運ぶ媒体の特定タイプに関係なく適用されることを評価する。信号を運ぶ媒体の例は、フロッピー（登録商標）ディスク、ハードディスクドライブ、コンパクトディスク（CD）、デジタルビデオディスク（DVD）、デジタルテープ、コンピュータメモリなどの記録型媒体、およびデジタルおよび/またはアナログの通信媒体（例えば、光ファイバーケーブル、導波管、有線通信リンク、無線通信リンクなど）などの伝送型媒体を含むが、これに限定されない。

当業者はまた、装置および/またはプロセスを本書で記載した方法で描写し、その後、技術的手法を使用してその描写した装置および/またはプロセスをデータ処理システムに組み込むことが当技術において一般的であることもわかる。すなわち、本書で説明した装置および/またはプロセスの少なくとも一部は、適当な量の実験を通してデータ処理システムに統合されることができる。当業者は、典型的なデータ処理システムは一般的に、一つ以上のシステムユニットハウジング、ビデオディスプレイ装置、揮発性および不揮発性メモリなどのメモリ、マイクロプロセッサおよびデジタル信号プロセッサなどのプロセッサ、オペレーティングシステム、ドライバー、グラフィカルユーザーインターフェース、およびアプリケーションプログラムなどの計算エンティティ、タッチパッドまたはスクリーンなどの一つ以上の対話型装置、および/またはフィードバックループおよび制御モーター（例えば、位置および/または速度を感知するためのフィードバックや、コンポーネントおよび/または量を移動および/または調節するための制御モーター）を含む制御システムを含むことがわかる。典型的なデータ処理システムは、データコンピューティング/通信および/またはネットワークコンピューティング/通信システムに一般に見られるものなど、適切な任意の商業的に利用可能なコンポーネントを利用して実施しうる。

本書での実質的に複数および/または単数の用語の使用があった場合については、状況および/または用途に適切であるように当業者は、複数形から単数形および/または単数形
から複数形に言い換えることができる。様々な単数形/複数形の入れ替えが、明瞭化を図るために、本書で明示的に記載されている場合がある。

本書で様々な様相および実施形態を開示してきたが、当業者にとってはその他の態様および実施形態が明白である。本書で開示した様々な態様および実施形態は例証を目的とするものであり、限定的なものとする意図はなく、真の範囲および精神は下記の請求項によって示されている。

Claims

音声信号を同期化する方法であって、前記方法が、
音声信号のペアを整合して、ビデオ記録の対応するペア間の時間オフセット候補を推定する段階と、
音声信号の前記対応するペアの特徴に基づき、信頼度測定をビデオ記録のそれぞれのペアのそれぞれの前記時間オフセット候補に割り当てる段階と、
前記時間オフセット候補に基づき確率分布を生成する段階と、
ビデオ記録のペアのグラフ表示をもとに、反復技術を使用して、前記対応するビデオ記録のそれぞれについて、任意の基準時系列に対する最終的な時間オフセットを推定する段階とを含む方法であって、ここで、前記反復技術が、すべての時間オフセット候補全体について、前記確率分布を最終的確率分布に組み込み、また、グラフ表示が、それぞれペアによる音声信号の整合を表すノードを含む方法。
前記音声信号のペアの整合に、
時間領域での信号ペア間の相関関数の生成、
前記音声信号のペアの整合に、信号ペア間の位相相関を使用した相関関数の生成、および、
前記音声信号のペアの整合に、各信号のスペクトログラムに基づく相関関数の生成、
の中の少なくとも１つを含む、請求項１に記載の方法。
前記信頼度測定をビデオ記録のそれぞれのペアのそれぞれの前記時間オフセット候補に割り当てる段階に、信頼度測定を任意の単一のペア間での整合の選択グループに割り当てる段階を含む、請求項１または請求項２に記載の方法。
信頼度測定が、前記選択グループの傾斜、絶対的高さ、相対的高さ、およびピークの分散の測定値を組み合わせることにより生成される請求項３に記載の方法。
組み合わされた測定値が線形である、請求項３に記載の方法。
請求項１〜請求項５のいずれか１項に記載の方法であって、すべての前記音声信号のペアのすべての前記時間オフセット候補を組み合わせる段階が、
前記時間オフセット候補に基づき確率分布を生成する段階と、
確率伝搬法を使用して、最終的なそれぞれの時間オフセットを推定する段階とを含む、
方法。
ビデオ記録のペアについての前記最終的時間オフセットが、前記組み合わせた確率分布において最大の確立を持つ時間オフセット候補として推定される、請求項１〜請求項６のいずれか１項に記載の方法。
共通のビデオ記録を持つ場合にグラフ表示内の前記ノードが互いに接続されている、請求項１〜請求項７のいずれか１項に記載の方法。
前記確率分布が、それぞれの確率分布がガウス混合分布により概算できる推定に基づき組み合わされる、請求項１〜請求項８のいずれか１項に記載の方法。
前記最終的確率分布がそれぞれのノード間のエッジに沿って確率分布を伝搬させることにより計算され、所定のノードで伝搬されたすべての前記確率分布が組み合わされる、請求項８に記載の方法。
複数のビデオ記録を同期化する方法であって、前記方法が、
ビデオ記録の少なくとも一つのペア間で時間オフセット候補を生成する段階と、
信頼度測定を、ビデオ記録の前記少なくとも一つのペアの音声信号に基づき、それぞれの前記時間オフセット候補に割り当てる段階と、
前記時間オフセット候補に基づき確率分布を生成する段階と、
ビデオ記録の前記少なくとも一つのペア間の最終的時間オフセットを、確率分布をすべての時間オフセット候補に対して最終的な確率分布に組み込む反復技術を使用して推定する段階とを含む方法。
ビデオ記録の前記少なくとも一つのペアの音声信号を整合して、ビデオ記録の前記少なくとも一つのペア間の前記時間オフセット候補を生成する段階をさらに含む、請求項１１に記載の方法。
ビデオ記録の前記少なくとも一つのペアの前記音声信号の整合が、
時間領域での前記音声信号間の相関関数の生成、
前記音声信号間の位相相関を使用した相関関数の生成、および、
それぞれの前記音声信号のスペクトログラムの比較に基づく相関関数の生成
の中の少なくとも一つを含む、請求項１２に記載の方法。
前記信頼度測定が、ビデオ記録の前記少なくとも一つのペアの前記音声信号について生成された相関関数の傾斜、絶対的高さ、相対的高さ、およびピークの分散のうち少なくとも一つの測定値に基づき、割り当てられる、請求項１１〜請求項１３のいずれか１項に記載の方法。
反復技術がビデオ記録の前記少なくとも一つのペアのグラフ表示に基づき、また、グラフ表示が、ビデオ記録の前記少なくとも一つのペアの音声信号のペアによる整合をそれぞれ表すノードを含む、請求項１１〜請求項１４のいずれか１項に記載の方法。