JP2020127714A

JP2020127714A - ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム

Info

Publication number: JP2020127714A
Application number: JP2020009762A
Authority: JP
Inventors: アンドリューセントジョンブリスリンサイモン; Andrew St John Brislin Simon
Original assignee: Sony Interactive Entertainment Europe Ltd
Current assignee: Sony Interactive Entertainment Europe Ltd
Priority date: 2019-01-31
Filing date: 2020-01-24
Publication date: 2020-08-27
Also published as: US20200251146A1; GB2580937B; EP3690882A1; GB201901322D0; CN111494941A; US11423944B2; GB2580937A

Abstract

【解決手段】ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法を提供する。この方法は、ユーザが選択したオーディオトラックを取得することおよびビデオゲーム映像を取得することを含む。オーディオトラックに対して統計分析を実行し、オーディオトラックの各部分に関連する興奮レベルを特定する。ビデオゲーム映像に対して統計分析を実行し、ビデオゲーム映像の各部分に関連する興奮レベルを特定する。特定された興奮レベルにおける対応関係に基づいてビデオゲーム映像の部分をオーディオトラックの部分に合わせ込む。この合わせ込みに基づいてオーディオトラックの対応する部分に合わせ込まれたビデオゲーム映像の部分を含む結合オーディオビジュアルコンテンツを生成する。このようにしてビデオ映像内の穏やかでエキサイティングな瞬間をオーディオトラック内の対応する瞬間に合わせ込む。対応するシステムも提供する。【選択図】図２

Description

本開示は、ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステムに関する。

多くの場合、ビデオゲーム映像からビデオコンテンツを生成することが望ましい。例えば、ビデオゲームトーナメントの終わりに、ビデオゲームトーナメント中に発生したハイライトおよび／またはブルーパーに相当する編集ビデオを生成することが望ましい場合がある。場合によっては、同じまたは異なるビデオゲームの単一のビデオゲームセッションまたは複数のセッションでも、競技者は、単に自分のゲームプレイを見返したい場合がある。現在、ビデオゲーム映像を利用する多数のオンラインビデオチャネルがあり、そのうちのいくつかは、１０００万人超のフォロワを有している。

背景音楽を追加することで、ビデオゲーム映像から生成されたビデオコンテンツを強化することができる。例えば、ビデオゲーム映像内の特に劇的な瞬間を、音楽トラック内の対応する劇的な瞬間に合わせ込む（マッチさせる）ことが望ましい場合がある。同様に、ビデオゲーム映像内のより穏やかな瞬間を、同じ音楽トラックのより穏やかな部分に合わせ込むことが望ましい場合がある。音楽を導入することにより、多くの場合、視聴者にとってより魅力的なビデオとなる。より一般的には、競技者は、自分自身または他者のビデオゲーム映像を使用してミュージックビデオを生成したい場合がある。

通常、後処理ソフトウェアによって、ビデオゲーム映像からのビデオコンテンツの作成が容易になる。例えば、ＰＳ４は、競技者がＰＳ４でキャプチャしたゲームプレイのビデオを編集できる「ＳＨＡＲＥＦａｃｔｏｒｙ」（商標）を提供する。一般的に、このようなソフトウェアによって、ユーザは、ビデオクリップをインポートおよび編集できるとともに、インポートされたビデオクリップに付随するオーディオをインポートして、最終的なビデオを作成することができる。多くの場合、ユーザは、タイムライン内でさまざまなビデオクリップを移動およびトリミングして、ハイライトの瞬間を、インポートされたオーディオの対応するエキサイティングな部分に同期させる（同様に、ローライトの瞬間もオーディオの穏やかな部分に同期させる）必要がある。適切な態様でビデオゲーム映像にオーディオが付随しているかどうかは、通常、ユーザの判断に委ねられる。これにより、ビデオゲーム映像内で発生するハイライトの瞬間と、ユーザがそれらの瞬間に付随させることを意図したオーディオの部分との間にわずかな不一致が生じる可能性がある。

一部のビデオ編集ソフトウェアは、ビートのタイミングなど、ユーザがインポートした曲に関する情報を提供する場合がある。ユーザは、この情報を使用して、タイムライン上でビデオクリップをトリミングまたは配置し、ビデオのカットと遷移のタイミングを曲のビートに合わせることができる。しかしながら、この方法でビデオコンテンツを作成することは、ユーザにとって、依然としてやや労力のかかる処理であり、場合によっては、ビートは、必ずしも曲のセグメントが実際に曲の「エキサイティングな」部分に対応するかどうかを示すとは限らない場合がある。

本発明は、これらの問題を軽減しようとするものである。

本明細書で開示される第１の態様によれば、請求項１から１１のいずれか一項に記載のビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法が提供される。

本明細書で開示される第２の態様によれば、請求項１３から２５のいずれか一項に記載のビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステムが提供される。

本開示の理解を助け、実施形態を実施可能な方法を示すために、添付図面を例として参照する。

ビデオゲームプレイ装置の例を概略的に示す図である。本開示によるオーディオビジュアルコンテンツを生成する方法の例を概略的に示す図である。オーディオトラックのスペクトログラムの例を示す図である。オーディオトラックの２つの部分の例を示す図であり、各部分は、異なるフルネスを有する。正規分布と対応するｚスコアの例を示す図である。ビデオゲームの連続するビデオフレームの例と、それらのフレーム間のピクセル強度の差を表すフレームを示す図である。ＬＡＢ色空間の例を模式的に示す図である。ビデオゲーム映像のフレームの例と、そのフレームに対して求められたそれぞれのスコアの例を示す図である。本開示によるオーディオビジュアルコンテンツを生成するためのシステムの例を概略的に示す図である。

ビデオゲームプレイ装置の例として、図１は、Ｓｏｎｙ（登録商標）ＰｌａｙＳｔａｔｉｏｎ４（登録商標）エンターテインメント装置の全体的なシステムアーキテクチャを概略的に示す。図１に示す装置は、単なる例示であり、いくつかの実施形態において、エンターテインメント装置は、Ｓｏｎｙ（登録商標）ＰｌａｙＳｔａｔｉｏｎ５（登録商標）装置などの次世代コンソールを含み得ることが理解されよう。

システムユニット１０が設けられ、種々の周辺機器が当該システムユニットに接続可能となっている。システムユニット１０は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）２０Ａおよびグラフィックス処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）２０Ｂを含むシングルチップであるアクセラレーテッド処理装置（ＡｃｃｅｌｅｒａｔｅｄＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＡＰＵ）２０を含む。ＡＰＵ２０は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）ユニット２２にアクセスできる。

ＡＰＵ２０は、バス４０と、随意によりＩ／Ｏブリッジ２４を介して、通信を行い、Ｉ／Ｏブリッジ２４は、独立したコンポーネントまたはＡＰＵ２０の一部であってもよい。

バス４０に接続されるのは、ハードディスクドライブ３７、互換性のある光学ディスク３６Ａ上のデータにアクセスするように動作可能なＢｌｕ−ｒａｙ（登録商標）ドライブ３６などのデータ記憶コンポーネントである。さらに、ＲＡＭユニット２２は、バス４０と通信してもよい。

随意により、補助プロセッサ３８もバス４０に接続される。補助プロセッサ３８は、オペレーティングシステムを実行またはサポートするために提供されてもよい。

システムユニット１０は、オーディオ／ビジュアル入力ポート３１、Ｅｔｈｅｒｎｅｔ（登録商標）ポート３２、Ｂｌｕｅｔｏｏｔｈ（登録商標）ワイヤレスリンク３３、Ｗｉ−Ｆｉ（登録商標）ワイヤレスリンク３４、または１つ以上のユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ：ＵＳＢ）ポート３５を介して、必要に応じて、周辺機器と通信する。ＨＤＭＩ（登録商標）ポートなどのＡＶ出力３９を介して、オーディオおよびビデオを出力してもよい。

周辺機器には、ＰｌａｙＳｔａｔｉｏｎＥｙｅ（登録商標）などのモノスコピックまたはステレオスコピックビデオカメラ４１、ＰｌａｙＳｔａｔｉｏｎＭｏｖｅ（登録商標）などのワンド型ビデオゲームコントローラ４２およびＤｕａｌＳｈｏｃｋ４（登録商標）などの従来の手持ち型ビデオゲームコントローラ４３、ＰｌａｙＳｔａｔｉｏｎＰｏｒｔａｂｌｅ（登録商標）およびＰｌａｙＳｔａｔｉｏｎＶｉｔａ（登録商標）などの携帯型エンターテインメント装置４４、キーボード４５および／またはマウス４６、例えば、リモートコントロール式のメディアコントローラ４７、およびヘッドセット４８を含み得る。同様に、他の周辺機器として、マイク、スピーカ、携帯電話、プリンタ、または３Ｄプリンタ（図示せず）などが考えられる。

ＧＰＵ２０Ｂは、随意によりＣＰＵ２０Ａと連携し、ＡＶ出力３９を介して出力するビデオ画像とオーディオを生成する。随意により、オーディオは、オーディオプロセッサ（図示せず）と連携してまたはオーディオプロセッサによって生成されてもよい。

ビデオ、および随意によりオーディオは、テレビ５１に呈示されてもよい。テレビがサポートしている場合、ビデオは、ステレオスコピックでもよい。オーディオは、ステレオ、５．１サラウンドサウンド、７．１サラウンドサウンドなどのいくつかの形式のうちの１つの形式でホームシネマシステム５２に呈示されてもよい。同様に、ビデオおよびオーディオは、ユーザ６０が装着するヘッドマウントディスプレイユニット５３に呈示されてもよい。

エンターテインメント装置では、デフォルトで、ＦｒｅｅＢＳＤ（登録商標）９．０の改良版などのオペレーティングシステムが動作する。オペレーティングシステムは、ＣＰＵ２０Ａ上、補助プロセッサ３８上、またはこれら２つの組合せ上で動作し得る。

エンターテインメント装置は、ビデオゲームのプレイ中にエンターテインメント装置によって生成されたビデオを記憶するための一時バッファを備えてもよい。一時バッファは、ビデオゲーム映像の最後のＸ分を周期的に記録するように構成されたリングバッファに相当し、Ｘは、例えば、１５分に相当してもよい。

代替的または追加的に、エンターテインメント装置は、ビデオゲームのプレイ中に生成されたビデオを、例えば、Ｗｉ−Ｆｉ接続を介して、連続ビデオストリームとしてサーバに送信するように構成されてもよい。ビデオは、エンターテインメント装置が後で取得できるように、サーバにおいて記憶および処理されてもよい。上記内容からわかるように、エンターテインメント装置の外でビデオを記憶することにより、一度に１５分よりも大幅に長いゲームプレイを記録できることになる。ビデオゲーム映像の（ローカルおよび／またはリモートでの）処理について、本明細書で説明する実施形態においてさらに説明する。

エンターテインメント装置は、エンターテインメント装置で、またはエンターテインメント装置を介してプレイされるビデオゲームで発生するハイライトイベントの記録を自動的に検出およびキャプチャするように構成されたリスニングユニット（図示せず）をさらに含むか、またはそのようなリスニングユニットにアクセスできる。リスニングユニットは、例えば、機械学習を利用して、そのようなハイライトの瞬間を検出してもよい。そのようなリスニングユニットの例は、英国特許出願公開第１８１９８６５．５号明細書に記載がある。ハイライトイベントに対応するビデオクリップは、エンターテインメント装置のＲＡＭに記憶されるか、またはエンターテインメント装置と通信しているサーバから取得されてもよい。

図１で説明したエンターテインメント装置は、ビデオゲーム映像をキャプチャするために使用い得る装置の例である。

前述のように、ユーザは、ビデオゲーム映像を音楽に合わせ込むことで、より魅力的なビデオを作成したい場合がある。ただし、通常、この合わせ込み処理には少なくともある程度の手作業が必要であり、その結果、最終的なビデオが、次善のものとなる。この合わせ込みが自動的に実行され、ビデオゲーム映像の部分が興奮レベルにおいて対応する音楽の部分に合わせ込まれることが望ましい。これは、例えば、競技者が敵を倒す、試合に勝つ、車を衝突させる、爆発を引き起こすといったビデオゲーム映像内のエキサイティングな瞬間を、例えば、コーラス、クレッシェンド、ソロ、キーチェンジ等に対応する音楽の一部分に自動的に同期させることができることを意味する。同様に、ビデオゲーム映像内のそこまでエキサイティングでない瞬間（いわゆる「ローライト」）は、同じ音楽のより穏やかな部分に合わせ込むことができる。

さらに、ビデオゲーム（ビデオゲーム映像の元となるビデオゲーム）またはそのビデオゲーム映像を合わせる込むオーディオトラックについての事前の知識を必要としない方法で、この合わせ込みが可能であることが望ましい。すなわち、ビデオゲームと曲に依存しない方法で合わせ込み処理が可能であることが望ましい。そのようなビデオコンテンツを生成する方法を、図２に関連して説明する。

図２は、本発明によるオーディオビジュアルコンテンツを生成する方法の一例を示す。ここで、オーディオビジュアルコンテンツという表現は、ビジュアルコンテンツ（ＲＧＢまたはＹＵＶビデオフレームなど）およびオーディオ（音楽など）を含むビデオを表すために使用される。

最初のステップＳ２０１で、ユーザが選択したオーディオトラックが取得される。これには、例えば、ビデオゲーム映像からミュージックビデオを作成する際に、ユーザが使用したい音楽を選択することを含んでもよい。音楽は、例えば、自身のコレクションまたはＳｐｏｔｉｆｙ（商標）、ＡｐｐｌｅＭｕｓｉｃ（商標）、Ｔｉｄａｌ（商標）などの音楽ホスティングサービスから選択したオーディオトラックでもよい。場合によっては、ユーザが自身で作成した曲またはオーディオをアップロードしたかもしれない。例えば、オーディオトラックは、ｓｏｕｎｄｃａｎｖａｓ（登録商標）を使用して、ビデオゲームＤｒｅａｍｓ（商標）で生成された音楽でもよい。オーディオの選択は、後処理アプリケーション内のオプションとして提供されてもよく、それを通じて、本開示によるミュージックビデオが生成されてもよい。

いくつかの例では、後処理アプリケーションにより、ユーザが、例えば、トリミングツールを使用して、ミュージックビデオの作成に使用したい曲の一部を選択できるようにしてもよい。これは、例えば、ユーザが主にハイライトに対応する比較的短いビデオを作成したい場合に適切であり、したがって、例えば、５分のトラックを使用することは望ましくない場合がある。

さらなるまたは代替の例では、ユーザは、ビデオゲーム映像のそれぞれのセグメントに合わせる込むための複数の異なるトラックまたはトラックの部分をアップロードしてもよい。

第２のステップＳ２０２では、少なくとも１つのビデオゲームのプレイ中に少なくとも１つのビデオゲームプレイ装置によって生成された少なくとも１つのビデオが取得される。前記ビデオは、例えば、複数のＲＧＢまたはＹＵＶフレームを含んでもよい。これは第２のステップとして説明されているが、ユーザは、任意の順序でオーディオとビデオを後処理アプリケーションにインポート可能であることが理解されよう。少なくとも１つのビデオは、後処理アプリケーションにインポートするために１つ以上のビデオを選択したユーザによって取得されてもよい。このビデオは、例えば、ＭＰＥＧ４ファイルでもよく、必要に応じて、ビデオゲームのプレイ中に出力されるオーディオを分離およびミュートすることができる。

いくつかの例では、ユーザはインポートされたオーディオに合わせ込むための単一のビデオを選択してもよい。前述のように、ビデオゲームプレイ装置は、競技者のゲームプレイの最後のＸ分の単一の連続記録をキャプチャするように構成されてもよく、このビデオは、インポートされたオーディオトラックとの合わせ込みに使用されてもよい。

代替的または追加的に、この単一のビデオは、競技者自身のゲームプレイではなく、ＹｏｕＴｕｂｅ（登録商標）（商標）やＴｗｉｔｃｈ（商標）などのビデオ共有サービスを介してアクセス可能な他の競技者のゲームプレイのビデオでもよい。例えば、１人または数人の異なる競技者から、１つまたはいくつかの異なるゲームのゲームプレイを含む、後処理アプリケーションへインポート可能な比較的長いビデオを取得可能であってもよい。

いくつかの例では、ユーザは、選択されたオーディオトラックを用いてミュージックビデオを作成する際に使用されるビデオゲームのゲームプレイの複数の記録を選択してもよい。例えば、ユーザは、いくつかのビデオゲームセッションにわたって手動で（例えば、「共有」ボタンを介して）キャプチャされた、または自動的にキャプチャされたゲームプレイ内の瞬間に対応する記録のライブラリを保持してもよい。ＰＳ４の「キャプチャーギャラリー」は、これら記録を保持可能なライブラリの例である。ユーザは、例えば、先月などの長期間にわたって生成されたすべての記録を使用して、ミュージックビデオを生成したい場合がある。場合によっては、競技者は、特定のゲームからのビデオクリップを使用してミュージックビデオを生成したい場合があり、そのゲームに固有の記録を選択してもよい。

いくつかの例では、（複数の）ビデオの選択は、あるレベルの自動作成および分類を通じて容易になり得ることが理解されよう。例えば、ビデオは、ゲームと日付により分類され、ミュージックビデオの作成時にユーザが選択できるのはこれらのビデオであってもよい。さらに、選択ステップ自体は、あるレベルの自動化を含んでもよく、例えば、ユーザは、そこからミュージックビデオを生成したいゲームおよび／または期間を選択するだけでよく、対応するビデオクリップが後処理アプリケーションに自動的にインポートされる。

追加または代替の例では、複数のビデオ記録の少なくとも一部がユーザ自身のビデオゲーム映像に対応していない場合がある。例えば、ユーザは、ＹｏｕＴｕｂｅ（登録商標）（商標）やＴｗｉｔｃｈ（商標）などのビデオホスティングプラットフォームを介して提供されるビデオクリップを使用して、ミュージックビデオを生成したい場合がある。一例では、発明者らは、１５時間の「ＬｅｔｓＰｌａｙ」ビデオクリップが、３分間のオーディオトラックとの合わせ込みに適していることを発見した。

いくつかの実施形態では、ユーザは、オフラインまたはオンライン（すなわち、ｅスポーツ）ビデオゲームトーナメント用のミュージックビデオを生成したい場合がある。そのような実施形態では、後処理アプリケーションにインポートされるビデオは、トーナメントの異なる各競技者についてキャプチャされたビデオゲーム映像でもよい。これらのビデオクリップは、トーナメント中に（手動または自動で）キャプチャされ、ユーザがアクセス可能なサーバなどにアップロードされてもよい。これらのビデオクリップは、トーナメント用のミュージックビデオの生成に使用するために、後処理アプリケーションにインポートされてもよい。

一般的に、オーディオトラックとの合わせ込みに使用されるビデオゲーム映像の全長は、比較的長く、例えば、１５分以上であることが好ましい。長尺ビデオの場合、競技者は、ビデオゲーム内でより変化に富む環境やシナリオに遭遇する可能性が高くなる。つまり、これらをオーディオトラックの対応する部分に合わせ込む際に選択するハイライトとローライトの瞬間の豊富なパレットがあることを意味する。これは、少なくとも１つのビデオがゲームプレイの連続ストリームに対応する場合に特に当てはまる。一般的に、（曲に合わせ込まれた）出力ビデオの品質は、出力ビデオの作成で使用可能なビデオ映像の長さが長くなるほど高くなる。原則として、少なくとも１つのビデオの最小長さは、選択したオーディオトラックの（またはそのトリミングしたもの）長さと等しくする必要があるが、繰り返しクリップが許容される場合は短くすることができる。

要するに、より多くのビデオへアクセスすることで、オーディオとの良好な組合せを見つける機会がより多く提供されるが、任意のサイズのビデオ対して、組合せ（または後述する、所与の音楽セクションのための他部分より高いスコアを有するビデオの少なくとも一部）を見つけることができる。

図２に戻ると、第３のステップＳ２０３において、オーディオトラックに対して統計分析を実行して、オーディオトラックのそれぞれの部分に関連する興奮レベルを特定する。これは、例えば、ビート検出に基づいてオーディオトラックをそれぞれの部分に分離することを含み、各部分は少なくとも２つのビートを含む。オーディオトラックのビートを検出するためのこのような方法の例は、ＢｒｉａｎＭｃＦｅｅらによる「ｌｉｂｒｏｓａ：ＡｕｄｉｏａｎｄＭｕｓｉｃＳｉｇｎａｌＡｎａｌｙｓｉｓｉｎＰｙｔｈｏｎ」の１８〜２３ページに記載されている。一例では、各部分が４つの連続するビートを含むように、すなわち、各部分が小節に相当するように、分離されたオーディオトラックに対して４分の４拍子記号が想定されてもよい。他の例では、曲の拍子記号は、任意の適切な方法を使用したビート検出に基づいて、例えば、繰り返しパターンのビート数をカウントすることによって推定されてもよい。パターン自体は、例えば、数秒の期間にわたる低周波数帯域および随意により高周波数帯域での自己相関から検出されてもよく、さらに、帯域は、場合によっては通常の有声音声周波数範囲外である。

統計分析は、関連する興奮レベルによってオーディオトラックのそれぞれの部分を分類するために、ユーザが選択したオーディオトラックのエネルギを分析することを含んでもよい。これには、例えば、全体のスペクトログラムによって全体のオーディオトラックの特性を判定することおよびオーディオトラックの個々の部分がこの「通常の振る舞い」から閾値を超えて逸脱しているかどうかを判定することが含まれてもよい。統計オーディオ分析を実行するための手法のより詳細な例を、図３Ａ〜図４に関連して説明する。

オーディオ統計分析
図３Ａは、オーディオトラックの生成されたスペクトログラムの例を示す。図３Ａでは、ｘ軸は、複数の時間間隔を表し、ｙ軸は、複数の異なる周波数間隔（すなわち、周波数ビン）を表す。スペクトログラムの色合いは、特定の時間間隔および特定の周波数範囲での強さを表す。すなわち、スペクトログラムは複数のバケットを含み、各バケットの色合いは、その特定の周波数範囲および特定の時間間隔でのオーディオトラックの強さを表す。明るい色合いは、強さが大きいことを表し、暗い色合いは、強さが小さいことを表す。一例では、スペクトログラムは、１２８個の周波数範囲に対応する１２８個の垂直バケットを有してもよい。

図３Ａに示されている例では、オーディオトラックの強い部分が周波数範囲の低域と中域（例えば、２０から２０，０００Ｈｚ）に集中しており、高周波数範囲では強さが小さいことがわかる。当該技術分野では、異なる周波数がオーディオ信号の強さに寄与する程度を「フルネス」と記述することがある。いくつかの（またはすべての）周波数からの強さに対する寄与度が低い信号は、フルネスが低いと記述される。複数の異なる周波数で目立って大きい強さを示す信号は、フルネスである（またはフルネスが高い）と記述される。

図３Ｂは、異なるフルネスを持つオーディオトラックの２つの異なる部分の例を示す。図３Ｂでは、右側のオーディオ信号の部分は、左側のオーディオ信号の部分よりもフルであると記述される。一般的に、オーディオ信号のフルの部分は、オーディオトラックのエキサイティングな部分に相当し、一方、小さいフルの部分は、オーディオトラックの穏やかな部分に相当する。オーディオトラックの異なる部分のフルネスを判定することにより、それらの部分に関連する興奮レベルを特定することができる。

上記内容からわかるように、フルネスの変動は、所与のオーディオトラックについて「正常」と見なされるものに対して相対的である。場合によっては、図３Ｂに示すほど劇的な違いはない。例えば、完全にドラミングで構成されたオーディオトラックの場合、オーディオトラックのどの部分が他の部分に比べてエキサイティングであると聞き手に認識されるほど明確ではない場合がある。

オーディオトラックの変動に対処するために、統計オーディオ分析は、複数の異なる周波数間隔でオーディオトラックの強さのそれぞれの平均強さと標準偏差を求めることを含んでもよい。すなわち、各周波数間隔についておよびオーディオトラックのすべての部分（つまり、その全長）にわたって、その周波数間隔について平均強さと標準偏差を求めてもよい。図３Ａでは、単に特定の行（各行が周波数間隔に相当）にわたる強さを加算し、時間間隔の数で除算することで平均強さを算出することを含んでもよい。これを行毎に繰り返し、周波数間隔毎に平均強さと標準偏差とを算出してもよい。標準偏差は、従来の方法で求めてもよい。例えば、次の式を使用する：

ここで、μは、特定の周波数範囲での平均強さを表し、Ｎは、時間間隔の数を表し、ｘ_ｉは、それぞれの時間間隔における周波数範囲での強さを表す。オーディオトラックに多くのバスドラムなどが含まれる場合、約２０〜１００Ｈｚにおけるバケットの平均値が高くなることが予想される。

いくつかの例では、正規分布を使用して、各周波数を正確にモデル化できると仮定してもよい。例えば、特定の周波数範囲について上記のように求められた平均および標準偏差を使用して、その特定の周波数範囲でのオーディオトラックの強さをモデル化してもよい。次に、オーディオトラックの各部分（小節など）をこのモデルと比較して分析し、その周波数でのオーディオトラックの強さが予想強さから大幅にずれているかどうかを判定することができる。

いくつかの例では、正規分布をｚスコアの計算で使用して、所与の部分（小節など）の特定の周波数間隔での強さがオーディオトラックに対して典型的か非典型的かを判定してもよい。これは、例えば、オーディオトラックのそれぞれの部分のスペクトログラムを生成し、その部分にわたる各周波数間隔について、その周波数間隔の平均強さを求めることを含んでよい。次いで、オーディオトラックのそれぞれの部分の平均強さを対応する周波数範囲のモデルと比較して、その周波数範囲のｚスコアを求めてもよい。ｚスコアは、オーディオトラックの特定の部分の特定の周波数範囲での平均強さが、その周波数範囲でのオーディオトラック全体の平均強さに対して相対的となる標準偏差の数を示す。次いで、オーディオトラックのそれぞれの部分の各特定の周波数範囲のｚスコアを結合する（例えば、足し合わせる）ことで、オーディオトラックのその部分に関連する興奮レベルを示す全体的なスコアを求めることができる。オーディオトラックのそれぞれの部分について、これを繰り返し、部分毎に興奮レベルを特定するようにしてもよい。

それぞれの部分の各周波数間隔の平均強さを計算する代わりに、その部分の各周波数間隔での合計強さを使用して、ｚスコアを算出できることが理解されよう。つまり、各周波数間隔での合計強さを、その周波数間隔でのトラックの平均合計強さと比較することができ、対応するｚスコアを算出するために使用できる。次に、所与の部分の各周波数間隔のｚスコアを結合することで、全体的な興奮レベルを特定することができる。

したがって、より一般的には、オーディオトラックの一部は、所定数の周波数間隔（例えば、生成された各周波数間隔、または全周波数範囲にわたる間隔の代表的なサンプル）内の、該当する間隔にわたっての間隔毎または合計に基づいて評価されるように、閾値を超える所定のレベルである強さレベルを有していれば、エキサイティングであると見なされてもよい。

図４は、特定の周波数範囲でのオーディオトラックの強さのモデリングに使用可能な正規分布の例および対応するｚスコアを概略的に示し、そこでは、ｚスコアに対して分布上の異なる点が対応している。

オーディオトラックの一部は、その部分の結合したｚスコアが閾値以上である場合、高い興奮レベルを有すると識別されてもよい。逆に、オーディオトラックの一部は、その部分の結合したｚスコアが閾値未満の場合、低い興奮レベルを有すると識別されてもよい。閾値は、多少恣意的かもしれないが、０．２５以上の結合したｚスコアは、通常、オーディオトラックの一部が高い興奮レベルを持つと見なすことができるか否かを良好に示すことを発明者らは発見した。オーディオトラックの各部分には、オーディオトラックのその部分が高い興奮レベルまたは低い興奮レベルを有すると識別されたか否かを示す識別子を割り当ててもよい（つまり、各部分は、２つの分類のいずれか、エキサイティングまたは穏やか、であると識別される）。次に、後で説明するように、これらの識別子を使用して、興奮レベルにおいて対応するビデオをオーディオトラックのそれぞれの部分に合わせ込んでもよい。

前述のように、いくつかの例では、スペクトログラムは、１２８個の周波数バケットを含んでもよく、したがって、オーディオトラックの各部分について、統計分析は、１２８個のｚスコア、つまり、周波数間隔毎に１個のｚスコア、を求めることを含んでもよい。次に、これらのスコアを結合（足し合わせるなど）して、オーディオトラックのその部分がオーディオトラック全体に対してどの程度典型的または非典型的であるかを判定してもよい。一般的に、正の結合したｚスコアは、オーディオトラックの所与の部分が平均フルネスより高いことを示し、一方、負のｚスコアは、オーディオトラックの所与の部分が平均フルネスより低いことを示す。

オーディオ分析は、正規分布および対応するｚスコアに関して上記説明されたが、オーディオトラックの異なる部分のフルネスを全体的な平均フルネスと比較することを可能にする任意の統計方法を使用して、オーディオトラックの個々の部分の興奮レベルが高いか低いかを判定し得ることが理解されよう。

図２に戻ると、第３のステップＳ２０３において、少なくとも１つのビデオに対して統計分析を実行して、少なくとも１つのビデオのそれぞれの部分に関連する興奮レベルを特定する。これは、後続の分析のためにビデオをそれぞれの部分に分離することを含んでもよい。一般的に、少なくとも１つのビデオには１つ以上のビデオゲーム内のさまざまな異なるシナリオと環境が含まれ、所与の部分に対して特定された興奮レベルが、同じビデオゲームまたは所与のビデオゲーム内の瞬間に対応するビデオの大きな部分と少なくとも相対的になるように、これらを多少分離することが必要となる場合がある。例えば、ビデオが２時間プレイする競技者の比較的長い連続ストリームである場合、多数の環境と状況に遭遇する可能性があるため、ビデオ全体の全体的な色分析は、ビデオゲーム内でエキサイティングな瞬間がいつどこで発生しているかを判定するのに役に立たないかもしれない。場合によっては、例えば、ビデオがゲームプレイの連続ストリームに対応する場合、競技者が、例えば、最後の１５分間で見た環境と大きく異なる環境に遭遇する可能性が低いので、ビデオを分割するための任意の区切りとして１５分を選択してもよい。

ミュージックビデオを作成するために複数のビデオが取得された例において、個々のビデオファイルは、ビデオをそれぞれの部分に分離するための固有手段を構成してもよく、したがってビデオをそれぞれの部分に分割する明示的なステップがない場合がある。しかし、いくつかの例では、これらの個々のビデオをそれぞれの部分に分割して、これらの部分のフレームに関連する興奮レベルを特定できることが依然として望ましい場合がある。

ここで、少なくとも１つのビデオに対して統計分析を実行する手法のより詳細な例を、図５〜図７に関連して説明する。

ビデオ統計分析
いくつかの実施形態では、ビデオに対して実行される統計分析は、ビデオのそれぞれの部分の少なくともいくつかのフレームについて、それぞれの部分のそれらのフレームに関連する動きを示すスコアを求めることを含んでもよい。一般的に、ビデオの一部で発生する動きが多いほど、ビデオのその部分で発生するアクションがよりエキサイティングとなる。

いくつかの例では、動きは、フレーム毎に特定されてもよい。例えば、所与のフレームに関連する動きは、前後のフレームの同じピクセルに対するそのフレームの各ピクセルの強度値の絶対差を取ることによって求めてもよい。連続するフレーム間で同一となるピクセルのスコアは、０となるが、真っ白から真っ黒に変わるピクセルのスコアは、例えば、２５５（ＪＰＧまたはＰＮＧ画像の場合）となる。次に、所与のフレームの各ピクセルのスコアを合計して、そのフレームに関連する全体の動きのスコアを求めてもよい。画像が例えば１２８０×７２０ピクセルで構成されている場合、９２１，６００ピクセルのスコアを合計することで動きを特定してもよい。全体的な動きのスコアが閾値を超える場合、フレームは、多くの動きを含むものとして識別されてもよい。

図５は、ゲーム「Ｕｎｃｈａｒｔｅｄ４（商標）」の２つの連続するビデオフレーム５０２Ａ、５０２Ｂの例を示している。図５では、フレーム５０２Ｂとフレーム５０２Ａとの間の個々のピクセル値間の差を表す差分画像５０４も示されている。次に、差分画像を数値に変換して（ピクセル値を合計することにより）、所与のフレームに関連する動きの広範な評価を取得できる。

追加または代替の例では、少なくとも１つの選択されたビデオは、少なくとも１つのビデオのフレーム内の異なる領域に関連する動きベクトルなどを示すメタデータを含んでもよく、このメタデータは、１つまたは複数のフレームに関連する動きを特定するために使用されてもよく、したがって、少なくともいくつかのフレームの動きを示すスコアは、このメタデータに基づいて求められてもよい。

いくつかの例では、動きを示すスコアは、ｚスコアに対応してもよい。これには、例えば、ビデオの一部のフレーム（連続するペア間など）にわたって発生する動きの平均と標準偏差を求めることが含まれてもよい。所与のフレームについて、ｚスコアは、対応するビデオ部分の平均および標準偏差に対してそのフレームに関連する（上記のように計算された）動きを比較することによって求められてもよい。閾値を超えるｚスコアを有するフレームは、興奮レベルが高いと識別されてもよい。

代替的または追加的に、ビデオに対して実行される統計分析は、ビデオのそれぞれの部分の少なくともいくつかのフレームについて、ビデオのそれぞれの部分の１つ以上の他のフレームに対する、それらフレームの各ピクセルのＬＡＢ色空間のＡおよび／またはＢチャネルの値の変化を示すスコアを求めることを含んでもよい。繰り返しとなるが、各ピクセルのＡおよび／またはＢカラーチャネルの値の変化は、フレーム毎に求められてもよい。

ＲＧＢ色空間とは対照的に、ＬＡＢ色空間のピクセル値の変化を見ることは、２つの理由で有利である。第一に、ＬＡＢ色空間はＲＧＢ色空間よりも知覚的に均一であり、つまり、例えば、１０ポイントの変化は、各方向で相対的に均一となる。したがって、所与のピクセルのＡおよび／またはＢチャネルの大きな変化は、ビデオ内で発生している興味深いイベントを示す。第二に、ビデオゲームは、多くの場合、変化する照明条件を有し、それは必ずしもビデオゲーム内で発生する特にエキサイティングな瞬間を示すものではない場合がある。ＬＡＢ色空間を使用することで、所与のフレームに関連する興奮レベルを特定するときに、照明の変化とは対照的に、純粋な色の変化により大きな重みを与えることができる。図６に、ＬＡＢ色空間と、ＡおよびＢチャネルそれぞれ、およびそれぞれの値の例を示す。

いくつかの例では、各ピクセルのＡおよび／またはＢチャネルの値の変化を示すスコアは、動きに関して以前に説明されたものと類似していてもよい。例えば、各フレームについて、各ピクセルのＡおよび／またはＢの色値を、前および／または後のフレームの対応するピクセルと比較し、これらのフレーム全体にわたるＡおよび／またはＢの値の差を使用して、現在のフレームのスコアを求めてもよい。例えば、黄から青に突然変わったフレームは、例えば、Ｂチャネルの色の変化のスコアが高くなる。

いくつかの例では、この分析は、所与のフレーム内のピクセルのＡおよびＢの色チャネルのそれぞれの変化の１つについて、２つのスコア（本明細書では、それぞれＬ（Ａ）ＢおよびＬＡ（Ｂ）フレーム間スコアと呼ぶ）を求めることを含んでもよい。これらのスコアは、連続するフレーム間の色の変化を示し、これは一般的に、所与のシーン内で発生するアクションを示す。所与のフレームのスコア（または複数のスコア）が高いほど、そのフレームに関連する可能性が高い興奮レベルが高くなる。

いくつかの例では、Ｌ（Ａ）ＢおよびＬＡ（Ｂ）フレーム間スコアは、ｚスコアに対応してもよい。これらは、動きのｚスコアと同様の方法で求めてもよい。すなわち、ビデオの各部分について、その部分全体にわたるＡおよび／またはＢチャネルの変化の平均および標準偏差を求めてもよい。それぞれの部分の各フレームについて、そのフレームのＡおよび／またはＢチャネルの（上記のように計算された）変化に基づいて、その部分全体にわたるＡおよび／またはＢの変化の平均および標準偏差に対するｚスコアを求めてもよい。閾値を超えるＬ（Ａ）Ｂおよび／またはＬＡ（Ｂ）ｚスコアを有するフレームは、高い興奮レベルを有するものとして識別されてもよい。

所与のフレームの各ピクセルのＲＧＢ値の変化が使用され得ること、およびこれは最終的に設計者の裁量によるものであることを理解されたい。

さらに追加または代替の例では、ビデオに対して実行される統計分析は、ビデオの一部を表す「平均フレーム」に対する、少なくともいくつかのフレーム内のピクセルのＬＡＢ色空間のＡおよび／またはＢチャネルの値の偏差を示すスコアを求めることを含んでもよい。このスコアの算出は、例えば、ビデオのそれぞれの部分の複数のフレームにわたるＡおよび／またはＢの色チャネルの少なくともいくつかのピクセルの平均値（すなわち「平均フレーム」）を求めること、および、次いで個々のフレーム毎に、「平均フレーム」の対応するピクセルに対する、ＡまたはＢの色チャネルのピクセル値の偏差を求めることを含んでもよい。この偏差を使用して、各フレームのＬ（Ａ）ＢおよびＬＡ（Ｂ）スコアを求めてもよい。

ビデオの一部は、例えば、任意の分割時間に基づいて、またはインポートされたオーディオトラックとの合わせ込みのために選択された既知の長さの異なるビデオクリップに基づいて、ビデオが分割された部分でもよい。一般的に、所与のフレームのピクセル値の平均フレームに対する偏差が大きいほど、そのフレーム内でエキサイティングなアクションが発生していることを示す。

いくつかの例では、Ｌ（Ａ）ＢおよびＬＡ（Ｂ）スコアは、ｚスコアに対応してもよい。これは、例えば、ビデオのそれぞれの部分の複数のフレームにわたるピクセルの平均Ａおよび／またはＢの値を表す平均Ｌ（Ａ）Ｂフレームおよび／または平均ＬＡ（Ｂ）フレームを求めることを含んでもよい。次に、ビデオの一部の各フレームについて、Ａおよび／またはＢチャネルのピクセル値の差を、関連する平均フレームの対応するピクセルに対して求めてもよい。次いで、ビデオ部分のフレーム全体にわたる差の平均および標準偏差を求めてもよい。各フレームのｚスコアは、現在のフレームのＡおよび／またはＢチャネルの差を、それぞれのビデオ部分の差の全体的な平均および標準偏差と比較することで計算されてもよい。高いｚスコアは、高レベルの色の変化を示し、したがって、高レベルのエキサイティングなコンテンツがあることを示している。

上述の１つまたは複数のスコアは、そのフレームに関連する興奮レベルを示す、フレームの全体スコアを求めることができるように、算出および結合してもよいことを理解されよう。いくつかの例では、動きスコア、ＬＡ（Ｂ）フレーム間スコア、Ｌ（Ａ）Ｂフレーム間スコア、Ｌ（Ａ）Ｂスコア、およびＬＡ（Ｂ）スコアが個々のフレーム毎に求められてもよい。上述のように、これら各スコアは、それぞれのｚスコアに対応してもよい。興奮レベルは、例えば、これらのスコアの重み付き和に基づいて、所与のフレームについて特定され、その後、例えば、Ｓａｖｉｔｚｋｙ−Ｇｏｌａｙを使用して、平滑化処理が行われてもよい。

したがって、より一般的には、ビデオフレームが有するパラメータレベルが所定数の画像パラメータ（例えば、上記５つのｚスコア）の閾値（例えば、平均パラメータレベルまたは予め設定されたパラメータレベル）を超える所定量である場合、または所定数の画像パラメータの結合パラメータレベルが所定の結合閾値（閾値の重み付き和など）を超える所定量である場合、ビデオフレームは、エキサイティングであると見なされてもよい。

いくつかの例では、各フレームに、そのフレームの興奮レベルが高いか否かを示す識別子を割り当ててもよい。フレームには、全体スコア（つまり、結合平滑スコア）が閾値を超える場合に、興奮レベルが高いことを示す識別子を割り当ててもよい。逆に、フレームに関連する全体スコアが閾値スコア未満の場合、そのフレームには、興奮レベルが低いことを示す識別子を割り当ててもよい。他の例では、全体スコアを興奮レベルの明示的な指標として使用してもよく、高い全体スコアは、それらのフレームに関連するより高い興奮レベルに対応する。

いくつかの例では、低い興奮レベルを有するものとしてフレームを識別することは、全体スコアが閾値スコア未満である複数の連続するフレーム、例えば、８０フレームを識別することを含んでもよい。一般的に、全体スコアが低いということは、そのフレームに関連する動きおよび色の変化がほとんどなく、非常に平均的な色であることを示す。

図７は、ビデオゲームＧｏｄｏｆＷａｒ（登録商標）に対応するビデオの一部の各フレームについて計算されたｚスコアに対応するグラフの例を示す。図７では、緑色の矢印７０２は、攻撃を実行しているキャラクターＫｒａｔｏｓ（登録商標）が（グラフの背景として）示されているフレーム７００に対応する現在時点を表している。キー７０４に示すように、スコアは、それぞれ異なる色で表される。図７において、矢印７０２で示される時点でＬ（Ａ）ＢおよびＬＡ（Ｂ）のスコアが上昇し、この時点の前後のフレーム間Ｌ（Ａ）ＢおよびＬ（Ｂ）スコアにピークがあることがわかる。図７では、全体スコア、つまり結合スコアがグラフ７０６によって示されている。結合スコアは平滑化されており、それにより、グラフの尖りが軽減され、興奮の持続期間を無効にする１つ以上のスコアの大きな単一フレームのスパイクを防ぐ。

ビデオの部分とオーディオの対応する部分との合わせ込み
図２に戻ると、第５のステップＳ２０５で、少なくとも１つのビデオの少なくともいくつかの部分を、興奮レベルにおける対応関係に基づいてオーディオトラックのそれぞれの部分に合わせ込む。高レベルでは、これは、高い（または低い）興奮レベルを有すると識別されたオーディオの対応する部分に、高い（または低い）興奮レベルを有すると識別されたフレームを含むビデオの部分を合わせ込むことに相当する。

オーディオトラックに対して実行された統計分析後、オーディオトラックの各部分（例えば、４ビートの小節）の開始時刻と終了時刻が既知であり、これらの各部分が興奮レベル（「高」または「低」のいずれか）を示す識別子を割り当てられている可能性があることが想起されよう。いくつかの例では、各部分の開始時間と終了時間は、識別されたビートに対応してもよい（例えば、ビートｎで開始、ビートｎ＋３で終了）。

少なくとも１つのビデオに対して実行された統計分析に続いて、ビデオの各部分のフレームの少なくとも一部に、興奮レベルが高いか低いかを示す識別子が割り当てられる。興奮レベルが低い場合、フレームのグループは、そのようなレベルを持っていると識別されてもよい。

いくつかの実施形態では、オーディオトラックの部分とビデオのフレームの両方の興奮レベルは、可変（すなわち、２値ではない）でもよく、合わせ込みは、値の類似度に基づいてもよいことが理解されよう。例えば、最大興奮レベルを有すると識別された１つ以上のフレームは、同様に最大興奮レベルを有すると識別されたオーディオの対応する部分に合わせ込まれるビデオクリップを生成するために使用されてもよい。

オーディオの部分をビデオの対応する部分に合わせ込むために、この方法は、少なくとも１つのビデオの部分からビデオクリップを生成し、これらのビデオクリップをオーディオトラックの対応する部分に合わせ込むことを含んでもよい。生成されたビデオクリップは、ハイライト（高い興奮レベルを有すると識別された１つ以上のフレームを含む）またはローライト（低い興奮レベルを有すると識別された複数の連続フレーム）に相当してもよい。

ハイライトビデオクリップは、高い興奮レベルを有すると識別された１つ以上のフレームを含む少なくとも１つのビデオの一部を特定し、同様に高い興奮レベルを有すると識別されたオーディオトラックの一部に長さの点で対応するクリップを生成することにより生成されてもよい。これは、興奮レベルの高いオーディオトラックの各部分が対応するハイライトビデオクリップに合わせ込まれるまで繰り返される。

いくつかの例では、ハイライトビデオクリップの長さは、オーディオトラックの小節（４ビートなど）でもよい。これは、例えば、曲が４分の４拍子記号を有し、したがって、各部分（例えば、小節）が同じ長さである場合に適切であろう。他の例では、各ビデオクリップの長さは、そのビデオクリップが合わせ込まれるオーディオトラックの部分に依存（および対応）して可変でもよい。

ビデオクリップの長さは、高い興奮レベル（または最大興奮レベル）を有すると識別されたフレームの少なくとも１つが、オーディオトラックの対応する部分のビートの１つ（例えば、２番目の小節のビート）に同期するように調整されてもよい。前述のように、オーディオトラック内のビートを識別するステップが存在してもよく、これらのビートのタイミングがわかっている場合、ビデオクリップ内の所与のフレームをこのビートに合わせることができる。この調整は、ビデオクリップ生成プロセスの一部として自動的に実行されてもよい。

さらに、オーディオ部分の開始と終了が異なるビートによって決まり、異なるビデオクリップがオーディオトラックの異なる部分に合わせ込まれる場合、これを使用して、異なるビデオクリップ間の遷移がビートに合わせてカットされるようにすることができる。例えば、ハイライトクリップは、ビート１で始まり、ビート４で終わるようにカットされ、ローライトクリップは、ビート４で始まり、ビート１２で終わるようにカットされてもよい。２つの異なるビデオクリップが同じビートで表示されるようにカットされる場合、適切なフェーディングが適用されてもよい。一般的に、異なるビデオクリップ間の遷移は、ビートで行われる場合、耳障りな音は少なくなる。

ローライトビデオクリップの場合、ビデオクリップは、複数の連続フレームが低い（またはより低い）興奮レベルを有すると識別されたビデオの部分から生成されてもよい。ローライトビデオクリップは、低い興奮レベルを有すると識別されたオーディオトラックの対応する部分に長さにおいて対応するように生成されてもよい。ほとんどのオーディオトラックでは、低エキサイティングな期間がエキサイティングな期間よりも長く続くため、低い興奮レベルを有すると識別されたオーディオトラックの部分は、高い興奮レベルを有すると識別されたオーディオトラックの部分よりも長い（または複数の部分を含む）ことがあり得る。これは、低い興奮レベルを有するオーディオトラックの各部分が対応するローライトビデオクリップに合わせ込まれるまで繰り返されてもよい。オーディオトラックが規則的な構造を持っている場合、（同じまたは類似の長さを有するオーディオトラック内の穏やかな瞬間に対応する）同じ長さを有するように、すべてのローライトクリップが生成されてもよい。

いくつかの例では、異なるビデオクリップ間で過剰な量の飛び越しを回避するために、各ビデオクリップの長さに対して下限を課すことが望ましい場合があることが理解されよう。したがって、いくつかの例では、ビデオクリップは、長さ分布に従って生成され、それによって、ハイライトおよびローライトビデオクリップそれぞれの最小長さを定めてもよい。最小長さは、例えば、１つ以上のオーディオ部分の長さの倍数に相当してもよい。例えば、ハイライトクリップは、少なくとも４ビートの長さを有するように制限され、一方、ローライトクリップは、少なくとも８ビートの長さを有するように制限されてもよい。

異なるビデオクリップが生成され、オーディオトラックの対応する部分に合わせ込まれる順序は、ランダム、事前に決定、または動的に決定されてもよい。

ステップＳ２０２およびＳ２０４で複数の異なるビデオが取得および分析される例では、オーディオトラックの各後続部分が異なるビデオから生成されたビデオクリップに合わせ込まれるように、所定の順序を定義してもよい。これは、異なるビデオにわたって十分な数のハイライトおよびローライトの瞬間が発生している場合にのみ可能となることが理解されよう。いくつかの例では、同じビデオから生成されたビデオクリップの、異なるビデオから生成された少なくとも２つの異なるビデオクリップによる分離が必要となる場合がある。異なるビデオからのコンテンツが表示される順序を制御することにより、より多様で魅力的な最終ビデオを作成できる。

いくつかの例では、所定の順序は、時系列であってもよい。例えば、ビデオクリップは、時系列に基づいて生成され、少なくとも１つのビデオの前の部分は、ビデオクリップを生成するために、少なくとも１つのビデオの後ろの部分に先立って使用されてもよい。少なくとも１つのビデオの前の部分から生成されたクリップは、オーディオトラックの対応する前の部分に合わせ込まれてもよい。このようにして、最終的なビデオには、競技者が１つ以上のビデオゲームをプレイしている間に、ハイライトおよびローライトの瞬間が明らかとなった順に表示される。これは、競技者が、例えば、単一の競技者ゲームにおけるストーリーモード完了時または、例えばスポーツトーナメントの優勝時、以前のプレイの概要を取得したい場合に望ましい場合がある。

さらなるまたは代替の例では、オーディオトラックの対応する部分に合わせ込むためのビデオクリップの選択は、少なくとも１つのビデオが関係するゲームに関連する情報に基づいてもよい。このメタデータは、少なくとも１つのビデオ（またはビデオのそれぞれの部分）でエンコードされてもよい。メタデータは、少なくとも１つのビデオが関係するゲームを定義し、この情報を使用して、十分な数の異なるゲームの映像が最終ビデオの作成に使用されるようにしてもよい。

いくつかの例では、メタデータは、例えば、レベル、試合、競技者が勝ったか負けたか、仕留めたか、ゴールしたかなどのゲーム内の状態情報を定義してもよく、この情報を使用して、異なるビデオクリップが生成され、オーディオトラックの対応する部分に合わせ込まれる順序を定義してもよい。例えば、最後の試合またはゲームに勝った競技者に対応するビデオクリップは、オーディオトラックの後半で発生するオーディオトラックのエキサイティングな部分に意図的に合わせ込まれてもよい（例えば、曲の最終コーラスで発生するキー変更）。

第６のステップＳ２０６では、オーディオトラックのそれぞれの部分に合わせ込まれたビデオの少なくともいくつかの部分を含むコンポジットビデオ（つまり、結合オーディオビジュアルコンテンツ）が生成される。このビデオは、ビデオゲーム映像のさまざまな部分が、競技者が選択したオーディオトラック（曲など）に合わせ込まれたミュージックビデオに相当する。アセンブルされた時点で、ミュージックビデオの再生準備ができたことを競技者に通知してもよい。これは、例えば、ビデオゲームコンソールのホームメニューのホーム画面に表示されるシステム通知、またはビデオゲームアプリケーションを介してユーザの電話に送られる通知の形式であってもよい。ユーザには、このビデオをソーシャルメディアまたはビデオホスティングサービスで共有するオプションが与えられてもよい。

いくつかの例では、この方法は、コンポジットビデオをユーザに呈示する追加のステップ（図示せず）をさらに含んでもよい。例えば、ビデオゲームセッションの終わりに、例えば、そのセッションからのビデオがミュージックビデオの作成に使用されたとき、コンポジットビデオが競技者に対して自動的に表示されてもよい。このような場合、一時バッファにキャッシュされた１５分のビデオが、選択したオーディオトラックに合わせ込まれる、例えば、３０秒のハイライトビデオの作成に使用されてもよい。いくつかの例では、ミュージックビデオは、ゲーム内イベント（例えば、競技者がビデオゲームのストーリーモードで最終レベルを完了するなど）の後に自動的に作成されてもよい。これらの方法のいずれかでコンポジットビデオを表示するには、ユーザが１つ以上のビデオゲームセッションを終了する前に曲を選択する必要がある。あるいは、競技者は、１つ以上のビデオゲームセッションを完了した後に曲を選択してもよいが、これは競技者がシステムによってミュージックビデオがアセンブルされるのを待つ必要があることを意味する。

場合によっては、オーディオトラックの対応する部分に合わせ込むためのビデオクリップの数が不十分である可能性があることを理解されよう。オーディオトラックで識別された対応する数のエキサイティングな瞬間に合わせ込むための少なくとも１つのビデオ全体にわたるハイライトの瞬間に対応するフレームが少なすぎる場合などである。そのような場合、この方法は、生成されたビデオクリップに合わせ込まれた短いバージョンのオーディオトラックを含む切り詰められたミュージックビデオを生成することを含んでもよい。この切り詰めは、例えば、曲の最初のＸ分、曲の連続する低い興奮部分と高い興奮部分のセット数、または高い（または最大の）興奮レベルを有すると識別された部分を中心とした曲の部分に基づいてもよい。

前述の方法ステップのいずれかは、システムに前記方法ステップのいずれかを実行させるようになされたコンピュータ実行可能命令を有するコンピュータ可読媒体を含むコンピュータシステムによって実行される場合があることが理解されよう。

図８は、本開示による、ビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステム８００の一例を概略的に示す。システム８００は、音楽を含むオーディオトラックを受信するように動作可能な入力ユニットを含む。オーディオトラックは、図２に関連して前述したオーディオトラックのいずれかに相当してもよい。通常、オーディオトラックは、ユーザによって選択されたことになる。

入力ユニットはまた、少なくとも１つのビデオを受信するように動作可能であってもよい。いくつかの実施形態では、システム８００は、選択されたオーディオトラックおよび少なくとも１つのビデオそれぞれに対して個別のユニットを備えてもよい。そのような実施形態の一例が図８に示されており、システム８００は、オーディオ入力ユニット８０２およびビデオ入力ユニット８０４を備えるものとして示されている。

少なくとも１つのビデオは、前述の方法のいずれか１つで取得されていてもよい。例えば、ビデオゲームプレイ装置で自動または手動でキャプチャされていてもよい。またはビデオホスティングウェブサイトからインポートされていてもよい。後者の場合、ビデオホスティングウェブサイトは、ゲームまたはゲーム内イベントに従って分類されたビデオ（またはビデオクリップ）を提供してもよい。ユーザは、コンポジットビデオのアセンブルに使用する、これらのビデオのうちの１つまたは複数を選択してもよい。これは、例えば、ユーチューバーらがイントロやアウトロを作成する際に役立ち、所与のビデオゲームをプレイしながら、まだ遭遇していないコンテンツを使用できるようにしてもよい。

システム８００は、入力ユニット（またはオーディオ入力ユニット）から入力を受信し、オーディオトラックに対して統計分析を実行して、オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定するように構成されたオーディオ分析器８０６をさらに含む。

いくつかの例では、システム８００は、オーディオトラック内のビートを検出し、そのビート検出に基づいてオーディオトラックを部分に分割するように動作可能なビート検出ユニット（図示せず）を備えてもよい。その部分は、各部分が少なくとも２つの連続する識別されたビートを含むように定義されてもよい。好ましい例では、オーディオトラックの各部分は、小節に相当する。各部分の開始と終了は、それぞれのビートによって定義されてもよい。ビート検出ユニットは、オーディオ分析器８０６の一部、またはオーディオ分析器８０６に先行する独立したコンポーネント（図示せず）であってもよい。オーディオ分析器８０６は、ビート分析に基づいて区切られたオーディオトラックを使用して、オーディオトラックに対して統計分析を実行するように構成されてもよい。

いくつかの例では、オーディオ分析器８０６は、オーディオトラックの各部分のスペクトログラムを生成し、各部分について、複数の異なる周波数間隔でのオーディオトラックの強さがそれら周波数でのオーディオトラックの平均強さから閾値を超えてずれているか否かを判定するように構成されてもよい。前述のように（「オーディオ統計分析」を参照）、これには、オーディオトラックの各部分の複数の周波数間隔のｚスコアを求め、フルネスを表す、その部分の全体のスコアを求めることを含んでもよい。オーディオ分析器８０６は、オーディオトラックの各部分のそのようなスコアを求め、それに基づいて、オーディオトラックの異なる部分に関連する興奮レベルを特定するように構成されてもよい。一般的に、オーディオ分析器８０６は、前述の統計オーディオ分析のいずれかを実行するように構成されてもよい。

オーディオ分析器８０６は、オーディオトラックのそれぞれの部分に、それらの部分が高い興奮レベルであるか低い興奮レベルであるかを示す識別子を割り当てるように構成されてもよい。オーディオトラックの一部には、複数の異なる周波数間隔でのその部分の強さがそれらの周波数でのオーディオトラックの平均強さから閾値を超えてずれている場合、高い興奮レベルを示す識別子を割り当ててもよい。より簡単に言えば、オーディオ分析器８０６は、オーディオトラックの一部に関連する全体スコアが閾値を超えるかどうかを判定し、そうであれば、その部分に、その部分が高い興奮レベルであることを示す識別子を割り当ててもよい。これがオーディオトラックの所与の部分に当てはまらない場合、オーディオ分析器８０６は、その部分に、その部分が低い興奮レベルであることを示す識別子を割り当ててもよい。

システム８００は、ビデオ分析器８０８をさらに備え、ビデオ分析器８０８は、入力ユニット（または専用ビデオ入力ユニット）からの入力を受信し、少なくとも１つのビデオに対して統計分析を実行して、少なくとも１つのビデオの少なくとも一部に関連する興奮レベルを決定するように構成される。

いくつかの例では、システム８００は、少なくとも１つのビデオをそれぞれの部分に分割するように動作可能なビデオ分割ユニット（図示せず）を含んでもよい。前述のように、これには、任意の時間間隔に基づいて、少なくとも１つのビデオを、例えば、１２個の微小部分に分割することを含んでもよい。追加的または代替的に、この分割は、ビデオの所与の部分が、実際にはビデオが異なるビデオゲームまたは所与のビデオゲーム内の瞬間に関係していることを示すファイル名または識別子などのマーカーに基づいてもよい。ビデオ分割ユニットは、例えば、ビデオ分析器８０８の一部、またはビデオ分析器８０８に先行する独立したコンポーネントを構成してもよい。

ビデオ分析器８０８は、ビデオのそれぞれの部分における少なくともいくつかのフレームに関連するスコアを求めるように構成されてもよく、このスコアは、
ｉ．ビデオのそれぞれの部分の異なるフレームに相対的な、そのフレームに関連する動き、
ｉｉ．ビデオのそれぞれの部分の異なるフレームに相対的な、そのフレームのＬＡＢ色空間のＡチャネルおよび／またはＢチャネルの値の変化、
ｉｉｉ．ビデオのその部分を表す平均フレームに相対的な、そのフレームのＬＡＢ色空間のＡチャネルおよび／またはＢチャネルの値の偏差、
のうちの少なくとも１つを示す。

ビデオ分析器８０８は、前述の方法のいずれかでこのスコアを求めるように構成されてもよい（「ビデオ統計分析」を参照）。一例では、これは、動き、ＬＡ（Ｂ）フレーム間変化、Ｌ（Ａ）Ｂフレーム間変化、平均フレームに対するＬＡ（Ｂ）の変化、および平均フレームに対するＬ（Ａ）Ｂの変化を表す１つ以上の個別のスコアを求めることを含んでもよい。前述のように、これら１つ以上の個別のスコアを結合して（例えば、重み付き和を使用して）全体スコアを求め、そこから所与のフレームに関連する興奮レベルを特定してもよい。

いくつかの例では、ビデオ分析器８０８は、各フレームに関連するスコアが閾値スコア以上であるか否かに基づいて、ビデオのそれぞれの部分のそのフレームに関連する興奮レベルを特定するように動作可能であってもよい。フレームは、関連するスコアが閾値スコア以上である場合は興奮レベルが高く、そうでない場合は興奮レベルが低いと識別されてもよい。ビデオ分析器８０８は、少なくともいくつかのフレームに、興奮レベルが高いか低いかを示す識別子を割り当てるように構成されてもよい。

図８では、システムは、オーディオ分析器８０６およびビデオ分析器８０８から入力を受信するように動作可能な結合器８１０を備えていることがわかる。結合器８１０は、特定された興奮レベルにおける対応関係に基づいて、少なくとも１つのビデオの少なくともいくつかの部分をオーディオトラックの少なくともいくつかの部分に合わせ込むように構成される。この合わせ込みに基づいて、結合器８１０は、オーディオトラックの少なくともいくつかの部分に合わせ込まれたビデオの少なくともいくつかの部分を含むコンポジットビデオを生成するように構成される。「コンポジットビデオ」という用語は、「ミュージックビデオ」という用語と同じ意味で使用される。つまり、１つ以上のビデオの複数の部分で構成された最終的なビデオに相当し、最終的なビデオ内のそれら部分の相対位置は、それら部分とオーディオトラックの部分の間の興奮レベルにおける対応関係に基づいている。

いくつかの例では、システム８００は、オーディオトラックの部分の少なくとも１つに合わせ込むための少なくとも１つのビデオのそれぞれの部分の少なくとも１つからビデオクリップを生成するように動作可能なビデオクリップ生成器（図示せず）を備えてもよい。ビデオクリップ生成器は、対応する興奮レベルを有すると識別されたオーディオトラックの部分の少なくとも１つの長さを求め、少なくともその長さを有するビデオクリップを生成するように構成されてもよい。これにより、各ビデオクリップは、そのビデオクリップが合わせ込まれるオーディオトラックのそれぞれの部分（４ビートを含む小節など）と同じ長さになる。次いで、結合器８１０は、これらの生成されたビデオクリップをオーディオトラックの対応する部分に合わせ込むように構成されてもよい。

ビデオクリップ生成器は、高興奮レベルを有すると識別されたフレームを含むビデオクリップ（いわゆるハイライトクリップ）を生成し、これらのクリップを高興奮レベルを有すると識別されたオーディオトラックの対応する部分に合わせ込むように構成されてもよい。いくつかの例では、ビデオクリップは、高い興奮レベルを有すると識別されたフレームが、そのクリップが合わせ込まれるオーディオトラックの対応する部分のビートの少なくとも１つに同期するように、生成されてもよい。ハイライトビデオクリップは、図２〜図７に関連して前述した方法のいずれかで生成されてもよい。

ビデオクリップ生成器はまた、低い興奮レベルを有すると識別される複数の連続フレームを含むビデオクリップ（いわゆるローライトクリップ）を生成するように構成されてもよい。次いで、結合器は、これらのクリップを（例えば、それに割り当てられた識別子によって）低い興奮レベルを有すると識別されたオーディオトラックの対応する部分に合わせ込むように構成されてもよい。これにより、ビデオゲーム映像の低エキサイティングな瞬間が、オーディオトラック内の穏やかな瞬間と同時に出力されるようになる。

一般に、ビデオクリップは、図２〜図７に関連して前述した方法のいずれかで生成されてもよい。

いくつかの例では、結合器８１０は、各ビデオクリップがオーディオトラックの異なるビートで始まるように、少なくとも１つのビデオの部分をオーディオトラックのそれぞれの部分と結合するように構成されてもよい。例えば、結合器８１０は、例えば、クリップ１がビート１で始まり、ビート４で終わり、クリップ２がビート４で始まり、ビート８で終わるように、クリップをオーディオトラックの部分と組み合わせてもよい。これにより、異なるビデオがビートに合わせてカットされる。いくつかの例では、これは、異なるビデオクリップが生成された方法の自然な結果である（それらビデオクリップの長さは、それらが合わせ込まれたオーディオトラックの部分の長さに依存するため）。

システム８００は、表示用コンポジットビデオを出力するための表示装置（図示せず）をさらに備えてもよい。

上述のシステム８００の１つまたは複数のコンポーネントは、同一の装置または異なる装置に実装してもよいことが理解されよう。いくつかの例では、これらのコンポーネントの１つまたは複数をビデオゲームプレイ装置に実装してもよい。例えば、入力ユニットは、ビデオゲームプレイ装置に設置され、ビデオゲームプレイ装置によってキャプチャされた（複数の）ビデオを受信してもよい。オーディオトラックはまた、ビデオゲームプレイ装置に記憶されるか、ビデオゲームプレイ装置にダウンロードされ、この仕方で入力ユニットによって受信されてもよい。

一旦取得されると、オーディオおよびビデオ分析ならびに結合は、例えば、ビデオゲームプレイ装置と通信しているサーバで実行されてもよい。例えば、ビデオとオーディオの分析は、必要なコンピューティングリソースの点でやや負荷の高い処理であるため、（既にビデオコンテンツをレンダリングするために競技者によって使用中であるかもしれない）ビデオゲームプレイ装置とは対照的に、クラウドなどを用いて実行することで利することが多い場合がある。ビデオゲーム映像がミュージックビデオにアセンブルされた時点で、このミュージックビデオをユーザに提供してもよい。これには、例えば、アセンブルされたビデオを競技者のビデオゲームプレイ装置に送信したり、アプリケーション（例えば「ＰＳアプリ」）または競技者が装置のうちの１つを介してアクセスできるＷｅｂページを通じてビデオを利用可能にすることが含まれてもよい。好ましい例では、ビデオとオーディオの分析は自動的に実行され、さまざまなビデオクリップの作成およびそれらを適切な音楽に合わせ込むことに関してユーザの介入は不要となる。

本明細書に記載の（複数の）方法は、ソフトウェア命令によって、または専用ハードウェアへの内蔵または専用ハードウェアの置換によって、適用できるように適合された好適な従来のハードウェアで実行可能であることが理解されよう。したがって、従来の同等の装置の既存部分に対する必要な適応は、フロッピー（登録商標）ディスク、光学ディスク、ハードディスク、ＰＲＯＭ、ＲＡＭ、フラッシュメモリ、これらまたは他の記憶メディアの任意の組合せなどの非一時的な機械可読媒体に格納されたプロセッサ実装可能な命令を含むコンピュータプログラム製品の形で実装されてもよく、または特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）もしくは従来の同等の装置を適応させる際の使用に適した他の構成可能な回路としてのハードウェアで実現されてもよい。別に、そのようなコンピュータプログラムは、Ｅｔｈｅｒｎｅｔ、無線ネットワーク、インターネット、これらまたは他のネットワークの任意の組合せなどのネットワーク上でデータ信号を介して送信されてもよい。

Claims

ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法であって、
音楽を含むユーザが選択したオーディオトラックを取得することと、
少なくとも１つのビデオゲームのプレイ中に少なくとも１つのビデオゲームプレイ装置によって生成された、複数のフレームを含む少なくとも１つのビデオを取得することと、
前記オーディオトラックに対して統計分析を実行して、前記オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定することと、
前記少なくとも１つのビデオに対して統計分析を実行して、前記少なくとも１つのビデオの少なくともいくつかの部分に関連する興奮レベルを特定することと、
特定された興奮レベルにおける対応関係に基づいて、前記少なくとも１つのビデオの少なくともいくつかの部分を前記オーディオトラックの少なくともいくつかの部分に合わせ込むことと、
前記合わせ込みに基づいて、前記オーディオトラックのそれぞれの部分に合わせ込まれた前記ビデオの前記少なくともいくつかの部分を含む結合オーディオビジュアルコンテンツを生成することと、を含む方法。
ビート検出に基づいて、前記オーディオトラックをそれぞれの部分に分離することを含み、各部分が少なくとも２つのビートを含む、請求項１に記載の方法。
前記オーディオトラックに対して統計分析を実行することは、
前記オーディオトラックのそれぞれの部分のスペクトログラムを生成することと、
複数の異なる周波数間隔での前記オーディオトラックの強さのそれぞれの平均強さと標準偏差とを求めることと、を含み、
前記オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定することは、それらいくつかの部分について、前記複数の周波数間隔での前記オーディオトラックの平均強さから前記複数の異なる周波数間隔での前記強さの偏差を求めること、を含む請求項２に記載の方法。
前記オーディオトラックのそれぞれの部分に関連する興奮レベルを特定することは、前記複数の異なる周波数間隔でのその部分の強さに関連するｚスコアを求め、その部分に対するｚスコアの結合が閾値を超えているか否かを判定すること、を含む請求項３に記載の方法。
前記オーディオトラックの各部分は、その部分が高い興奮レベルを有するか低い興奮レベルを有するかを示す識別子を割り当てられ、前記興奮レベルは、その部分に対する前記ｚスコアの結合が閾値以上の場合は高いと判定され、ｚスコアの結合が前記閾値未満の場合は低いと判定される、請求項４に記載の方法。
前記少なくとも１つのビデオに対して統計分析を実行することは、前記ビデオのそれぞれの部分の各フレームに対して、
ｉ．前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームに関連する動き、
ｉｉ．前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームのＬＡＢ色空間のＡチャネルおよび／またはＢチャネルの値の変化、
ｉｉｉ．前記ビデオの前記それぞれの部分を表す平均フレームに相対的な、そのフレームのＬＡＢ色空間のＡチャネルおよび／またはＢチャネルの値の偏差、
のうちの少なくとも１つを示すそれぞれのスコアを求めること、を含む請求項１から５のいずれか一項に記載の方法。
前記ビデオの各部分に対して、その部分のフレームのいずれかが閾値スコア以上のスコアを有するか否かを判定することを含み、
前記閾値スコア以上のスコアを有するフレームには、それらのフレームが高い興奮レベルを有することを示す識別子が割り当てられる、請求項６に記載の方法。
前記ビデオの各部分に対して、その部分の複数の連続フレームが前記閾値スコア未満のスコアを有するか否かを判定することを含み、
前記閾値スコア未満のスコアを有する前記複数の連続フレームには、それらのフレームが低い興奮レベルを有することを示す識別子が割り当てられる、請求項７に記載の方法。
前記少なくとも１つのビデオの少なくともいくつかの部分を前記オーディオトラックのそれぞれの部分に合わせ込むことは、
高い興奮レベルを有すると識別されたフレームを含む前記少なくとも１つのビデオの部分を、高い興奮レベルを有すると識別された前記オーディオトラックのそれぞれの部分に合わせ込むことと、
低い興奮レベルを有すると識別された複数の連続フレームを含む前記少なくとも１つのビデオの部分を、低い興奮レベルを有すると識別された前記オーディオトラックのそれぞれの部分に合わせ込むことと、を含む請求項７または８に記載の方法。
高い興奮レベルを有すると識別されたフレームを含む前記ビデオの少なくともいくつかの部分の長さを、前記ビデオのその部分の前記高い興奮レベルを有すると識別されたフレームのうちの少なくとも１つが前記オーディオトラックの対応する部分のビートのうちの１つと同期するように、調整することを、含む請求項２または９に記載の方法。
複数のビデオを取得することであって、各ビデオが、異なるビデオゲームプレイセッション中に１つ以上のビデオゲームプレイ装置によって生成された前記ビデオに対応する、取得することと、
前記ビデオのうちの少なくとも一部の部分を所定の順序に従って前記オーディオトラックのそれぞれの部分に合わせ込むことであって、前記所定の順序は、異なるビデオの部分が前記結合オーディオビジュアルコンテンツに現れる順序を定義する、合わせ込むことと、を含む請求項１から１０のいずれか一項に記載の方法。
コンピュータシステムに請求項１から１１のいずれか一項に記載の方法を実行させるようになされたコンピュータ実行可能命令を有するコンピュータ可読媒体。
ビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステムであって、
音楽を含むユーザが選択したオーディオトラックおよび少なくとも１つのビデオゲームのプレイ中にビデオゲームプレイ装置によって生成された少なくとも１つのビデオを受信するように動作可能な入力ユニットと、
前記オーディオトラックの少なくともいくつかの部分に対して統計分析を実行して、前記オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定するように動作可能なオーディオ分析器と、
前記少なくとも１つのビデオに対して統計分析を実行して、前記少なくとも１つのビデオの少なくともいくつかの部分に関連する興奮レベルを特定するように動作可能なビデオ分析器と、
興奮レベルにおける対応関係に基づいて、前記少なくとも１つのビデオの少なくともいくつかの部分を、前記オーディオトラックのそれぞれの部分に合わせ込み、前記合わせ込みに基づいて、前記オーディオトラックのそれぞれの部分に合わせ込まれた前記ビデオの前記少なくともいくつかの部分を含む結合オーディオビジュアルコンテンツを生成するように構成された結合器と、を含むシステム。
前記オーディオトラック内のビートを検出し、前記ビート検出に基づいて、前記オーディオトラックを部分に分割するように動作可能なビート検出ユニットを含み、各部分が少なくとも２つのビートを含み、
前記オーディオ分析器は、前記オーディオトラックの各部分のスペクトログラムを生成し、各部分に対して、複数の異なる周波数間隔での前記オーディオトラックの強さがそれらの周波数での前記オーディオトラックの平均強さから閾値を超えてずれているか否かを判定するように構成された、請求項１３に記載のシステム。
前記オーディオ分析器は、前記オーディオトラックのそれぞれの部分に、それらの部分が高い興奮レベルであるか低い興奮レベルであるかを示す識別子を割り当てるように構成され、
前記オーディオ分析器は、前記複数の異なる周波数間隔でのその部分の強さがそれらの周波数での前記オーディオトラックの平均強さから閾値を超えてずれている場合、前記オーディオトラックのそれぞれの部分が高い興奮レベルであることを示す識別子を割り当て、そうでなければ低い興奮レベルであることを示す識別子を割り当てるように構成された、請求項１４に記載のシステム。
前記少なくとも１つのビデオを前記それぞれの部分に分割するように動作可能なビデオ分割ユニットを含み、
前記ビデオ分析器は、前記ビデオのそれぞれの部分の各フレームに関連するスコアを求めるように構成され、前記スコアは、
ｉ．前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームに関連する動き、
ｉｉ．前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームのＬＡＢ色空間のＡチャネルおよび／またはＢチャネルの値の変化、
ｉｉｉ．前記ビデオのその部分を表す平均フレームに相対的な、そのフレームのＬＡＢ色空間のＡチャネルおよび／またはＢチャネルの値の偏差、
のうちの少なくとも１つを示す、請求項１３から１５のいずれか一項に記載のシステム。
前記ビデオ分析器は、各フレームに関連する前記スコアが閾値スコア以上であるか否かに基づいて、前記ビデオのそれぞれの部分の各フレームに関連する興奮レベルを特定するように動作可能であり、
前記ビデオ分析器は、各フレームに、そのフレームが高い興奮レベルであるか低い興奮レベルであるかを示す識別子を割り当てるように構成された、請求項１６に記載のシステム。
前記ビデオ分析器は、それぞれのフレームに関連する前記スコアが前記閾値スコア以上である場合、そのフレームが高い興奮レベルであることを示す識別子を割り当てるように構成され、
前記ビデオ分析器は、それぞれのフレームに関連する前記スコアが前記閾値スコア未満の場合、そのフレームが低い興奮レベルであることを示す識別子を割り当てるように構成された、請求項１７に記載のシステム。
オーディオトラックのそれぞれの部分の少なくとも１つに合わせ込むための、ビデオのそれぞれの部分の少なくとも１つからビデオクリップを生成するように動作可能なビデオクリップ生成器を含み、
前記ビデオクリップ生成器は、前記オーディオトラックのそれぞれの部分の少なくとも１つの長さを特定し、少なくともその長さを有するビデオクリップを生成するように構成された、請求項１６から１８のいずれか一項に記載のシステム。
前記ビデオクリップ生成器は、高い興奮レベルを有すると識別されたフレームを含むビデオクリップを生成するように構成され、
前記結合器は、高い興奮レベルを有すると識別されたフレームを含むビデオクリップを、高い興奮レベルを有すると識別された前記オーディオトラックの対応する部分に合わせ込むように構成された、請求項１９に記載のシステム。
前記ビデオクリップ生成器は、オーディオトラックのそれぞれの部分のビートに関連するタイミング情報を特定するように構成され、
前記ビデオクリップ生成器は、前記オーディオトラックのそれぞれの部分の前記ビートの少なくとも１つと同期する、高い興奮レベルを有すると識別された少なくとも１つのフレームを含むビデオクリップを生成するように構成された、請求項２０に記載のシステム。
前記ビデオクリップ生成器は、低い興奮レベルを有すると識別された複数の連続フレームを含むビデオクリップを生成するように構成され、
前記結合器は、低い興奮レベルを有すると識別された連続フレームを含むビデオクリップを、低い興奮レベルを有すると識別された前記オーディオトラックの対応する部分に合わせ込むように構成された、請求項２０または２１に記載のシステム。
前記入力ユニットは、複数のビデオを取得するように動作可能であり、各ビデオは、同じ競技者または異なる競技者による異なるビデオゲームプレイセッション中に生成されたビデオに対応する、請求項１３から２２のいずれか一項に記載のシステム。
前記結合器は、前記ビデオのうちの少なくとも１つの部分が前記オーディオトラックのそれぞれの部分に既に合わせ込まれている否かを判定し、そのビデオからの部分が前記オーディオトラックのそれぞれの部分に既に合わせ込まれている場合、前記オーディオトラックの後続の部分に合わせ込むための、異なるビデオの部分を選択するように構成された、請求項２３に記載のシステム。
前記オーディオトラックの各部分の開始点および終了点は、それぞれのビートによって定義され、
前記結合器は、前記少なくとも１つのビデオの各部分が前記オーディオトラックの対応する部分の最初のビートで始まるように、前記少なくとも１つのビデオの部分と前記オーディオトラックのそれぞれの部分とを結合するように構成された、請求項１４から２４のいずれか一項に記載のシステム。