JP7242764B2

JP7242764B2 - 遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム

Info

Publication number: JP7242764B2
Application number: JP2021104993A
Authority: JP
Inventors: アルビー，ガルテン
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2020-06-25
Filing date: 2021-06-24
Publication date: 2023-03-20
Anticipated expiration: 2041-06-24
Also published as: KR102546398B1; EP3930251A1; JP2022008251A; US11616589B2; KR20220000381A; US20210409138A1; CN114120942A

Description

関連出願の相互参照
本出願は２０２０年６月２５日出願の米国非仮特許出願第１６／９１２，５６９号（発明の名称「Methods and Systems for Performing and Recording Live Internet Music Near Live with No Latency」）の優先権主張するものである。上記出願は、２０２０年６月２５日出願の米国非仮特許出願第１６／９１２，５７８号（発明の名称「Methods and Systems for Performing and Recording Live Internet Music Near Live with no Latency」）に関連する。上記二出願はその全体をここに参照援用する。

本開示は、音楽演奏及びレコーディングの分野、ならびにネットワークの遅延及び同期に関する。

音楽は通常、同時演奏と非同時演奏を組み合わせてレコーディングされている。つまり、一部またはすべてのミュージシャンが、一度に音楽を演奏し、それが１回の演奏として録音されている。本来、すべての音楽は、すべてのミュージシャンが１度に１回の演奏として演奏して録音されていた。１９５０年代には、レスポールは最初にマルチトラックレコーダーを創作し、事前に録音された音楽パートの上に第２の音楽パートが演奏できるようになった。その後、ミュージシャンは最初の録音で１つ以上の楽器の録音を開始し、その後に他の楽器を追加することにした。これはオーバーダビングとして知られている。

過去２０年間、ミュージシャンは、異なる場所で他のミュージシャンとライブで（同時に）演奏ができることを常に望んでいたが、このことはある程度行われてきたものの、ほとんどの音楽スタイルにおいて、ネットワーク遅延は有効なレコーディングを行うには過大である。優れたミュージシャンは、数ミリ秒程度の不正確性で調子やドラムビートが「調子外れ」していても気付くことになる。光速でもロサンゼルスからニューヨークまでは約１３ミリ秒（往復で２６ミリ秒）要し、そのためミュージシャンがリアルタイムで一緒に演奏するにはこの遅延は過大である。

例示的な実施形態は、遅延を伴わずにニアライブでライブインターネット音楽を演奏及び録音するためのシステム及び方法を提供する。

例示的な方法は、プロセッサが、電子カウントインを生成するためにメモリ内に格納された命令を実行すること、電子カウントインを第１の演奏にバインドしてマスタークロックを生成すること、ならびに第１のミュージシャンの第１の演奏及び第１のタイミング情報をネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信することを含む。第１のミュージシャンの第１の演奏は、現場においてフル解像度でレコーディングされ、フル解像度のメディアサーバに送信され得、第１のタイミング情報は、マスタークロックに送信され得る。代替的に、第１のミュージシャンの第１の演奏の低解像度バージョンは、圧縮オーディオメディアサーバに送信され得、第１のタイミング情報はマスタークロックへ送信され得る。

続いて、例示的な実施形態によれば、第１のミュージシャンの第１の演奏は、第２のミュージシャンのサウンドデバイスに送信され、第２のミュージシャンは、第２の演奏を創作し、それと第２のタイミング情報をネットワークキャッシング、ストレージ、タイミング及びミキシング用モジュールに送信する。第１及び第２の演奏は、第１及び第２のタイミング情報と共にミックスされて、第１のミックスオーディオを生成し、これは、第３のミュージシャンのサウンドデバイスに送信されることができる。第３のミュージシャンは、第３のパフォーマンス及び第３のタイミング情報を創作し、これは第１のミックスオーディオとミックスされて、第２のミックスオーディオを生成する。このプロセスは、最後のミュージシャンが演奏して録音するまで繰り返されている。

メディアのネットワークキャッシング、ストレージ、タイミング、及びミキシング用の例示的なシステムは、ネットワークをピング（ｐｉｎｇ）し、第１のユーザデバイスへの帯域幅を決定するように構成されたインターネット帯域幅テストモジュールと、インターネット帯域幅テストモジュールに通信可能に結合された品質／遅延設定モジュールであって、帯域幅に基づいてメディアの解像度を判定するように構成された品質／遅延設定モジュールと、品質／遅延設定モジュールに通信可能に結合されたネットワークオーディオミキサーであって、判定された解像度に従ってメディアを第１のユーザデバイスに送信するように構成されたネットワークオーディオミキサーと、を含む。システムは、第１のユーザデバイスからメディア及びマスタークロック用の時間同期コードを受信するように構成されたフル解像度メディアサーバ、及び／または第１のユーザデバイスからメディア及びマスタークロック用の時間同期コードを受信するように構成された圧縮メディアサーバを含む。

続いて、様々な例示的な実施形態によれば、インターネット帯域幅テストモジュールは、ネットワークをピングし、第２のユーザデバイスに送信されるメディアの解像度を決定するために、第２のユーザデバイスへの帯域幅を判定する。さらなる例示的な実施形態では、メディアは、複数のミュージシャンの演奏を組み合わせた単一のミックストラックであり、演奏はある範囲の解像度を有している。この場合、フル解像度メディアサーバと圧縮メディアサーバの両方がメディアをネットワークオーディオミキサーに送信し、ネットワークオーディオミキサーはメディアを第２のユーザデバイスに送信する。システムは、第２のユーザデバイスから演奏を受信し、それを単一のミックストラックにミックスする。

インターネット帯域幅、遅延、品質、及びメディアのミキシングを管理するための例示的なシステムは、一定期間にわたって帯域幅を測定するための構成要素を制御するメモリに格納された命令を実行するプロセッサ、さまざまな圧縮レベルを変化させる構成要素、及び品質が経時的に変化する共通のタイムコードを使用して、さまざまな解像度をシームレスにつなぎ合わせるための構成要素を含む。すべての構成要素は互いに通信可能に結合され、単一フェーダーにバス接続されている。

本発明の上述の目的及び更なる目的、特徴、ならびに利点は、特に、添付の図面と併用されるときに、いくつかの具体的な実施形態の以下の詳細な説明を考慮して明確になることになり、様々な図面における同様の参照番号は、同様の構成要素を指定するために利用されている。

ミュージシャン、ネットワークサービス、及びオーディエンスを示すアーキテクチャの高レベル図である。第１のミュージシャン、ネットワークスタック、及び送信スタックの詳細を示している。時間が音楽サンプルとどのように関連しているかを示している。これがオーディオだけでなくビデオでも使用できることを示している。第２の（及びそれ以降の）ミュージシャン（複数可）に関連するネットワークスタック及び送信スタックを示している。チェーン内のミュージシャンがネットワークスタック及び送信スタックによってどのように接続されているか、そして再生同期と帯域幅がどのように最適化されているかを示している。音楽が１人のミュージシャンから次のミュージシャンに移動するときに、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールがどのように連携するかを示している。インターネットの帯域幅、遅延、品質、及びミキシングがどのように連携するかを示している。さまざまな解像度で個々の演奏が作成されることができる方法を示している。例示的なジャムバンドのシナリオを示している。ジャムバンドシナリオのための例示的なタイミング状況を示している。例示的な演劇用ポッドキャストのシナリオを示している。

全体を通して特定された要素は、例示的なものであり、それらの様々な代替物、同等物、または派生物を含み得る。ハードウェア、ソフトウェア、及びコンピュータ実行可能命令のさまざまな組み合わせが利用され得る。プログラムモジュール及びエンジンは、ルーチン、プログラム、オブジェクト、構成要素、及びデータ構造を含み得、これらは汎用または専用であり得るプロセッサによって実行されたとき、特定のタスクのパフォーマンスを実現する。コンピュータ可読記憶メディアに記憶されたコンピュータ実行可能命令及び関連するデータ構造は、方法のステップを実行するためのプログラミング手段、及び／または本明細書に開示される特定のシステム構成を実装する実施例を表す。

本開示は、事前に来るミュージシャンのサウンドに対して、ミュージシャンがリアルタイムで連続して一緒に演奏することを可能にするためのメカニズムを説明している。多数のミュージシャンが一緒に曲を演奏している場合、第１の人物が開始し、音楽は数ミリ秒の遅延で第２の人物に届くことがあるが、その第２の人物は彼らが聞いたものに合わせて演奏し、彼らにとっては、２つの演奏は完全に時間が一致したものになっている。ここで第３の人物は、初めの２人のこの演奏（互いに時間は一致している）を、第２の人物が聞いたように聞くが、彼らはこれを実際に演奏されたよりも遅れて聞く場合があり、彼らは聞いているもの同時に演奏することになり、彼らにとっては、３つのすべての楽器は完全に時間一致することになる。このことは制限なく継続することができる。

これを実現するために、一種の直列的なレコーディングが必要となる。しかしながら、オーディオがネットワークを介して転送されるため、容易に品質劣化する可能性がある。つまり、１人のミュージシャンのために音楽再生が開始されると、一時停止したり遅くしたりすることはできないが、正確なタイミングを可能にするためにビットレート（品質）が下がることがある。ここでは各演奏がフル解像度でクラウド（例えば、ネットワークサーバ）にレコーディングされ、必要に応じて圧縮されることが提案されている。また、最終的な演奏がクラウドに到達したときにフル解像度になるように、忠実度を維持するために現場でバッファリングする必要があることもあり得る。このように、演奏時にミュージシャンが聞く品質がわずかに損なわれたとしても、レコーディングとクラウドへの送信の品質を損なう必要はないため、最終的な結果は完全な忠実度で、最終的に再生するときには完璧なタイミングになる。

図１で分かるように、全体的なシステムは、個々のミュージシャン（及びその機器とソフトウェアとレコーディング）ならびにネットワークキャッシング、ストレージ、タイミング、及びミキシング用構成要素で構成されている。シナリオは以下のようになっている。

第１のミュージシャン（１０１）は、電子カウントイン（通常は１、２、３、４と言う）を言う、または生成することから開始する。様々な例示的な実施形態では、信号（デジタルデータまたはオーディオデータのいずれか）があり、これは曲の始まりを合図するとともに、他のミュージシャンがいつ開始するかを知るためのキューを出す。場合によっては、第１の（場合によっては後の）ミュージシャン（複数可）がそれに対して演奏するクリックトラック（メトロノーム）が存在することがある。他の場合では、それはボーカルのカウントオフまたは楽器によるピックアップである可能性がある。あるいは、指揮者によって与えられるような視覚的なキューである可能性がある。いずれの場合も、この最初のマーク（これも必ずしもダウンビートではない）は、共にマスタークロックになる第１の演奏に完全にバインドされており、これはすべてのローカルクロックと演奏の同期を維持するために使用されることになる。ＮＴＰ、つまりネットワークタイムプロトコルを使用するのが最も容易であるが、ＮＴＰは通常１００ミリ秒内でしか正確ではない。参加者のすべての演奏は、１ミリ秒未満の精度の共通クロックにバインドされている必要がある。第１のミュージシャン（１０１）の演奏及びタイミング情報（１０２）は、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュール（１０３）に送信されている。

各ミュージシャンの演奏は、フル解像度で、現場でレコーディングされる。これは最終的にフル解像度メディアサーバ（１０４）に送信される。これはリアルタイムで送信されることはできるが、送信され得ない。最適な帯域幅がない状況では、これは後で送信されることができる。

遅延なくフル解像度のオーディオを送信するのに十分な帯域幅がない場合は、第１のミュージシャンの演奏の低解像度バージョンを圧縮オーディオメディアサーバ（１０５）に送信することができる。この低解像度バージョンは、後続のミュージシャンが自分の前に来るパートを聞いて、これに合わせて演奏するのに十分であるはずである。この低解像度バージョンは可能な限り高品質であるべきであり、理想的なネットワーク状況では、フル品質バージョンと実質的に区別がつかないはずである。しかし、帯域幅の状況によっては、フル解像度のオーディオが後で送信されることが可能である。

同時に、同一のメディアファイル（フル解像度と圧縮したもの両方）の一部として、タイミング情報がマスタークロック（１０６）に送信される。オーディオは通常、４４．１、４８、または９６キロヘルツでレコーディングされており、解釈上、本明細書で必要とされる１ミリ秒よりもはるかに正確なクロックがあることになる。オーディオレコーディングに関連付けられたタイムスタンプは、クロックを設定及び同期するために使用されている。

第２のミュージシャン（１０７）が、フル解像度メディアサーバ（１０４）または圧縮オーディオメディアサーバ（１０５）から音楽を聞くと、ネットワーク帯域幅に応じて第２のミュージシャン（１０７）は演奏を追加する。第２のミュージシャンの演奏は、ここでネットワークキャッシング、ストレージ、タイミングモジュール（１０３）に送られ、オーディオ及びタイミング情報が保存される。同時に、最初の２人のミュージシャンのオーディオは、ネットワークオーディオミキサー（１０８）によって組み合わせられ（またはミキシングされ）、タイミング情報とともに第３のミュージシャン（１０９）に送られ、演奏はネットワークキャッシング、ストレージ及びタイミング用のモジュール（１０３）に返送され、そこで新たなオーディオ及びタイミング情報が、他の演奏とともに保存され、次いで、最後のミュージシャン（１１０）が演奏してレコーディングされるまで、さらなるミュージシャンに送信される。

ネットワークオーディオミキサー（１０８）は、個々のミュージシャンの演奏を相互に聞くために組み合わせるだけでなく、すべてのミュージシャンの積み重ねた演奏をオーディエンス（１１１）が聞くためにも組み合わせる。以下でより詳細に説明するように、ネットワークオーディオミキサー（１０８）は、様々なトラック（または演奏）を単に組み合わせるだけでなく、それらを最大限の忠実度をもたらすような方法で組み合わせる。したがって、例えば、帯域幅の制約のために１人のミュージシャンの演奏が低解像度である場合でも帯域幅が向上すると、品質も同様に向上することになる。さらに、フル解像度バージョンは最終的にフル解像度メディアサーバ（１０４）に到達し、その解像度がサーバに到達すると、それ以降それを聞く人は常にフル解像度のものを聞くことになる。長期的には、このことは、音楽が後に再生される場合（例えば、ライブ演奏の２時間後）、それがフル解像度のものになることを意味している。状況によっては、帯域幅が増加している一部のミュージシャンの解像度は、演奏が展開されると、彼らのパートの解像度は増したものとなることができる。

図２は、レコーディングならびにオーディオ及びタイミング情報の初期送信の詳細を提示している。同期のための信頼できる開始点は、プロセスの後半でこれらのシステム及びミュージシャンによって正確に識別される必要がある。例えば、ミュージシャンはカウントをとる（例えば、１、２、３、４）。「１」という単語が録音されるとき、オーディオ波形サンプルに基づいている特定の時間に生じる特定の識別可能な波形を有する。デジタル波形は、解釈上、１つの周波数（例えば、４４．１ｋＨｚ、４８ｋＨｚ、９６ｋＨｚなど）でサンプリングされ、この場所は常に時間に関連付けられている。図２Ａは、ピッチＡ４で演奏しているチェロのサンプルを示している。基本波は４４０Ｈｚであり、これは約２．２５ミリ秒となっている（波形の摂動は、倍音やボーイングなどのその他のノイズである）。レコーディングの共通点が見つかると、その点からピースの任意の場所までのミリ秒数が容易に計算されることができる。

同じタイミング情報はビデオにも適用されることができる。例えば、第１のミュージシャンが指揮者である場合、ミュージシャン達は依然として（同時にではなくても）タイミングを合わせて続くことができる。実際には、クリックトラックやドラムループのような共通のリズムが必要かも知れないが、理論的には、同じ指揮者や他の視覚的なキュー（フィルムスコアリングなど）に従うことを妨げるものはない。図２Ｂを参照すると、図２の左側に類似しているが、マイク（２０１）がカメラ（２１３）に置き換えられており、ビデオのレコーディング（２１４）が、サンプリングクロック（２０２）によってローカルレコーディング（２０３、２０４）に同期されたレコーディング要素に加えられている点が異なっている。

図２に戻ると、第１のミュージシャン（２００）がマイク（２０１）にサウンドを出し、このことがオーディオ（または上で説明したビデオ）と共にクロック（２０２）を開始するサウンドはフル忠実度でレコーディング（２０３）され、送信用に準備される。レコーディング機器の電源がオンになり、ネットワークに接続された時点から、帯域幅をテストするためにネットワークがポーリングされる。帯域幅が十分である場合、次に、フル忠実度（ロスレス）バージョン（２０３）がタイミング情報とともに送信（２０５）される。しかし、帯域幅が十分でない場合、第１のミュージシャンのレコーディング環境にあるソフトウェアモジュールは、オーディオをより小さなファイルサイズに圧縮できる。例えば、オーディオコーデックＡＡＣは、４８ｋＨｚのレコーディングから形成された１２８キロビット／秒（ｋｂｐｓ）の妥当な忠実度であると見なされる。未圧縮ファイルは１５３６ｋｂｐｓでストリーミングされ、ロスレス圧縮を使用しても依然として約８００ｋｂｐｓになる。（注記：いずれかの所与の解像度で複数のファイルを一緒に再生すると、楽器が単一レコーディングとして録音された場合よりも高い解像度のファイルになる。例えば、１６ビットの４８ｋオーディオの１６チャネルは、共にミキシングされると、１６ビットの４８ｋオーディオの２チャネルよりも高い解像度になる。）遅延、帯域幅、品質のバランスについては、本開示の後半で詳しく説明している。

送信フォーマットに関して、クロックは常に各レコーディングの各バージョン（ロスレスと圧縮の両方）にバインドされることになる。送信スタック（２０５）を見るときは、それぞれが同じ対応する時間／同期コードを有する２つの別々のストリームとして見る必要がある。このようにして、音楽がネットワークキャッシング、ストレージ、タイミング、及びミキシング用構成要素（サーバ／サービス）（２０６）に到着したとき、サービスが解像度（２０８、２０９）間で切り替える必要がある場合、完全な同期を維持するために共通（マスター）クロック（２０７）を使用することができる。他のミュージシャンの演奏を組み合わせるとき、これはネットワークオーディオミキサー（２１０）によって行われる。

図３は、第２のミュージシャン（３００）の追加を示している。オーディオ及び、場合によってビデオは、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用サービス（３０１）からから来ており、ここでは、第１のミュージシャンからのメディアが格納され、ロスレスオーディオ（３０４）を含む送信スタック（３０２）プロトコルを使用してインターネット経由で送信されタイミング情報（３０３）にバインドされ、帯域幅に応じて、圧縮オーディオ（３０５）もタイミング情報（３０３）にバインドされている。このプロセス全体にビデオを含めることが可能であり、視聴覚技術分野に従事する者は、本開示のデータに基づいてビデオを使用して容易に構築することができる。十分な帯域幅がある場合は、圧縮オーディオは必要なくなり得る。オーディオが到着すると、最初にミキシングモジュール（３０６）に入り、第２のミュージシャンのモニター（３０７）（おそらくヘッドフォン）に供給される。第２のミュージシャンが演奏するか、または歌うと、直接注入（電子楽器、またはピエゾピックアップや磁気ピックアップなどの音響用電気ピックアップの場合）またはマイク（３０８）によってミキシングモジュールに送られ、そこで第１のミュージシャンのオーディオと組み合わせられ（ミキシングされ）、第２のミュージシャンは、演奏しながら両方のパートを聞くことができる。

第２のミュージシャンはロスレスでレコーディングされ（３１０）、オリジナルの録音と同じクロック同期（３０９）を使用してタイムスタンプが付加される。第２のミュージシャンからのオーディオは、同じ送信スタックプロトコル（３１２）を使用してオリジナルから受信したものと同じタイムコードで、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用サービス（ＮＣＳＴＭＳ）（３０１）に送り返される。ＮＣＳＴＭＳには既に第１のミュージシャンのオーディオ及び同じ同期タイムコードを有していることから、第１のミュージシャンのオーディオはＮＣＳＴＭＳに送り返す必要はない。ＮＣＳＴＭＳには、様々なミュージシャンの演奏をミックスするネットワークオーディオミキサーがあることに留意されたい。これは個々のミュージシャンの場所にあるミキサーとは別のものである。

図４は、再生同期及び帯域幅最適化（４０８）を示している。上述のように、同期は、オーディオ（及びビデオ）のすべての解像度にわたって共有されている共通のタイムコードに基づいている。品質と遅延の間には、時々トレードオフ関係があり得る。ミュージシャン（ミュージシャンＮ）が８００ｋｂｐｓ（ロスレス圧縮）でフル解像度で送信すると、次のミュージシャン（ミュージシャンＮ＋１）の帯域幅は少なくなる。例えば、ネットワークのスループットをテストしたことに基づくと、ミュージシャンＮが８００ｋｂｐｓでストリーミングする場合は、ミュージシャンは、遅延が１５秒になるように十分な音楽をキャッシュする必要がある。しかしながら、ミュージシャンＮが１２８ｋｂｐｓでオーディオを送受信した場合、遅延はわずか７５ミリ秒になる。再生同期及び帯域幅最適化モジュール（４０８）は、解像度を選択できるため、オーディオをミュージシャンＮ＋１に送信するために必要な帯域幅を選択できる。

これをもう少し詳しく見るために、図５と図６を参照されたい。

図５は、ミュージシャンＮ（５００）を示している。ミュージシャンＮ（５００）とＮＮＣＳＴＭモジュール（５０１）の間で利用可能な帯域幅を知るために、インターネット帯域幅テストモジュール（５０２）が使用されている。ネットワークを「ピング（ｐｉｎｇ）」して２点間の帯域幅を見つけることは、かなり標準的な方法であり、この機能は当該技術分野の従事者であれば誰でも利用できる。利用可能な帯域幅に基づいて、品質／遅延設定モジュール（５０３）は、ネットワークオーディオミキサーがミュージシャンＮに送信すべきメディアの解像度を決定する（図６に詳細を示す）。帯域幅に応じて、ミュージシャンＮは、メディアをマスタークロック（５０５）に送信される同期タイムコードと共にフル解像度メディアサーバ（５０６）または圧縮メディアサーバ（５０７）に送信する。「サーバ」とは、ホームコンピュータのハードドライブから、インターネット全体に広く分散しているサーバのアレイまで、あらゆるサーバ構成を意味することに留意すべきである。また「圧縮メディアサーバ」は、ビデオ及び／またはオーディオの複数の解像度を含むことができ、同様に分散されることもできる。チェーン内の次のミュージシャンであるミュージシャンＮ＋１（５０８）にメディアを送信するため、帯域幅はインターネット帯域幅テストモジュール（５０２）によって再度テストされる必要がある。このことがミュージシャンＮ＋１に送信されるメディアの解像度を決定する。ミュージシャンＮ＋１に送信されるメディアは、これまでに演奏されたミュージシャンの個別レコーディングのすべてではなく、すべての演奏を組み合わせた単一のミックストラックであることに留意されたい。例えば、ミュージシャンＮ＋１がチェーン内の５番目のミュージシャンであると仮定すると、これ以前のミュージシャンは、演奏品質に以下の帯域幅制限を有していたことになり、それらは、ミュージシャン１が８００ｋｂｐｓ（フルロスレス）、ミュージシャン２が４５０ｋｂｐｓ、ミュージシャン３が８００ｋｂｐｓ、ミュージシャン４が３２５ｋｂｐｓ及びミュージシャン５が８００ｋｂｐｓである。メディアは、フル解像度メディアサーバ（５０６）と圧縮メディアサーバ（５０７）の組み合わせから取得され、ネットワークオーディオミキサー（５０４）に送られる。組み合わせられた「ミックス」はミュージシャンＮ＋１に送信されることになる。組み合わせられたミックスでは、ミュージシャン１と３のパートは、ミュージシャン２と４のパートよりも解像度が高くなることに留意されたい。他の演奏はすでにキャッシュされているため、ＮＣＳＴＭモジュールに返送されるメディアは、ミュージシャン５による新しい演奏のみであることに留意されたい。従って、ミュージシャン５に接続する際の帯域幅の制限は、ミュージシャン５のパートの品質にのみ影響し、さらには、チェーン内のミュージシャンにのみ影響し、すべてのミュージシャンのフル忠実度を受信することができる（いつ聞くかに応じて）最終的なリスナーには影響しない。

図６は、システムの帯域幅、品質、遅延、及びミキシング用構成要素を示している。音楽の品質に対する帯域幅の影響は、双方向で発生する。アップロード帯域幅は、個々の演奏の最初の送信の品質に影響する（同じ演奏のその後の送信では依然としてフル解像度である）。ダウンロード帯域幅は、ミュージシャンが合わせて演奏しているときに聞く品質に影響する。

アップロードするミュージシャンの作業環境には、帯域幅を測定する独自の機能があり、それによって、例えば、ある時点でフル帯域幅（６０５）が存在するようになり、帯域幅に応じて、異なるレベルの圧縮（６０６、６０７、６０８、６０９）がある可能性がある。システムは、経時的に変化する品質（タイミングではない）のみを伴う共通のタイムコードを使用して様々な解像度をシームレスにつなぎ合わせる。これらすべては、ミックス内のこのミュージシャンのレベル用の単一のフェーダーに仮想的にバス接続される（フェーダーを操作する人間がいる場合や、ミキシングを行うアルゴリズムがある場合がある）。このことは、チェーン内の第２のミュージシャン（６１０、６１１、６１２、６１３）などからＮ番目のミュージシャン（６１４、６１５、６１６）までに該当する。これらのレベルはミックスで組み合わされ、そのミックスがチェーン内の次のミュージシャン（５０８）にその帯域幅で送信される。ＮＣＳＴＭから個々のミュージシャンへの送信の帯域幅は、通常（今日一般的に行われているように）遅延がないことを確実にするために適切な帯域幅で送信されることに留意されたい。このことは、各ミュージシャンからのアップロード帯域幅とは無関係である。例えば、あるミュージシャンの帯域幅が特に低い場合、受信するストリームの品質が低くなる場合がある。しかしながら、これらは現場環境においてフル忠実度でレコーディングされ、低遅延リスナーに対する演奏の品質は、アップロード帯域幅を反映することになる。当然、前述のように、フル解像度の演奏がアップロードされると、後続のリスナーはフル解像度でそれを聞くことになる（当然、そのリスナーの帯域幅に依存する）。

様々な解像度の説明を明確にするために、図７を参照することが有用になり得る。これは、様々な解像度のオーディオが、どのようにレコーディングされ、格納されるかを示している。第１のミュージシャン（７０１）とは異なる解像度が経時的に複数の波形（７０２）として表示されていることに留意されたい。後続のミュージシャンは、第１のミュージシャンからの演奏を可変解像度であるが、単一の演奏として聞くことになる。第２のミュージシャンも、後続のミュージシャン（７０４）と同様に、複数の解像度（７０３）で録音される場合がある。上述のように、これらの異なる演奏は、フェーダー（６０２、６０３、６０４）を使用するミキシングエンジニアによってミキシングされ、後続のミュージシャンまたはオーディエンスが聞くことができるようになっている。オーディオの一部の高解像度がネットワークキャッシング、ストレージ、タイミング、及びミキシング構成要素にアップロードされると、それらは後続のミックス（パフォーマンスの終了後など）で使用されて品質を向上させることができることに再度留意されたい。

使用例として、図８に示されたジャムバンドのシナリオを参照する。ドラム（８０１）、パーカッション（８０２）、ベース（８０３）、ピアノ（８０４）、２本のギター（８０５及び８０６）の６人のミュージシャンが演奏すると仮定する。彼らはすべてＮＣＳＴＭ（８０７）に接続されており、オーディエンス（８０８）も同様である。ドラマーが演奏開始し、２小節後に、パーカッショニストとベースプレーヤーが参加すると仮定する。他のミュージシャンは、直後に、または数小節後に参加できる。各ミュージシャンは、前のミュージシャンを順番に聞くことだけができるが、レイアウトすることで順番は変更することができる。

図９を見ると、クロック（９０１）上の実際の時間は、一時停止せずに進行しているが、実際の小節番号（９０２）はミュージシャンに合わせて移動している。ドラマーの小節１（９０３）が始まりであるが、後続の各ミュージシャン（９０４）の小節１は少し遅れており、それぞれが前の小節１より少し長くなっている。ドラマー（９０５）が演奏を開始して、パーカッショニスト（９０６）、ベースプレーヤー（９０７）、キーボードプレーヤー（９０８）がそれに続いている。１人のギタープレーヤー（９０９）がキーボードプレーヤーの直後に、第２のギタープレーヤーの前に開始するが、自身のソロ演奏の間にもう一方のギターを聞きたいであろうと想定する。この文脈で「前に開始する」と言うときは、音楽の順序と混同しないように「ネットワークの順序」を指している。ミュージシャン（または所定のキューを受けたミキシングエンジニア）は、リセットまたは「位置の変更」を押したとすると、新しい位置の時点のオーディオが聞こえ始める。

図９では、灰色の領域（９１１、９１２及び９１３）は、誰かがレイアウトしていることを表している。従って、合計２秒の遅延があったとすると、ギタープレーヤーがスイッチを押すと、彼らは彼らがいる場所だが、すべてのミュージシャンが演奏している２秒後の音楽を聞くことになる。そのため、もし私が１つか２つの小節にレイアウトすると仮定すると、他のミュージシャンを聞きながら再び参加することができることになる。曲における場所を追跡するインタラクティブなコードチャートがあれば、これを計画したほうが容易かも知れないが、ミュージシャンは自身がどこにいるかを素早く認識できるようになるかも知れない。

この想像上のジャムバンドのシナリオでは、ミュージシャンは逆上ってレイアウトして戻って、他のミュージシャンの演奏を聞くことができ、ドラマーまたはパーカッショニストでさえ、レイアウトして数ビート後に戻るが、他のミュージシャンを聞くことができる。必ずしもキューの最後に移動する必要はない。おそらく、シンガーは常にキューの最後にいて、「ドロップバック」すると最後から２番目に移動するか、１つまたは２つの場所にドロップバックすることができる。例えば、ドラマーとパーカッショニストは場所を交換することができる。問いかけと受け答えタイプの演奏が多く行われる可能性があるが、その答えは最後の再生まで聞くことはないであろう。

別の使用例は、劇場型ポッドキャストシナリオである。このシナリオでは、図１０に示すように、オンラインでニアライブのパフォーマンスを創作する複数の俳優がいる。これは台本によるものでも、インタビューまたはリアリティ番組のように自発的なものである場合もある。上で行っていたことを実行できるが、他にもいくつかのオプションがある。話し言葉は音楽ほど時間に敏感ではないので、もう少し時間で遊べる場合もある。また、パフォーマンスは、横並びであるよりも縦並びになっており、忠実度の要件もより柔軟になっている。ジャムバンドのシナリオでは、１人のミュージシャンが数小節をレイアウトすると、このミュージシャンが後でキューに入れることができる。また、間奏時間が短縮されることもできる。６人の俳優（１００１、１００２、１００３、１００４、１００５及び１００５）による演劇を仮定することにする。興味深くするために、俳優５と６（１００５と１００６）は同じ場所にいると仮定する。時間（１００７）を追跡して、１分弱にわたって話をする俳優１（１００１）から始める。俳優２（１００２）は、彼らにとってリアルタイムでそれを聞いている。現在、俳優１は、１分も経たないうちに再参加することを計画している。議論のために、俳優１と２の間の遅延が１００ミリ秒であると仮定することにする。俳優１が終了するとすぐに、俳優１はキューをジャンプすることができる。しかしながら、ここには２つの制約があり、１）俳優１は、俳優２が言うことを聞き逃したくない、２）俳優１は、俳優２のパートの少なくとも最後の部分を可能な限り変更されていない状態で聞きたい、そのために、それらのタイミングと抑揚は可能な限り自然になる。従って、解決策は次のようになり、それは、俳優１がキューをジャンプすると、俳優２より１００ミリ秒遅れ、つまり、俳優２はすでに１００ミリ秒話していることになる。そのため、俳優１がキューに戻るときは、その１００ミリ秒を補う必要がある。これは、ピッチを変更せずにレコーディングを高速化するために広く使用される技術である。そのため、俳優１がキューに戻ると、俳優１は、録音から再生される俳優２を聞くことになるが、これはスピードアップされたものである。１０％スピードアップされ（ピッチ変化がなければほとんど知覚できない）合計遅延が１００ミリ秒である場合、俳優１は、俳優１のリアルタイムで、リアルスピードで俳優２を聞くことになる。これは、複数の俳優が入り、必要に応じて追いつくことで無期限に継続することができる。音楽のレコーディングシナリオと同様に、最終的な成果物（効果音が追加された話し言葉の場合）は、恐らくリアルタイムのライブよりも数分間遅れるだけになるであろう。

本発明の本質的な教示から逸脱することなく、修正を行ってもよい。本明細書に記載の様々な方法論を実施するために様々な代替的システムを利用してもよく、前述のシステムから特定の結果を得るために様々な方法を使用してもよい。

Claims

遅延を伴わずにニアライブでライブインターネット音楽を演奏及びレコーディングするための方法であって、当該方法は、プロセッサによって実施され、
電子カウントインを生成するステップと、
マスタークロックを生成するために前記電子カウントインを第１の演奏にバインドするステップと、
第１のミュージシャンの第１の演奏及び第１のタイミング情報をネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信するステップと、
第２のミュージシャンのサウンドデバイスによって前記第１のミュージシャンの前記第１の演奏を受信するステップであって、前記第１の演奏を受信したことに応答して、前記第２のミュージシャンによって第２の演奏が創作される、ステップと、
前記第２の演奏及び第２のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信するステップと、
第３のミュージシャンのサウンドデバイスによって第１のミックスされたオーディオを受信するステップであって、前記第１のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第１の演奏及び前記第２の演奏を前記第１のタイミング情報及び第２のタイミング情報と共に含み、前記第１のミックスされたオーディオを受信したことに応答して、前記第３のミュージシャンによって第３の演奏が創作される、ステップと、
前記第３の演奏及び第３のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信するステップと、
第４のミュージシャンのサウンドデバイスによって第２のミックスされたオーディオを受信するステップであって、前記第２のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第１のミックスされたオーディオ及び前記第３の演奏を前記第３のタイミング情報と共に含み、前記第２のミックスされたオーディオを受信したことに応答して、前記第４のミュージシャンによって第４の演奏が創作される、ステップと、
を含む、方法。
前記第１のミュージシャンの前記第１の演奏を現場においてフル解像度でレコーディングして、フル解像度メディアサーバに送信するステップと、
前記第１のタイミング情報を前記マスタークロックに送信するステップと、
をさらに含む、請求項１に記載の方法。
前記第１のミュージシャンの前記第１の演奏の１つ以上の低解像度バージョンを圧縮オーディオメディアサーバに送信するステップと、
前記第１のタイミング情報を前記マスタークロックに送信するステップと、
をさらに含む、請求項１に記載の方法。
複数のサウンドデバイスにおいて、ネットワークオーディオミキサーから、個々のミュージシャンの組み合わされた演奏を、互いに聞くために受信するステップと、
複数のサウンドデバイスにおいて、前記個々のミュージシャンのすべての組み合わされた蓄積的な演奏を、オーディエンスが聞くために受信するステップと、
をさらに含む、請求項１に記載の方法。
サウンドデバイスにおいてネットワークオーディオミキサーから解像度が向上したオーディオを受信するステップをさらに含む、
請求項１に記載の方法。
前記電子カウントインは、オーディオ波形サンプルに基づいて、特定時間に生じる特定の識別可能な波形を有する、請求項１に記載の方法。
前記電子カウントインがビデオである、請求項１に記載の方法。
前記電子カウントインが、オーディオ及びビデオである、請求項１に記載の方法。
レコーディング機器を起動するステップと、
帯域幅をテストするためにネットワークをポーリングするステップと、
前記帯域幅が十分である場合、フル忠実度デジタルデータをそのタイミング情報と共に送信するステップと、
前記帯域幅が十分でない場合、オーディオをより小さなファイルサイズに圧縮するステップと、
をさらに含む、請求項１に記載の方法。
前記第１のタイミング情報が、それぞれのレコーディングのロスレスバージョン及び圧縮バージョンのためのタイミング情報を含む、請求項１に記載の方法。
前記ロスレスバージョンと前記圧縮バージョンとの間で切り替えるときに、レコーディングをストリーミングしながら同期を維持するステップをさらに含む、
請求項１０に記載の方法。
遅延を伴わずにニアライブでライブインターネット音楽を演奏及びレコーディングするためのシステムであって、
プロセッサと、
前記プロセッサに通信可能に結合されたメモリであって、前記メモリは、前記プロセッサによって実行されると、前記プロセッサに、
電子カウントインを生成させ、
マスタークロックを生成するために前記電子カウントインを第１の演奏にバインドさせ、
第１のミュージシャンの第１の演奏及び第１のタイミング情報をネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信させ、
第２のミュージシャンのサウンドデバイスによって前記第１のミュージシャンの前記第１の演奏を受信させることであって、前記第１の演奏を受信したことに応答して、前記第２のミュージシャンによって第２の演奏が創作され、
前記第２の演奏及び第２のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信させ、
第３のミュージシャンのサウンドデバイスによって第１のミックスされたオーディオを受信させることであって、前記第１のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第１の演奏及び前記第２の演奏を前記第１のタイミング情報及び第２のタイミング情報と共に含み、前記第１のミックスされたオーディオを受信したことに応答して、前記第３のミュージシャンによって第３の演奏が創作され、
前記第３の演奏及び第３のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信させ、
第４のミュージシャンのサウンドデバイスによって第２のミックスされたオーディオを受信させることであって、前記第２のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第１のミックスされたオーディオ及び前記第３の演奏を前記第３のタイミング情報と共に含み、前記第２のミックスされたオーディオを受信したことに応答して、前記第４のミュージシャンによって第４の演奏が創作される、
を実行させる命令を含む、システム。
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
前記第１のミュージシャンの前記第１の演奏を現場においてフル解像度でレコーディングして、フル解像度メディアサーバに送信させ、
前記第１のタイミング情報を前記マスタークロックに送信させる、
請求項１２に記載のシステム。
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
前記第１のミュージシャンの前記第１の演奏の１つ以上の低解像度バージョンを圧縮オーディオメディアサーバに送信させ、
前記第１のタイミング情報を前記マスタークロックに送信させる、
請求項１２に記載のシステム。
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
複数のサウンドデバイスにおいて、ネットワークオーディオミキサーから、個々のミュージシャンの組み合わされた演奏を、互いに聞くために受信させ、
複数のサウンドデバイスにおいて、前記個々のミュージシャンのすべての組み合わされた蓄積的な演奏を、オーディエンスが聞くために受信させる、
請求項１２に記載のシステム。
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
サウンドデバイスにおいてネットワークオーディオミキサーから解像度が向上したオーディオを受信させる、
請求項１２に記載のシステム。
前記電子カウントインは、オーディオ波形サンプルに基づいて、特定時間に生じる特定の識別可能な波形を有する、
請求項１２に記載のシステム。
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
レコーディング機器を起動させ、
帯域幅をテストするためにネットワークをポーリングさせ、
前記帯域幅が十分である場合、フル忠実度デジタルデータをそのタイミング情報と共に送信させ、
前記帯域幅が十分でない場合、オーディオをより小さなファイルサイズに圧縮させる、
請求項１２に記載のシステム。
前記第１のタイミング情報が、それぞれのレコーディングのロスレスバージョン及び圧縮バージョンのためのタイミング情報を含む、
請求項１２に記載のシステム。
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
前記ロスレスバージョンと前記圧縮バージョンとの間で切り替えるときに、レコーディングをストリーミングしながら同期を維持させる、
請求項１９に記載のシステム。