JP2023538801A - オーディオビジュアルデータをアップミックスするためのシステムおよび方法 - Google Patents

オーディオビジュアルデータをアップミックスするためのシステムおよび方法 Download PDF

Info

Publication number
JP2023538801A
JP2023538801A JP2022580974A JP2022580974A JP2023538801A JP 2023538801 A JP2023538801 A JP 2023538801A JP 2022580974 A JP2022580974 A JP 2022580974A JP 2022580974 A JP2022580974 A JP 2022580974A JP 2023538801 A JP2023538801 A JP 2023538801A
Authority
JP
Japan
Prior art keywords
data
audio
audiovisual
model
upmixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022580974A
Other languages
English (en)
Inventor
マノージ・プラカール
ダン・エリス
ショーン・ハーシー
リチャード・チャニング・ムーア・ザ・サード
アレン・ジャンセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023538801A publication Critical patent/JP2023538801A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Figure 2023538801000001
オーディオビジュアルデータをアップミックスするためのコンピュータ実装方法は、入力オーディオデータと、入力オーディオデータに付随するビデオデータとを含むオーディオビジュアルデータを取得するステップを含み得る。ビデオデータの各フレームは、より大きいシーンの一部分のみを示し得る。入力オーディオデータは、第1のオーディオチャネル数を有し得る。コンピュータ実装方法は、オーディオビジュアルデータを、機械学習型オーディオビジュアルアップミキシングモデルに入力として与えるステップを含み得る。オーディオビジュアルアップミキシングモデルは、ビデオデータの複数のフレームにわたって、より大きいシーン内の1つまたは複数のオーディオソースのそれぞれのロケーションをモデル化するように構成されたシーケンス間モデルを含み得る。コンピュータ実装方法は、オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信するステップを含み得る。アップミックスされたオーディオデータは、第2のオーディオチャネル数を有し得る。第2のオーディオチャネル数は、第1のオーディオチャネル数よりも大きくてよい。

Description

本開示は概して、オーディオビジュアルデータをアップミックスするためのシステムおよび方法に関する。より詳細には、本開示は、入力オーディオデータよりも大きいオーディオチャネル数を有する、アップミックスされたオーディオデータを発生させるように構成される、シーケンス間モデルなどの機械学習型モデルに関する。
オーディオデータは、様々な程度の品質および/または情報を有する様々なフォーマットで表すことができる。一例として、オーディオデータは、1つまたは複数のオーディオチャネルに関連付けられた情報を含み得る。たとえば、オーディオ再生システムは、オーディオチャネルからの情報を、周辺環境におけるオーディオソースをシミュレートするようにユーザにオーディオを与えるのに使うことができる複数の再生デバイスを含み(かつ/またはその存在をシミュレートし)得る。オーディオデータを含むオーディオビジュアルデータ(たとえば、オーディオビジュアル媒体)は、情報、娯楽、および/または他の適切な機能のためにユーザに提供され得る。
本開示の実施形態の態様および利点が、以下の記述において部分的に説明され、または記述から学習することができ、または実施形態の実践を通して知ることができる。
本開示の1つの例示的態様は、オーディオビジュアルデータをアップミックスするためのコンピュータ実装方法を対象とする。コンピュータ実装方法は、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、入力オーディオデータと、入力オーディオデータに付随するビデオデータとを含むオーディオビジュアルデータを取得するステップを含み得る。ビデオデータの各フレームは、より大きいシーンの一部分のみを示し得る。入力オーディオデータは、第1のオーディオチャネル数を有し得る。コンピュータ実装方法は、コンピューティングシステムによって、オーディオビジュアルデータを、入力として機械学習型オーディオビジュアルアップミキシングモデルに与えるステップを含み得る。オーディオビジュアルアップミキシングモデルは、ビデオデータの複数のフレームにわたって、より大きいシーン内の1つまたは複数のオーディオソースのそれぞれのロケーションをモデル化するように構成されたシーケンス間モデルを含み得る。コンピュータ実装方法は、コンピューティングシステムによって、オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信するステップを含み得る。アップミックスされたオーディオデータは、第2のオーディオチャネル数を有し得る。第2のオーディオチャネル数は、第1のオーディオチャネル数よりも大きくてよい。
本開示の別の例示的態様は、オーディオビジュアルデータをアップミックスするために構成されたコンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、実装されると、1つまたは複数のプロセッサに動作を実施させる命令を含むコンピュータ可読データを記憶する1つまたは複数のメモリデバイスとを含み得る。動作は、入力オーディオデータと、入力オーディオデータに付随するビデオデータとを含むオーディオビジュアルデータを取得することを含み得る。入力オーディオデータは、第1のオーディオチャネル数を有し得る。動作は、オーディオビジュアルデータを、機械学習型オーディオビジュアルアップミキシングモデルに入力として与えることを含み得る。オーディオビジュアルアップミキシングモデルは、シーケンス間モデルを含み得る。動作は、オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信することを含み得る。アップミックスされたオーディオデータは、第2のオーディオチャネル数を有し得る。第2のオーディオチャネル数は、第1のオーディオチャネル数よりも大きくてよい。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してより良く理解されよう。本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の例示的な実施形態を示し、この説明とともに、関連する原理について説明するために役立つ。
当業者を対象とする、実施形態の詳細な考察が本明細書において説明され、本明細書は、添付の図面を参照する。
本開示の例示的実施形態に従ってオーディオビジュアルアップミキシングを実施する例示的コンピューティングシステムのブロック図である。 本開示の例示的実施形態に従ってオーディオビジュアルアップミキシングを実施する例示的コンピューティングデバイスのブロック図である。 本開示の例示的実施形態に従ってオーディオビジュアルアップミキシングを実施する例示的コンピューティングデバイスのブロック図である。 本開示の例示的な実施形態による、例示的なオーディオビジュアルアップミキシングモデルのブロック図である。 本開示の例示的な実施形態による、例示的なオーディオビジュアル埋込みモデルのブロック図である。 本開示の例示的な実施形態による、例示的なオーディオビジュアルアップミキシングモデルのブロック図である。 本開示の例示的な実施形態による、例示的なサラウンドサウンド環境のブロック図である。 本開示の例示的な実施形態に従ってオーディオビジュアルアップミキシングを実施する例示的な方法のフローチャート図である。
複数の図面にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別することを意図している。
概して、本開示は、オーディオビジュアルデータをアップミックスするためのシステムおよび方法を対象とする。たとえば、システムおよび方法は、オーディオデータと、2次元ビデオデータなどの付随するビデオデータを含むオーディオビジュアルデータの中のオーディオデータをアップミックスするのに、シーケンス間モデルなど、1つまたは複数の機械学習型モデルを利用することができる。2次元ビデオデータにより、機械学習型モデルは、オーディオデータに関連付けられた空間特性を学習し、ビデオデータの少なくとも一部分の、空間特性と、対応するオーディオデータのオーディオ特性とを反映するオーディオビジュアル埋込みを発生させることができる。たとえば、オーディオビジュアル埋込みは、アップミックスされたオーディオデータを発生させるのに、(たとえば、機械学習型モデルによって)使うことができる。アップミックスされたオーディオデータは、元のオーディオデータよりも大きいオーディオチャネル数を有し得る。たとえば、オーディオデータは、モノオーディオ(たとえば、1つのオーディオチャネルを有するオーディオデータ)からステレオオーディオ(たとえば、左および右オーディオチャネルなど、2つのオーディオチャネルを有するオーディオデータ)にアップミックスすることができる。別の例として、オーディオデータは、モノおよび/またはステレオオーディオから、たとえば5つのオーディオチャネルよりも大きい、6つのオーディオチャネル(たとえば、5.1オーディオチャネル)など、3つ以上のオーディオチャネルを有するサラウンドサウンドオーディオデータにアップミックスすることができる。別の例として、より小さいオーディオチャネル数をもつサラウンドサウンドオーディオデータが、より大きいオーディオチャネル数をもつサラウンドサウンドオーディオにアップミックスされ得る。
本明細書に記載するシステムおよび方法は、複数のピクセルとして表されるビデオデータなどの2次元ビデオデータ(たとえば、2次元カメラからキャプチャされたビデオデータ)に関連付けられたモノおよび/またはステレオオーディオのアップミキシングを提供することができ、ここで各ピクセルは、ピクセルの2次元配列の中の位置を有する。たとえば、多くの専門家および/またはアマチュア作成ビデオ媒体(たとえば、ビデオ共有ウェブサイト上で共有される)が、2次元ビデオおよびモノまたはステレオオーディオを含むが、それは、この形の媒体が、一般機器(たとえば、モバイルフォン、ビデオカメラなど)を使って容易にキャプチャすることができるからである。
2次元ビデオに関連付けられたオーディオデータをアップミックスすることは難題を提示する場合があり、それは、2次元ビデオデータが、サラウンドサウンド経験を作成するのに従来必要な2次元ビデオの環境の不完全な理解をもたらす場合があるからである。たとえば、サラウンドサウンドオーディオ作成は、従来、オーディオソースに関連付けられた方向など、ビデオデータがそこからキャプチャされるカメラ視点に関連付けられた3次元空間の理解を要し得る。一例として、サラウンドサウンドオーディオは、セットまたは記録空間の周辺の既知および/または相関位置を有する複数のマイクロフォンによってキャプチャすることができる。そのような情報が、モノもしくはステレオオーディオ、および/または他の低次元もしくは低オーディオチャネルオーディオを有する2次元ビデオの中などで利用できないとき、アップミックスされたオーディオデータを正確に発生させることが困難な場合がある。たとえば、サラウンドサウンドオーディオを発生させる際に必要または少なくとも有益であり得る静止および/または移動オフスクリーンオブジェクト(たとえば、環境サウンドなど)などの静止および/または移動オブジェクトから供給されるオーディオデータを正確に配置することが困難または不可能な場合がある。さらに、3次元ビデオに関連付けられた、より完全な空間認識は2次元ビデオには存在しない場合があり、アップミックスされたオーディオデータの発生をさらに複雑にする。
たとえば、オーディオビジュアルデータは、不完全なビデオデータであるか、またはそれを含み得る。つまり、ビデオデータは、音響環境の不完全な理解を提供する場合がある。これの例は、ビデオデータが2次元ビデオデータを含む場合であり得る。たとえば、ビデオデータは、2次元カメラによってキャプチャされ得る。
不完全なビデオデータについて、ビデオデータの各フレームは、より大きいシーンの一部分のみを含むシーンを示す。たとえば、ビデオデータのフレームは、複数の境界であるか、またはそれを含み得る。境界は、シーンの広がりを定義してよく、より大きいシーンは、境界を越えて広がる。境界は、カメラなど、オーディオビジュアルデータをキャプチャするのに使われる記録デバイスの物理的限界または設定によって定義され得る。境界は、いくつかの例では、概して垂直境界を含んでよく、たとえば、ビデオデータは、水平面における360度の視界を提供しない場合がある。
ビデオデータとは対照的に、記録されたオーディオデータは概して、より大きいシーンからのサウンドをキャプチャする。たとえば、第1の時間期間において、ビデオデータとオーディオデータの両方が、サウンドを生成するオブジェクトを含み得る(たとえば、カメラおよびマイクロフォンが、道路に沿って走行する車をキャプチャし得る)。第2の時間期間において、オブジェクトは、ビデオデータの境界を出てしまっている場合がある(たとえば、車は、カメラを走り過ぎ、カメラに撮影されない場合がある)。ただし、オブジェクトによって生成されたサウンドは依然として記録され、したがって、オーディオデータの中に存在する。
本開示の例示的態様によるシステムおよび方法は、相関オーディオビジュアルデータに基づいてオーディオビジュアル埋込みを発生させるためのシーケンス間機械学習型モデル(たとえば、エンコーダデコーダモデル、変圧器モデルなど)などの機械学習型モデルを利用することによって、これらおよび他の問題のための解決策を提供することができる。たとえば、相関オーディオビジュアルデータは、3つよりも少ないオーディオチャネルなど、第1のオーディオチャネル数を有するオーディオデータと、ビデオフレーム(たとえば、画像)のシーケンスを含むビデオデータなど、対応するビデオデータとを含み得る。本開示の例示的態様によるシステムおよび方法はこのように、オーディオビジュアルデータの空間特性の理解を含むオーディオビジュアル埋込みを発生させることができる。たとえば、システムおよび方法は、各入力記録(たとえば、オーディオデータ)のためのオーディオビジュアル埋込みのシーケンスを発生させることができる。オーディオビジュアル埋込みは、アップミックスされたオーディオデータを発生させるのに使うことができる。たとえば、ビデオならびに/またはモノおよび/もしくはステレオオーディオを含む他のオーディオビジュアル媒体は、本開示の例示的態様に従って、サラウンドサウンドオーディオを含むビデオおよび/または他のオーディオビジュアル媒体に変換することができる。たとえば、サラウンドサウンドオーディオデータは、空間変動再生デバイス用のいくつかのチャネルにおいてオーディオ信号を与えることができ、このデバイスは、再生デバイス以外のどこかであり得るロケーション(たとえば、ビデオデータの中のオブジェクトのロケーションに対応する)において発したオーディオをシミュレートするなど、ユーザ経験を向上させるように、オーディオをユーザ向けにプレイすることができる。たとえば、2つ以上のチャネルにおけるオーディオ信号は、オーディオイベントを、再生デバイス以外の空間から発したものとしてユーザが認知するような、同じオーディオイベント(たとえば、特定のサウンド効果、発語など)に関連付けられたオーディオシグネチャを含み得る。システムおよび方法は特に、このアップミキシングを、オーディオコンテキストの限られた理解のみを提供し得る2次元ビデオデータ用にさえも実施することができる。
アップミックスされたオーディオデータを発生させるために有用であることに加え、オーディオビジュアル埋込みは、サウンド分離タスク、サウンド定位タスク、意味解析タスク、および空間理解によって向上することができる他の適切なオーディオ定位タスクに使われてよい。たとえば、オーディオビジュアル埋込みは、サウンド分離モデル、サウンド定位モデル、意味解析モデル、または機械学習型モデルなど、別の適切なタスクモデルにフィードされてよい。
本開示の例示的態様によると、コンピューティングシステムは、1つまたは複数のプロセッサを含み得る。1つまたは複数のプロセッサは、オーディオビジュアルデータをアップミックスするコンピュータ実装方法を実装するための動作を実施するように構成することができる。たとえば、コンピューティングシステムは、実装されると、1つまたは複数のプロセッサに動作を実施させる命令を含むコンピュータ可読データを記憶する1つまたは複数のメモリデバイスを含み得る。コンピューティングシステムは、1つまたは複数のプロセッサの一部または全部を含む1つまたは複数のコンピューティングデバイスなど、1つまたは複数のコンピューティングデバイスであり得るか、またはそれらを含み得る。一例として、コンピューティングシステムは、サーバコンピューティングシステム、クライアントコンピューティングシステム(たとえば、パーソナルコンピューティングデバイス)、モバイルデバイス(たとえば、スマートフォン、タブレットコンピュータ、メディアプレーヤなど)、および/またはどの適切なコンピューティングデバイスも含むどの他の適切なコンピューティングシステムも含み得る。
いくつかの実装形態では、動作は、オーディオビジュアルデータを発生させるか、もしくはそうでなければ与えるように構成された第1のレイヤおよび/またはオーディオビジュアルデータをユーザに与えるように構成された第2のレイヤの間で提供されるなど、プログラムまたはアプリケーションの中のアプリケーションレイヤとして実装することができる。別の例として、いくつかの実装形態では、動作は、オーディオビジュアル媒体の作成、記憶、アップロード、および/または他の転送と連続して実装することができる。たとえば、オーディオビジュアル媒体は、低オーディオチャネルオーディオデータで作成および/または転送することができ、作成および/または転送中に、動作は、低オーディオチャネルオーディオデータとともに、および/またはその代替として提供されるためのアップミックスされたオーディオデータを発生させるように実装することができる。たとえば、アップミックスされたオーディオデータは、アップミックスされたオーディオデータを再生オプションとしてユーザが選択することができるように、低オーディオチャネルオーディオデータとともにビデオアップロードサービスおよび/またはビデオストリーミングサービスにおいて記憶されてよい。
動作および/またはコンピュータ実装方法は、(たとえば、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって)オーディオビジュアルデータを取得することを含み得る。オーディオビジュアルデータは、オーディオデータと、オーディオデータに付随するビデオデータとを含み得る。たとえば、オーディオデータおよび/またはビデオデータは、相応して時分割することができる。たとえば、いくつかの実装形態では、オーディオデータは、スペクトログラムであり得るか、またはそれを含み得る。たとえば、スペクトログラムは、周波数および/または時間に対する強度に関する情報を含み得る。いくつかの実装形態では、オーディオデータは、オーディオデータの中に、1つまたは複数のオーディオチャネルの各々についてのスペクトログラムを含み得る。オーディオビジュアルデータは、リアルタイムで(たとえば、1つもしくは複数の記録デバイスから)、ファイル(たとえば、メディアファイル)から、および/またはどの他の適切なやり方でも取得することができる。
ビデオデータは、ユーザへのビデオ再生を容易にする、任意の適したフォーマットのコンピュータ可読データであり得るか、またはそれを含み得る。たとえば、ビデオデータは、複数のビデオフレームからなるシーケンスを含み得る。ビデオフレームは、RGB画像、CMYK画像、および/または任意の他の適切な画像などの画像であってよい。追加および/または代替として、ビデオデータは、たとえば、MP4フォーマット(たとえば、mp4、m4aなど)、WMVフォーマット、OGGフォーマット、MOVフォーマット、および/または任意の他の適したフォーマットなど、ビデオデータの圧縮を提供するファイルフォーマットなど、どの適したフォーマットでも記憶することができる。いくつかの実装形態では、ビデオファイルフォーマットは、オーディオデータを記憶するようにさらに構成することができる。いくつかの実装形態では、ビデオデータは、ピクセルの2次元配列の中の位置を各ピクセルが有する複数のピクセルとして表されるビデオデータなどの2次元ビデオデータ(たとえば、2次元カメラからキャプチャされたビデオデータ)であり得るか、またはそれを含み得る。
追加および/または代替として、動作および/またはコンピュータ実装方法は、(たとえば、コンピューティングシステムによって)オーディオビジュアルデータをオーディオビジュアルアップミキシングモデルに与えることを含み得る。オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータ(たとえば、オーディオデータおよび/または付随するビデオデータ)を受信し、オーディオビジュアルデータの受信に応答して、オーディオビジュアルデータに基づいて、アップミックスされたオーディオデータを発生させるように構成することができる。たとえば、動作および/またはコンピュータ実装方法は、オーディオビジュアルアップミキシングモデルにオーディオビジュアルデータを与えたことに応答して、(たとえば、コンピューティングシステムによって)、オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信することを含み得る。
アップミックスされたオーディオデータは、オーディオビジュアルデータの一部として含まれるオーディオデータよりも大きいオーディオチャネル数を有し得る。たとえば、アップミックスされたオーディオデータは、複数の再生デバイスを含む(たとえば、および/または複数の再生デバイスをシミュレートするように構成された)オーディオ再生システムに提供することができ、各再生デバイスは、一意のオーディオチャネルに関連付けられる。別の例として、アップミックスされたオーディオデータは、オーディオビジュアルメディアファイルなどのメディアファイルとして、(たとえば、ビデオデータとともに)記憶することができる。たとえば、オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータに直接基づいて、アップミックスされたオーディオデータを発生させるように構成することができ、このことにより、座標系を明示的にインスタンス化することおよびオブジェクト定位タスク、サウンド分離タスクなど、他の要件に関連付けられた複雑な事態への解決策を提供することができる。たとえば、オーディオビジュアルアップミキシングモデルの使用により、オーディオデータの明示的な(たとえば、座標系によって、など、明示的にインスタンス化された)360度の理解を要するのを回避することができる。
オーディオチャネルは、スピーカー、ヘッドフォンなどのような、1つまたは複数の再生デバイスにオーディオ信号を伝えるための適切な媒体であるか、またはそれを含み得る。たとえば、オーディオチャネルは、ワイヤーまたは他の遮断型信号通信媒体であり得るか、またはそれを含み得る。別の例として、オーディオチャネルは、多重化信号など、複数のチャネルを含む信号中の論理分割であるか、またはそれらを含み得る。オーディオデータは、オーディオデータがそのために構成される、各チャネルに関連付けられた一意のオーディオ信号(たとえば、一意のスペクトログラム)など、複数のオーディオチャネルに関連付けられたデータを含み得る。たとえば、複数のオーディオチャネルに関連付けられたデータを含むオーディオデータの再生中、各チャネル向けのオーディオデータは、各再生デバイスが別個のサウンドを出力するように、一意の再生デバイス(たとえば、スピーカー)に(たとえば、別々に)フィードされてよい。
元のオーディオデータおよび/またはアップミックスされたオーディオデータ用のオーディオチャネルは各々、完全なオーディオチャネルであってよく、かつ/または部分的オーディオチャネルであるか、もしくはそれらを含み得る。たとえば、アップミックスされたオーディオデータは、完全周波数帯域を有する5つのチャネルと、限られた周波数帯域(たとえば、効果のために使われる)をもつ第6のチャネルとを含む5.1チャネルオーディオデータであってよい。
追加および/または代替として、チャネルは、既知の空間構成に関連付けられてよい。たとえば、単一チャネルオーディオデータ(たとえば、モノオーディオ)が、空間配向にかかわらず各再生デバイスに提供されてよく、このことは、ユーザが1つの再生デバイスそれとも多くのデバイスで聴いている(たとえば、ペアのうちの単一ヘッドフォンで聴いているだけである)かにかかわらず、完全なオーディオデータをユーザに伝えるのに有益であり得る。別の例として、デュアルチャネルオーディオデータ(たとえば、ステレオオーディオ)は、観測点(たとえば、テレビジョンスクリーン、ヘッドフォンの前面など)に相対して概して左側に関連付けられた1つのチャネルを含み、ユーザの左に(たとえば、観測点の左の再生デバイスにおいて)オーディオを与えるように構成されてよく、第2のチャネルは右側に関連付けられてよい。
さらに、5.1チャネルシステムは、フロント左チャネル、フロント右チャネル、センターチャネル、左サラウンドチャネル、右サラウンドチャネル、および/または低周波効果チャネル(たとえば、サブウーファー用)を有するオーディオデータを含み得る。データは、この慣習で並べられた再生デバイスからユーザに必ずしも提供されなくてよいが、オーディオデータは概して、この構成に合致する再生デバイスに提供される場合、オーディオデータによって意図されたように、音響環境をユーザに伝える。任意の適切な数のチャネルを含む他の適切なオーディオデータ構成が、本開示の例示的態様に従って利用されてよい。
オーディオビジュアルアップミキシングモデルは、1つまたは複数の入力ストリームおよび/または出力ストリームを含み得る。たとえば、いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、入力オーディオデータの各オーディオチャネル向けの1つのストリームおよびビデオデータ用のストリームなど、入力データの各チャネル向けの1つの入力ストリームを含み得る。別の例として、オーディオビジュアルアップミキシングモデルは、アップミックスされたオーディオデータの各チャネル向けの1つの出力ストリームを含み得る。たとえば、2チャネルステレオオーディオを5.1チャネルサラウンドサウンドオーディオに変換するように構成されたオーディオビジュアルアップミキシングモデルは、2チャネルオーディオデータ用の2つの入力ストリーム、ビデオデータ用の入力ストリーム、および5.1チャネルサラウンドサウンドオーディオデータ用の6つの出力ストリームを含み得る。
オーディオデータと付随するビデオデータの両方を入力データとして使うことによって、オーディオビジュアルアップミキシングモデルは、ビデオデータの中の(たとえば、サウンド発生)オブジェクトのロケーションと、オーディオデータの中の対応するオーディオ信号との間の対応を学習することができる。この対応は、オーディオ信号から、アップミックスされたサウンドスケープ(たとえば、サラウンドサウンドオーディオデータ)を再構築する際に有用であり得る。たとえば、オーディオビジュアルアップミキシングモデルは、ビデオデータに基づいて、スクリーン上のサウンド発生オブジェクトに関する情報を学習することができる。さらに、オーディオビジュアルアップミキシングモデルは、オブジェクトが最後に見られたのはどこか、またはオブジェクトがどこに入ろうとしているかに基づく予測など、オフスクリーンオブジェクトについての、情報に基づく予測を行うことができる。
いくつかの実装形態では、モデルは、(たとえば、ビデオデータの中の固定視点に相対した)オブジェクトロケーションにおける連続性を要するように制約され得る。たとえば、オブジェクトロケーションにおける連続性を制約することで、モデルが、ビデオデータの中のオブジェクトについての妥当なソースロケーション割当てを提供するのを支援することができる。制約は、たとえば、状態ベクトルおよび/または出力の潜在的変化に対する限度として実装されてよい。
オーディオビジュアルアップミキシングモデルは、機械学習型であり得る(たとえば、1つまたは複数の機械学習型モデルであるか、またはそれらを含むことができる)。たとえば、オーディオビジュアルアップミキシングモデルは、自己教師あり機械学習型モデルであってよい。いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、(たとえば、機械学習型)シーケンス間モデルであり得るか、またはそれを含み得る。シーケンス間モデルは、データ(たとえば、オーディオビジュアルデータ)の第1のシーケンスをとり、データの第1のシーケンスに基づいて、データ(たとえば、アップミックスされたオーディオデータ)の第2のシーケンスを発生させるように構成されるモデルであってよい。例として、シーケンス間モデルは、エンコーダデコーダモデル、ニューラルネットワーク(たとえば、回帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)など)、長短期メモリ(LSTM)モデル、変圧器モデル、ゲート付き回帰型ユニット(GRU)モデル、および/もしくは他の適切なシーケンス間モデルまたはそれらの部分であり得るか、またはそれらを含み得る。
シーケンス間モデルは、1つまたは複数のオーディオソースのそれぞれのロケーションを、ビデオデータの複数のフレームにわたる比較的大きいシーン内でモデル化するように構成することができる。たとえば、シーケンス間モデル(たとえば、エンコーダデコーダ)は、入力オーディオビジュアルデータを、データの潜在性時系列ベクトル表現にマップすることができ、これは、各出力チャネルを生成する際に使うことができる。たとえば、シーケンス間モデルは、オブジェクトがオフスクリーンであるときでさえも、ビデオデータの中のシーン全体を通してオブジェクトのロケーションを直観的に考慮することができる。こうすることにより、移動またはオフスクリーンオブジェクト、カメラの後ろのオブジェクトから供給されるシーン中の環境オーディオ、などの空間的一貫性を保つ正確なアップミックスされたオーディオデータをモデルが構築するのを支援することができる。
一例として、オーディオビジュアルアップミキシングモデルは、1つまたは複数のニューラルネットワーク(たとえば、回帰型ニューラルネットワーク、畳み込みニューラルネットワーク、線形ネットワークなど)を含むエンコーダデコーダモデルなどのエンコーダデコーダモデルであり得るか、またはそれを含み得る。たとえば、エンコーダデコーダモデルは、入力データをエンコーダサブモデルに与えることによって、入力データ(たとえば、オーディオビジュアルデータ)のコンテキスト情報を、内部状態ベクトル(たとえば、埋込み)としてキャプチャすることができる。たとえば、いくつかの実施形態では、エンコーダサブモデルは、各入力シーケンス用の入力チャネル(たとえば、別個のマッピングニューラルネットワーク)を含み得る。たとえば、エンコーダサブモデルは、オーディオビジュアルデータに含まれるオーディオデータおよびビデオデータ用に、別個および/または相関入力チャネル(たとえば、別個のニューラルネットワーク)を含み得る。相関入力チャネルを含むことで、オーディオビジュアルアップミキシングモデルは、ビデオデータに存在するとともにオーディオデータに関連付けられたコンテキスト情報を学習することができるようになり、これは、アップミキシングオーディオデータ用に、特に2次元ビデオデータ用に有益であり得る。
内部状態ベクトルは、内部状態ベクトルに基づいて出力データ(たとえば、アップミックスされたオーディオデータ)を発生させるために、デコーダサブモデルに提供され得る。内部状態ベクトルは、以前の状態からの情報(たとえば、シーケンス中の以前の入力)をさらに保存することができ、これにより、シーケンス間モデルは、入力データ(たとえば、現在のビデオフレームではオフスクリーンであってよいビデオデータの中の以前の視覚エンティティ)の履歴情報を学習することができる。サブモデル(たとえば、エンコーダサブモデルおよび/またはデコーダサブモデル)は、回帰型ニューラルネットワークなどのニューラルネットワークを含み得る。
いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは注意機構を含み得る。注意機構は、オーディオビジュアルアップミキシングモデルが、入力データのシーケンス中の入力データの複数のエントリなど、入力データのウィンドウを観測することができるように構成され得る。たとえば、ウィンドウは、時間ウィンドウ(たとえば、入力データのシーケンスのサブセット)であってよい。例として、オーディオビジュアルアップミキシングモデルがエンコーダデコーダモデルである実装形態などでは、注意機構は、デコーダサブモデルに各々が提供される複数の内部状態ベクトルを含み得る。追加および/または代替として、注意機構は、1つまたは複数のコンテキストベクトルを含み得る。たとえば、コンテキストベクトルは、内部状態ベクトルの1つまたは複数の加重和であってよい。複数のコンテキストベクトルおよび/または内部状態ベクトルを含むことで、(たとえば、以前はシーンの中にあったオフスクリーンオブジェクトに関連付けられた情報を覚えているために)より長い時間シーケンスにわたる理解を含む、オーディオビジュアルデータのより深い理解を提供することができる。コンテキストベクトルは、内部状態ベクトルと組み合わされ、単一内部状態ベクトルの代わりに使われ(たとえば、入力としてデコーダサブモデルに提供され)得る。追加および/または代替として、注意機構は、入力内部状態ベクトルについての注意スコアを与えるように構成される整列モデル(たとえば、機械学習型モデル)を含み得る。たとえば、注意スコアは、内部状態ベクトルに関連付けられた特定の入力データエントリがどれだけ重要であるかを判断するために、(たとえば、コンテキストベクトルと組み合わされた)特定の内部状態ベクトル用の整列モデルによって提供され得る。
たとえば、いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、入力オーディオビジュアルデータの低次元埋込み(たとえば、100よりも少ない次元を有する埋込み)を発生させることができる。たとえば、注意機構をもつエンコーダデコーダモデルを有する実装形態などでは、埋込みは、エンコーダサブモデルによって発生されてよい。これらの埋込みは、相関オーディオおよび視覚イベントについての有用情報(たとえば、対応するサウンド発生オブジェクトのロケーションをもつサウンド)を符号化することができる。埋込みは、空間に敏感である様々なオーディオタスクのために、タスク固有機械学習型モデル(たとえば、ニューラルネットワークレイヤなどのタスク固有レイヤ)に提供されてよい。一例として、埋込みは、遮断型オーディオ信号を発生させるサウンド分離モデルに、入力として提供されてよく、ここで、符号化ビデオ情報は、オーディオソースを分離する際に有益であり得る。別の例として、埋込みは、音源を定位するために音源定位モデルに提供されてよく、ここで、符号化ビデオ情報は、音源を定位する際に有益であり得る。たとえば、埋込みは、高品質オーディオビジュアルシーンの部分的および/または完全な注釈タスクを実施する際に有用であり得る。
追加および/または代替として、いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータに関連付けられた補足データを受信するように構成することができる。補足データは、オーディオビジュアルデータの中のオーディオおよび/またはビデオデータを補足するデータであり得るか、またはそれを含み得る。一例として、補足データは、オブジェクト境界(たとえば、境界ボックス)、オブジェクト分類、オブジェクト追跡(たとえば、予測される軌跡などのオブジェクト軌跡)、カメラ追跡情報、および/または任意の他の適切な補足データなど、ビデオデータに関連付けられる(たとえば、オブジェクト検出モデルからの)オブジェクト検出データを含み得る。いくつかの実装形態では、ただし、オーディオビジュアルアップミキシングモデルは、この補足データを要することなく、オーディオデータをアップミックスすることを学習することができ、このことは、補足データを導出するための追加データ処理要件を削減する上で、および/またはそのようなデータが(たとえば、2次元ビデオにおけるオフスクリーンオブジェクト用に)利用できない場合に、有益であり得る。たとえば、オーディオビジュアルアップミキシングモデルは、これらのタスクならびに/またはこれらのタスクについての情報を提供するデータのインスタンス化および/もしくは転送のための別個のモデルを要することなく、オブジェクト検出および追跡に関してオーディオデータをアップミックスすること(たとえば、空間特徴に関してオーディオデータをアップミックスすること)を共同で学習することができる。
追加および/または代替として、本開示の例示的態様によるシステムおよび方法は、オーディオビジュアルアップミキシングモデルをトレーニングすることを可能にする。たとえば、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムが、オーディオビジュアルアップミキシングモデルをトレーニングデータでトレーニングするように構成され得る。モデルは、モデルが推論時に動作する同じロケーション(たとえば、メモリ中の同じアドレス、同じコンピューティングデバイス、など)でトレーニングされてよく、かつ/または第1のコンピューティングシステム(たとえば、トレーニング用コンピューティングシステム)においてトレーニングされ、トレーニングに続いて、および/もしくは推論時間に先立って、別個の第2のコンピューティングシステムへ転送されてよい。たとえば、オーディオビジュアルアップミキシングモデルをトレーニングすることは、ビデオトレーニングデータおよび第2のオーディオチャネル数を有するオーディオトレーニングデータを含むオーディオビジュアルトレーニングデータを、(たとえば、1つまたは複数のコンピューティングデバイスを有するコンピューティングシステムによって)取得することと、オーディオトレーニングデータを(たとえば、コンピューティングシステムによって)ダウンミックスして、第1のオーディオチャネル数を含む、ダウンミックスされたオーディオトレーニングデータを発生させることと、ビデオトレーニングデータおよび対応するダウンミックスされたオーディオトレーニングデータをオーディオビジュアルアップミキシングモデルに(たとえば、コンピューティングシステムによって)与えることと、オーディオビジュアルアップミキシングモデルからの第2のオーディオチャネル数を有する予測されたアップミックスされたオーディオデータ出力を(たとえば、コンピューティングシステムによって)取得することと、予測されたアップミックスされたオーディオデータとオーディオトレーニングデータとの間の差分を(たとえば、コンピューティングシステムによって)判断することと、差分に基づいてモデルの1つまたは複数のパラメータを(たとえば、コンピューティングシステムによって)更新することとを含み得る。
たとえば、オーディオビジュアルアップミキシングモデルをトレーニングすることは、オーディオビジュアルトレーニングデータを含むトレーニングデータを(たとえば、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって)取得することを含み得る。オーディオビジュアルトレーニングデータは、ビデオデータおよび/またはビデオデータを伴う上位チャネルオーディオデータであり得るか、またはそれを含み得る。たとえば、オーディオビジュアルトレーニングデータは、サラウンドサウンドオーディオなどの上位チャネルオーディオデータを含む、専門家および/またはアマチュアビデオなど、複数(たとえば、数千以上)のビデオ媒体エンティティを含み得る。上位チャネルオーディオデータは、第1のオーディオチャネル数など、複数のオーディオチャネルに関連付けられたデータを含み得る。たとえば、上位チャネルオーディオデータは、出力するべきオーディオビジュアルアップミキシングモデル用に所望されるチャネル数など、3よりも大きいオーディオチャネル(たとえば、6つのオーディオチャネル)を有するサラウンドサウンド上位チャネルオーディオデータであってよい。
オーディオビジュアルアップミキシングモデルをトレーニングすることは、追加および/または代替として、オーディオビジュアルトレーニングデータのオーディオデータを(たとえば、コンピューティングシステムによって)ダウンミックスして、ダウンミックスされたオーディオデータを発生させることを含み得る。より大きい数のチャネルに関連付けられたデータを埋めるための予測を通常は要し得る、オーディオデータをアップミックスするのとは異なり、オーディオデータをダウンミックスすることは通常、たとえば規則、ヒューリスティクス、プロトコルなどによって、決定論的に実施され得る。たとえば、サラウンドサウンドオーディオおよび/またはステレオオーディオをモノオーディオにダウンミックスすることは、複数のオーディオチャネルの各々を単一オーディオチャネル上で組み合わせることを含むだけでよい。
一例として、オーディオデータをダウンミックスすることは、第2のチャネル数を有する下位チャネルオーディオデータにダウンミックスされるべき、第1のチャネル数を有する上位チャネルオーディオデータを取得することを含み得る。上位チャネルオーディオデータの各オーディオチャネル用に、最も近い(たとえば、空間的に最も近い)チャネルなど、下位チャネルオーディオデータの対応するチャネルが選択されてよく、上位チャネルオーディオデータのオーディオチャネルからのオーディオデータが、下位チャネルオーディオデータの対応するチャネルに関連付けられてよい。たとえば、上位チャネルオーディオデータの1つまたは複数のオーディオチャネルが、下位チャネルオーディオデータの単一オーディオチャネル上で組み合わされてよい。
オーディオビジュアルアップミキシングモデルは、ビデオデータと、対応するダウンミックスされたオーディオデータとをオーディオビジュアルアップミキシングモデルに与えることによってトレーニングされ得る。たとえば、元の上位チャネルオーディオデータは、オーディオビジュアルアップミキシングモデルの期待される出力として使うことができ、オーディオビジュアルアップミキシングモデルからの予測される上位チャネルオーディオデータが、元の上位チャネルオーディオデータと突き合わせて評価され得る。たとえば、モデルを(たとえば、逆伝搬によって)トレーニングするのに使われる損失は、元の、および予測される上位チャネルオーディオデータの間の差分に基づき得る。たとえば、損失関数は、複合スペクトログラムへの回帰を含み得る。別の例として、損失関数は、振幅スペクトログラムへの回帰を含む場合があり、これは、浸透性波形再構築システムに入力され得る。
本開示の態様は、いくつかの技術的効果および利益を提供することができる。たとえば、本開示の態様は、たとえば、ビデオデータが2次元である場合など、ビデオデータが音響環境の不完全な理解を提供する場合であっても、付随するビデオデータをもつオーディオデータのアップミキシングを可能にすることができる。
たとえば、本開示の態様は、コンピューティング技術の向上をもたらすことができる。たとえば、本開示の態様は、入力オーディオデータと、入力オーディオデータに付随するビデオデータとを含むオーディオビジュアルデータを取得すること、入力オーディオデータは、第1のオーディオチャネル数を有すること、オーディオビジュアルデータを、機械学習型オーディオビジュアルアップミキシングモデルに入力として与えること、および第2のオーディオチャネル数を有するオーディオビジュアルアップミキシングモードから、アップミックスされたオーディオデータを受信することであって、第2のオーディオチャネル数は、第1のオーディオチャネル数よりも大きい、ことによって、コンピューティング技術を向上することができる。たとえば、こうすることにより、より大きいオーディオチャネル数を有する入力オーディオデータの、向上した表現を提供することができ、これにより、オーディオデータを(たとえば、オーディオ再生のために)使用するコンピューティングシステムが、オーディオイベントにおける向上した空間ダイバーシティなど、向上したユーザ聴取経験を提供することができる。
ここで図面を参照して、本開示の例示的実施形態についてさらに詳しく論じる。
図1Aは、本開示の例示的実施形態に従ってオーディオビジュアルアップミキシングを実施する例示的コンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスであってもよい。
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実施させるようにプロセッサ112によって実行される命令118とを記憶することができる。
いくつかの実装形態では、ユーザコンピューティングデバイス102は、1つまたは複数のオーディオビジュアルアップミキシングモデル120を記憶するか、または含むことができる。たとえば、オーディオビジュアルアップミキシングモデル120は、ニューラルネットワーク(たとえば、深層ニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習型モデルなど、様々な機械学習型モデルであってよく、またはそうでなければ、それらの機械学習型モデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形のニューラルネットワークを含み得る。例示的オーディオビジュアルアップミキシングモデル120については、図2~図3を参照して論じる。
いくつかの実装形態では、1つまたは複数のオーディオビジュアルアップミキシングモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、単一のオーディオビジュアルアップミキシングモデル120の複数の並列インスタンスを(たとえば、オーディオビジュアルアップミキシングサービスの複数のインスタンスにわたる並列オーディオビジュアルアップミキシングを実施するために)実装することができる。
より詳細には、オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータ(たとえば、オーディオデータおよび/または付随するビデオデータ)を受信し、オーディオビジュアルデータの受信に応答して、オーディオビジュアルデータに基づいて、アップミックスされたオーディオデータを発生させるように構成することができる。たとえば、動作および/またはコンピュータ実装方法は、オーディオビジュアルアップミキシングモデルにオーディオビジュアルデータを与えたことに応答して、(たとえば、コンピューティングシステムによって)、オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信することを含み得る。
アップミックスされたオーディオデータは、オーディオビジュアルデータの一部として含まれるオーディオデータよりも大きいオーディオチャネル数を有し得る。たとえば、アップミックスされたオーディオデータは、複数の再生デバイスを含む(たとえば、および/または複数の再生デバイスをシミュレートするように構成された)オーディオ再生システムに提供することができ、各再生デバイスは、一意のオーディオチャネルに関連付けられる。別の例として、アップミックスされたオーディオデータは、オーディオビジュアルメディアファイルなどのメディアファイルとして、(たとえば、ビデオデータとともに)記憶することができる。たとえば、オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータに直接基づいて、アップミックスされたオーディオデータを発生させるように構成することができ、このことにより、座標系を明示的にインスタンス化することおよびオブジェクト定位タスク、サウンド分離タスクなど、他の要件に関連付けられた複雑な事態への解決策を提供することができる。たとえば、オーディオビジュアルアップミキシングモデルの使用により、オーディオデータの360度理解を要するのを回避することができる。
追加または代替として、1つまたは複数のオーディオビジュアルアップミキシングモデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれ、またはそうでなければ、サーバコンピューティングシステム130によって記憶され、実装され得る。たとえば、オーディオビジュアルアップミキシングモデル140は、ウェブサービス(たとえば、オーディオビジュアルアップミキシングサービス)の一部分として、サーバコンピューティングシステム130によって実装され得る。したがって、1つまたは複数のモデル120が、ユーザコンピューティングデバイス102において記憶され、実装されてよく、かつ/または1つもしくは複数のモデル140が、サーバコンピューティングシステム130において記憶され、実装されてよい。
ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122も含み得る。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチ感応構成要素(たとえば、タッチ感応表示画面またはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的ユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を与えることができる他の手段を含む。
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実施させるようにプロセッサ132によって実行される命令138とを記憶することができる。
いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習型オーディオビジュアルアップミキシングモデル140を記憶するか、またはそうでなければ含むことができる。たとえば、モデル140は、様々な機械学習型モデルであってよく、または、そうでなければそれらを含んでよい。例示的機械学習型モデルは、ニューラルネットワークまたは他のマルチレイヤ非線形モデルを含む。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、深層ニューラルネットワーク、回帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的モデル140については、図2~図3を参照して論じる。
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されるトレーニング用コンピューティングシステム150との対話により、モデル120および/または140をトレーニングすることができる。トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってよく、またはサーバコンピューティングシステム130の一部分であってよい。
トレーニング用コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ154は、データ156と、トレーニング用コンピューティングシステム150に動作を実施させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、トレーニング用コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、1つまたは複数のサーバコンピューティングデバイスによって実装される。
トレーニング用コンピューティングシステム150は、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習型モデル120および/または140を、たとえば、誤差逆伝搬など、様々なトレーニングまたは学習技法を使ってトレーニングするモデル訓練器160を含み得る。たとえば、損失関数は、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新するために、モデルを通して逆伝搬され得る。平均2乗誤差、尤度損失、交差エントロピー損失、ヒンジ損失、および/または様々な他の損失関数など、様々な損失関数が使用され得る。勾配降下技法は、いくつかのトレーニング反復に対してパラメータを反復的に更新するために使用され得る。
いくつかの実装形態では、誤差逆伝搬を実施することは、時間をかけて短縮逆伝搬を実施することを含み得る。モデル訓練器160は、トレーニングされるモデルの汎化能力を向上するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実施することができる。
特に、モデル訓練器160は、トレーニングデータ162のセットに基づいて、オーディオビジュアルアップミキシングモデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、オーディオビジュアルトレーニングデータを含み得る。オーディオビジュアルトレーニングデータは、ビデオデータおよび/またはビデオデータを伴う上位チャネルオーディオデータであり得るか、またはそれを含み得る。たとえば、オーディオビジュアルトレーニングデータは、サラウンドサウンドオーディオなどの上位チャネルオーディオデータを含む、専門家および/またはアマチュアビデオなど、複数(たとえば、数千以上)のビデオ媒体エンティティを含み得る。上位チャネルオーディオデータは、第1のオーディオチャネル数など、複数のオーディオチャネルに関連付けられたデータを含み得る。たとえば、上位チャネルオーディオデータは、出力するべきオーディオビジュアルアップミキシングモデル用に所望されるチャネル数など、3よりも大きいオーディオチャネル(たとえば、6つのオーディオチャネル)を有するサラウンドサウンド上位チャネルオーディオデータであってよい。
追加および/または代替として、トレーニングデータは、上位チャネルオーディオデータからダウンミックスされる、ダウンミックスされたオーディオデータを含み得る。たとえば、ビデオデータおよび対応するダウンミックスされたオーディオデータは、オーディオビジュアルアップミキシングモデルに与えられる。たとえば、元の上位チャネルオーディオデータは、オーディオビジュアルアップミキシングモデルの期待される出力として使うことができ、オーディオビジュアルアップミキシングモデルからの予測される上位チャネルオーディオデータが、元の上位チャネルオーディオデータと突き合わせて評価され得る。たとえば、モデルを(たとえば、逆伝搬によって)トレーニングするのに使われる損失は、元の、および予測される上位チャネルオーディオデータの間の差分に基づき得る。たとえば、損失関数は、複合スペクトログラムへの回帰を含み得る。別の例として、損失関数は、振幅スペクトログラムへの回帰を含む場合があり、これは、浸透性波形再構築システムに入力され得る。
いくつかの実装形態では、ユーザが承諾を与えた場合、トレーニング例は、ユーザコンピューティングデバイス102によって提供され得る。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信されるユーザ固有データに対してトレーニング用コンピューティングシステム150によってトレーニングされ得る。いくつかの事例では、このプロセスは、モデルの個別化と呼ばれ得る。
モデル訓練器160は、所望の機能性を提供するのに使用されるコンピュータ論理を含む。モデル訓練器160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAMハードディスクまたは光学もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、非常に様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使って、どのタイプのワイヤードおよび/またはワイヤレス接続を介しても搬送することができる。
本明細書に記載する機械学習型モデルは、たとえば、オーディオビジュアルアップミキシング、サウンド分離および/または遮断などのような、様々なタスク、アプリケーション、および/または使用ケースにおいて使われてよい。
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、画像データ(たとえば、複数の画像フレームを含む、ビデオデータの画像フレーム)であってよい。機械学習型モデルは、画像データを処理して、出力を生成し得る。例として、機械学習型モデルは、画像データを処理して、画像認識出力(たとえば、画像データの認識、画像データの潜在性埋込み、画像データの符号化表現、画像データのハッシュなど)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像分類出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像データ変更出力(たとえば、画像データの改変など)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、符号化画像データ出力(たとえば、画像データの符号化および/または圧縮された表現など)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、アップミックスされた画像データ出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、予測出力を生成し得る。
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、潜在性符号化用データ(たとえば、入力の潜在性空間表現など)であってよい。機械学習型モデルは、潜在性符号化データを処理して、出力を生成し得る。例として、機械学習型モデルは、潜在性符号化データを処理して、認識出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、再構築出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、探索出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、再クラスタ化出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、予測出力を生成し得る。
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、統計データであってよい。機械学習型モデルは、統計データを処理して、出力を生成し得る。例として、機械学習型モデルは、統計データを処理して、認識出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、予測出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、分類出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、セグメント化出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、視覚化出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、診断出力を生成し得る。
いくつかの場合には、機械学習型モデルは、信頼できる、および/または効率的な送信もしくは記憶(および/または対応する復号)のために入力データを符号化することを含むタスクを実施するように構成することができる。たとえば、タスクは、オーディオ圧縮タスクであってよい。入力はオーディオデータを含んでよく、出力は圧縮オーディオデータを含んでよい。別の例では、入力はビデオデータ(たとえば、1つまたは複数の画像またはビデオ)を含み、出力は圧縮ビデオデータを含み、タスクはビデオデータ圧縮タスクである。別の例では、タスクは、入力データ(たとえば、入力オーディオまたはビデオデータ)用の埋込みを生成することを含んでよい。
いくつかの場合には、入力はビデオデータを含み、タスクはコンピュータビジョンタスクである。いくつかの場合には、入力は、1つまたは複数の画像用のピクセルデータを含み、タスクは画像処理タスクである。たとえば、画像処理タスクは画像分類であってよく、ここで、出力はスコアのセットであり、各スコアは、異なるオブジェクトクラスに対応し、オブジェクトクラスに属すオブジェクトを1つまたは複数の画像が示す見込みを表す。画像処理タスクはオブジェクト検出であってよく、ここで、画像処理出力は、1つまたは複数の画像の中の1つまたは複数の領域と、各領域について、対象のオブジェクトを領域が示す見込みとを識別する。別の例として、画像処理タスクは画像セグメント化であってよく、ここで、画像処理出力は、1つまたは複数の画像の中の各ピクセルについて、カテゴリの所定のセット中の各カテゴリについてのそれぞれの見込みを定義する。たとえば、カテゴリのセットは前景および背景であってよい。別の例として、カテゴリのセットはオブジェクトクラスであってよい。別の例として、画像処理タスクは深度推定であってよく、ここで、画像処理出力は、1つまたは複数の画像中の各ピクセルについて、それぞれの深度値を定義する。別の例として、画像処理タスクは動き推定であってよく、ここで、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つの、各ピクセルについて、ネットワーク入力における画像の間のピクセルにおいて示されるシーンの動きを定義する。
図1Aは、本開示を実装するのに使うことができる1つの例示的コンピューティングシステムを示す。他のコンピューティングシステムが使われてもよい。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160およびトレーニングデータセット162を含み得る。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングされることと使われることの両方が可能である。そのような実装形態のうちのいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有データに基づいてモデル120を個別化するために、モデル訓練器160を実装することができる。
図1Bは、本開示の例示的実施形態に従って実施する例示的コンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習型モデルを含む。たとえば、各アプリケーションは、機械学習型モデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
図1Bに示すように、各アプリケーションは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使って、各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
図1Cは、本開示の例示的実施形態に従って実施する例示的コンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、中央インテリジェンスレイヤと通信する。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使って、中央インテリジェンスレイヤ(およびその中に記憶されるモデル)と通信することができる。
中央インテリジェンスレイヤは、いくつかの機械学習型モデルを含む。たとえば、図1Cに示すように、それぞれの機械学習型モデル(たとえば、モデル)が、各アプリケーションに与えられ、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習型モデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、アプリケーションすべてに単一モデル(たとえば、単一モデル)を提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングデバイス50のオペレーティングシステムに含まれるか、またはそうでなければ、オペレーティングシステムによって実装される。
中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングデバイス50向けのデータの集中型リポジトリであってよい。図1Cに示すように、中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使って、各デバイス構成要素と通信することができる。
図2は、本開示の例示的な実施形態による、例示的なオーディオビジュアルアップミキシングモデル200のブロック図を示す。いくつかの実装形態では、オーディオビジュアルアップミキシングモデル200は、オーディオデータ(たとえば、1つもしくは複数のスペクトログラム)および/または付随するビデオデータ(たとえば、ビデオデータの1つもしくは複数の画像フレーム)などのオーディオビジュアルデータを記述する入力データ204のセットを受信することと、入力データ204を受信した結果として、入力オーディオデータよりも大きい数のチャネルを有する、アップミックスされたオーディオデータを含む出力データ206を与えることとを行うようにトレーニングされる。したがって、いくつかの実装形態では、オーディオビジュアルアップミキシングモデル200は、たとえば、オーディオデータを、より大きい数のチャネルを有するようにアップミックスするように動作可能である、エンコーダデコーダモデル、変圧器モデルなどのようなシーケンス間モデル202を含んでよく、チャネルの間でのオーディオデータの配置は、付随するビデオデータに基づく。
図3は、本開示の例示的な実施形態による、例示的なオーディオビジュアル埋込みモデル300のブロック図を示す。オーディオビジュアル埋込みモデル300は、オーディオビジュアルエンコーダモデル302を含み得る。オーディオビジュアルエンコーダモデル302は、入力データ310に基づいて、1つまたは複数のオーディオビジュアル埋込み303を発生させるように構成することができる。入力データ310は、オーディオビジュアルデータ(たとえば、オーディオデータおよび/またはビデオデータ)を含み得る。オーディオビジュアルエンコーダモデル302は、入力データ310に存在する情報を符号化する埋込み303を発生させることができる。たとえば、オーディオビジュアルエンコーダモデル302は、本明細書に記載するオーディオビジュアルアップミキシングモデルの中のエンコーダサブモデルと同様および/または同一であるエンコーダであってよい。たとえば、トレーニング済みオーディオビジュアルアップミキシングモデルからのエンコーダサブモデルは、オーディオビジュアルアップミキシングモデル(デコーダサブモデルなど)の他の構成要素から分離され、オーディオビジュアル埋込みモデル300の中で使われてよい。デコーダサブモデルまたは他のアップミキシングモデルに提供される埋込み303への追加および/または代替として、埋込みは、埋込み303に基づいてタスク固有出力データ320を発生させるように構成されたタスク固有モデル304に提供されてよい。たとえば、タスク固有モデル304は、サウンド分離モデル、音源定位モデルなどであってよい。
図4は、本開示の例示的な実施形態による、例示的なオーディオビジュアルアップミキシングモデル400のブロック図を示す。オーディオビジュアルアップミキシングモデル400は、図2のオーディオビジュアルアップミキシングモデル200と同様であり、注意機構402をさらに含む。注意機構402は、オーディオビジュアルアップミキシングモデル400が、入力データのシーケンス中の入力データの複数のエントリなど、入力データのウィンドウを観測することができるように構成され得る。たとえば、ウィンドウは、時間ウィンドウ(たとえば、入力データのシーケンスのサブセット)であってよい。例として、オーディオビジュアルアップミキシングモデル400(たとえば、シーケンス間モデル202)がエンコーダデコーダモデルである実装形態などでは、注意機構402は、デコーダサブモデルに各々が提供される複数の内部状態ベクトルを含み得る。追加および/または代替として、注意機構402は、1つまたは複数のコンテキストベクトルを含み得る。たとえば、コンテキストベクトルは、内部状態ベクトルの1つまたは複数の加重和であってよい。複数のコンテキストベクトルおよび/または内部状態ベクトルを含むことで、(たとえば、以前はシーンの中にあったオフスクリーンオブジェクトに関連付けられた情報を覚えているために)より長い時間シーケンスにわたる理解を含む、オーディオビジュアルデータのより深い理解を提供することができる。コンテキストベクトルは、内部状態ベクトルと組み合わされ、単一内部状態ベクトルの代わりに使われ(たとえば、入力としてデコーダサブモデルに提供され)得る。追加および/または代替として、注意機構402は、入力内部状態ベクトルについての注意スコアを与えるように構成される整列モデル(たとえば、機械学習型モデル)を含み得る。たとえば、注意スコアは、内部状態ベクトルに関連付けられた特定の入力データエントリがどれだけ重要であるかを判断するために、(たとえば、コンテキストベクトルと組み合わされた)特定の内部状態ベクトル用の整列モデルによって提供され得る。
図5は、本開示の例示的な実施形態による、例示的なサラウンドサウンド環境500のブロック図を示す。たとえば、アップミックスされたオーディオデータは、サラウンドサウンド環境500に従って並べられる再生デバイス上でプレイされるように構成されてよい。たとえば、サラウンドサウンド環境500は、聴取エリア510に従って並べられ得る。サラウンドサウンド環境500は、サラウンドサウンドオーディオデータの一意のオーディオチャネルをプレイするように各々が構成される再生デバイス501~505を含み得る。たとえば、再生デバイス501~505がサラウンドサウンドオーディオデータの一意のオーディオチャネルをプレイすると、聴取エリア510の所またはその近くのユーザまたは他の聴取エンティティには、ビデオデータの中のサウンド発生オブジェクトに関連付けられた方向を模倣する聴取経験など、向上した聴取経験が提供され得る。たとえば、サラウンドサウンド環境500は、フロント左再生デバイス501用のフロント左チャネル、センター再生デバイス502用のセンターチャネル、フロント右再生デバイス503用のフロント右チャネル、サラウンド左再生デバイス504用のサラウンド左チャネル、およびサラウンド右再生デバイス505用のサラウンド右チャネルを含む5.1チャネルサラウンドサウンド環境であってよい。
図6は、本開示の例示的な実施形態に従ってオーディオビジュアルアップミキシングを実施する例示的な方法のフローチャート図を示す。図6は、説明および考察のために、具体的順序で実行されるステップを示すが、本開示の方法は、具体的に示す順序または並びには限定されない。方法600の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
コンピュータ実装方法600は、602において、(たとえば、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって)オーディオビジュアルデータを取得するステップを含み得る。オーディオビジュアルデータは、オーディオデータと、オーディオデータに付随するビデオデータとを含み得る。たとえば、オーディオデータおよび/またはビデオデータは、相応して時分割することができる。たとえば、いくつかの実装形態では、オーディオデータは、スペクトログラムであり得るか、またはそれを含み得る。たとえば、スペクトログラムは、周波数および/または時間に対する強度に関する情報を含み得る。いくつかの実装形態では、オーディオデータは、オーディオデータの中に、1つまたは複数のオーディオチャネルの各々についてのスペクトログラムを含み得る。オーディオビジュアルデータは、リアルタイムで(たとえば、1つもしくは複数の記録デバイスから)、ファイル(たとえば、メディアファイル)から、および/またはどの他の適切なやり方でも取得することができる。
ビデオデータは、ユーザへのビデオ再生を容易にする、任意の適したフォーマットのコンピュータ可読データであり得るか、またはそれを含み得る。たとえば、ビデオデータは、複数のビデオフレームからなるシーケンスを含み得る。ビデオフレームは、RGB画像、CMYK画像、および/または任意の他の適切な画像などの画像であってよい。追加および/または代替として、ビデオデータは、たとえば、MP4フォーマット(たとえば、mp4、m4aなど)、WMVフォーマット、OGGフォーマット、MOVフォーマット、および/または任意の他の適したフォーマットなど、ビデオデータの圧縮を提供するファイルフォーマットなど、どの適したフォーマットでも記憶することができる。いくつかの実装形態では、ビデオファイルフォーマットは、オーディオデータを記憶するようにさらに構成することができる。いくつかの実装形態では、ビデオデータは、ピクセルの2次元配列の中の位置を各ピクセルが有する複数のピクセルとして表されるビデオデータなどの2次元ビデオデータ(たとえば、2次元カメラからキャプチャされたビデオデータ)であり得るか、またはそれを含み得る。
追加および/または代替として、コンピュータ実装方法600は、604において、(たとえば、コンピューティングシステムによって)オーディオビジュアルデータをオーディオビジュアルアップミキシングモデルに与えるステップを含み得る。オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータ(たとえば、オーディオデータおよび/または付随するビデオデータ)を受信し、オーディオビジュアルデータの受信に応答して、オーディオビジュアルデータに基づいて、アップミックスされたオーディオデータを発生させるように構成することができる。たとえば、コンピュータ実装方法600は、606において、オーディオビジュアルアップミキシングモデルにオーディオビジュアルデータを与えたことに応答して、(たとえば、コンピューティングシステムによって)、オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信するステップを含み得る。
アップミックスされたオーディオデータは、オーディオビジュアルデータの一部として含まれるオーディオデータよりも大きいオーディオチャネル数を有し得る。たとえば、アップミックスされたオーディオデータは、複数の再生デバイスを含む(たとえば、および/または複数の再生デバイスをシミュレートするように構成された)オーディオ再生システムに提供することができ、各再生デバイスは、一意のオーディオチャネルに関連付けられる。別の例として、アップミックスされたオーディオデータは、オーディオビジュアルメディアファイルなどのメディアファイルとして、(たとえば、ビデオデータとともに)記憶することができる。たとえば、オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータに直接基づいて、アップミックスされたオーディオデータを発生させるように構成することができ、このことにより、座標系を明示的にインスタンス化することおよびオブジェクト定位タスク、サウンド分離タスクなど、他の要件に関連付けられた複雑な事態への解決策を提供することができる。たとえば、オーディオビジュアルアップミキシングモデルの使用により、オーディオデータの360度理解を要するのを回避することができる。
オーディオチャネルは、スピーカー、ヘッドフォンなどのような、1つまたは複数の再生デバイスにオーディオ信号を伝えるための適切な媒体であるか、またはそれを含み得る。たとえば、オーディオチャネルは、ワイヤーまたは他の遮断型信号通信媒体であり得るか、またはそれを含み得る。別の例として、オーディオチャネルは、多重化信号など、複数のチャネルを含む信号中の論理分割であるか、またはそれを含み得る。オーディオデータは、オーディオデータがそのために構成される、各チャネルに関連付けられた一意のオーディオ信号(たとえば、一意のスペクトログラム)など、複数のオーディオチャネルに関連付けられたデータを含み得る。たとえば、複数のオーディオチャネルに関連付けられたデータを含むオーディオデータの再生中、各チャネル向けのオーディオデータは、各再生デバイスが別個のサウンドを出力するように、一意の再生デバイス(たとえば、スピーカー)に(たとえば、別々に)フィードされてよい。
元のオーディオデータおよび/またはアップミックスされたオーディオデータ用のオーディオチャネルは各々、完全なオーディオチャネルであってよく、かつ/または部分的オーディオチャネルであるか、もしくはそれらを含み得る。たとえば、アップミックスされたオーディオデータは、完全周波数帯域を有する5つのチャネルと、限られた周波数帯域(たとえば、効果のために使われる)をもつ第6のチャネルとを含む5.1チャネルオーディオデータであってよい。
追加および/または代替として、チャネルは、既知の空間構成に関連付けられてよい。たとえば、単一チャネルオーディオデータ(たとえば、モノオーディオ)が、空間配向にかかわらず各再生デバイスに提供されてよく、このことは、ユーザが1つの再生デバイスそれとも多くのデバイスで聴いている(たとえば、ペアのうちの単一ヘッドフォンで聴いているだけである)かにかかわらず、完全なオーディオデータをユーザに伝えるのに有益であり得る。別の例として、デュアルチャネルオーディオデータ(たとえば、ステレオオーディオ)は、観測点(たとえば、テレビジョンスクリーン、ヘッドフォンの前面など)に相対して概して左側に関連付けられた1つのチャネルを含み、ユーザの左に(たとえば、観測点の左の再生デバイスにおいて)オーディオを与えるように構成されてよく、第2のチャネルは右側に関連付けられてよい。
さらに、5.1チャネルシステムは、フロント左チャネル、フロント右チャネル、センターチャネル、左サラウンドチャネル、右サラウンドチャネル、および/または低周波効果チャネル(たとえば、サブウーファー用)を有するオーディオデータを含み得る。データは、この慣習で並べられた再生デバイスからユーザに必ずしも提供されなくてよいが、オーディオデータは概して、この構成に合致する再生デバイスに提供される場合、オーディオデータによって意図されたように、音響環境をユーザに伝える。任意の適切な数のチャネルを含む他の適切なオーディオデータ構成が、本開示の例示的態様に従って利用されてよい。
オーディオビジュアルアップミキシングモデルは、1つまたは複数の入力ストリームおよび/または出力ストリームを含み得る。たとえば、いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、入力オーディオデータの各オーディオチャネル向けの1つのストリームおよびビデオデータ用のストリームなど、入力データの各チャネル向けの1つの入力ストリームを含み得る。別の例として、オーディオビジュアルアップミキシングモデルは、アップミックスされたオーディオデータの各チャネル向けの1つの出力ストリームを含み得る。たとえば、2チャネルステレオオーディオを5.1チャネルサラウンドサウンドオーディオに変換するように構成されたオーディオビジュアルアップミキシングモデルは、2チャネルオーディオデータ用の2つの入力ストリーム、ビデオデータ用の入力ストリーム、および5.1チャネルサラウンドサウンドオーディオデータ用の6つの出力ストリームを含み得る。
オーディオデータと付随するビデオデータの両方を入力データとして使うことによって、オーディオビジュアルアップミキシングモデルは、ビデオデータの中の(たとえば、サウンド発生)オブジェクトのロケーションと、オーディオデータの中の対応するオーディオ信号との間の対応を学習することができる。この対応は、オーディオ信号から、アップミックスされたサウンドスケープ(たとえば、サラウンドサウンドオーディオデータ)を再構築する際に有用であり得る。たとえば、オーディオビジュアルアップミキシングモデルは、ビデオデータに基づいて、スクリーン上のサウンド発生オブジェクトに関する情報を学習することができる。さらに、オーディオビジュアルアップミキシングモデルは、オブジェクトが最後に見られたのはどこか、またはオブジェクトがどこに入ろうとしているかに基づく予測など、オフスクリーンオブジェクトについての、情報に基づく予測を行うことができる。
いくつかの実装形態では、モデルは、(たとえば、ビデオデータの中の固定視点に相対した)オブジェクトロケーションにおける連続性を要するように制約され得る。たとえば、オブジェクトロケーションにおける連続性を制約することで、モデルが、ビデオデータの中のオブジェクトについての妥当なソースロケーション割当てを提供するのを支援することができる。制約は、たとえば、状態ベクトルおよび/または出力の潜在的変化に対する限度として実装されてよい。
オーディオビジュアルアップミキシングモデルは、機械学習型であり得る(たとえば、1つまたは複数の機械学習型モデルであるか、またはそれらを含むことができる)。たとえば、オーディオビジュアルアップミキシングモデルは、自己教師あり機械学習型モデルであってよい。いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、(たとえば、機械学習型)シーケンス間モデルであり得るか、またはそれを含み得る。シーケンス間モデルは、データ(たとえば、オーディオビジュアルデータ)の第1のシーケンスをとり、データの第1のシーケンスに基づいて、データ(たとえば、アップミックスされたオーディオデータ)の第2のシーケンスを発生させるように構成されるモデルであってよい。例として、シーケンス間モデルは、エンコーダデコーダモデル、ニューラルネットワーク(たとえば、回帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)など)、長短期メモリ(LSTM)モデル、変圧器モデル、ゲート付き回帰型ユニット(GRU)モデル、および/もしくは他の適切なシーケンス間モデルまたはそれらの部分であり得るか、または含み得る。たとえば、シーケンス間モデル(たとえば、エンコーダデコーダ)は、入力オーディオビジュアルデータを、データの潜在性時系列ベクトル表現にマップすることができ、これは、各出力チャネルを生成する際に使うことができる。たとえば、シーケンス間モデルは、オブジェクトがオフスクリーンであるときでさえも、ビデオデータの中のシーン全体を通してオブジェクトのロケーションを直観的に考慮することができる。
一例として、オーディオビジュアルアップミキシングモデルは、1つまたは複数のニューラルネットワーク(たとえば、回帰型ニューラルネットワーク、畳み込みニューラルネットワーク、線形ネットワークなど)を含むエンコーダデコーダモデルなどのエンコーダデコーダモデルであり得るか、またはそれを含み得る。たとえば、エンコーダデコーダモデルは、入力データをエンコーダサブモデルに与えることによって、入力データ(たとえば、オーディオビジュアルデータ)のコンテキスト情報を、内部状態ベクトル(たとえば、埋込み)としてキャプチャすることができる。たとえば、いくつかの実施形態では、エンコーダサブモデルは、各入力シーケンス用の入力チャネル(たとえば、別個のマッピングニューラルネットワーク)を含み得る。たとえば、エンコーダサブモデルは、オーディオビジュアルデータに含まれるオーディオデータおよびビデオデータ用に、別個および/または相関入力チャネル(たとえば、別個のニューラルネットワーク)を含み得る。相関入力チャネルを含むことで、オーディオビジュアルアップミキシングモデルは、ビデオデータに存在するとともにオーディオデータに関連付けられたコンテキスト情報を学習することができるようになり、これは、アップミキシングオーディオデータ用に、特に2次元ビデオデータ用に有益であり得る。
内部状態ベクトルは、内部状態ベクトルに基づいて出力データ(たとえば、アップミックスされたオーディオデータ)を発生させるために、デコーダサブモデルに提供され得る。内部状態ベクトルは、以前の状態からの情報(たとえば、シーケンス中の以前の入力)をさらに保存することができ、これにより、シーケンス間モデルは、入力データ(たとえば、現在のビデオフレームではオフスクリーンであってよいビデオデータの中の以前の視覚エンティティ)の履歴情報を学習することができる。サブモデル(たとえば、エンコーダサブモデルおよび/またはデコーダサブモデル)は、回帰型ニューラルネットワークなどのニューラルネットワークを含み得る。
いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは注意機構を含み得る。注意機構は、オーディオビジュアルアップミキシングモデルが、入力データのシーケンス中の入力データの複数のエントリなど、入力データのウィンドウを観測することができるように構成され得る。たとえば、ウィンドウは、時間ウィンドウ(たとえば、入力データのシーケンスのサブセット)であってよい。例として、オーディオビジュアルアップミキシングモデルがエンコーダデコーダモデルである実装形態などでは、注意機構は、デコーダサブモデルに各々が提供される複数の内部状態ベクトルを含み得る。追加および/または代替として、注意機構は、1つまたは複数のコンテキストベクトルを含み得る。たとえば、コンテキストベクトルは、内部状態ベクトルの1つまたは複数の加重和であってよい。複数のコンテキストベクトルおよび/または内部状態ベクトルを含むことで、(たとえば、以前はシーンの中にあったオフスクリーンオブジェクトに関連付けられた情報を覚えているために)より長い時間シーケンスにわたる理解を含む、オーディオビジュアルデータのより深い理解を提供することができる。コンテキストベクトルは、内部状態ベクトルと組み合わされ、単一内部状態ベクトルの代わりに使われ(たとえば、入力としてデコーダサブモデルに提供され)得る。追加および/または代替として、注意機構は、入力内部状態ベクトルについての注意スコアを与えるように構成される整列モデル(たとえば、機械学習型モデル)を含み得る。たとえば、注意スコアは、内部状態ベクトルに関連付けられた特定の入力データエントリがどれだけ重要であるかを判断するために、(たとえば、コンテキストベクトルと組み合わされた)特定の内部状態ベクトル用の整列モデルによって提供され得る。
たとえば、いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、入力オーディオビジュアルデータの低次元埋込み(たとえば、100よりも少ない次元を有する埋込み)を発生させることができる。たとえば、注意機構をもつエンコーダデコーダモデルを有する実装形態などでは、埋込みは、エンコーダサブモデルによって発生されてよい。これらの埋込みは、相関オーディオおよび視覚イベントについての有用情報(たとえば、対応するサウンド発生オブジェクトのロケーションをもつサウンド)を符号化することができる。埋込みは、空間に敏感である様々なオーディオタスクのために、タスク固有機械学習型モデル(たとえば、ニューラルネットワークレイヤなどのタスク固有レイヤ)に提供されてよい。一例として、埋込みは、遮断型オーディオ信号を発生させるサウンド分離モデルに、入力として提供されてよく、ここで、符号化ビデオ情報は、オーディオソースを分離する際に有益であり得る。別の例として、埋込みは、音源を定位するために音源定位モデルに提供されてよく、ここで、符号化ビデオ情報は、音源を定位する際に有益であり得る。たとえば、埋込みは、高品質オーディオビジュアルシーンの部分的および/または完全な注釈タスクを実施する際に有用であり得る。
追加および/または代替として、いくつかの実装形態では、オーディオビジュアルアップミキシングモデルは、オーディオビジュアルデータに関連付けられた補足データを受信するように構成することができる。補足データは、オーディオビジュアルデータの中のオーディオおよび/またはビデオデータを補足するデータであり得るか、またはそれを含み得る。一例として、補足データは、オブジェクト境界(たとえば、境界ボックス)、オブジェクト分類、オブジェクト追跡(たとえば、予測される軌跡などのオブジェクト軌跡)、カメラ追跡情報、および/または任意の他の適切な補足データなど、ビデオデータに関連付けられる(たとえば、オブジェクト検出モデルからの)オブジェクト検出データを含み得る。いくつかの実装形態では、ただし、オーディオビジュアルアップミキシングモデルは、この補足データを要することなく、オーディオデータをアップミックスすることを学習することができ、このことは、補足データを導出するための追加データ処理要件を削減する上で、および/またはそのようなデータが(たとえば、2次元ビデオにおけるオフスクリーンオブジェクト用に)利用できない場合に、有益であり得る。たとえば、オーディオビジュアルアップミキシングモデルは、これらのタスクならびに/またはこれらのタスクについての情報を提供するデータのインスタンス化および/もしくは転送のための別個のモデルを要することなく、オブジェクト検出および追跡に関してオーディオデータをアップミックスすること(たとえば、空間特徴に関してオーディオデータをアップミックスすること)を共同で学習することができる。
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびにそのようなシステムとの間で取られるアクション、および送られる情報に言及する。コンピュータベースのシステムの固有柔軟性により、構成要素の間でのタスクおよび機能性の非常に様々な可能構成、組合せ、および分割ができるようになる。たとえば、本明細書において論じるプロセスは、組合せで動く、単一のデバイスもしくは構成要素または複数のデバイスもしくは構成要素を使って実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装されるか、または複数のシステムに分散されてよい。分散構成要素は、順次、または並行して動作することができる。
本主題を、その様々な具体的な例示的実施形態に関して詳しく記載したが、各例は、本開示の限定ではなく、説明として与えられている。当業者は、上記を理解すると、そのような実施形態の改変、変形、および等価物を容易に作り出すことができる。したがって、本開示は、当業者には容易に明らかであろうように、本主題へのそのような修正、変形および/または追加を含めることを排除しない。たとえば、一実施形態の一部として示され、または記載される特徴は、またさらなる実施形態をもたらすために、別の実施形態とともに使われてよい。したがって、本開示がそのような改変、変形、および等価物をカバーすることが意図されている。
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム、システム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ、ユーザコンピューティングデバイスメモリ
120 オーディオビジュアルアップミキシングモデル、モデル、機械学習型モデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
140 オーディオビジュアルアップミキシングモデル、モデル、機械学習型モデル
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
160 モデル訓練器
180 ネットワーク
200 オーディオビジュアルアップミキシングモデル
202 シーケンス間モデル
300 オーディオビジュアル埋込みモデル
302 オーディオビジュアルエンコーダモデル
304 タスク固有モデル
400 オーディオビジュアルアップミキシングモデル
402 注意機構
501 再生デバイス、フロント左再生デバイス
502 再生デバイス、センター再生デバイス
503 再生デバイス、フロント右再生デバイス
504 再生デバイス、サラウンド左再生デバイス
505 再生デバイス、サラウンド右再生デバイス

Claims (20)

  1. オーディオビジュアルデータをアップミックスするためのコンピュータ実装方法であって、
    1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、入力オーディオデータ、および前記入力オーディオデータに付随するビデオデータを含むオーディオビジュアルデータを取得するステップであって、前記ビデオデータの各フレームは、より大きいシーンの一部分のみを示し、前記入力オーディオデータは第1のオーディオチャネル数を有する、ステップと、
    前記コンピューティングシステムによって、前記オーディオビジュアルデータを、入力として機械学習型オーディオビジュアルアップミキシングモデルに与えるステップであって、前記オーディオビジュアルアップミキシングモデルは、前記ビデオデータの複数のフレームにわたって、前記より大きいシーン内の1つまたは複数のオーディオソースのそれぞれのロケーションをモデル化するように構成されたシーケンス間モデルを含む、ステップと、
    前記コンピューティングシステムによって、前記オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信するステップであって、前記アップミックスされたオーディオデータは、第2のオーディオチャネル数を有し、前記第2のオーディオチャネル数は、前記第1のオーディオチャネル数よりも大きい、ステップとを含むコンピュータ実装方法。
  2. 前記オーディオビジュアルアップミキシングモデルはエンコーダデコーダモデルを含む、請求項1に記載のコンピュータ実装方法。
  3. 前記オーディオビジュアルアップミキシングモデルは変圧器モデルを含む、請求項1から2のいずれか一項に記載のコンピュータ実装方法。
  4. 前記オーディオビジュアルアップミキシングモデルは注意機構を含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記注意機構は複数のコンテキストベクトルおよび整列モデルを含む、請求項4に記載のコンピュータ実装方法。
  6. 前記オーディオビジュアルアップミキシングモデルは、複数の入力ストリームであって、前記複数の入力ストリームの各々は、前記入力オーディオデータのそれぞれのオーディオチャネルに対応する、複数の入力ストリームと、複数の出力ストリームであって、前記複数の出力ストリームの各々は、前記アップミックスされたオーディオデータのそれぞれのオーディオチャネルに対応する、複数の出力ストリームとを含む、請求項1から5のいずれか一項に記載のコンピュータ実装方法。
  7. 前記ビデオデータは2次元ビデオデータを含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。
  8. 前記入力オーディオデータはモノオーディオデータを含み、前記モノオーディオデータは単一オーディオチャネルを有する、請求項1から7のいずれか一項に記載のコンピュータ実装方法。
  9. 前記アップミックスされたオーディオデータはステレオオーディオデータを含み、前記ステレオオーディオデータは左オーディオチャネルおよび右オーディオチャネルを有する、請求項1から8のいずれか一項に記載のコンピュータ実装方法。
  10. 前記入力オーディオデータはステレオオーディオデータを含み、前記ステレオオーディオデータは左オーディオチャネルおよび右オーディオチャネルを有する、請求項1から9のいずれか一項に記載のコンピュータ実装方法。
  11. 前記アップミックスされたオーディオデータはサラウンドサウンドオーディオデータを含み、前記サラウンドサウンドオーディオデータは3つ以上のオーディオチャネルを有する、請求項1から10のいずれか一項に記載のコンピュータ実装方法。
  12. 前記機械学習型オーディオビジュアルアップミキシングモデルをトレーニングすることは、
    前記コンピューティングシステムによって、ビデオトレーニングデータ、および前記第2のオーディオチャネル数を有するオーディオトレーニングデータを含むオーディオビジュアルトレーニングデータを取得することと、
    前記コンピューティングシステムによって、前記オーディオトレーニングデータをダウンミックスして、前記第1のオーディオチャネル数を含む、ダウンミックスされたオーディオトレーニングデータを発生させることと、
    前記コンピューティングシステムによって、前記ビデオトレーニングデータおよび対応するダウンミックスされたオーディオトレーニングデータを前記オーディオビジュアルアップミキシングモデルに与えることと、
    前記コンピューティングシステムによって、前記オーディオビジュアルアップミキシングモデルからの前記第2のオーディオチャネル数を含む予測されたアップミックスされたオーディオデータ出力を取得することと、
    前記コンピューティングシステムによって、前記予測されたアップミックスされたオーディオデータと前記オーディオトレーニングデータとの間の差分を判断することと、
    前記差分に基づいて、前記モデルの1つまたは複数のパラメータを更新することとを含む、請求項1から11のいずれか一項に記載のコンピュータ実装方法。
  13. オーディオビジュアルデータをアップミックスするために構成されたコンピューティングシステムであって、
    1つまたは複数のプロセッサと、
    実装されると、前記1つまたは複数のプロセッサに動作を実施させる命令を含むコンピュータ可読データを記憶する1つまたは複数のメモリデバイスとを備え、前記動作は、
    入力オーディオデータ、および前記入力オーディオデータに付随するビデオデータを含むオーディオビジュアルデータを取得することであって、前記入力オーディオデータは、第1のオーディオチャネル数を有する、ことと、
    前記オーディオビジュアルデータを、機械学習型オーディオビジュアルアップミキシングモデルに入力として与えることであって、前記オーディオビジュアルアップミキシングモデルは、シーケンス間モデルを含む、ことと、
    前記オーディオビジュアルアップミキシングモデルから、アップミックスされたオーディオデータを受信することであって、前記アップミックスされたオーディオデータは、第2のオーディオチャネル数を有し、前記第2のオーディオチャネル数は、前記第1のオーディオチャネル数よりも大きい、こととを含む、コンピューティングシステム。
  14. 前記オーディオビジュアルアップミキシングモデルはエンコーダデコーダモデルを含む、請求項13に記載のコンピューティングシステム。
  15. 前記オーディオビジュアルアップミキシングモデルは変圧器モデルを含む、請求項13または14に記載のコンピューティングシステム。
  16. 前記オーディオビジュアルアップミキシングモデルは注意機構を含む、請求項13から15のいずれか一項に記載のコンピューティングシステム。
  17. 前記注意機構は複数のコンテキストベクトルおよび整列モデルを含む、請求項16に記載のコンピューティングシステム。
  18. 前記オーディオビジュアルアップミキシングモデルは複数の内部状態ベクトルを含む、請求項13から17のいずれか一項に記載のコンピューティングシステム。
  19. 前記オーディオビジュアルアップミキシングモデルは、複数の入力ストリームであって、前記複数の入力ストリームの各々は、前記入力オーディオデータのそれぞれのオーディオチャネルに対応する、複数の入力ストリームと、複数の出力ストリームであって、前記複数の出力ストリームの各々は、前記アップミックスされたオーディオデータのそれぞれのオーディオチャネルに対応する、複数の出力ストリームとを含む、請求項13から18のいずれか一項に記載のコンピューティングシステム。
  20. 前記ビデオデータは2次元ビデオデータを含む、請求項13から19のいずれか一項に記載のコンピューティングシステム。
JP2022580974A 2020-08-26 2020-08-26 オーディオビジュアルデータをアップミックスするためのシステムおよび方法 Pending JP2023538801A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2020/047930 WO2022046045A1 (en) 2020-08-26 2020-08-26 Systems and methods for upmixing audiovisual data

Publications (1)

Publication Number Publication Date
JP2023538801A true JP2023538801A (ja) 2023-09-12

Family

ID=72470588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022580974A Pending JP2023538801A (ja) 2020-08-26 2020-08-26 オーディオビジュアルデータをアップミックスするためのシステムおよび方法

Country Status (6)

Country Link
US (1) US20230308823A1 (ja)
EP (1) EP4154157A1 (ja)
JP (1) JP2023538801A (ja)
KR (1) KR20230017287A (ja)
CN (1) CN115735365A (ja)
WO (1) WO2022046045A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2557241A (en) * 2016-12-01 2018-06-20 Nokia Technologies Oy Audio processing
WO2019229199A1 (en) * 2018-06-01 2019-12-05 Sony Corporation Adaptive remixing of audio content
US11026037B2 (en) * 2019-07-18 2021-06-01 International Business Machines Corporation Spatial-based audio object generation using image information

Also Published As

Publication number Publication date
WO2022046045A1 (en) 2022-03-03
EP4154157A1 (en) 2023-03-29
US20230308823A1 (en) 2023-09-28
KR20230017287A (ko) 2023-02-03
CN115735365A (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
CN110168638B (zh) 用于虚拟现实、增强现实及混合现实的音频位差
Neugebauer Digital transformation
JP6936298B2 (ja) 三次元仮想ポートレートの口形の変化を制御する方法および装置
CN112492380B (zh) 音效调整方法、装置、设备及存储介质
US10924875B2 (en) Augmented reality platform for navigable, immersive audio experience
KR101901908B1 (ko) 오디오 신호 처리 방법 및 그에 따른 오디오 신호 처리 장치
CN107168518B (zh) 一种用于头戴显示器的同步方法、装置及头戴显示器
EP3343349A1 (en) An apparatus and associated methods in the field of virtual reality
EP3465679A1 (en) Method and apparatus for generating virtual or augmented reality presentations with 3d audio positioning
JP2022550372A (ja) オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステム
Raake et al. Comprehensive modeling of the formation process of sound-quality
US20190306451A1 (en) Generating spatial audio using a predictive model
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
TWI813098B (zh) 用於新穎視圖合成之神經混合
Garg et al. Geometry-aware multi-task learning for binaural audio generation from video
US12010490B1 (en) Audio renderer based on audiovisual information
CN113439447A (zh) 使用深度学习图像分析的房间声学仿真
Remaggi et al. Perceived quality and spatial impression of room reverberation in VR reproduction from measured images and acoustics
CN113316078B (zh) 数据处理方法、装置、计算机设备及存储介质
KR20160069663A (ko) 교육용 콘텐츠 제작 시스템, 제작방법, 및 그에 사용되는 서비스 서버, 저작자 단말, 클라이언트 단말
CN114286275A (zh) 一种音频处理方法及装置、存储介质
US20230308823A1 (en) Systems and Methods for Upmixing Audiovisual Data
CN112995530A (zh) 视频的生成方法、装置及设备
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
US11513762B2 (en) Controlling sounds of individual objects in a video

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240430