JP2016513410A

JP2016513410A - マルチチャネルオーディオデータのビデオ解析支援生成

Info

Publication number: JP2016513410A
Application number: JP2015558105A
Authority: JP
Inventors: シャン、ペイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-02-15
Filing date: 2014-02-12
Publication date: 2016-05-12
Anticipated expiration: 2034-02-12
Also published as: EP2956941A1; KR20150117693A; US9338420B2; CN104995681A; KR101761039B1; CN104995681B; US20140233917A1; WO2014127019A1; JP6039111B2

Abstract

一般に、マルチチャネルオーディオデータをキャプチャすることに関して技術が説明される。１つまたは複数のプロセッサを備えるデバイスは、技術を実施するように構成され得る。プロセッサは、オーディオオブジェクトを識別するために、キャプチャされたオーディオデータを解析し、ビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にキャプチャされたビデオデータを解析し得る。プロセッサは、次いで、オーディオオブジェクトのうちの少なくとも１つをビデオオブジェクトのうちの少なくとも１つと関連付け、ビデオオブジェクトのうちの少なくとも１つとのオーディオオブジェクトのうちの少なくとも１つとの関連付けに基づいて、オーディオデータからマルチチャネルオーディオデータを生成し得る。【選択図】図１Ｂ

Description

関連出願

[0001] 本出願は、２０１３年２月１５日に出願した、米国仮出願第６１／７６５，５５６号の利益を主張するものである。

[0002] 本開示は、オーディオデータをキャプチャすることに関し、より具体的には、マルチチャネルオーディオデータをキャプチャすることに関する。

[0003] 典型的には、ビデオカムコーダ、タブレットもしくはスレートコンピュータ、携帯電話（いわゆる「スマートフォン」を含む）、パーソナルゲームデバイス、パーソナルメディアデバイス、などのようなビデオキャプチャデバイスは、ビデオデータを生成するための所与のフレームレートで一連の画像をキャプチャするためにカメラを備える。しばしば、これらのビデオキャプチャデバイスは、ビデオデータ中に描かれたシーンのモノラルオーディオデータをキャプチャするためにマイクロホンを備える。より高性能のビデオキャプチャデバイスは、キャプチャされることが可能なオーディオチャネルの数を（モノラルオーディオデータにおける単一チャネルから）増やすために２つ以上のマイクロホンを備え得る。これらのより高性能のビデオ記録デバイスは、（左および右チャネルを有するオーディオデータを指す）ステレオオーディオデータをキャプチャするために、少なくとも２つのマイクロホンを含み得る。

[0004] いわゆるスマートフォンの採用の増加を考えると、スマートフォンは、ますます、ビデオデータがキャプチャされる有力な方法になってきている。しばしば、スマートフォンの特性、およびそれらのオーディオ通信デバイスとしての使用のために、スマートフォンは、２つ、３つ、４つ、または５つのマイクロホンを含み得る。追加のマイクロホンは、通話、ビデオ会議、または、音声通信を含む他の形式の通信の間に、ノイズキャンセルの目的のためにスマートフォンによって用いられ得る。スマートフォンは、多数のマイクロホンを備えているが、これらのマイクロホンは、しばしば、ステレオオーディオデータ以外のものを適切にキャプチャするそれらの能力を制限するスマートフォン上の位置に配置されるので、これらのマイクロホンは、一般に、ステレオオーディオデータ以外のマルチチャネルオーディオデータをキャプチャするために用いられない。

[0005] 一般に、本開示は、ビデオキャプチャデバイスがマルチチャネルオーディオデータのキャプチャを支援するためにビデオ解析を使用し得る技術を説明する。ビデオキャプチャデバイスは、ビデオシーン解析（または、コンピュータビジョン技術）を使用してサラウンドサウンドオーディオデータ（しばしば、５つ以上のチャネルを有する）の生成を容易にし得る。いくつかの例では、ビデオキャプチャデバイスが、オーディオデータとビデオデータとの両方をキャプチャし、オーディオオブジェクトを識別するためにオーディオデータを処理する一方で、ビデオオブジェクトを識別するためにビデオデータを処理し得る。ビデオキャプチャデバイスは、これらのビデオオブジェクトを識別し、これらのオブジェクトに関する様々なメタデータを生成するために、ビデオシーン解析技術を行い得る。ビデオキャプチャデバイスは、オーディオオブジェクトと、これらのオブジェクトに関する様々なメタデータとを識別する試みにおいて、聴覚的シーン解析も行い得る。これらのオブジェクトを比較することによって、ビデオキャプチャデバイスは、オーディオオブジェクトのソースであり得るこれらのビデオオブジェクトを識別し得る。

[0006] ビデオ解析技術が、オーディオオブジェクト単独と比較して、ビデオキャプチャデバイスに対するビデオオブジェクトの位置をより密接に識別し得ることを考えると、ビデオキャプチャデバイスは、しばしば不正確なビーム形成技術に単独に依存するのと比較して、オーディオオブジェクトをより良好に定位させ得る。これらのオーディオオブジェクトは、次いで、オーディオオブジェクトを１つまたは複数の前方チャネルに対してより良好に位置付けるデシベル差を使用して、１つまたは複数のチャネルに対してレンダリングされ得、それによって、従来のビデオキャプチャデバイスによって生成されたものと比較して、サラウンドサウンドオーディオデータのより良好な生成を可能にする。

[0007] 一態様では、方法が、１つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、１つまたは複数のビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にデバイスによってキャプチャされたビデオデータを解析することとを備える。方法は、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けることと、１つまたは複数のビデオオブジェクトのうちの少なくとも１つとの１つまたは複数のオーディオオブジェクトのうちの少なくとも１つの関連付けに基づいて、オーディオデータからマルチチャネルオーディオデータを生成することとをさらに備える。

[0008] 別の態様では、デバイスが、オーディオオブジェクトを取得し、ビデオオブジェクトを取得して、オーディオオブジェクトとビデオオブジェクトとを関連付け、オーディオオブジェクトを、関連付けられたビデオオブジェクトと比較し、オーディオオブジェクトと、関連付けられたビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングするように構成される１つまたは複数のプロセッサを備える。

[0009] 別の態様では、オーディオ出力信号を生成するデバイスが、第１のオーディオオブジェクトのデータ構成要素と、第１のビデオオブジェクトのデータ構成要素との第１の比較に基づいて、第１のビデオオブジェクトの相対物(first video object counterpart)と関連付けられた第１のオーディオオブジェクトを識別するための手段と、第２のオーディオオブジェクトのデータ構成要素と、第２のビデオオブジェクトのデータ構成要素との第２の比較に基づいて、第２のビデオオブジェクトの相対物と関連付けられていない第２のオーディオオブジェクトを識別するための手段とを備える。デバイスは、第１のゾーン内の第１のオーディオオブジェクトをレンダリングするための手段と、第２のゾーン内の第２のオーディオオブジェクトをレンダリングするための手段と、第１のゾーン内のレンダリングされた第１のオーディオオブジェクトと、第２のゾーン内のレンダリングされた第２のオーディオオブジェクトとを組み合わせることに基づいて、オーディオ出力信号を生成するための手段とをさらに備える。

[0010] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されたとき、デバイスの１つまたは複数のプロセッサに、１つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析させ、１つまたは複数のビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にデバイスによってキャプチャされたビデオデータを解析させ、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを、１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けさせ、１つまたは複数のビデオオブジェクトのうちの少なくとも１つとの１つまたは複数のオーディオオブジェクトのうちの少なくとも１つの関連付けに基づいて、オーディオデータからマルチチャネルオーディオデータを生成させる命令を記憶し得る。

[0011] 技術の１つまたは複数の態様の詳細は、添付の図面と、以下の説明とに記載される。技術の他の特徴と、目的と、利点とは、説明と、図面と、特許請求の範囲とから明らかであろう。

本開示で説明される技術を行う例示的なビデオキャプチャデバイス１０の様々なビューを示す図である。本開示で説明される技術を行うビデオキャプチャデバイスをより詳細に示すブロック図である。本開示で説明される技術に従ってビデオオブジェクトをオーディオオブジェクトと関連付ける際に図１のビデオキャプチャデバイスによって行われる動作を示す図である。本開示で説明される技術に従ってビデオオブジェクトをオーディオオブジェクトと関連付ける際に図１のビデオキャプチャデバイスによって行われる動作を示す図である。本開示で説明される技術に従ってビデオオブジェクトをオーディオオブジェクトと関連付ける際に図１のビデオキャプチャデバイスによって行われる動作を示す図である。本開示で説明される技術に従ってビデオオブジェクトをオーディオオブジェクトと関連付ける際に図１のビデオキャプチャデバイスによって行われる動作を示す図である。図１Ｂの支援型オーディオレンダリングユニットをより詳細に示すブロック図である。図１Ｂの例に示されるビデオキャプチャデバイスのカメラによってキャプチャされ、本開示で説明される技術に従って処理されるシーンを示す図である。図１Ｂの例に示されるビデオキャプチャデバイスのカメラによってキャプチャされ、本開示で説明される技術の拡張現実の態様に従って処理される別のシーンを示す図である。本開示で説明される技術を行う際のビデオキャプチャデバイスの例示的な動作を示すフローチャートである。様々なオーディオオブジェクトが本開示で説明される技術に従ってマルチチャネルオーディオデータの前景と背景とでレンダリングされ得る方法を示す図である。

[0020] 図１Ａは、本開示で説明される技術を行う例示的なビデオキャプチャデバイス１０の様々なビュー８Ａ〜８Ｃ（それぞれ、前面と、平面と、側面）を示す図である。ビデオキャプチャデバイス１０は、ビデオカムコーダ、タブレットまたはスレートコンピュータ、携帯電話（いわゆる「スマートフォン」を含む）、パーソナルゲームデバイス、パーソナルメディアデバイス、などのような、ビデオおよびオーディオデータをキャプチャすることが可能な任意のタイプのデバイスを表し得る。例示の目的のために、ビデオキャプチャデバイス１０は、スマートフォンを表すと仮定される。本開示では、特定のタイプのデバイス、すなわち、スマートフォンに関連して説明されるが、技術は、ビデオデータと、マルチチャネルオーディオデータとをキャプチャすることが可能な任意のタイプのデバイスによって実現され得る。

[0021] 図１Ａの例では、ビデオキャプチャデバイス１０が、３つの異なるビュー８Ａ〜８Ｃから示される。ビュー８Ａは、前面からのビデオキャプチャデバイス１０を示す。ビュー８Ｂは、背面からのビデオキャプチャデバイス１０を示す。ビュー８Ｃは、側面からのビデオキャプチャデバイス１０を示す。

[0022] ビュー８Ａに示されるように、ビデオキャプチャデバイス１０は、受話口９と、スピーカ(loudspeakers)１１Ａ、１１Ｂと、マイクロホン１６Ａ、１６Ｂ、および１６Ｅとを含む。受話口９は、ユーザの耳に近いデバイス１０でオーディオを聴くときに、音またはオーディオデータの再生のために使用される小型のスピーカを表す。スピーカ１１Ａおよび１１Ｂは、各々、（音楽を再生し、ビデオを見るために、またはスピーカフォンとして使用されるときに）ユーザからより遠いデバイス１０でオーディオを聴くときに、音またはオーディオデータの再生のために使用されるスピーカを表す。スピーカ１１Ａは、スピーカ１１Ａがマルチチャネルオーディオデータの左チャネルを再生し得ることで、左スピーカ１１Ａ（または「スピーカＬ」）と呼ばれ得る。スピーカ１１Ｂは、スピーカ１１Ｂがマルチチャネルオーディオデータの右チャネルを再生し得ることで、右スピーカ１１Ａ（または「スピーカＲ」）と呼ばれ得る。マイクロホン１６Ａ、１６Ｂ、および１６Ｅは、以下でより詳細に説明される。

[0023] 図８Ｂに示されるように、一例では、ビデオキャプチャデバイス１０が、カメラ１４、マイクロホン１６Ｃおよび１６Ｄも含む。カメラ１４は、画像をキャプチャすることが可能な任意のタイプのデバイスを表し得る。カメラ１４は、ビデオデータを形成するために、所定のレート（一般に、「フレームレート」と呼ばれる）で一連の画像をキャプチャし得る。カメラ１４は、画像を発生、または他の方法で生成するために、光のキャプチャを容易にし得るレンズと、他の構成要素とを含み得る。カメラ１４は、また、フラッシュまたは他の光発生要素（図１Ａの例には示されない）とインターフェースでき、いくつかの場合には、カメラ１４は、フラッシュと一体化され得る。スマートフォンの想定された状況では、カメラ１４が、典型的には、フィルムカメラで一般的である光を感知するためのセルロイド媒体とは対照的に、レンズに入る光の光度と色度とを感知するために、光感知センサ（相補型金属酸化膜半導体（ＣＭＯＳ）光画像センサ、または電荷結合デバイス（ＣＣＤ）画像センサのような）を含むデジタルカメラを備える。カメラ１４は、光をキャプチャし、以下の図１Ｂの例でビデオデータ１８として示される一連の画像を生成し得る。

[0024] マイクロホン１６Ａ〜１６Ｅ（「マイクロホン１６」）は、各々、オーディオデータをキャプチャすることが可能な任意のタイプのデバイスを表し得る。マイクロホン１６は、一般的に、音を電気信号に変換できる任意のタイプの音響−電気変換器またはセンサを指指し得る。いくつかの異なるタイプのマイクロホンが存在し、それらの各々は、異なるタイプが音をキャプチャする方法において異なる。いくつかの例を提供するために、マイクロホン１６は、ダイナミックマイクロホン（電磁誘導を使用して音をキャプチャするマイクロホンを指す）と、コンデンサマイクロホン（静電容量の変化を使用して音をキャプチャするマイクロホンを指す）と、圧電マイクロホンとを含み得る。ビデオキャプチャデバイス１０内に組み込まれている、またはその内部にあるものとして示されるが、１つまたは複数のマイクロホン１６は、ビデオキャプチャデバイス１０の外部にあり得、ワイヤード接続またはワイヤレス接続のいずれかを介してビデオキャプチャデバイス１０に結合され得る。マイクロホン１６の各々は、図１Ｂの例に関連してより詳細に示されるように、別々のオーディオデータ２０Ａ〜２０Ｅをキャプチャし得る。

[0025] 典型的には、ビデオカムコーダ、タブレットまたはスレートコンピュータ、携帯電話（いわゆる「スマートフォン」を含む）、パーソナルゲームデバイス、パーソナルメディアデバイス、などのようなビデオキャプチャデバイスは、ビデオデータを生成するための所与のフレームレートで一連の画像をキャプチャするためにカメラを備える。しばしば、これらのビデオキャプチャデバイスは、ビデオデータ中に描かれたシーンのモノラルオーディオデータをキャプチャするために、マイクロホンを備える。より高性能のビデオキャプチャデバイスは、キャプチャされることが可能なチャネルの数を（モノラルオーディオデータにおける単一チャネルから）増加させるために、２つ以上のマイクロホンを備え得る。これらのより高性能のビデオ記録デバイスは、（左および右チャネルを有するオーディオデータを指す）ステレオオーディオデータをキャプチャするために、少なくとも２つのマイクロホンを含み得る。

[0026] マイクロホン１６として図１Ａに示される５つのマイクロホンのような３つ以上のマイクロホンは、ビデオキャプチャデバイスが「ビーム形成」と呼ばれるものを行うことを可能にして、前後および左右の区別（または、前方もしくは中央チャネル、前方左チャネル、前方右チャネル、後方左チャネル、および後方右チャネルのような、いわゆるオーディオデータの「チャネル」）を有するサラウンドサウンドオーディオのキャプチャを容易にし得る。マイクロホン信号（「オーディオデータ」とも呼ばれ得る）をキャプチャした後、スマートフォンは、他の空間方向に対する空間ビーム（特定の方向における音が増幅されるプロセスを指すことができる）をアルゴリズム的に形成し得る。キャプチャされた音をこれらのビームで別々にフィルタリングすることによって、スマートフォンは、異なる出力サラウンドサウンドチャネルを生成し得る。いくつかの例で、スマートフォンは、ビーム領域と対応するヌルビーム領域との間の差が６ｄＢの音量レベル差を示すように、ビームを生成し得る。一例として、スマートフォンは、これらのビームに基づいて、５．１サラウンドサウンドオーディオデータを生成し得る。

[0027] スマートフォンは、ビーム形成技術を使用してサラウンドオーディオをキャプチャし、それによって、１つまたは２つのマイクロホンのみを備えるビデオキャプチャデバイスと比較して、より現実的なオーディオをキャプチャし得るが、しばしば、図１Ａの例のビュー８Ａ〜８Ｃに示されるような、いくつかのスマートフォンにおけるマイクロホン配置は、最高品質のサラウンドサウンドオーディオを可能にしない。典型的には、角部に関するデシベル差は、あまり顕著でない。すなわち、ビームを結合するときの６ｄＢ差は、識別されたビームを生成する音が、再生されるときに、非常に定位されるように感じさせないように、大きい差を作成しない。サラウンドサウンドオーディオデータを生成するとき、スマートフォンは、例えば、オーディオが前方右チャネルにより定位されるべきであるとき、定位されたオーディオであるべきであるものを、中央チャネルと前方右チャネルの両方に置き得る。

[0028] 加えて、いくつかの前方マイクロホンと後方マイクロホンとの間、例えば、マイクロホン１６Ｂとマイクロホン１６Ｃとの間の近接性を考えると、スマートフォンは、前方オーディオと後方オーディオとの間を十分に区別できないことがある。前方オーディオと、後方オーディオとの間を十分に区別できないことは、スマートフォンが、前方チャネルと後方チャネルとの間でオーディオに十分な区別を提示しないサラウンドサウンドまたはマルチチャネルオーディオデータを生成する結果になることがある。言い換えれば、後方の音が前方スピーカによって（しばしば、前方と後方とを混ぜるように後方の音とともに）再生され、前方の音が後方のスピーカによって（しばしば、前方と後方とを混ぜるように前方の音とともに）再生されると、前方および後方チャネルが混じって鳴り得る。

[0029] ビデオキャプチャデバイス１０は、ビデオデータをキャプチャするときに聞こえるオーディオデータをより良好に複製するサラウンドサウンドまたはマルチチャネルオーディオデータの生成を容易にするために、本開示で説明される技術を実施し得る。本開示で説明される技術に従って、このマルチチャネルオーディオデータを生成するために、ビデオキャプチャデバイス１０は、マルチチャネルオーディオデータのキャプチャを支援するために、ビデオ解析を使用し得る。ビデオキャプチャデバイス１０は、ビデオシーン解析（またはコンピュータビジョン）技術を使用して、マルチチャネルオーディオデータ（しばしば、５つ以上のチャネルを有する）の生成を容易にし得る。いくつかの例では、ビデオキャプチャデバイス１０がオーディオデータとビデオデータとの両方をキャプチャでき、オーディオオブジェクトを識別するために、オーディオデータを処理すると同時に、ビデオオブジェクトを識別するために、ビデオデータを処理する。ビデオキャプチャデバイス１０は、これらのビデオオブジェクトと、これらのオブジェクトに関する様々なメタデータとを識別するために、ビデオシーン解析技術を行い得る。ビデオキャプチャデバイス１０は、オーディオオブジェクトと、これらのオブジェクトに関する様々なメタデータとを識別する試みにおいて、聴覚的シーン解析も行い得る。これらのオブジェクトを比較することによって、ビデオキャプチャデバイスは、オーディオデータのソースであり得るこれらのビデオオブジェクトを識別し得る。

[0030] ビデオ解析技術が、オーディオオブジェクト単独と比較して、ビデオキャプチャデバイス１０に対するビデオオブジェクトの位置をより密接に識別できることを考えると、ビデオキャプチャデバイス１０は、しばしば不正確なビーム形成技術に単独に依存するのと比較して、オーディオオブジェクトをより良好に定位させ得る。これらのオーディオオブジェクトは、次いで、オーディオオブジェクトを前方チャネルのうちの１つに対してより良好に位置付けるデシベル差を使用して、１つまたは複数のチャネルに対してレンダリングされ得、それによって、従来のビデオキャプチャデバイスによって生成されたものと比較して、サラウンドサウンドまたは他のタイプのマルチチャネルオーディオデータのより良好な生成を可能にする。ビデオキャプチャデバイス１０によって行われる技術は、以下の図１Ｂに関連してより詳細に説明される。

[0031] 図１Ｂは、本開示で説明される技術を行うビデオキャプチャデバイス１０をより詳細に示すブロック図である。図１Ｂの例では、ビデオキャプチャデバイス１０が、制御ユニット１２と、カメラ１４と、マイクロホン（「ｍｉｃ」）１６Ａ〜１６Ｅ（「マイクロホン１６」または「ｍｉｃ１６」）とを含む。例示の容易さの目的のため、図１Ｂの例には示されないが、ビデオキャプチャデバイス１０は、一般に、ビデオキャプチャデバイス１０に関連付けられた様々な他の機能を行う追加のモジュール、要素、および／またはユニットと同様に、受話口９、スピーカ１１Ａおよび１１Ｂも含み得る。

[0032] いずれにしても、制御ユニット１２は、１つもしくは複数の処理ユニットに本明細書で説明される技術を行わせるための命令を記憶する記憶デバイス（例えば、ディスクドライブもしくは光学ドライブ）もしくは（フラッシュメモリ、ランダムアクセスメモリ、もしくはＲＡＭのような）メモリ、または任意の他のタイプの揮発性もしくは不揮発性メモリのような非一時的コンピュータ可読記憶媒体（図１には示されない）に記憶されたソフトウェアもしくはコンピュータプログラムを定義するために使用されるもののようなソフトウェア命令を実行する１つもしくは複数の中央処理ユニット（再び、図１には示されない「ＣＰＵ」）、グラフィクス処理ユニット（再び、図１には示されない「ＧＰＵ」）、または他の処理ユニットを表し得る。

[0033] 代替的に、または付加的には、制御ユニット１２は、１つもしくは複数の集積回路、１つもしくは複数の特定用途向け集積回路（ＡＳＩＣ）、１つもしくは複数の特定用途向け特殊プロセッサ（ＡＳＳＰ：Application Specific Special Processor）、１つもしくは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または、本明細書に記載される技術を行うための専用ハードウェアの上記の例のうちの１つもしくは複数の任意の組合せのような、専用ハードウェアを表し得る。ソフトウェアを実行するＣＰＵおよび／もしくはＧＰＵ、専用ハードウェア、またはそれらのなにかの組合せで構成されるかにかかわらず、制御ユニット１２は、いくつかの文脈で「プロセッサ」と呼ばれ得る。

[0034] 上記で説明されるように、カメラ１４は、画像をキャプチャすることが可能な任意のタイプのデバイスを表すことができ、一方マイクロホン１６は、オーディオデータをキャプチャすることが可能な任意のタイプのデバイスを各々表し得る。カメラ１４は、光をキャプチャし、図１の例でビデオデータ１８として示される一連の画像を生成し得る。マイクロホン１６の各々は、別々のオーディオデータ２０Ａ〜２０Ｅをキャプチャし得る。

[0035] 図１の例にさらに示されるように、制御ユニット１２は、視覚的解析ユニット２２と、聴覚的解析ユニット２４と、オブジェクト関連ユニット２６と、レンダリングユニット２８Ａ〜２８Ｃ（「レンダリングユニット２８」）と、オーディオミキシングユニット３０とを含む。視覚的解析ユニット２２は、ビデオデータ１８のようなビデオデータの視覚的シーン解析を行うハードウェアまたはハードウェアとソフトウェアとの組合せを表し得る。視覚的シーン解析は、コンピュータまたは他のデバイスが、画像の様々なオブジェクト、要素、および／または態様を検出し、識別するために、画像を処理し、解析するプロセスを指すコンピュータビジョンの態様を含み得る。コンピュータビジョンおよびマシンビジョンは、多くの重複するまたは関連する概念を有するので、コンピュータビジョンは、いくつかの例で、マシンビジョンと呼ばれ得る。しばしば、マシンビジョンは、異なる文脈であるが、コンピュータビジョンの態様および概念を用いる。技術を説明するとき、本開示は、コンピュータビジョンを参照するが、技術は、また、コンピュータビジョンとともに、またはコンピュータビジョンの代替として、マシンビジョンを使用して行われ得る。この理由のため、「マシンビジョン」および「コンピュータビジョン」という用語は、交換可能に使用され得る。

[0036] 図１の例に示されないが、視覚的解析ユニット２２は、いくつかの例で、視覚的シーン解析を行うとき、ビデオキャプチャデバイス１０の外部の画像サーバまたは他のデータベースと通信し得る。視覚的解析ユニット２２は、しばしばリソース（処理リソースおよび／またはメモリリソースを意味する）集約的な視覚的シーン解析プロセスの様々な態様をオフロードするために、この画像サーバと通信し得る。例えば、視覚的解析ユニット２２は、オブジェクトを検出するためにいくつかの初期解析を行なって、これらのオブジェクトを識別のために画像サーバに渡し得る。画像サーバは、次いで、オブジェクトを分類または他の方法で識別し、分類されたオブジェクトを視覚的解析ユニット２２に戻し得る。典型的には、視覚的解析ユニット２２は、ワイヤレスセッションを介して画像サーバと通信する。そのようなものとして、ビデオキャプチャデバイス１０は、（図１の例には示されないが）１つまたは複数のインターフェースを含むことができ、これらのインターフェースによって、ビデオキャプチャデバイス１０は、ワイヤレスに、またはワイヤード接続を介して、周辺デバイス、サーバ、および任意の他のタイプのデバイスまたはアクセサリと通信し得る。視覚的解析ユニット２２は、視覚的シーン解析を行った結果として、ビデオオブジェクト３２を出力し得る。

[0037] 聴覚的解析ユニット２４は、オーディオデータ２０Ａ〜２０Ｎ（「オーディオデータ２０」）のようなオーディオデータの聴覚的シーン解析を行い、オーディオオブジェクト３４を生成し得る。聴覚解析ユニット２４は、オーディオオブジェクトを検出し、識別するために、オーディオデータを解析し得る。オーディオオブジェクトは、所与のオブジェクトに分類また他の方法で関連付けられ得る、別個のまたは認識可能な音を指し得る。例えば、自動車のエンジンは、容易に認識可能である音を発し得る。聴覚的シーン解析は、オーディオデータ中で、これらの音を検出し、識別または分類することを試み得る。

[0038] 視覚的解析ユニット２２と同様に、聴覚的解析ユニット２４は、いくつかの例で、聴覚的シーン解析を行うとき、ビデオキャプチャデバイス１０の外部の、おそらくはビデオキャプチャデバイス１０から離れた（図１の例には示されない）オーディオネットワークサーバまたは他のデータベースと通信し得る。視覚的解析ユニット２４は、しばしばリソース（処理リソースおよび／またはメモリリソースを意味する）集約的な聴覚的シーン解析プロセスの様々な態様をオフロードするために、このオーディオサーバと通信し得る。例えば、聴覚的解析ユニット２４は、オブジェクトを検出するために、いくつかの初期解析を行って、これらのオブジェクトを識別のためにオーディオサーバに渡し得る。オーディオサーバは、次いで、オブジェクトを分類または他の方法で識別し、分類されたオブジェクトを聴覚的解析ユニット２４に戻し得る。聴覚的解析ユニット２４は、視覚的解析ユニット２２を説明する際に上述されたインターフェースを使用して、このオーディオサーバと通信し得る。聴覚的解析ユニット２４は、聴覚的シーン解析を行った結果として、オーディオオブジェクト３４を出力し得る。

[0039] オブジェクト関連付けユニット２６は、ビデオオブジェクト３２をオーディオオブジェクト３４と関連付けることを試みるハードウェア、またはハードウェアとソフトウェアとの組合せを表す。ビデオオブジェクト３２およびオーディオオブジェクト３４は、ビデオオブジェクト３２およびオーディオオブジェクト３４が、オブジェクト３２とオブジェクト３４との間の関連付けを容易にする方法で両方とも定義されるという意味で、各々、互換性または共通フォーマットに従って定義され得る。オブジェクト３２および３４の各々は、いくつかの例を提供するために、対応するオブジェクトの予測された位置（例えば、ｘ、ｙ、ｚ座標）、対応するオブジェクトのサイズ（または、予測されたサイズ）、対応するオブジェクトの形状（または、予測された形状）、対応するオブジェクトの速度（または、予測された速度）、位置の信頼水準、および、オブジェクトに焦点が合っているかどうか、または、オブジェクトが、近い前景、遠い前景、近い背景、もしくは遠い背景のいずれに属しているか、のうちの１つまたは複数を定義するメタデータを含み得る。オブジェクト関連付けユニット２６は、メタデータに基づいて、１つまたは複数のビデオオブジェクト３２を１つまたは複数のオーディオオブジェクト３４と関連付け（しばしば、ビデオオブジェクト３２のうちの単一のものをオーディオオブジェクト３４の単一のものと関連付け）し得る。

[0040] オブジェクト関連付けユニット２６は、オブジェクト３２および３４を、３つのクラスのうちの１つに分類し得る。第１のクラスは、オーディオオブジェクト３４のうちの、メタデータを有するビデオオブジェクト３２のうちの１つに関連付けられたメタデータを有するものを含む。第２のクラスは、オーディオオブジェクト３４のうちの、ビデオオブジェクト３２のうちのいずれにも関連付けられていないものを含む。第３のクラスは、ビデオオブジェクト３２のうちの、オーディオオブジェクト３４のうちのいずれにも関連付けられていないものを含む。オブジェクト関連付けユニット２６は、第１のクラスに分類されたオーディオオブジェクト３４（オーディオオブジェクト３４’として示される）を、支援型オーディオレンダリングユニット２８Ａに渡し得る。オブジェクト関連付けユニット２６は、第２のクラスに分類されたオーディオオブジェクト３４（オーディオオブジェクト３４’’として示される）を、無支援型オーディオレンダリングユニット２８Ｂに渡し得る。オブジェクト関連付けユニット２６は、第３のクラスに分類されたビデオオブジェクト３２（ビデオオブジェクト３２’として示される）を、拡張現実オーディオレンダリングユニット２８Ｃに渡し得る。

[0041] ３つのクラスに関連して説明されるが、技術は、最初の２つのクラスのみに関連して実施され得る。第３のクラスは、言い換えれば、利用可能なリソースに基づいて適応的に行われ得る。いくつかの例で、第３のクラスは、特に、電力が限られた、またはリソースが限られたデバイスで利用されない。いくつかの例で、これらの電力が限られた、またはリソースが限られたデバイスは、第３のクラスが利用されないので、拡張現実オーディオレンダリングユニット２８Ｃを含まなくてもよい。さらに、オブジェクト関連付けユニット２６は、ビデオオブジェクトを渡さなかったり、そうでなければ第３のクラスに分類しなかったりし得る。従って、この技術は、本開示で説明される例に限定されるべきでなく、第３のクラスでなく第１および第２のクラスに対して行われ得る。

[0042] いずれにせよ、レンダリングユニット２８は、各々、それぞれ、オーディオオブジェクト３４’、３４’’およびビデオオブジェクト３２’のうちの１つまたは複数からオーディオデータ３８Ａ〜３８Ｃをレンダリングするように構成されたハードウェア、またはハードウェアとソフトウェアとの組合せを表す。支援型オーディオレンダリングユニット２８Ａは、支援型オーディオレンダリングユニット２８Ａが、ビデオオブジェクト３２のうちの一致するまたは関連付けられたものによって潜在的に拡張されるメタデータを有するオーディオオブジェクト３４’を受信する点で、「支援型」オーディオレンダリングユニット２８Ａと呼ばれ得る。この意味で、レンダリングユニット２８Ａは、ビデオオブジェクト３２のうちの対応する、または関連付けられたものから、オーディオオブジェクト３４’をより正確にレンダリングする上で支援を受け得る。支援型オーディオレンダリングユニット２８Ａは、ユニット２８Ａがビデオオブジェクトと関連付けられたオーディオオブジェクトを受信することを考えれば、これらのオーディオオブジェクトが、カメラによってキャプチャされ、従って前景に存在するビデオオブジェクトと関連付けられていることを示す、前景レンダリングユニット２８Ａと呼ばれ得る。

[0043] 無支援型オーディオレンダリングユニット２８Ｂは、レンダリングユニット２８Ｂが第２のクラスに分類されたオーディオオブジェクト３４’’をレンダリングする点で、これらのオーディオオブジェクト３４’’がビデオオブジェクト３２のうちのいずれとも関連付けられていないという意味で、「無支援型」と呼ばれ得る。従って、レンダリングユニット２８Ｂは、ビデオオブジェクト３２のうちのいずれからも、オーディオオブジェクト３４’’をレンダリングする上でどのような支援も受けない。無支援型オーディオレンダリングユニット２８Ｂは、また、オーディオオブジェクトユニット２８Ｂの処理がどのビデオオブジェクトとも関連付けられていない点で、これらのオブジェクトが、背景、または、ビデオデータ１８としてシーンをキャプチャするユーザの背後に存在し得るという意味で、背景レンダリングユニット２８Ｂと呼ばれ得る。

[0044] 拡張現実オーディオレンダリングユニット２８Ｃは、レンダリングユニット２８Ｃが、一致しないまたは関連付けられていないビデオオブジェクト３２’に対応するオーディオオブジェクトを取得し、オーディオデータ３８Ｃを、マイクロホン１６によってキャプチャされたオーディオデータ２０を反映する拡張オーディオデータ３８Ａおよび３８Ｂにレンダリングするために、（デバイス１０の内部または外部のいずれかに配置された）オーディオライブラリ、または他のオーディオリポジトリにアクセスできるという意味で、「現実を拡張」し得る。拡張現実オーディオレンダリングユニット２８Ｃは、カメラ１４によってビデオデータ１８としてキャプチャされたシーン内で検出されたビデオオブジェクト３２’をユニット２８Ｃが処理して与えられる前景のオーディオデータをレンダリングし得る。

[0045] レンダリングユニット２８の各々は、空間化方法でオーディオデータ３８Ａ〜３８Ｃをレンダリングし得る。言い換えれば、レンダリングユニット２８は、空間化されたオーディオデータ３８Ａ〜３８Ｃを生成でき、ここで、オーディオオブジェクト３４’、３４’’、および３４’’’の各々（尚、オーディオオブジェクト３４’’’は、拡張現実オーディオレンダリングユニット２８Ｃによって取得された拡張現実オーディオオブジェクト３４’’’を指す）は、再生のための特定のスピーカ較正を想定して割り当てられ、レンダリングされる。レンダリングユニット２８は、頭部伝達関数（ＨＲＴＦ）と、空間化されたオーディオデータをレンダリングするときに一般的に使用される他のアルゴリズムとを使用して、オーディオオブジェクト３４’、３４’’、および３４’’’をレンダリングし得る。

[0046] オーディオミキシングユニット３０は、オーディオデータ３８Ａ〜３８Ｃ（「オーディオデータ３８」）を、特定のマルチチャネルオーディオデータフォーマットにミックスするハードウェア、またはハードウェアとソフトウェアとの組合せを表す。本開示でのマルチチャネルオーディオデータへの参照は、ステレオ、またはより高次のマルチチャネルオーディオデータを指し得る。より高次のマルチチャネルオーディオデータは、５．１サラウンドサウンドオーディオデータまたは７．１サラウンドサウンドオーディオデータを含むことができ、ここで、ピリオドの前の第１の数は、チャネルの数を指し、ピリオドの後の数は、低音または低周波数チャネルの数を指す。例えば、５．１サラウンドサウンドオーディオデータは、左チャネルと、中央チャネルと、右チャネルと、左後方またはサラウンド左チャネルと、右後方またはサラウンド右チャネルとを、単一の低周波数チャネルとともに含む。ミキシングユニット３０は、マルチチャネルオーディオデータ４０を生成するために、オーディオデータ３８を、１つまたは複数のこれらのマルチチャネルオーディオデータフォーマットにミックスし得る。

[0047] 動作時に、ビデオキャプチャデバイス１０は、ビデオデータ１８をキャプチャするために、カメラ１４を呼び出すように構成され得、また同時に、オーディオデータ２０Ａ〜２０Ｅ（「オーディオデータ２０」）をキャプチャするために、マイクロホン１６の１つまたは複数、しばしばすべてを呼び出すように構成され得る。ビデオデータ１８およびオーディオデータ２０の受信に応答して、ビデオキャプチャデバイス１０の制御ユニット１２は、マルチチャネルオーディオデータ４０を生成するための本明細書で説明される技術を行うように構成され得る。

[0048] オーディオデータ２０を受信すると、制御ユニット１２は、聴覚的解析ユニット２４を呼び出すことができ、聴覚的解析ユニット２４は、１つまたは複数のオーディオオブジェクト３４を識別するために、オーディオデータ２０を解析し得る。上記で簡単に説明さるように、聴覚的解析ユニット２４は、オーディオオブジェクト３４を識別して生成するために、聴覚的シーン解析を行い得る。同様に、ビデオデータ１８を受信すると、制御ユニット１２は、視覚的解析ユニット２２を呼び出すように構成され得、視覚的解析ユニット２２は、１つまたは複数のビデオオブジェクト３２を識別するために、オーディオデータ２０の解析および／またはキャプチャと同時にビデオデータ１８を解析し得る。また、上記で簡単に説明されるように、視覚的解析ユニット２２は、１つまたは複数のビデオオブジェクト３２を識別し生成するために、（コンピュータビジョンアルゴリズムを使用して）視覚的シーン解析を行い得る。

[0049] 視覚的解析ユニット２２および聴覚的解析ユニット２４は、共通または共有フォーマットを使用して、それぞれ、ビデオオブジェクト３２とオーディオオブジェクト３４とを生成するように構成され得る。しばしば、この共有フォーマットは、メタデータと呼ばれ得るテキスト構成要素を含む。このメタデータは、ビデオオブジェクト３２とオーディオオブジェクト３４とのうちの対応する１つの様々な特性または態様を記述し得る。ビデオオブジェクト３２のうちの対応する１つを記述するビデオメタデータは、いくつかの非限定的な例として、対応するビデオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備える１つまたは複数のオーディオメタデータを指定し得る。オーディオオブジェクト３２のうちの対応する１つを記述するオーディオメタデータは、同様に、非限定的な例を提供するために、対応するオーディオオブジェクトの、オーディオオブジェクトの位置と、オーディオオブジェクトの形状と、オーディオオブジェクトの速度と、位置の信頼水準とのうちの１つまたは複数を指定し得る。

[0050] オーディオメタデータとビデオメタデータの両方は、この同じ意味レベル、すなわち、この例では同じテキスト意味レベルに抽象化されるので、このメタデータによって指定されるそれぞれのタグ（上記で説明されるメタデータの異なるタイプの各々を指すことができる）を、ビデオキャプチャデバイス１０は、テキスト領域で直接比較し、マッピングし（言い換えれば、オブジェクトを関連付ける）得る。マッピングされたオブジェクトを用いて、ビデオキャプチャデバイス１０は、デバイスがオブジェクトを「見る」方法を、デバイスがシーン内のオブジェクトを「聞く」方法と直接関連付けし得る。

[0051] 制御ユニット１２は、ビデオオブジェクト３２とオーディオオブジェクト３４とを受信し、オブジェクト関連付けユニット２６を呼び出し得る。オブジェクト関連付けユニット２６は、オーディオオブジェクト３４のうちの少なくとも１つをビデオオブジェクト３２のうちの少なくとも１つと関連付けし得る。オブジェクト関連付けユニット２６は、この関連付けを行うとき、典型的にはメタデータ（いくつかの例では、オーディオオブジェクトのタイプを定義できる）に基づいて、オーディオオブジェクト３４の各々を、オーディオオブジェクトのタイプとして分類し得る。同様に、オブジェクト関連付けユニット２６は、この関連付けを行うとき、典型的には対応するメタデータ（いくつかの例では、また、ビデオオブジェクトのタイプを定義できる）に基づいて、ビデオオブジェクト３２の各々を、ビデオオブジェクトのタイプとして分類し得る。ビデオオブジェクトの例示的なタイプは、自動車、ビーチ、波、流水、音楽、人、犬、猫、などを備え得る。オブジェクト関連付けユニット２６は、次いで、オーディオオブジェクト３４のうちの１つのタイプがビデオオブジェクト３２のうちの１つと同じタイプであることを決定し得る。オーディオオブジェクト３４のうちの１つのタイプがビデオオブジェクト３２のうちの１つと同じタイプであることの決定に応答して、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４のうちの１つをビデオオブジェクト３２のうちの１つと関連付けし得る。

[0052] オブジェクト関連付けユニット２６は、上記で説明される３つの異なるクラスのうちの１つへのオーディオオブジェクト３４の分類に基づいて、様々なオーディオオブジェクトを生成し得る。再び、第１のクラスは、オーディオオブジェクト３４のうちの、メタデータを有するビデオオブジェクト３２のうちの１つに関連付けられたメタデータを有するものを含む。第２のクラスは、オーディオオブジェクト３４のうちの、ビデオオブジェクト３４のうちのいずれにも関連付けられていないものを含む。第３のクラスは、ビデオオブジェクト３２のうちの、オーディオオブジェクト３４のうちのいずれにも関連付けられていないものを含む。

[0053] オブジェクト関連付けユニット２６は、第１のクラスに分類されたオーディオオブジェクト３４（オーディオオブジェクト３４’として示される）を、支援型オーディオレンダリングユニット２８Ａに渡し得る。オブジェクト関連付けユニット２６は、第２のクラスに分類されたオーディオオブジェクト３４（オーディオオブジェクト３４’’として示される）を、無支援型オーディオレンダリングユニット２８Ｂに渡し得る。オブジェクト関連付けユニット２６は、第３のクラスに分類されたビデオオブジェクト３２（ビデオオブジェクト３２’として示される）を、拡張現実オーディオレンダリングユニット２８Ｃに渡し得る。

[0054] オーディオオブジェクト３４のうちの、第１のクラスに属すると決定されたものに関して、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４のうちの１つのオーディオメタデータと、関連付けられた１つのビデオオブジェクト３２のビデオメタデータとの間の相関のレベルを決定でき、決定された相関のレベルに基づいて、１つのビデオオブジェクト３２が関連付けられたオーディオオブジェクト３４のうちの１つに関する複合メタデータを生成する。いくつかの例では、オブジェクト関連付けユニット２６が、オーディオメタデータおよびその一部を、オーディオメタデータによって指定された場所と同様に、対応するビデオメタデータまたはその一部で置き換え得る。オブジェクト関連付けユニット２６は、次いで、このオーディオオブジェクト３４を、オーディオオブジェクト３４’の１つとして、支援型オーディオレンダリングユニット２８Ａに渡し得る。支援型オーディオレンダリングユニット２８Ａは、次いで、オーディオオブジェクト３４’のうちの１つに関して生成された複合メタデータに基づいて、マルチチャネルオーディオデータ４０の１つまたは複数の前景チャネルにオーディオオブジェクト３４’のうちの１つをレンダリングし得る。支援型オーディオレンダリングユニット２８Ａは、マルチチャネルオーディオデータ４０のこの部分を、オーディオデータ３８Ａとして、オーディオミキシングユニット３０に渡す。

[0055] 第２のクラスに属すると決定されたオーディオオブジェクト３４のうちのこれらに関して、オブジェクトレンダリングユニット２６は、オーディオオブジェクト３４のうちの１つがビデオオブジェクト３２のうちのいずれにも関連付けられていないことを決定し得る。オブジェクトレンダリングユニット２６は、これらのオーディオオブジェクト３４を、オーディオオブジェクト３４’’のうちの１つとして、無支援型オーディオレンダリングユニット２８Ｂに渡し得る。無支援型オーディオレンダリングユニット２８Ｂは、オーディオオブジェクト３４’’のうちの１つがマルチチャネルオーディオデータ４０の１つまたは複数の背景チャネルに源を発するように、マルチチャネルオーディオデータ４０を生成し得る。すなわち、これらのオーディオオブジェクト３４は、ビデオオブジェクト３２のうちのいずれにも関連付けられていないので、無支援型オーディオレンダリングユニット２８Ｂは、これらのオーディオオブジェクト３４’’が、カメラ１４によってキャプチャされたシーンの外部で生じるオブジェクトであると想定するように構成される。そのように、無支援型オーディオレンダリングユニット２８Ｂは、しばしば拡散音として背景中のオーディオオブジェクト３４’’をレンダリングするように構成され得る。無支援型オーディオレンダリングユニット２８Ｂは、マルチチャネルオーディオデータ４０のこの部分を、オーディオメタデータ３８Ｂとしてオーディオミキシングユニット３０に渡す。

[0056] 第３のクラスに属すると決定されたこれらのビデオオブジェクト３２に関して、すなわち、ビデオオブジェクト３２が、図１Ｂの例におけるオーディオオブジェクト３４のいずれにも関連付けられていない場合、オブジェクト関連付けユニット２６は、これらのビデオオブジェクト３２を、ビデオオブジェクト３２’として拡張現実オーディオレンダリングユニット２８Ｃに渡し得る。拡張現実オーディオレンダリングユニット２８Ｃは、ビデオオブジェクト３２’を受信することに応答して、ビデオオブジェクト３２’の（可能な場合）１つ１つに関連付けられていたであろうオーディオライブラリから基準オーディオオブジェクトを取得し得る。拡張現実オーディオレンダリングユニット２８Ｃは、次いで、マルチチャネルオーディオデータ４０の少なくとも一部を生成するために、基準オーディオオブジェクト（オーディオオブジェクト３４’’’とも呼ばれ得る）の各々をレンダリングし得る。拡張現実オーディオレンダリングユニット２８Ｃは、マルチチャネルオーディオデータ４０のこの部分を、オーディオデータ３８Ｃとしてオーディオミキシングユニット３０に渡す。

[0057] オーディオミキシングユニット３０は、オーディオデータ３８を受信し、マルチチャネルオーディオデータ４０を形成するために、このオーディオデータ３８をミックスする。オーディオミキシングユニット３０は、任意の形式のマルチチャネルオーディオデータ４０を生成するために、上記で説明される方法で、このオーディオデータ３８をミックスし得る。これらのフォーマットは、５．１サラウンドサウンドフォーマット、７．１サラウンドサウンドフォーマット、１０．１サラウンドサウンドフォーマット、２２．２サラウンドサウンドフォーマット、または任意の他の独自もしくは非独自フォーマットを含み得る。

[0058] この方法では、ビデオキャプチャデバイス１０の制御ユニット１２が、１つまたは複数のオーディオオブジェクトを識別するためにオーディオデータを解析し、１つまたは複数のビデオオブジェクトを識別するためにオーディオデータのキャプチャと同時にデバイスでキャプチャされたビデオデータを解析するように構成され得る。制御ユニット１２は、さらに、オーディオオブジェクト３４のうちの１つをビデオオブジェクト３２のうちの１つと関連付け、ビデオオブジェクト３２のうちの１つとのオーディオオブジェクト３４のうちの１つの関連付けに基づいて、オーディオデータ２０からマルチチャネルオーディオデータ４０を生成するように構成され得る。

[0059] ビデオシーン解析が、オーディオオブジェクト単独と比較して、ビデオキャプチャデバイス１０に対するビデオオブジェクトの位置をより密接に識別できることを考えると、ビデオキャプチャデバイス１０は、しばしば不正確なビーム形成技術に単独に依存するのと比較して、オーディオオブジェクトをより良好に定位させ得る。これらのオーディオオブジェクトは、次いで、オーディオオブジェクトを前方チャネルのうちの１つに対してより良好に位置付けるデシベル差を使用して、１つまたは複数のチャネルに対してレンダリングされ得、それによって、従来のビデオキャプチャデバイスによって生成されたものと比較して、サラウンドサウンドまたはマルチチャネルオーディオデータのより良好な生成を可能にする。

[0060] さらに、ビデオキャプチャデバイスは、いくつかの例で、前景（聴取者の前方１８０度）内の別個のオーディオソースとしてオーディオオブジェクト３２をレンダリングし得る。ビデオキャプチャデバイス１０が「聞く」が、「見ない」オーディオオブジェクト３２に関して、ビデオキャプチャデバイス１０は、これらのオーディオオブジェクト３２が聴取者の背後にある可能性が高いので、これらのオーディオオブジェクト３２を背景内にレンダリングし得る。

[0061] ビデオキャプチャデバイス１０によって行われるものとして上記では説明されるが、技術は、ビデオデータ１８とオーディオデータ２０とをキャプチャしたデバイスと異なるデバイスによって実施され得る。言い換えれば、スマートフォンまたは他のビデオキャプチャデバイスは、ビデオデータとオーディオデータとをキャプチャでき、このビデオデータおよびオーディオデータを、専用処理サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットもしくはスレートコンピュータ、または、データを処理できる任意の他のタイプのデバイスなどの異なるデバイスにアップロードする。この他のデバイスは、次いで、より正確なサラウンドサウンドまたはマルチチャネルオーディオデータと考えられ得るものの生成を容易にするために、本開示で説明される技術を行い得る。従って、ビデオおよびオーディオデータをキャプチャしたデバイスによって行われるものとして説明されるが、技術は、ビデオおよびオーディオデータをキャプチャしたデバイスとは異なるデバイスによって行われ得、この点において、本開示で説明される例に限定されるべきでない。

[0062] 図２Ａ〜図２Ｄは、本開示で説明される技術に従ってビデオオブジェクト３２をオーディオオブジェクト３４と関連付ける際に図１のビデオキャプチャデバイス１０によって行われる動作を示す図である。上記の図２Ａでは、オーディオオブジェクト３４のうちの１つ（図２Ａの例で「オーディオオブジェクト３４Ａ」と表記される）と、ビデオオブジェクト３２のうちの１つ（図２Ａの例で「ビデオオブジェクト３２Ａ」と表記される）とが、それぞれのオーディオメタデータ５４Ａと、ビデオメタデータ５２Ａとを含む。ビデオキャプチャデバイス１０のオブジェクト関連付けユニット２６は、拡張メタデータ５６Ａを有する（図１Ｂの例に示されるオーディオオブジェクト３４のうちの１つである）拡張オーディオオブジェクト３４Ａ’を生成するために、オーディオデータ５４Ａを拡張するために、ビデオメタデータ５２Ａを使用して、オーディオオブジェクト３４Ａをビデオオブジェクト３２Ａと関連付けし得る。この拡張メタデータ５６Ａは、オーディオメタデータ５４Ａとビデオメタデータ５２Ａとの両方を含むことができ、ここで、いくつかの例では、ビデオメタデータ５２Ａが、オーディオメタデータ５４Ａの一部またはすべてを置き換え得る。いくつかの例では、オブジェクト関連付けユニット２６が、オーディオメタデータ５４Ａとビデオメタデータ５２Ａとが高い相関を有することを決定し得る。

[0063] 他の例では、オブジェクト関連付けユニット２６が、オーディオメタデータ５４Ａとビデオメタデータ５２Ａとが低い相関を有することを決定し得る。この例で、オブジェクト関連付けユニット２６は、拡張メタデータ５６Ａを生成するときに、オーディオメタデータ５２Ａよりもビデオメタデータ５２Ａを支持するために、ビデオメタデータ５２Ａに重み付けし得る。マルチチャネルオーディオデータ４０を生成するために、このオーディオオブジェクト３４Ａ’をレンダリングし、ミキシングするときに、支援型オーディオレンダリングユニット２８Ａは、オーディオメタデータ５４Ａとビデオメタデータ５２Ａとの間の相関の不足のため、前景のより多くのチャネルにまたがってより拡散して広がるオーディオオブジェクト３４Ａ’として、このオーディオオブジェクト３４Ａ’をレンダリングし得る。ビデオキャプチャデバイス１０は、オブジェクトを拡散させるために、これらのオブジェクトにサウンド非相関化のような様々な拡散アルゴリズムを行い得る。

[0064] 図２Ｂの例では、聴覚的解析ユニット２４が、オーディオオブジェクト３４のうちの別の１つ（図２Ｂの例ではオーディオオブジェクト３４Ｂと表記される）を識別するが、オーディオオブジェクト３４Ｂのための任意のメタデータを識別できない。この例は、複数のマイクロホンがビデオキャプチャデバイス１０上で利用可能でなく、結果として、ビデオキャプチャデバイス１０がオーディオメタデータを決定できない例を反映している。結果として、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４Ｂ’（オーディオオブジェクト３４’のうちの１つを指す）を生成するために、このオーディオオブジェクトをレンダリングするときに、オーディオメタデータの代わりに、関連付けられたビデオオブジェクト３２Ｂのビデオメタデータ５２Ｂを利用し得る。図２Ｂの例に示されるように、オーディオオブジェクト３４Ｂ’は、ビデオメタデータ５２Ｂを含む。

[0065] 図２Ｃの例では、聴覚的解析ユニット２４が、オーディオオブジェクト３４のうちの１つ（「オーディオオブジェクト３４Ｃ」と表記される）を識別し、このオーディオオブジェクトのためのオーディオメタデータ５４Ｃを決定するが、このオーディオオブジェクト３４Ｃが対応するビデオオブジェクト３２のいずれも識別できない。このオーディオオブジェクト３４Ｃのために何もビデオオブジェクトが識別されていないので、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４Ｃがビデオキャプチャデバイス１０の後ろに配置されることを決定し得る。オブジェクト関連付けユニット２６は、この決定に基づいて、オーディオオブジェクト３４Ｃを、オーディオオブジェクト３４’’のうちの１つ（すなわち、図２Ｃの例ではオーディオオブジェクト３４Ｃ’’）として無支援型レンダリングユニット２８Ｂに渡すことができ、無支援型レンダリングユニット２８Ｂは、次いで、このオーディオオブジェクトを、マルチチャネルオーディオデータ４０の背景チャネルにおいてレンダリングし得る。このオーディオオブジェクト３４Ｃ’’をレンダリングするとき、無支援型オーディオレンダリングユニット２８Ｂは、オーディオオブジェクト３４Ｃ’’を、オーディオメタデータ５４Ｃ内の予測された位置に基づいて、または、背景チャネルに非常に拡散してまたがってレンダリングし得る。すなわち、ビデオキャプチャデバイス１０は、オーディオメタデータに基づいて実際の位置を推定し、または、オブジェクトが特定の知覚的角度なしで空間中の雲状の形状を有するように、（上記の識別された音の拡散プロセスを使用して）オブジェクトを非常に拡散してレンダリングし得る。

[0066] 図２Ｄの例では、オブジェクト関連付けユニット２６が、ビデオメタデータ５２Ｄを含むビデオオブジェクト３２のうちの１つ（図２Ｄの例では「ビデオオブジェクト３２Ｄ」と表記される）を受信するが、ビデオオブジェクト３２Ｄをオーディオオブジェクト３４のいずれとも関連付けることができない。結果として、オブジェクト関連付けユニット２６は、ビデオオブジェクト３２Ｄを、ビデオオブジェクト３２’のうちの１つ（すなわち、図２Ｄの例ではビデオオブジェクト３２Ｄ’）として拡張現実オーディオレンダリングユニット２８Ｃに渡す。ビデオオブジェクト３２Ｄは、ビデオメタデータ５２Ｄを含む。拡張現実オーディオレンダリングユニット２８Ｃは、基準オーディオオブジェクト３４’’’のライブラリにアクセスし、ビデオオブジェクト３２Ｄ’に関連付けられていたであろう基準オーディオオブジェクト３４’’’のうちの（例えば、オブジェクト３２Ｄ’のタイプを識別するビデオメタデータ５２Ｄで指定されたタイプと一致する基準オーディオオブジェクト３４’’’のような）１つを取得するために、ビデオメタデータ５２Ｄを利用し得る。拡張現実オーディオレンダリングユニット２８Ｃは、次いで、オーディオオブジェクト３４’’’のレンダリングを精密化するまたは他の方法で空間化するために、ビデオメタデータ５２Ｄを使用してこの基準オーディオオブジェクト３４’’’をレンダリングし得る。

[0067] このように、ビデオキャプチャデバイス１０は、関連付けられたビデオオブジェクトによって指定されたメタデータとのオーディオオブジェクトによって指定されたメタデータの相関関係に基づいて、オーディオオブジェクトをレンダリングし、オーディオオブジェクトを、いくつかのビデオオブジェクトまたはその一部から発生するものとして定位させることを試み得る。ビデオシーン解析がしばしば聴覚的シーン解析よりもはるかに正確であることを考慮すると、ビデオキャプチャデバイス１０は、（図２Ａのような）いくつかの例で、オーディオオブジェクトメタデータよりもビデオオブジェクトメタデータを（重みを使用して）支持する。ビデオキャプチャデバイスは、いくつかの例で、まったくメタデータを有していない、または非常に不確かなメタデータ（図２Ｂの例に示されるような）を有するオーディオオブジェクトを生成することがあり、ここで、ビデオキャプチャデバイスは、オーディオオブジェクトをレンダリングするときに使用されるメタデータとして使用するための「一致する」ビデオオブジェクトメタデータをインポートし得る。

[0068] 例示するために、拡張メタデータ５６Ａは、オーディオメタデータ５４Ａとビデオメタデータ５２Ａの両方を含むことができ、ここで、いくつかの例では、ビデオメタデータ５２Ａが、オーディオメタデータ５４Ａを置き換え得る。いくつかの例では、ビデオキャプチャデバイス１０が、高い相関を有するオーディオメタデータ５４Ａとビデオメタデータ５２Ａとを決定し得る。言い換えれば、ビデオキャプチャデバイス１０は、オーディオメタデータ５４Ａで指定された音を発生したオブジェクトの位置が、ビデオメタデータ５２Ａによって定義された対応するオブジェクトの位置と高い程度（例えば、しばしばパーセンテージとして表されるなにかの信頼度しきい値によって定義され得る）まで相関することを決定し得る。ビデオキャプチャデバイス１０は、次いで、高い信頼度を有するマルチチャネルオーディオデータ４０を生成するために、オーディオオブジェクトをレンダリングし、ミックスし得る。

[0069] 他の例では、ビデオキャプチャデバイス１０が、オーディオメタデータ５４Ａとビデオメタデータ５２Ａとが低い相関を有することを決定し得る。この例で、ビデオキャプチャデバイス１０は、拡張メタデータ５６Ａを生成するとき、オーディオメタデータ５４Ａよりもビデオメタデータ５２Ａを支持するために、ビデオメタデータ５２Ａを重み付けし得る。マルチチャネルオーディオデータ４０を生成するためにオーディオオブジェクト３４Ａ’をレンダリングし、ミックスするときに、ビデオキャプチャデバイス１０は、オーディオメタデータ５４Ａとメタデータ５２Ａとの間の相関の不足のために、オーディオオブジェクト３４Ａ’をより拡散するようにレンダリングし、前景のより多くのチャネルにまたがってオーディオオブジェクト３４Ａ’を拡散させ得る。

[0070] 図３は、図１Ｂの支援型オーディオレンダリングユニット２８Ａをより詳細に示すブロック図である。図３の例では、支援型オーディオレンダリングユニット２８Ａが、いくつかの空間オーディオレンダリングユニット６０Ａ〜６０Ｎ（「空間オーディオレンダリングユニット６０」）を含む。いくつかの空間オーディオレンダリングユニット６０が図３の例に示されるが、支援型オーディオレンダリングユニット２８は、いくつかの例で、複数のオブジェクトを並列に処理できる単一の空間オーディオレンダリングユニット６０のみを含み得る。代替的には、支援型オーディオレンダリングユニット２８は、単一のオーディオオブジェクトのみを処理できる単一の空間オーディオレンダリングユニット６０を含み得る。技術は、従って、この点で図３の例に限定されるべきでない。

[0071] 図３の例では、空間オーディオレンダリングユニット６０の各々が、オーディオオブジェクト３８Ａを生成するために、オーディオオブジェクト３４Ａ’〜３４Ｎ’（図１Ｂの例に示される「オーディオオブジェクト３４’’’」）に関して空間オーディオレンダリングを行う別々のオーディオレンダリングプロセスを表し得る。空間オーディオレンダリングは、オーディオデータをレンダリングするための様々なアルゴリズムまたはプロセスを指すことができ、２、３の例として、アンビソニックス、波面合成（ＷＦＳ：ｗａｖｅｆｉｅｌｄｓｙｎｔｈｅｓｉｓ）、およびベクトルベースの振幅パニング（ＶＢＡＰ：ｖｅｃｔｏｒ−ｂａｓｅｄａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ）を含み得る。空間オーディオレンダリングユニット６０は、拡張メタデータ５６Ａ〜５６Ｎ（「拡張メタデータ５６」）に基づいて、オーディオオブジェクト３４’のそれぞれを処理し得る。すなわち、空間オーディオレンダリングユニット６０は、マルチチャネルオーディオデータ４０が再生されるとき、オーディオオブジェクト３４’の対応するものがより正確に再生できるように、オーディオオブジェクト３４’の対応するものをさらに精密化するまたは他の方法でより正確に定位させるために、拡張メタデータ５６を使用してオーディオオブジェクト３４’をレンダリングし得る。空間オーディオレンダリングユニット６０は、レンダリングされたオーディオデータ３８Ａをオーディオミキシングユニット３０に出力でき、オーディオミキシングユニット３０は、次いで、マルチチャネルオーディオデータ４０を生成するためにレンダリングされたオーディオデータ３８Ａをミックスできる。いくつかの例では、所与のオーディオオブジェクト３４’に対応するオーディオデータ３８Ａが、マルチチャネルオーディオデータ４０の２つ以上のチャネルにまたがってミックスされ得る。

[0072] 図３の例で支援型オーディオレンダリングユニット２８Ａに関して説明されるように、レンダリングユニット２８の各々は、空間オーディオレンダリングユニット６０と同様の空間オーディオレンダリングユニットを含むことができ、この空間オーディオレンダリングユニットは、（再び、基準オーディオライブラリから取得された、ビデオオブジェクト３２’に関連付けられていたであろう基準オーディオオブジェクト３４’’’を指す）、オーディオデータ３８Ｂと３８Ｃとを生成するためにオーディオオブジェクト３４’’と３４’’’を同様に処理し得る。さらに、レンダリングユニット２８Ｃを含むように説明されるが、ビデオキャプチャデバイス１０は、レンダリングユニット２８Ｃを含まなくてもよく、ここで、ビデオキャプチャデバイス１０は、本開示で説明される技術の拡張現実オーディオレンダリングの態様を行わなくてもよい。

[0073] 図４は、図１Ｂの例で示されるビデオキャプチャデバイス１０のカメラ１４によってキャプチャされ、本開示で説明される技術に従って処理されたシーン７０を示す図である。シーン７０は、図１Ｂの例に示されるビデオデータ１８の一部を表し得る。ビデオキャプチャデバイス１０は、シーン７０を受信することに応答して、視覚的解析ユニット２２を呼び出すことができ、視覚的解析ユニット２２は、ビデオオブジェクト３２を識別するために、シーン７０を処理する。

[0074] 図４に示されるように、シーン７０は、例えば、フレームの時間的シーケンスで、第１のフレームまたは画像７２Ａと、第２のフレームまたは画像７２Ｂと、第３のフレームまたは画像７２Ｃとを含む。例示の容易さの目的のために３つのフレームまたは画像７２Ａ〜７２Ｃ（「画像７２」）のみを含むものとして示されるが、シーン７０は、多数の画像７２または単一の画像７２を含むことができ、技術は、この点で、図４に示される例に限定されるべきでない。

[0075] いずれにしても、視覚的解析ユニット２２は、ビデオオブジェクト３２Ａ〜３２Ｇを識別するために、コンピュータビジョンアルゴリズムを使用して画像７２Ａを処理し得る。視覚的解析ユニット２２は、ビデオメタデータ５２Ａ〜５２Ｇを含むように、または他の方法でビデオメタデータ５２Ａ〜５２Ｇと関連付けられるように、ビデオオブジェクト３２Ａ〜３２Ｇを生成し得る。ビデオメタデータ５２Ａ〜５２Ｇは、シーン７０をキャプチャしたカメラ１４に対するビデオオブジェクト３２Ａ〜３２Ｇの対応する位置を定義し得る。ビデオメタデータ５２Ａ〜５２Ｇは、また、一般的には、例えば、マシンビジョンベースのオブジェクト認識に基づいて、ビデオオブジェクト３２のうちの対応するもののタイプを識別でき、マシンビジョンベースのオブジェクト認識は、視覚的解析ユニット２２内に、または、１つまたは複数の外部の、およびおそらくはリモートのネットワークサーバとともに視覚的解析ユニット２２によって完全にサポートされ得る。例えば、ビデオオブジェクト３２Ａと関連付けられたビデオメタデータ５２Ａは、ビデオオブジェクト３２Ａを自動車として識別し得る。ビデオメタデータ５２Ｂ〜３２Ｆは、別の例として、ビデオオブジェクト３２Ｂ〜３２Ｆの対応するもののタイプを、人間として識別し得る。ビデオメタデータ５２Ｇは、さらに別の例として、対応するビデオオブジェクト３２Ｇのタイプを、ステレオとして識別し得る。

[0076] 視覚的解析ユニット２２は、移動、速度、または、ビデオオブジェクト３２Ａ〜３２Ｇがシーン７０の間にどのように移動するのかを記述する他の位置に関連するメトリックスを表現するために、視覚的メタデータ５２Ａ〜５２Ｇの形態の位置情報を生成するために、１つまたは複数の画像７２を同時に解析し得る。例示するために、画像７２Ａから画像７２Ｃまでのビデオオブジェクト３２Ａを検討し、ここで、ビデオオブジェクト３２Ａは、ほぼ水平線に沿って、第１の位置から第２の位置に、次いで第３の位置に移動している。視覚的解析ユニット２２は、オブジェクト３２Ａを識別し、画像７２Ａから画像７２Ｂ、次いで画像７２Ｃまでに、ビデオオブジェクト３２Ａが、第１の位置から第２の位置に、次いで第３の位置に移動していることを示すために、ビデオメタデータ５２Ａを生成し得る。このビデオメタデータ５２Ａは、オーディオオブジェクト３４のうちの対応するもの（例えば、オーディオオブジェクト３４Ａ）と関連付けられているとき、オブジェクト関連付けユニット２６が、オーディオオブジェクト３４Ａとして識別されたオーディオデータを発するオブジェクトの位置を（視覚的シーン解析が、一般に、聴覚的シーン解析よりも正確であると考えると）より正確に指定するようにオーディオメタデータ５４Ａを拡張することを可能にし得る。オブジェクト関連付けユニット２６は、次いで、（例えば、図２Ａに示されるような）拡張メタデータ５６Ａを有するオーディオオブジェクト３４’を生成し得る。

[0077] 別の例として、ビデオオブジェクト３２Ｇを、シーン７０内で移動するものとして検討する。最初に、画像７２Ａは、第１の位置のビデオオブジェクト３２Ｇを示す。画像７２Ｂは、第２の位置のビデオオブジェクト３２Ｇを示す。画像７２Ｃは、ビデオオブジェクト３２Ｇを含まず、ビデオオブジェクト３２Ｇがシーンを離れており、背景内にあるか、カメラ１４によってキャプチャされているシーン７０の左または右側に外れていることを示唆している。オブジェクト関連付けユニット２６は、次いで、ビデオオブジェクト３２Ｇがシーン７０を通って移動するようにビデオオブジェクト３２Ｇの位置を指定するビデオメタデータ５２Ｇを含むようにビデオオブジェクト３２Ｇを生成し得る。オブジェクト関連付けユニット２６は、ビデオオブジェクト３２Ｇを、同じタイプ、すなわち、本例ではステレオを指定するメタデータを有するオーディオオブジェクト３４のうちの１つと関連付けし得る。しかしながら、ビデオオブジェクト３２Ｇがシーンから離れることを考えると、オブジェクト関連付けユニット２６は、ビデオメタデータ５２Ｇによって指定された位置情報を置き換えるか、そうでなければ利用できず、代わりに、オーディオオブジェクト３４のこの１つに関連付けられたオーディオメタデータ５４によって指定された位置情報を維持する。

[0078] オブジェクト関連付けユニット２６は、画像７２Ａ、７２Ｂに関して再生するための、オーディオオブジェクト３４のうちの関連付けられた１つ、例えば、オーディオオブジェクト３４Ｇをレンダリングするときに、ビデオメタデータ５２Ｇによって指定された位置を利用し得る。しかしながら、ビデオメタデータ５２Ｇは、これらのときの位置に関する高い信頼レベルを指定できるが、画像７２Ｃに対応するときの位置情報に関して低い〜ゼロの信頼度を指定し得る。結果として、オブジェクト関連付けユニット２６は、画像７２Ｃが提示されるときに再生するための関連付けられたオーディオオブジェクト３４Ｇをレンダリングするとき、ビデオメタデータ５２Ｇによって指定された位置情報を置き換えない、または他の方法で利用しないことがある。代わりに、オブジェクト関連付けユニット２６は、画像７２Ｃが提示されるべき時間の間のオーディオオブジェクト３４Ｇをレンダリングするとき、オーディオオブジェクト３４Ｇによって指定された位置情報を利用し得る。

[0079] 上記されるように、オブジェクト関連付けユニット２６は、画像７２Ｃの例のように、オーディオオブジェクト３４Ｇに対応するビデオオブジェクト３２Ｇを識別できないことがある。すなわち、ビデオオブジェクト３２Ｇは、画像７２Ｃに示されるようにシーン７０を離れているかもしれないが、ステレオから再生している音楽は、依然としてキャプチャされ、オーディオオブジェクト３４Ｇとして識別され得る。この例では、オブジェクト関連付けユニット２６が、図２Ｃに関して上記で説明される動作を行い得る。すなわち、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４Ｇを、ビデオオブジェクトに関連付けられたオーディオオブジェクトの現在の分類から、ビデオオブジェクト３２のうちのいずれとも関連付けられていないオーディオオブジェクト３４Ｇに再分類し、図２Ｃに関して上記で説明されるようにオーディオオブジェクト３４Ｇを処理し得る。オブジェクト関連付けユニット２６は、オーディオオブジェクト３４Ｇ’’を生成し、このオーディオオブジェクト３４Ｇ’’を無支援型オーディオレンダリングユニット２８Ｂに渡し得る。この点で、オーディオオブジェクト３４Ｇは、図２Ａに関して上記で説明される方法で処理されることから、図２Ｃに関して上記で説明されて方法で処理されることに移行し得る。

[0080] このように、ビデオキャプチャデバイス１０は、より正確なマルチチャネルオーディオデータ４０を潜在的に生成するために、本開示で説明される技術を動的に行い得る。この目的のため、ビデオキャプチャデバイス１０は、オーディオオブジェクト３４を適応的に分類し、これらのオーディオオブジェクト３４とビデオオブジェクト３２とを、上記で説明される３つのクラスのうちの様々なものの間で移行させ得る。いくつかの例では、ビデオキャプチャデバイス１０が、オーディオオブジェクト３４とビデオオブジェクト３２とを適応的に分類し、図２Ａ〜図２Ｄに関して上記で説明される方法のうちの１つからオーディオオブジェクト３４とビデオオブジェクト３２を処理することから、図２Ａ〜図２Ｄに関して上記で説明される方法のうちの異なるものに移行し得る。

[0081] 図５は、図１Ｂの例で示されるビデオキャプチャデバイス１０のカメラ１４によってキャプチャされ、本開示で説明される技術の拡張現実の態様に従って処理された別のシーン８０を示す図である。図５の例では、シーン８０が、図１Ｂの例で示されるビデオデータ１８の一部を表し得る。ビデオキャプチャデバイス１０は、シーン８０を受信することに応答して、視覚的解析ユニット２２を呼び出すことができ、視覚的解析ユニット２２は、ビデオオブジェクト３２Ｉと３２Ｈとを識別するために、シーン８０を処理する。シーン８０は、画像８２を含む。例示の容易さの目的のため、単一の画像、画像８２を含むものとして示されるが、シーン８０は、追加の画像を含むことができ、技術は、この点で、図５に示される例に限定されるべきでない。

[0082] いずれにしても、視覚的解析ユニット２２は、ビデオメタデータ５２Ｉと５２Ｈとをそれぞれ含むように、ビデオオブジェクト３２Ｉと３２Ｈとを識別し、生成し得る。視覚的解析ユニット２２は、視覚的オブジェクト３２Ｉと３２Ｈとを、オブジェクト関連付けユニット２６に渡すことができ、オブジェクト関連付けユニット２６は、視覚的オブジェクト３２Ｉと３２Ｈとを、オーディオオブジェクト３４のうちの１つに関連付けることを試み得る。オブジェクト関連付けユニット２６は、例の目的のため、視覚的オブジェクト３２Ｉを、オーディオオブジェクト３４のうちの１つ、例えば、オーディオオブジェクト３４Ｉに関連付けるように仮定される。オブジェクト関連付けユニット２６は、次いで、図２Ａの例に関して上記で説明されるものと同様の方法で、関連付けられたビデオオブジェクト３２Ｉを考慮してオーディオオブジェクト３４Ｉを処理し得る。オブジェクト関連付けユニット２６は、次いで、拡張メタデータ５６Ｉを有するオーディオオブジェクト３４Ｉ’を生成し得る。

[0083] ビデオオブジェクト３２Ｉとして識別された人間に加えて、シーン８０は、視覚的解析ユニット２２がビデオオブジェクト３２Ｈとして識別しているビーチを含み、ここで、例示の目的のため、波の音がマイクロホン１６によってキャプチャされていないと仮定される。すなわち、砂に衝突する波の音が、距離、話している人、風雑音、またはなにか他の妨害のいずれかのために聞き取られないように、ビデオキャプチャデバイス１０は、ビーチから十分に離れていると仮定される。オブジェクト関連付けユニット２６は、結果として、ビデオオブジェクト３２Ｈを、第３のクラス、すなわち、本開示の例で、ビデオオブジェクト３２のうちの、オーディオオブジェクト３４のうちのいずれにも関連付けられていないものに属するものとして分類し得る。結果として、オブジェクト関連付けユニット２６は、図２Ｄの例に関して上記で説明される方法でビデオオブジェクト３２Ｈを処理し、ビデオオブジェクト３２Ｈ’を生成し得る。オブジェクト関連付けユニット２６は、次いで、ビデオオブジェクト３２Ｈ’を、拡張現実オーディオレンダリングユニット２８Ｃに転送し得る。

[0084] オーディオレンダリングユニット２８Ｃは、ビデオオブジェクト３２Ｈ’を受信し、本例で、波、ビーチ、などのタイプであり得る、同じタイプのものである基準オーディオオブジェクト３４’’’のうちの対応するものを取得し得る。オーディオレンダリングユニット２８Ｃは、次いで、ビデオメタデータ５２Ｈに基づいて、基準オーディオオブジェクト３４’’’のうちのこの１つ、例えば、オーディオレンダリングオブジェクト３４Ｈ’’’をレンダリングし得る。拡張現実オーディオレンダリングユニット２８Ｃは、このレンダリングされたオーディオデータを、オーディオデータ３８Ｃとしてミキシングユニット３０に渡すことができ、ミキシングユニット３０は、上記で説明される方法でマルチチャネルオーディオデータ４０を形成するために、オーディオデータ３８Ａ〜３８Ｃをミックスする。

[0085] 図６は、本開示で説明される技術を行う際の、図１Ｂの例に示されるビデオキャプチャデバイス１０のようなビデオキャプチャデバイスの例示的な動作を示すフローチャートである。最初に、ビデオキャプチャデバイス１０は、ビデオデータ１８をキャプチャするためにカメラ１４を呼び出すように構成され得、同時に、また、オーディオデータ２０をキャプチャするためにマイクロホン１６のうちの１つまたは複数、しばしばすべてを呼び出すように構成され得る（９０、９２）。ビデオデータ１８とオーディオデータ２０とを受信することに応答して、ビデオキャプチャデバイス１０の制御ユニット１２は、マルチチャネルオーディオデータ４０を生成するための本開示で説明される技術を行うように構成され得る。

[0086] ビデオデータ１８を受信すると、制御ユニット１２は、視覚的解析ユニット２２を呼び出すように構成され得、視覚的解析ユニット２２は、１つまたは複数のビデオオブジェクト３２を識別するために、ビデオデータ１８に関する視覚的シーン解析を行い得る（９４）。オーディオデータ２０を受信すると、制御ユニット１２は、聴覚的解析ユニット２４を呼び出すことができ、聴覚的解析ユニット２４は、１つまたは複数のオーディオオブジェクト３４を識別するために、オーディオデータ２０に関する聴覚的シーン解析を行い得る（９６）。

[0087] 制御ユニット１２は、ビデオオブジェクト３２とオーディオオブジェクト３４とを受信し、オブジェクト関連付けユニット２６を呼び出し得る。オブジェクト関連付けユニット２６は、少なくとも１つのオーディオオブジェクト３４を少なくとも１つのビデオオブジェクト３２と関連付ける試みに際して、オーディオオブジェクト３４をビデオオブジェクト３２と比較できる（９８）。上記で説明されるように、オブジェクト関連付けユニット２６は、この関連付けを行うとき、オーディオオブジェクト３４の各々を、典型的には（いくつかの例では、オーディオオブジェクトのタイプを定義できる）メタデータに基づいて、オーディオオブジェクトのタイプとして分類し得る。同様に、オブジェクト関連付けユニット２６は、この関連付けを行うとき、ビデオオブジェクト３２の各々を、典型的には（いくつかの例では、ビデオオブジェクトのタイプを定義することもできる）対応するメタデータに基づいて、ビデオオブジェクトのタイプとして分類し得る。例示的なタイプは、自動車、ビーチ、波、流水、音楽、人間、犬、猫、風、などを備え得る。オブジェクト関連付けユニット２６は、次いで、オーディオオブジェクト３４のうちの１つのタイプがビデオオブジェクト３２のうちの１つと同じタイプであることを決定でき、それによって、一致を決定できる（１００）オーディオオブジェクト３４のうちの１つのタイプがビデオオブジェクト３２のうちの１つのタイプと同じである、すなわち、一致が識別されている（「はい」１００）ことの決定に応答して、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４のうちの１つをビデオオブジェクト３２のうちの一致する１つと関連付けし得る（１０２）。

[0088] オーディオオブジェクト３４のうちの、第１のクラスに属すると決定されたものに関して、オブジェクト関連付けユニット２６は、オーディオオブジェクト３４のうちの１つのオーディオデータメタデータと、ビデオオブジェクト３２のうちの関連付けられた１つのビデオメタデータとの間の相関のレベルを決定し、決定された相関のレベルに基づいて、１つのビデオオブジェクト３２が関連付けされるオーディオオブジェクトのうちの１つに関する複合メタデータを生成し得る。いくつかの例では、オブジェクト関連付けユニット２６が、また、オーディオメタデータによって指定された位置のような、オーディオメタデータまたはその一部を、対応するビデオメタデータまたはその一部で置換し得る。このように、オブジェクト関連付けユニット２６は、更新されたまたは拡張されたオーディオオブジェクト３４’を生成するために、ビデオオブジェクト３２のうちの関連付けられた１つに基づいて、１つまたは複数のオーディオオブジェクト３４を更新できる（１０４）。

[0089] オブジェクト関連付けユニット２６は、次いで、これらのオーディオオブジェクト３４’を支援型オーディオレンダリングユニット２８Ａに渡し得る。支援型オーディオレンダリングユニット２８Ａは、次いで、オーディオオブジェクト３４’のうちの１つに関して生成された複合メタデータに基づいて、マルチチャネルオーディオデータ４０のうちの１つまたは複数の前景チャネルにおいてオーディオオブジェクト３４’のうちの１つをレンダリングできる（１０６）。支援型オーディオレンダリングユニット２８Ａは、マルチチャネルオーディオデータ４０のうちのこの部分を、オーディオデータ３８Ａとしてオーディオミキシングユニット３０に渡す。

[0090] オーディオオブジェクト３４のうちの、第２のクラスに属すると決定されたものに関して、すなわち、本開示の例でビデオオブジェクト３２のうちのいずれにも対応しないと決定されたもの（または、換言すれば、一致、「いいえ」１００、「はい」１０８が存在しないオーディオオブジェクト）に関して、オブジェクト関連付けユニット２６は、これらのオーディオオブジェクト３４を、オーディオオブジェクト３４’’のうちの１つとして無支援型オーディオレンダリングユニット２８Ｂに渡し得る。無支援型オーディオレンダリングユニット２８Ｂは、オーディオオブジェクト３４’’のうちの１つが、マルチチャネルオーディオデータ４０のうちの１つまたは複数の背景チャネルで発生するように、マルチチャネルオーディオデータ４０を生成し得る。無支援型オーディオレンダリングユニット２８Ｂは、一致されないオーディオオブジェクト３４’’を背景内に、しばしば拡散音としてレンダリングするように構成され得る（１１０）。無支援型オーディオレンダリングユニット２８Ｂは、マルチチャネルオーディオデータ４０のこの部分を、オーディオデータ３８Ｂとしてオーディオミキシングユニット３０に渡す。

[0091] 第３のクラスに属すると決定されたこれらのオーディオオブジェクト３２に関して、すなわち、ビデオオブジェクト３２が、図１Ｂの例で、オーディオオブジェクト３４のうちのいずれにも関連付けられていない場合（または、言い換えれば、オーディオオブジェクト３４のうちのいずれにも一致せず、ビデオオブジェクトである、「いいえ」１００、「いいえ」１０８ビデオオブジェクト３２のオブジェクトである場合）、オブジェクト関連付けユニット２６は、これらのビデオオブジェクト３２を、ビデオオブジェクト３２’として拡張現実オーディオレンダリングユニット２８Ｃに渡し得る。拡張現実オーディオレンダリングユニット２８Ｃは、ビデオオブジェクト３２’を受信することに応答して、オーディオライブラリから、ビデオオブジェクト３２’のうちの各々１つ（可能な場合）に関連付けられていたであろう基準オーディオライブラリを取得し、次いで、マルチチャネルオーディオデータ４０の少なくとも一部を生成するために、（オーディオオブジェクト３４’’’と呼ばれ得る）基準オーディオオブジェクトの各々をレンダリングできる（１１２）。拡張現実オーディオレンダリングユニット２８Ｃは、マルチチャネルオーディオデータ４０のこの部分を、オーディオデータ３８Ｃとしてオーディオミキシングユニット３０に渡す。

[0092] オーディオミキシングユニット３０は、オーディオデータ３８を受信し、マルチチャネルオーディオデータ４０を形成するために、このオーディオデータ３８をミックスする（１１４）。オーディオミキシングユニット３０は、マルチチャネルオーディオデータ４０の任意の形態を生成するために、上記で説明されるようにこのオーディオデータ３８をミックスし得る。これらのフォーマットは、５，１サラウンドサウンドフォーマット、７．１サラウンドサウンドフォーマット、１０．１サラウンドサウンドフォーマット、２２．２サラウンドサウンドフォーマット、または、任意の他の独自もしくは非独自フォーマットを含み得る。オーディオミキシングユニット３０は、次いで、このマルチチャネルオーディオデータ４０を出力できる（１１６）。

[0093] このように、ビデオキャプチャデバイス１０の制御ユニット１２は、１つまたは複数のオーディオオブジェクトを識別するためにオーディオデータを解析し、１つまたは複数のビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にデバイスによってキャプチャされたビデオメタデータを解析するように構成され得る。制御ユニット１２は、さらに、オーディオオブジェクト３４のうちの１つをビデオオブジェクト３２のうちの１つと関連付け、ビデオオブジェクト３２のうちの１つとのオーディオオブジェクト３４のうちの１つの関連付けに基づいて、オーディオデータ２０からマルチチャネルオーディオデータ４０を生成するように構成され得る。

[0094] マルチチャネルオーディオデータ４０を生成する文脈で説明されるが、ビデオキャプチャデバイス１０は、さらに、ビデオデータを符号化し得る。符号化するとき、オーディオオブジェクトを拡散するビデオデータは、ビデオキャプチャデバイス１０が、より少ないビットを使用してこれらのオーディオオブジェクトを符号化することを可能にし得る。すなわち、背後の背景内、または遠方のオーディオオブジェクトは、それらが目によって見られない、または、焦点が合わされた近距離の空間内のオーディオオブジェクトよりも重要でなく、他のオーディオオブジェクトと一緒に提示されるとき、マスクされる可能性が非常に高いので、高品質でレンダリングされる必要がないことある。結果として、ビデオキャプチャデバイス１０は、再生システムのためにそれらを符号化し、送信するとき、より少ないビットをこれらのオーディオオブジェクトに割り当て得る。

[0095] また、オーディオデータとビデオデータとのキャプチャ後に（もしくは、この形式の処理が一般的に呼ばれているように「オフライン」で）、または、リアルタイムもしくは準リアルタイムシステムでなく行われるものとして説明されるが、技術は、オーディオデータとビデオデータの少なくとも一部のキャプチャの間に、リアルタイムまたは準リアルタイムシステムで実施され得る。準リアルタイムまたはリアルタイムシステムのためにビデオシーン解析の実施態様が存在するが、オーディオシーン解析は、典型的にはビデオシーン解析ほど複雑でなく、オーディオシーン解析が準リアルタイムまたはリアルタイムデバイスで行えることを意味する。

[0096] さらに、オーディオおよびビジュアル領域に関して説明されるが、技術は、他の領域に関して行われ得る。例えば、タッチ、動き、コンパス、高度、温度、および他のセンサ領域も、３Ｄ空間性質に潜在的な焦点を有するメディアレンダリング品質を向上させるために一緒に考慮され得る。従って、技術は、この点で、本開示に記載される例に限定されるべきでない。

[0097] 図７は、本開示で説明される技術に従って様々なオーディオオブジェクト１２６Ａ〜１２６Ｋがマルチチャネルオーディオデータの前景と背景とにレンダリングされ得る方法を示す図である。図７の図は、下向きの視点または鳥瞰からの「スイートスポット」と一般に呼ばれるものを示すビュー１２０を指定する。スイートスポットは、スピーカが５．１またはより高次のサラウンドサウンド再生のために適切に構成されるときにサラウンドサウンド体験が最も適した室内の場所を指す。

[0098] 図７の例では、ビュー１２０が、２つの部分に分割され、これらの部分は、前景部分１２２Ａと背景部分１２２Ｂとして示される。円内で、聴取者１２４は、背景部分１２２Ｂから前景部分１２２Ａを分離する水平上に、スイートスポットの中央に配置される。マルチチャネルオーディオデータ４０の再生中、聴取者１２４は、ビュー１２０内に提示されるように音場内のオーディオオブジェクト１２６Ａ〜１２６Ｋを聞き得る。すなわち、オーディオオブジェクト１２６Ａ〜１２６Ｄは、聴取者１２４の視野から、より遠い前景から発生しているように現れる。オーディオオブジェクト１２６Ａ〜１２６Ｄは、図２Ｂに関して上記で説明されるようにオブジェクト関連付けユニット２６によって処理され得、その結果、支援型オーディオレンダリングユニット２８Ａは、なんらかのオーディオメタデータの不足のために、より拡散したオーディオオブジェクトとして遠い前景にこれらをレンダリングする。

[0099] オーディオオブジェクト１２６Ｅ〜１２６Ｇは、聴取者１２４の視野から、より焦点が合わされたオブジェクトとして、より近い前景で発生しているように現れ得る。オーディオオブジェクト１２６Ｅ〜１２６Ｇは、オブジェクト関連付けユニット２６によって図２Ａに関して上記で説明される方法で処理されていてもよく、その結果、支援型オーディオレンダリングユニット２８Ａは、高いオーディオおよびメタデータ相関を有する拡張メタデータを提供するオブジェクト関連付けユニット２６の能力により、より焦点が合わされた前景にこれらをレンダリングする。

[0100] １つまたは複数のオーディオオブジェクト１２６Ａ〜１２６Ｇは、拡張現実オーディオレンダリングユニット２８Ｃに関して上記で説明される方法で基準ライブラリから取得された基準オーディオオブジェクトであり得る。この意味において、オブジェクト関連付けユニット２６は、ビデオオブジェクト３２のうちの、オーディオオブジェクト３４のうちのいずれにも一致しないものを識別し、ビデオオブジェクト３２のうちのこれらを、ビデオオブジェクト３２’として拡張現実オーディオレンダリングユニット２８Ｃに渡し得る。拡張現実オーディオレンダリング２８Ｃは、次いで、ビデオオブジェクト３２’のうちの１つに対応または一致する基準オーディオオブジェクト３４’’’のうちの１つを取得し、ビデオオブジェクト３２’のうちの関連付けられている１つ内に含まれるビデオメタデータに基づいて、基準オーディオオブジェクト３４’’’のうちのこの１つをレンダリングし得る。

[0101] オーディオオブジェクト１２６Ｈ〜１２６Ｋは、背景内で発生しているように現れ、聴取者１２４の視野を形成し得る。オーディオオブジェクト１２６Ｈ〜１２６Ｋは、オブジェクト関連付けユニット２６によって図２Ｃに関して上記で説明される方法で処理されていてもよく、その結果、無支援型オーディオレンダリングユニット２８Ｂは、これらのオーディオオブジェクト３４’’をビデオオブジェクト３２のうちのいずれか１つに関連付けるオブジェクト関連付けユニット２６の能力の欠如により、背景にこれらをレンダリングする。すなわち、聴覚的シーン解析は、典型的には、視覚的シーン解析と比較して、音の発生源を位置決めする上で正確でないので、無支援型オーディオレンダリングユニット２８Ｂは、オーディオオブジェクト３４’’のソースを正確に位置決めするできないことがある。無支援型オーディオレンダリングユニット２８Ｂは、最大でも対応するオーディオメタデータ５４に基づいてオーディオオブジェクト３４’’を単にレンダリングでき、その結果、オーディオレンダリングユニット２８Ｂが、より拡散したオブジェクトとして背景にこれらのオーディオオブジェクト３４’’をレンダリングする結果になることがある。

[0102] このように、技術は、デバイスが、１つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析し、１つまたは複数のビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にデバイスによってキャプチャされたビデオデータを解析することを可能にし得る。デバイスは、さらに、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを、１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付け、１つまたは複数のビデオオブジェクトのうちの少なくとも１つとの１つまたは複数のオーディオオブジェクトのうちの少なくとも１つの関連付けに基づいて、オーディオデータからマルチチャネルオーディオデータを生成し得る。

[0103] いくつかの例では、デバイスが、オーディオデータを解析するとき、１つまたは複数のオーディオオブジェクトと、１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するためにオーディオデータの聴覚的シーン解析を行うことができ、ここで、オーディオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備える。デバイスは、ビデオデータを解析するとき、１つまたは複数のビデオオブジェクトと、１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、ビデオデータの視覚的シーン解析を行うことができ、ここで、ビデオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備える。

[0104] デバイスは、いくつかの例で、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを、１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けるとき、オーディオオブジェクトのタイプとして１つまたは複数のオーディオオブジェクトの各々を分類し、ビデオオブジェクトのタイプとして１つまたは複数のビデオオブジェクトの各々を分類し、オーディオオブジェクトのうちの少なくとも１つのタイプがビデオオブジェクトのうちの少なくとも１つと同じタイプであることを決定し、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つのタイプが１つまたは複数のビデオオブジェクトのうちの少なくとも１つと同じタイプであることの決定に応答して、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを、１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けし得る。

[0105] いくつかの例では、デバイスが、マルチチャネルオーディオデータを生成するとき、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つのオーディオメタデータと、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つと関連付けられた１つまたは複数のビデオオブジェクトのうちの少なくとも１つのビデオメタデータとの間の相関のレベルを決定し、決定された相関のレベルに基づいて、１つまたは複数のビデオオブジェクトのうちの少なくとも１つが関連付けられている１つまたは複数のオーディオオブジェクトのうちの少なくとも１つに関する複合メタデータを生成し、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つに関して生成された複合メタデータに基づいて、マルチチャネルオーディオデータの１つまたは複数の前景チャネルに、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つをレンダリングし得る。

[0106] いくつかの例では、１つまたは複数のオーディオオブジェクトのうちの少なくとも１つが、１つまたは複数のオーディオオブジェクトのうちの第１のものを備える。デバイスは、いくつかの例で、さらに、１つまたは複数のオーディオオブジェクトのうちの第２のものが、１つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定し、マルチチャネルオーディオデータを生成するとき、オーディオオブジェクトのうちの第２のものが、マルチチャネルオーディオデータの１つまたは複数の背景チャネル内で発生するように、マルチチャネルオーディオデータを生成し得る。

[0107] デバイスは、マルチチャネルオーディオデータを生成するとき、オーディオオブジェクトのうちの第２のものが、マルチチャネルオーディオデータの１つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、マルチチャネルオーディオデータを生成し得る。

[0108] いくつかの例では、１つまたは複数のビデオオブジェクトのうちの少なくとも１つが、１つまたは複数のビデオオブジェクトのうちの第１のものを備える。これらの例では、デバイスが、ビデオオブジェクトのうちの１つまたは複数のうちの第２のものが１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定し得る。ビデオオブジェクトのうちの１つまたは複数のうちの第２のものが１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、デバイスは、１つまたは複数のビデオオブジェクトのうちの第２のものと関連付けられていたであろう基準オーディオオブジェクトをオーディオライブラリから取得し得る。さらに、デバイスは、マルチチャネルオーディオデータの少なくとも一部を生成するために、１つまたは複数のビデオオブジェクトのうちの第２のものに基づいて、基準オーディオオブジェクトをレンダリングし得る。

[0109] いくつかの例では、デバイスが、オーディオデータを解析するとき、１つまたは複数のオーディオオブジェクトと、１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、オーディオデータの聴覚的シーン解析を行い得る。デバイスは、ビデオデータを解析するとき、１つまたは複数のビデオオブジェクトと、１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、ビデオデータの視覚的シーン解析を行い得る。これらの例では、オーディオメタデータが、ビデオメタデータを定義するために使用されたテキストフォーマットと共通のテキストフォーマットで定義される。

[0110] いくつかの例では、デバイスが、オーディオデータを解析するとき、１つまたは複数のオーディオオブジェクトと、１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、オーディオデータの聴覚的シーン解析を行い得る。ビデオデータを解析するとき、デバイスは、１つまたは複数のビデオオブジェクトと、１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、ビデオデータの視覚的シーン解析を行い得る。これらの例では、デバイスが、マルチチャネルオーディオデータを生成するとき、オーディオオブジェクトのうちの少なくとも１つに関して識別されたオーディオメタデータと、ビデオオブジェクトのうちの関連付けられているものに関して識別されたビデオメタデータとの間の相関のレベルを決定し、マルチチャネルオーディオデータを生成するとき、決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとしてオーディオオブジェクトのうちの少なくとも１つをレンダリングし得る。しばしば、相関のレベルは、なんらかの形式の信頼区間に基づいており、ここで、信頼の水準は、オーディオおよび相対物ビデオオブジェクトのメタデータと信頼区間との間の百分率差の関数として導出され得る。

[0111] 技術の様々な態様は、また、１つまたは複数のプロセッサを備えるデバイスが、オーディオオブジェクトを取得し、ビデオオブジェクトを取得し、オーディオオブジェクトとビデオオブジェクトとを関連付け、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較し、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングすることを可能にし得る。

[0112] いくつかの例では、オーディオオブジェクトが、オーディオメタデータを含む。いくつかの例では、オーディオメタデータが、サイズと位置とを備える。いくつかの例では、ビデオオブジェクトが、ビデオメタデータを含む。いくつかの例では、ビデオメタデータが、サイズと位置とを備える。

[0113] いくつかの例では、１つまたは複数のプロセッサが、さらに、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの１つまたは複数を備える複合メタデータを少なくとも部分的に生成するように構成される。

[0114] いくつかの例では、オーディオオブジェクトが、位置メタデータを含み、ビデオオブジェクトは、位置メタデータを含む。複合メタデータを生成するとき、１つまたは複数のプロセッサは、さらに、相関値を決定するために、オーディオオブジェクトの位置メタデータをビデオオブジェクトの位置メタデータと比較し、相関値が信頼しきい値を超えたかどうかの決定に基づいて、複合メタデータの位置メタデータを生成するように構成される。

[0115] さらに、技術の様々な態様は、オーディオオブジェクトを取得することと、ビデオオブジェクトを取得することと、オーディオオブジェクトとビデオオブジェクトとを関連付けられることと、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較することと、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングすることとを含む方法を提供し得る。

[0116] 加えて、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較するとき、方法は、さらに、サイズと位置とのうちの１つまたは複数を備える複合メタデータを少なくとも部分的に生成することを含み得る。

[0117] また、オーディオオブジェクトが位置メタデータを含み、ビデオオブジェクトが位置メタデータを含むとき、複合メタデータを生成することは、相関値を決定するために、オーディオオブジェクトの位置メタデータをビデオオブジェクトの位置メタデータと比較することと、相関値が信頼しきい値を超えたかどうかの決定に基づいて、複合メタデータの位置メタデータを生成することとを備え得る。

[0118] さらに、技術の様々な態様は、オーディオオブジェクトを取得するための手段と、ビデオオブジェクトを取得するための手段と、オーディオオブジェクトとビデオオブジェクトとを関連付け、オーディオオブジェクトと、関連付けられているビデオオブジェクトとを比較するための手段と、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングするための手段とを備えるデバイスを提供し得る。

[0119] 加えて、オーディオオブジェクトと、関連付けられているビデオオブジェクトとを比較するための手段は、サイズと位置とのうちの１つまたは複数を備える複合メタデータを、少なくとも部分的に生成するための手段を備え得る。

[0120] また、オーディオオブジェクトが位置メタデータを含み、ビデオオブジェクトが位置メタデータを含むとき、複合メタデータを生成するための手段は、相関値を決定するために、オーディオオブジェクトの位置メタデータをビデオオブジェクトの位置メタデータと比較するための手段と、相関値が信頼しきい値を超えたかどうかの決定に基づいて、複合メタデータの位置メタデータを生成するための手段とを備え得る。

[0121] いくつかの例では、実行されたとき、１つまたは複数のプロセッサに、オーディオオブジェクトを取得させ、ビデオオブジェクトを取得させ、オーディオオブジェクトとビデオオブジェクトとを関連付けさせ、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較させ、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングさせる命令が記憶される非一時的コンピュータ可読記憶媒体。

[0122] 本開示で説明される技術の様々な態様は、また、オーディオ出力信号を生成するデバイスによって行われ得る。デバイスは、第１のオーディオオブジェクトのデータ構成要素と第１のビデオオブジェクトのデータ構成要素との第１の比較に基づいて、第１のビデオオブジェクトの相対物に関連付けられている第１のオーディオオブジェクトを識別するための手段と、第２のオーディオオブジェクトのデータ構成要素と第２のビデオオブジェクトのデータ構成要素との第２の比較に基づいて、第２のビデオオブジェクトの相対物に関連付けられていない第２のオーディオオブジェクトを識別するための手段とを備え得る。デバイスは、加えて、第１のゾーン内に第１のオーディオオブジェクトをレンダリングするための手段と、第２のゾーン内に第２のオーディオオブジェクトをレンダリングするための手段と、第１のゾーン内のレンダリングされた第１のオーディオオブジェクトと第２のゾーン内のレンダリングされた第２のオーディオオブジェクトとを結合することに基づいて、オーディオ出力信号を生成するための手段とを備え得る。本明細書で説明される様々な手段は、手段の各々に関して説明される機能を行うように構成された１つまたは複数のプロセッサを備え得る。

[0123] いくつかの例では、第１のオーディオオブジェクトのデータ構成要素が、位置とサイズとのうちの１つを備える。いくつかの例では、第１のビデオオブジェクトのデータ構成要素が、位置とサイズとのうちの１つを備える。いくつかの例では、第２のオーディオオブジェクトのデータ構成要素が、位置とサイズとのうちの１つを備える。いくつかの例では、第２のビデオオブジェクトのデータ構成要素が、位置とサイズとのうちの１つを備える。

[0124] いくつかの例では、第１のゾーンおよび第２のゾーンが、オーディオ前景内の異なるゾーンであり、または、オーディオ背景内の異なるゾーンである。いくつかの例では、第１のゾーンおよび第２のゾーンがオーディオ前景内の同じゾーンであり、または、オーディオ背景内の同じゾーンである。いくつかの例では、第１のゾーンがオーディオ前景内であり、第２のゾーンがオーディオ背景内である。いくつかの例では、第１のゾーンがオーディオ背景内であり、第２のゾーンがオーディオ前景内である。

[0125] いくつかの例では、第１のデータオブジェクトのデータ構成要素、第２のオーディオオブジェクトのデータ構成要素、第１のビデオオブジェクトのデータ構成要素、および第２のビデオオブジェクトのデータ構成要素が、各々、メタデータを備える。

[0126] いくつかの例では、デバイスが、さらに、第１の比較が信頼区間の外側にあるかどうかを決定するための手段と、第１の比較が信頼区間の外側にあるかどうかの決定に基づいて、第１のオーディオオブジェクトのデータ構成要素と第１のビデオオブジェクトのデータ構成要素とを重み付けするための手段とを備える。いくつかの例では、重み付けするための手段が、第１のオーディオオブジェクトのデータ構成要素と第１のビデオオブジェクトのデータ構成要素とを平均化するための手段を備える。

[0127] いくつかの例では、デバイスが、また、第１の比較と第２の比較とのうちの１つまたは複数に基づいて異なるビット数を割り当てるための手段を備え得る。

[0128] いくつかの例では、技術が、実行されたとき、１つまたは複数のプロセッサに、第１のオーディオオブジェクトのデータ構成要素と第１のビデオオブジェクトのデータ構成要素との第１の比較に基づいて、第１のビデオオブジェクトの相対物に関連付けられている第１のオーディオオブジェクトを識別させ、第２のオーディオオブジェクトのデータ構成要素と第２のビデオオブジェクトのデータ構成要素との第２の比較に基づいて、第２のビデオオブジェクトの相対物に関連付けられていない第２のオーディオオブジェクトを識別させ、第１のゾーン内に第１のオーディオオブジェクトをレンダリングさせ、第２のゾーン内に第２のオーディオオブジェクトをレンダリングするための手段と、第１のゾーン内のレンダリングされた第１のオーディオオブジェクトと第２のゾーン内のレンダリングされた第２のオーディオオブジェクトとを結合することに基づいて、オーディオ出力信号を生成させる命令が記憶される非一時的コンピュータ可読記憶媒体を提供し得る。

[0129] 例に応じて、本明細書で説明される方法のいずれかの特定の動作またはイベントは、異なる順序で行われ得、追加、合併、またはまったく除外され得る（例えば、すべての説明された動作またはイベントが方法の実施のために必要というわけでない）ことを理解されたい。さらに、特定の例では、動作またはイベントが、順次にでなく、例えば、マルチスレッド処理、割り込み処理、または複数のプロセッサを介して同時に行われ得る。加えて、本開示の特定の態様が、明確さの目的のため、単一のモジュールまたはユニットによって行われるものとして説明されるが、本開示の技術は、ビデオコーダに関連付けられているユニットまたはモジュールの組合せによって行われ得ることを理解されたい。

[0130] １つまたは複数の例では、説明される機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実現され得る。ソフトウェアで実現される場合、機能は、コンピュータ可読媒体上の１つまたは複数の命令またはコードとして記憶または伝送され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、例えば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を支援する任意の媒体を含む、データ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。

[0131] このようにして、コンピュータ可読媒体は、一般に、（１）非一時的である有形コンピュータ可読記憶媒体、あるいは（２）信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明される技術の実施のための命令、コード、および／またはデータ構造を取得するために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされることができる任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0132] 例として、限定としてでなく、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭ、もしくは他の光ディスク記憶装置、磁気ディスク記憶装置、もしくは他の磁気記憶デバイス、フラッシュメモリ、または、命令もしくはデータ構造の形式で所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備え得る。また、任意の接続は、適切にコンピュータ可読媒体と呼ばれる。例えば、命令が、同軸ケーブル、光ファイバケーブル、より対線、デジタル加入者線（ＤＳＬ）、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから伝送される場合、同軸ケーブル、光ファイバケーブル、より対線、ＤＳＬ、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。

[0133] しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに、非一時的な有形の記憶媒体に向けられることを理解されたい。ディスク（disk）およびディスク（disc）は、本明細書で使用されるとき、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタル多用途ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイ（登録商標）ディスクを含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、レーザーを用いて光学的にデータを再生する。上記の組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。

[0134] 命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の等価の集積もしくは離散的論理回路網のような、１つまたは複数のプロセッサによって行われ得る。従って、「プロセッサ」という用語は、本明細書で使用されるとき、前述の構造のいずれか、または、本明細書で説明される技術の実施に適した任意の他の構造を指し得る。加えて、いくつかの態様では、本明細書で説明される機能が、符号化と復号化とのために構成された、または、組み合わされたコーデックに組み込まれた専用ハードウェアおよび／もしくはソフトウェアモジュール内で提供され得る。また、技術は、１つまたは複数の回路または論理要素で完全に実施され得る。

[0135] 本開示の技術は、ワイヤレスハンドセット、集積回路（ＩＣ）、またはＩＣのセット（例えば、チップセット）を含む、多種多様なデバイスまたは装置で実施され得る。様々な構成要素、モジュール、またはユニットは、開示される技術を行うように構成されたデバイスの機能的態様を強調するために本開示で説明されるが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0136] 本技法の様々な実施形態が説明された。これらおよび他の実施形態は、以下の特許請求の範囲の範疇内にある。

[0136] 本技法の様々な実施形態が説明された。これらおよび他の実施形態は、以下の特許請求の範囲の範疇内にある。
以下に、本出願の当初の特許請求の範囲に記載された発明を付記する。
[Ｃ１] １つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、
１つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することと、
前記１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けることと、
前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つとの前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとを備える方法。
[Ｃ２] 前記オーディオデータを解析することが、前記１つまたは複数のオーディオオブジェクトと、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、前記オーディオメタデータが、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備え、
前記ビデオデータを解析することが、前記１つまたは複数のビデオオブジェクトと、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、前記ビデオメタデータが、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備える、Ｃ１に記載の方法。
[Ｃ３] 前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと関連付けることが、
前記オーディオオブジェクトのタイプとして前記１つまたは複数のオーディオオブジェクトの各々を分類することと、
前記ビデオオブジェクトのタイプとして前記１つまたは複数のビデオオブジェクトの各々を分類することと、
前記オーディオオブジェクトのうちの前記少なくとも１つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも１つと同じタイプであることを決定することと、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記タイプが前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと同じタイプであることの前記決定に応答して、前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと関連付けることとを備える、Ｃ２に記載の方法。
[Ｃ４] 前記マルチチャネルオーディオデータを生成することが、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記オーディオメタデータと、前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つと関連付けられている前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つの前記ビデオメタデータとの間の相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つが関連付けられている前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つに関する複合メタデータを生成することと、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの１つまたは複数の前景チャネル内に前記１つまたは複数のオーディオデータのうちの前記少なくとも１つをレンダリングすることとを備える、Ｃ２に記載の方法。
[Ｃ５] 前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つが、前記１つまたは複数のオーディオオブジェクトのうちの第１のものを備え、
前記方法が、さらに、前記１つまたは複数のオーディオオブジェクトのうちの第２のものが前記１つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第２のものが前記マルチチャネルオーディオデータの１つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、Ｃ１に記載の方法。
[Ｃ６] 前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第２のものが前記マルチチャネルオーディオデータの前記１つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、Ｃ１に記載の方法。
[Ｃ７] 前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つが、前記１つまたは複数のビデオオブジェクトのうちの第１のものを備え、
前記方法が、さらに、
前記ビデオオブジェクトのうちの前記１つまたは複数のうちの第２のものが前記１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記１つまたは複数のうちの前記第２のものが前記１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記１つまたは複数のビデオオブジェクトのうちの前記第２のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記１つまたは複数のビデオオブジェクトのうちの前記第２のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、Ｃ１に記載の方法。
[Ｃ８] 前記オーディオデータを解析することが、前記１つまたは複数のオーディオオブジェクトと、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記１つまたは複数のビデオオブジェクトと、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記オーディオメタデータが、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、Ｃ１に記載の方法。
[Ｃ９] 前記オーディオデータを解析することが、前記１つまたは複数のオーディオオブジェクトと、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記１つまたは複数のビデオオブジェクトと、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記マルチチャネルオーディオデータを生成することが、
前記オーディオオブジェクトのうちの前記少なくとも１つに関して識別された前記オーディオメタデータと、前記ビデオオブジェクトのうちの前記関係付けられている１つに関して識別された前記ビデオメタデータとの間の相関のレベルを決定することと、
前記マルチチャネルオーディオデータを生成するとき、前記決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも１つをレンダリングすることとを備える、Ｃ１に記載の方法。
[Ｃ１０] 前記デバイスが、携帯電話を備える、Ｃ１に記載の方法。
[Ｃ１１] オーディオオブジェクトを取得し、ビデオオブジェクトを取得すること、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトを、前記関連付けられているビデオオブジェクトと比較し、前記オーディオオブジェクトと、前記関連付けられているビデオオブジェクトとの間の前記比較に基づいて前記オーディオオブジェクトをレンダリングするように構成される１つまたは複数のプロセッサを備えるデバイス。
[Ｃ１２] 前記オーディオオブジェクトが、オーディオメタデータを含む、Ｃ１１に記載のデバイス。
[Ｃ１３] 前記オーディオメタデータが、サイズと位置とを備える、Ｃ１２に記載のデバイス。
[Ｃ１４] 前記ビデオオブジェクトが、ビデオメタデータを含む、Ｃ１１に記載のデバイス。
[Ｃ１５] 前記ビデオメタデータが、サイズと位置とを備える、Ｃ１４に記載のデバイス。
[Ｃ１６] 前記１つまたは複数のプロセッサが、前記オーディオオブジェクトを前記関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの１つまたは複数を備える複合メタデータを少なくとも部分的に生成するようにさらに構成される、Ｃ１１に記載のデバイス。
[Ｃ１７] 前記オーディオオブジェクトが、位置メタデータを含み、
前記ビデオオブジェクトが、位置メタデータを含み、
前記複合メタデータを生成することが、
相関値を決定するために、前記オーディオオブジェクトの前記位置メタデータを前記ビデオオブジェクトの前記位置メタデータと比較することと、
前記相関値が信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、Ｃ１４に記載のデバイス。
[Ｃ１８] オーディオ出力信号を生成するデバイスであって、前記デバイスが、
第１のオーディオオブジェクトのデータ構成要素と第１のビデオオブジェクトのデータ構成要素との第１の比較に基づいて、前記第１のビデオオブジェクトの相対物と関連付けられている前記第１のオーディオオブジェクトを識別するための手段と、
第２のオーディオオブジェクトのデータ構成要素と第２のビデオオブジェクトのデータ構成要素との第２の比較に基づいて、前記第２のビデオオブジェクトの相対物と関連付けられていない前記第２のオーディオオブジェクトを識別するための手段と、
第１のゾーン内に前記第１のオーディオオブジェクトをレンダリングするための手段と、
第２のゾーン内に前記第２のオーディオオブジェクトをレンダリングするための手段と、
前記第１のゾーン内の前記レンダリングされた第１のオーディオオブジェクトと、前記第２のゾーン内の前記レンダリングされた第２のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成するための手段とを備える、デバイス。
[Ｃ１９] 前記第１のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、Ｃ１８に記載のデバイス。
[Ｃ２０] 前記第１のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、Ｃ１８に記載のデバイス。
[Ｃ２１] 前記第２のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、Ｃ１８に記載のデバイス。
[Ｃ２２] 前記第２のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、Ｃ１８に記載のデバイス。
[Ｃ２３] 前記第１のゾーンおよび第２のゾーンが、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、Ｃ１８に記載のデバイス。
[Ｃ２４] 前記第１のゾーンおよび第２のゾーンが、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、Ｃ１８に記載のデバイス。
[Ｃ２５] 前記第１のゾーンが、オーディオ前景内にあり、前記第２のゾーンが、オーディオ背景内にある、Ｃ１８に記載のデバイス。
[Ｃ２６] 前記第１のゾーンが、オーディオ背景内にあり、前記第２のゾーンが、オーディオ前景内にある、Ｃ１８に記載のデバイス。
[Ｃ２７] 前記第１のオーディオオブジェクトの前記データ構成要素と、前記第２のオーディオオブジェクトの前記データ構成要素と、前記第１のビデオオブジェクトの前記データ構成要素と、前記第２のビデオオブジェクトの前記データ構成要素とが、各々、メタデータを備える、Ｃ１８に記載の方法。
[Ｃ２８] 前記第１の比較が信頼区間の外部にあるかどうかを決定するための手段と、
前記第１の比較が前記信頼区間の外部にあるかどうかの決定に基づいて、前記第１のオーディオオブジェクトの前記データ構成要素と前記第１のビデオオブジェクトの前記データ構成要素とを重み付けするための手段とをさらに備える、Ｃ１８に記載のデバイス。
[Ｃ２９] 前記重み付けするための手段が、前記第１のオーディオオブジェクトの前記データ構成要素と前記第１のビデオオブジェクトの前記データ構成要素とを平均化するための手段を備える、Ｃ２８に記載のデバイス。
[Ｃ３０] 前記第１の比較と前記第２の比較とのうちの１つまたは複数に基づいて異なるビット数を割り当てるための手段をさらに備える、Ｃ１８に記載のデバイス。
[Ｃ３１] 実行されたとき、デバイスの１つまたは複数のプロセッサに、
１つまたは複数のオーディオオブジェクトを識別するために、前記デバイスによってキャプチャされたオーディオデータを解析させ、
１つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析させ、
前記１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを、前記１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けさせ、
前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つとの前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成させる命令が記憶される非一時的コンピュータ可読記憶媒体。

Claims

１つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、
１つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することと、
前記１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けることと、
前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つとの前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとを備える方法。
前記オーディオデータを解析することが、前記１つまたは複数のオーディオオブジェクトと、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、前記オーディオメタデータが、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備え、
前記ビデオデータを解析することが、前記１つまたは複数のビデオオブジェクトと、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、前記ビデオメタデータが、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備える、請求項１に記載の方法。
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと関連付けることが、
前記オーディオオブジェクトのタイプとして前記１つまたは複数のオーディオオブジェクトの各々を分類することと、
前記ビデオオブジェクトのタイプとして前記１つまたは複数のビデオオブジェクトの各々を分類することと、
前記オーディオオブジェクトのうちの前記少なくとも１つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも１つと同じタイプであることを決定することと、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記タイプが前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと同じタイプであることの前記決定に応答して、前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと関連付けることとを備える、請求項２に記載の方法。
前記マルチチャネルオーディオデータを生成することが、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記オーディオメタデータと、前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つと関連付けられている前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つの前記ビデオメタデータとの間の相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つが関連付けられている前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つに関する複合メタデータを生成することと、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの１つまたは複数の前景チャネル内に前記１つまたは複数のオーディオデータのうちの前記少なくとも１つをレンダリングすることとを備える、請求項２に記載の方法。
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つが、前記１つまたは複数のオーディオオブジェクトのうちの第１のものを備え、
前記方法が、さらに、前記１つまたは複数のオーディオオブジェクトのうちの第２のものが前記１つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第２のものが前記マルチチャネルオーディオデータの１つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項１に記載の方法。
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第２のものが前記マルチチャネルオーディオデータの前記１つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項１に記載の方法。
前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つが、前記１つまたは複数のビデオオブジェクトのうちの第１のものを備え、
前記方法が、さらに、
前記ビデオオブジェクトのうちの前記１つまたは複数のうちの第２のものが前記１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記１つまたは複数のうちの前記第２のものが前記１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記１つまたは複数のビデオオブジェクトのうちの前記第２のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記１つまたは複数のビデオオブジェクトのうちの前記第２のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、請求項１に記載の方法。
前記オーディオデータを解析することが、前記１つまたは複数のオーディオオブジェクトと、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記１つまたは複数のビデオオブジェクトと、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記オーディオメタデータが、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、請求項１に記載の方法。
前記オーディオデータを解析することが、前記１つまたは複数のオーディオオブジェクトと、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記１つまたは複数のビデオオブジェクトと、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記マルチチャネルオーディオデータを生成することが、
前記オーディオオブジェクトのうちの前記少なくとも１つに関して識別された前記オーディオメタデータと、前記ビデオオブジェクトのうちの前記関係付けられている１つに関して識別された前記ビデオメタデータとの間の相関のレベルを決定することと、
前記マルチチャネルオーディオデータを生成するとき、前記決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも１つをレンダリングすることとを備える、請求項１に記載の方法。
前記デバイスが、携帯電話を備える、請求項１に記載の方法。
オーディオオブジェクトを取得し、ビデオオブジェクトを取得すること、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトを、前記関連付けられているビデオオブジェクトと比較し、前記オーディオオブジェクトと、前記関連付けられているビデオオブジェクトとの間の前記比較に基づいて前記オーディオオブジェクトをレンダリングするように構成される１つまたは複数のプロセッサを備えるデバイス。
前記オーディオオブジェクトが、オーディオメタデータを含む、請求項１１に記載のデバイス。
前記オーディオメタデータが、サイズと位置とを備える、請求項１２に記載のデバイス。
前記ビデオオブジェクトが、ビデオメタデータを含む、請求項１１に記載のデバイス。
前記ビデオメタデータが、サイズと位置とを備える、請求項１４に記載のデバイス。
前記１つまたは複数のプロセッサが、前記オーディオオブジェクトを前記関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの１つまたは複数を備える複合メタデータを少なくとも部分的に生成するようにさらに構成される、請求項１１に記載のデバイス。
前記オーディオオブジェクトが、位置メタデータを含み、
前記ビデオオブジェクトが、位置メタデータを含み、
前記複合メタデータを生成することが、
相関値を決定するために、前記オーディオオブジェクトの前記位置メタデータを前記ビデオオブジェクトの前記位置メタデータと比較することと、
前記相関値が信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、請求項１４に記載のデバイス。
オーディオ出力信号を生成するデバイスであって、前記デバイスが、
第１のオーディオオブジェクトのデータ構成要素と第１のビデオオブジェクトのデータ構成要素との第１の比較に基づいて、前記第１のビデオオブジェクトの相対物と関連付けられている前記第１のオーディオオブジェクトを識別するための手段と、
第２のオーディオオブジェクトのデータ構成要素と第２のビデオオブジェクトのデータ構成要素との第２の比較に基づいて、前記第２のビデオオブジェクトの相対物と関連付けられていない前記第２のオーディオオブジェクトを識別するための手段と、
第１のゾーン内に前記第１のオーディオオブジェクトをレンダリングするための手段と、
第２のゾーン内に前記第２のオーディオオブジェクトをレンダリングするための手段と、
前記第１のゾーン内の前記レンダリングされた第１のオーディオオブジェクトと、前記第２のゾーン内の前記レンダリングされた第２のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成するための手段とを備える、デバイス。
前記第１のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、請求項１８に記載のデバイス。
前記第１のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、請求項１８に記載のデバイス。
前記第２のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、請求項１８に記載のデバイス。
前記第２のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの１つを備える、請求項１８に記載のデバイス。
前記第１のゾーンおよび第２のゾーンが、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、請求項１８に記載のデバイス。
前記第１のゾーンおよび第２のゾーンが、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、請求項１８に記載のデバイス。
前記第１のゾーンが、オーディオ前景内にあり、前記第２のゾーンが、オーディオ背景内にある、請求項１８に記載のデバイス。
前記第１のゾーンが、オーディオ背景内にあり、前記第２のゾーンが、オーディオ前景内にある、請求項１８に記載のデバイス。
前記第１のオーディオオブジェクトの前記データ構成要素と、前記第２のオーディオオブジェクトの前記データ構成要素と、前記第１のビデオオブジェクトの前記データ構成要素と、前記第２のビデオオブジェクトの前記データ構成要素とが、各々、メタデータを備える、請求項１８に記載の方法。
前記第１の比較が信頼区間の外部にあるかどうかを決定するための手段と、
前記第１の比較が前記信頼区間の外部にあるかどうかの決定に基づいて、前記第１のオーディオオブジェクトの前記データ構成要素と前記第１のビデオオブジェクトの前記データ構成要素とを重み付けするための手段とをさらに備える、請求項１８に記載のデバイス。
前記重み付けするための手段が、前記第１のオーディオオブジェクトの前記データ構成要素と前記第１のビデオオブジェクトの前記データ構成要素とを平均化するための手段を備える、請求項２８に記載のデバイス。
前記第１の比較と前記第２の比較とのうちの１つまたは複数に基づいて異なるビット数を割り当てるための手段をさらに備える、請求項１８に記載のデバイス。
実行されたとき、デバイスの１つまたは複数のプロセッサに、
１つまたは複数のオーディオオブジェクトを識別するために、前記デバイスによってキャプチャされたオーディオデータを解析させ、
１つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析させ、
前記１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを、前記１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けさせ、
前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つとの前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成させる命令が記憶される非一時的コンピュータ可読記憶媒体。