JP2016513410A5

JP2016513410A5 -

Info

Publication number: JP2016513410A5
Application number: JP2015558105A
Authority: JP
Filing date: 2014-02-12
Publication date: 2016-08-12
Anticipated expiration: 2034-02-12

Claims

マルチチャネルオーディオデータを生成する方法であって、
デバイスによってキャプチャされたオーディオデータを解析することであって、ここにおいて、前記オーディオデータを解析することは、１つまたは複数のオーディオオブジェクトを識別し、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を行うことを備える、解析することと、
前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することであって、ここにおいて、前記ビデオデータを解析することは、１つまたは複数のビデオオブジェクトを識別し、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を行うことを備え、前記オーディオメタデータと前記ビデオメタデータとが共通のテキストフォーマットを使用する、解析することと、
前記１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けることと、
前記オーディオオブジェクトのうちの前記少なくとも１つをレンダリングするとき、前記オーディオオブジェクトのうちの前記少なくとも１つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている１つを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも１つの拡散性を少なくとも部分的に調整することによって、前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つとの前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記関連付けに基づいて、前記オーディオデータから前記マルチチャネルオーディオデータを生成することと
を備える方法。
前記オーディオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備え、
前記ビデオメタデータは、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの１つまたは複数を備える、請求項１に記載の方法。
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと関連付けることは、
前記１つまたは複数のオーディオオブジェクトの各々を、あるタイプのオーディオオブジェクトとして分類することと、
前記１つまたは複数のビデオオブジェクトの各々を、あるタイプのビデオオブジェクトとして分類することと、
前記オーディオオブジェクトのうちの前記少なくとも１つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも１つと同じタイプであることを決定することと、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記タイプが前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと同じタイプであることの前記決定に応答して、前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つと関連付けることとを備える、請求項１に記載の方法。
前記マルチチャネルオーディオデータを生成することは、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記オーディオメタデータと前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つと関連付けられている前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つの前記ビデオメタデータとの間の前記相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つが関連付けられている前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つに関する複合メタデータを生成することと、
前記相関のレベルに基づいて、前記オーディオオブジェクトのうちの前記少なくとも１つの前記拡散性を調整することと、
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの１つまたは複数の前景チャネル内に前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つをレンダリングすることとを備える、請求項１に記載の方法。
前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つは、前記１つまたは複数のオーディオオブジェクトのうちの第１のものを備え、
前記方法は、さらに、前記１つまたは複数のオーディオオブジェクトのうちの第２のものが前記１つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第２のものが前記マルチチャネルオーディオデータの１つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項１に記載の方法。
前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第２のものが前記マルチチャネルオーディオデータの前記１つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項５に記載の方法。
前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つは、前記１つまたは複数のビデオオブジェクトのうちの第１のものを備え、
前記方法は、さらに、
前記ビデオオブジェクトのうちの前記１つまたは複数のうちの第２のものが前記１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記１つまたは複数のうちの前記第２のものが前記１つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記１つまたは複数のビデオオブジェクトのうちの前記第２のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記１つまたは複数のビデオオブジェクトのうちの前記第２のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、請求項１に記載の方法。
前記オーディオメタデータは、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、請求項１に記載の方法。
前記マルチチャネルオーディオデータを生成することは、
前記オーディオオブジェクトのうちの前記少なくとも１つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている１つを記述する前記ビデオメタデータとの間の百分率差の関数として前記相関のレベルを決定することと、
前記決定された相関のレベルが信頼区間の外側にあるとき、前記マルチチャネルオーディオデータの複数のチャネルにまたがって広がる、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも１つをレンダリングすることとを備える、請求項１に記載の方法。
携帯電話上で行われる、請求項１に記載の方法。
実行されたとき、デバイスの１つまたは複数のプロセッサに、
前記デバイスによってキャプチャされたオーディオデータを解析することであって、ここにおいて、前記オーディオデータを解析することは、１つまたは複数のオーディオオブジェクトを識別し、前記１つまたは複数のオーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を行うことを備える、解析することと、
前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することであって、前記ビデオデータを解析することは、１つまたは複数のビデオオブジェクトを識別し、前記１つまたは複数のビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を行うことを備え、前記オーディオメタデータと前記ビデオメタデータとが共通のテキストフォーマットを使用する、解析することと、
前記１つまたは複数のオーディオオブジェクトのうちの少なくとも１つを前記１つまたは複数のビデオオブジェクトのうちの少なくとも１つと関連付けることと、
前記オーディオオブジェクトのうちの前記少なくとも１つをレンダリングするとき、前記オーディオオブジェクトのうちの前記少なくとも１つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている１つを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも１つの拡散性を少なくとも部分的に調整することによって、前記１つまたは複数のビデオオブジェクトのうちの前記少なくとも１つとの前記１つまたは複数のオーディオオブジェクトのうちの前記少なくとも１つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとをさせる命令が記憶された非一時的コンピュータ可読記憶媒体。
マルチチャネルオーディオデータを生成するように構成されるデバイスであって、
オーディオデータを記憶するように構成されるメモリと、
前記オーディオデータを、オーディオオブジェクトを識別し、前記オーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を少なくとも部分的に行うことにより、解析し、ビデオデータを、ビデオオブジェクトを識別し、前記ビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を少なくとも部分的に行うことにより解析し、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトのうちの前記少なくとも１つをレンダリングするとき、前記オーディオオブジェクトを記述する前記オーディオメタデータと前記ビデオオブジェクトを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも１つの拡散性を少なくとも部分的に調整することによって、前記ビデオオブジェクトへの前記オーディオオブジェクトの前記関連付けに基づいて、前記オーディオデータから前記マルチチャネルオーディオデータを生成するように構成される１つまたは複数のプロセッサと
を備えるデバイス。
前記オーディオメタデータは、前記オーディオオブジェクトのサイズと前記オーディオオブジェクトの位置とを備える、請求項１２に記載のデバイス。
前記ビデオメタデータは、前記ビデオオブジェクトのサイズと前記ビデオオブジェクトの位置とを備える、請求項１２に記載のデバイス。
前記１つまたは複数のプロセッサは、サイズと位置とのうちの１つまたは複数を備える複合メタデータを少なくとも部分的に生成するように構成される、請求項１２に記載のデバイス。
前記オーディオメタデータは位置メタデータを含み、
前記ビデオメタデータは位置メタデータを含み、
前記複合メタデータを生成することは、
前記相関のレベルを決定するために、前記オーディオメタデータの前記位置メタデータを前記ビデオメタデータの前記位置メタデータと比較することと、
前記相関のレベルが信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、請求項１５に記載のデバイス。
前記オーディオオブジェクトは、第１のオーディオオブジェクトを備え、ここにおいて、前記ビデオオブジェクトは、第１のビデオオブジェクトを備え、ここにおいて、前記１つまたは複数のプロセッサは、
前記第１のオーディオオブジェクトのデータ構成要素と前記第１のビデオオブジェクトのデータ構成要素との第１の比較に基づいて、前記第１のビデオオブジェクトの相対物と関連付けられている前記第１のオーディオオブジェクトを識別することと、
第２のオーディオオブジェクトのデータ構成要素と第２のビデオオブジェクトのデータ構成要素との第２の比較に基づいて、前記第２のビデオオブジェクトの相対物と関連付けられていない前記第２のオーディオオブジェクトを識別することとを行うように構成され、
ここにおいて、前記プロセッサは、さらに
第１のゾーン内に前記第１のオーディオオブジェクトをレンダリングすることと、
第２のゾーン内に前記第２のオーディオオブジェクトをレンダリングすることと、
前記第１のゾーン内の前記レンダリングされた第１のオーディオオブジェクトと、前記第２のゾーン内の前記レンダリングされた第２のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成することとを行うように構成される、
請求項１２に記載のデバイス。
前記第１のオーディオオブジェクトの前記データ構成要素は位置とサイズとのうちの１つを備える、請求項１７に記載のデバイス。
前記第１のビデオオブジェクトの前記データ構成要素は位置とサイズとのうちの１つを備える、請求項１７に記載のデバイス。
前記第２のオーディオオブジェクトの前記データ構成要素は位置とサイズとのうちの１つを備える、請求項１７に記載のデバイス。
前記第２のビデオオブジェクトの前記データ構成要素は位置とサイズとのうちの１つを備える、請求項１７に記載のデバイス。
前記第１のゾーンおよび第２のゾーンは、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、請求項１７に記載のデバイス。
前記第１のゾーンおよび第２のゾーンは、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、請求項１７に記載のデバイス。
前記第１のゾーンはオーディオ前景内にあり、前記第２のゾーンはオーディオ背景内にある、請求項１７に記載のデバイス。
前記第１のゾーンはオーディオ背景内にあり、前記第２のゾーンはオーディオ前景内にある、請求項１７に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記第１の比較が信頼区間の外部にあるかどうかを決定することと、
前記第１の比較が前記信頼区間の外部にあるかどうかの前記決定に基づいて、前記第１のオーディオオブジェクトの前記データ構成要素と前記第１のビデオオブジェクトの前記データ構成要素とを重み付けすることとを行うようにさらに構成される、請求項１７に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１のオーディオオブジェクトデータの前記データ構成要素と前記第１のビデオオブジェクトの前記データ構成要素とを平均化するように構成される、請求項２６に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１の比較と前記第２の比較とのうちの１つまたは複数に基づいて異なるビット数を割り当てるようにさらに構成される、請求項１７に記載のデバイス。