JP2023527650A

JP2023527650A - オーディオシーンの関心スペースのための方法および装置

Info

Publication number: JP2023527650A
Application number: JP2022562518A
Authority: JP
Inventors: ティエン，ジュン; シュウ，シャオンジョン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-04-20
Filing date: 2021-10-14
Publication date: 2023-06-30
Also published as: EP4327567A4; US11710491B2; CN115500091A; KR20220167313A; EP4327567A1; WO2022225555A1; US20220335955A1

Abstract

本開示の態様は、オーディオシーンのオーディオデータを復号化する方法、装置、および非一時的なコンピュータ読取可能記憶媒体を含む。１つの装置は、第１のオーディオソースデータおよび第２のオーディオソースデータを受信する処理回路構成を含む。第１のオーディオソースデータは、オーディオシーン内の関心空間に対応し、第２のオーディオソースデータは、オーディオシーン内の関心空間に対応しない。オーディオシーンの関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。処理回路構成は、関心空間に基づいて第１のオーディオソースデータを復号化する。

Description

（関連出願の参照）
本出願は、２０２１年４月２０日に出願された米国仮出願第６３／１７７，２５８号「SPACE OF INTEREST OF AUDIO SPACE」に対する優先権の利益を主張する、２０２１年１０月１２日に出願された米国特許出願第１７／４９９，３９８号「METHOD AND APPARATUS FOR SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する。先の出願の開示は、その全体が参照により本明細書に援用される。

（技術分野）
本開示は、オーディオシーン表現に概ね関連する実施形態を記載する。

本明細書で提供される背景記述は、本開示の文脈を一般的に提示するためのものである。その業績がこの背景セクションに記載される範囲における、現在指名されている発明者の業績、並びに、出願時に他の点では先行技術として適格でないことがある記述の態様は、本開示に対する先行技術として明示的にも暗示的にも認められていない。

関心領域（ＲＯＩ：region of interest）は、特定の目的のために識別されたデータセット内のサンプルの領域である。ＲＯＩの概念は、医療撮像、地理情報システム、コンピュータビジョン、光学文字認識、および同等のことのような、多くの適用分野で一般に使用されている。

ＲＯＩは、一次元オーディオ信号に対して使用されることができるが、オーディオシーンにおいて、そのような概念は、直接的に適用されないことがある。本開示では、オーディオシーンの関心空間(space of interest)を表現する方法が提供される。

本開示の態様は、オーディオシーンのオーディオデータを復号化する装置を提供する。１つの装置は、第１のオーディオソースデータおよび第２のオーディオソースデータを受信する処理回路構成を含む。第１のオーディオソースデータは、オーディオシーン内の関心空間に対応し、第２のオーディオソースデータは、オーディオシーン内の関心空間に対応しない。オーディオシーンの関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。処理回路構成は、関心空間に基づいて第１のオーディオソースデータを復号化する。

一実施形態において、処理回路構成は、第２のオーディオソースデータが関心空間に対応しないと決定されることに基づいて、第２のオーディオソースデータが復号化されるべきでないと決定する。

一実施形態において、処理回路構成は、第１の復号化スキーム(方式)に基づいて第１のオーディオソースデータを復号化する。処理回路構成は、第１の復号化スキームとは異なる第２の復号化スキームに基づいて第２のオーディオソースデータを復号化する。

一実施形態において、第１のオーディオソースデータおよび第２のオーディオソースデータを符号化する際に使用される符号化スキームは異なる。

一実施形態において、第１のオーディオソースデータおよび第２のオーディオソースデータを符号化する際に使用されるビット割当スキームは異なる。

一実施形態において、処理回路構成は、第１のオーディオレンダリングスキームに基づいて第１のオーディオソースデータのオーディオコンテンツをレンダリングする。処理回路構成は、第１のオーディオレンダリングスキームとは異なる第２のオーディオレンダリングスキームに基づいて第２のオーディオソースデータのオーディオコンテンツをレンダリングする。

一実施形態において、処理回路構成は、第２のオーディオソースデータが関心空間に対応しないと決定されることに基づいて、第１のオーディオソースデータのオーディオコンテンツがレンダリングされるべきであること、および第２のオーディオソースデータのオーディオコンテンツがレンダリングされるべきでないことを決定する。

一実施形態において、第１の復号化スキームおよび第２の復号化スキームの複雑さは異なる。

本開示の態様は、オーディオシーンのオーディオデータを復号化する方法を提供する。１つの方法では、第１のオーディオソースデータおよび第２のオーディオソースデータが受信される。第１のオーディオソースデータは、オーディオシーン内の関心空間に対応し、第２のオーディオソースデータは、オーディオシーン内の関心空間に対応しない。オーディオシーン内の関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。第１のオーディオソースデータは、関心空間に基づいて復号化される。

本開示の態様は、オーディオシーンのオーディオデータを符号化する装置を提供する。１つの装置は、オーディオシーン内の複数のオーディオソースのオーディオコンテンツを受信する処理回路構成を含む。処理回路構成は、複数のオーディオソースの各々について、それぞれのオーディオソースがオーディオシーン内の関心空間内にあるかどうかを決定する。オーディオシーン内の関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。処理回路構成は、それぞれのオーディオソースがオーディオシーン内の関心空間内にあることに基づいて、それぞれのオーディオソースのオーディオコンテンツが第１の符号化スキームに従って符号化されるべきであると決定する。処理回路構成は、それぞれのオーディオソースのオーディオコンテンツが、それぞれのオーディオソースがオーディオシーン内の関心空間内にないことに基づいて、第２の符号化スキームに従って（ｉ）符号化されるべきでないことまたは（ｉｉ）符号化されるべきであることのうちの１つであると決定する。第２の符号化スキームは、第１の符号化スキームとは異なる。

一実施形態において、それぞれのオーディオソースのオーディオコンテンツは、それぞれのオーディオソースがオーディオシーン内の関心空間内にないことに基づいて符号化されない。

一実施形態において、それぞれのオーディオソースのオーディオコンテンツは、それぞれのオーディオソースがオーディオシーン内の関心空間内にないことに基づいて、第２の符号化スキームに従って符号化される。

一実施形態において、第１の符号化スキームは、第１のビット割当スキームであり、第２の符号化スキームは、第１のビット割当スキームとは異なる第２のビット割当スキームである。

本開示の態様は、オーディオシーンのオーディオデータを符号化する方法を提供する。１つの方法では、オーディオシーン内の複数のオーディオソースのオーディオコンテンツが受信される。複数のオーディオソースの各々について、それぞれのオーディオソースがオーディオシーン内の関心空間内にあるかどうかが決定される。オーディオシーン内の関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。それぞれのオーディオソースのオーディオコンテンツは、それぞれのオーディオソースがオーディオシーン内の関心空間内にあることに基づいて第１の符号化スキームに従って符号化されると決定される。それぞれのオーディオソースのオーディオコンテンツは、それぞれのオーディオソースがオーディオシーン内の関心空間内にないことに基づいて第２の符号化スキームに従って（ｉ）符号化されるべきでないことまたは（ｉｉ）符号化されるべきであることのうちの１つが決定される。第２の符号化スキームは、第１の符号化スキームとは異なる。

本開示の態様は、命令を格納する非一時的コンピュータ読取可能媒体を提供し、前記命令は、少なくとも１つのプロセッサによって実行されたときに、少なくとも１つのプロセッサに、オーディオシーンのオーディオデータを符号化／復号化する方法のいずれか１つまたは組み合わせを実行させる。

開示する主題のさらなる構成、性質、および様々な利点は、以下の詳細な記述および添付の図面からより明らかになるであろう。

本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。

本開示の一実施形態による限定的な範囲の高度を持つ聴覚空間の一例を示している。

本開示の一実施形態によるボール形状を持つ聴覚空間の一例を示している。

本開示の一実施形態による転動ボール形状を持つ聴覚空間の一例を示している。

本開示の一実施形態による例示的なフローチャートを示している。

本開示の一実施形態による別の例示的なフローチャートを示している。

本開示の一実施形態によるコンピュータシステムの概略図である。

Ｉ．関心空間の表現

この開示は、オーディオシーン(audio scene)記述の方法を含む。オーディオシーン内の関心空間(space of interest)が、この開示において記載される。関心空間は、オーディオシーンで考慮中の空間の境界（または輪郭または形状）として定義されることができる。関心空間は、オーディオコーディング(coding)、処理(processing)、レンダリング(rendering)、および同等のことにおいて使用されることができる。

この開示に含まれる方法は、別々にまたは組み合わせにおいて使用されることができることに留意されたい。方法は、部分的にまたは全体として使用されることができる。

オーディオシーンは、１つ以上の主要なサウンドソース(音源)によって特徴づけられる意味的に一貫性のあるサウンドセグメントである。オーディオシーンは、サウンドソースの集合としてモデル化されることができる。幾つかの実施形態において、オーディオシーンは、サウンドソースの集合のサブセットによって支配されることができる。サウンドソースの集合のサブセットは、関心空間内のサウンドソースと考えられることができる。

幾つかの実施形態において、オーディオシーンを表すサウンドソースの集合のサブセットは、オーディオシーン内のサウンドソースの位置に基づいて決定されることができる。すなわち、関心空間は、オーディオシーン内のサウンドソースの位置に基づいて決定されることができる。

一実施形態において、関心空間は、視聴者(リスナ)が移動できる空間によって表されることができる。例えば、空間全体を、視聴者が移動できる１つ以上の領域と、視聴者が移動できない他の領域とに分割することができる。従って、関心空間は、視聴者が移動できる領域の集合によって表されることができる。視聴者が移動できる領域内のサウンドソースは、オーディオシーンを表す関心空間内のサウンドソースとして考えられることができる一方で、視聴者が移動できない領域内のサウンドソースは、関心空間領域外のサウンドソースとして考えられることができ、オーディオシーンを表さないことがある。

一実施形態において、関心空間は、個人（例えば、視聴者）が、オーディオミキサによって生成されるオーディオミックスを、それが聴かれることが意図される方法で、完全に聴くことができる、オーディオシーンのスイートスポット(sweet spot(s))によって表されることができる。サラウンドサウンドの場合、スイートスポットは、全ての波面(wave fronts)が同時に到達するように、複数のスピーカ間の焦点である。

図１は、本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。図１において、オーディオシーンのスイートスポットは、１～７のラベルが付されたサウンドソースによってカバーされるエリアの交点である。よって、スイートスポットは、図１の椅子の周りに円で示されている。国際的な勧告(international recommendations)のような幾つかの場合には、スウィートスポットを基準リスニングポイント(reference listening point)と呼ぶことができる。

幾つかの実施形態において、関心空間は、聴覚空間(auditory space)によって表されることができる。

一実施形態において、関心空間は、限定的な範囲の高度(elevation)を持つ聴覚空間によって表されることができる。例えば、関心空間は、２つの数字で表されることができ、その場合、聴覚空間は、これら２つの数字の間の高度内にある。

図２は、０．０～４．０ｍの間の高度を持つ聴覚空間の一例を示している。

一実施形態において、関心空間は、長方形プリズム(rectangular prism)を持つ聴覚空間によって表わされることができる。その表現は、長方形プリズムの２つの対角の頂点の座標であることができる。その表現は、長方形プリズムの１つの頂点の座標、および長方形プリズムの高さ(height)、幅、および長さの値であり得る。幾つかの場合において、長方形プリズムは、常に垂直または水平でないことがあるので、長方形プリズムの方向性情報は、記述されることができる。

一実施形態において、関心空間は、多面体形状を持つ聴覚空間によって表されることができる。その表現は、多面体形状の頂点の座標であることができる。その表現は、多面体形状の表面の集合であることができる。

一実施形態において、関心空間は、図３に示すように、視聴者の場所で中心化されたボール形状を持つ聴覚空間によって表されることができる。その表現は、ボール形状の中心の座標、およびボール形状の半径の値であることができる。

一実施形態において、関心空間は、転動ボール形状(rolling ball shape)を持つ聴覚空間によって表されることができる。転動ボール形状の中心は、図４に示すように、視聴者の歩行経路に沿うことができる。その表現は、歩行経路、および転動ボール形状の半径を記述する関数であることができる。

一実施形態において、関心空間は、マルチチャネルオーディオからのオーディオチャネルの組み合わせによって表されることができる。例えば、その表現は、７．１オーディオチャネルからの前面左チャネルおよび前面右チャネルのセットであることができる。

一実施形態において、関心空間は、オーディオオブジェクトの組み合わせによって表されることができる。例えば、病院オーディオシーンは、ドア、テーブル、椅子、ＴＶ、ラジオ、医師、および患者のオーディオオブジェクトを含むことができる。すなわち、病院オーディオシーンは、ドア、テーブル、椅子、ＴＶ、ラジオ、医師、および患者の、或いはドア、テーブル、椅子、ＴＶ、ラジオ、医師、および患者からのサウンドのような、様々なオーディオソースを含むことができる。この例における関心空間は、ドア、医師、および患者のセットによって表されることができる。

開示の態様によれば、関心空間は、（視聴者空間と呼ぶ）視聴者が移動できる空間、オーディオチャネル、およびオーディオオブジェクトからの２つまたは３つのタイプのアイテムの集合によって表されることができる。すなわち、オーディオシーンの関心空間は、視聴者空間、オーディオチャネル、および／またはオーディオオブジェクトの集合によって表されることができる。

本開示の幾つかの実施形態によれば、オーディオコンテンツは、関心空間に基づいて符号化(エンコード)されることができる。例えば、オーディオエンコーダは、関心空間内の１つ以上のオーディオソースのオーディオコンテンツおよび関心空間外の１つ以上のオーディオソースのオーディオコンテンツに異なる符号化戦略を適用することができる。

一実施形態では、関心空間内のオーディオソースのオーディオコンテンツについて、エンコーダは、関心空間外のオーディオソースのオーディオコンテンツについて使用される第２のビット割当スキーム(方式)とは異なる第１のビット割当スキームを適用することができる。例えば、関心空間内のオーディオソースのオーディオコンテンツに割り当てられるビットの数は、関心空間外のオーディオソースのオーディオコンテンツに割り当てられるビットの数よりも大きい。

一実施形態において、エンコーダは、関心空間内のオーディオソースのオーディオコンテンツのみを符号化することができ、関心空間外のオーディオソースのオーディオコンテンツを廃棄することができる。

本開示の幾つかの実施形態によれば、オーディオコンテンツは、関心空間に基づいて復号化(デコード)されることができる。例えば、オーディオデコーダが、関心空間内のオーディオソースの符号化されたオーディオコンテンツおよび関心空間外のオーディオソースの符号化されたオーディオコンテンツに異なる復号化戦略を適用することができる。

一実施形態において、オーディオデコーダは、関心空間内のオーディオソースの符号化されたオーディオコンテンツに対して１つのオーディオ復号化スキームを適用することができ、関心空間外のオーディオソースの符号化されたオーディオコンテンツに対して別のオーディオ復号化スキームを適用することができる。一例において、２つのオーディオ復号化スキームの複雑さは、異なることができる。関心空間内のオーディオソースの符号化されたオーディオコンテンツに対して適用されるオーディオ復号化スキームの複雑さは、関心空間外のオーディオソースの符号化されたオーディオコンテンツに対して適用されるオーディオ復号化スキームの複雑さよりも高い。本明細書における復号化の複雑さは、符号化されたビットストリームを復号化するためにプロセッサによって消費される多数の中央処理装置（ＣＰＵ）命令を参照することができる。

一実施形態において、オーディオデコーダは、関心空間内のオーディオソースの符号化されたオーディオコンテンツのみを復号化することができる。関心空間外のオーディオソースの符号化されたオーディオコンテンツは、廃棄されることができる。

本開示の幾つかの実施形態によれば、オーディオレンダリングは、関心空間に基づいて実行されることができる。例えば、オーディオレンダラ(audio renderer)が、関心空間内のオーディオソースの復号化されたオーディオコンテンツおよび関心空間外のオーディオソースの復号化されたオーディオコンテンツに異なるオーディオレンダリングスキームを適用することができる。

一実施形態において、オーディオレンダラは、関心空間内のオーディオソースの復号化されたオーディオコンテンツに対して１つのオーディオレンダリングスキームを適用することができ、関心空間外のオーディオソースの復号化されたオーディオコンテンツに対して別のオーディオレンダリングスキームを適用することができる。一例において、２つのオーディオレンダリングスキームのレンダリング品質は、異なることができる。例えば、関心空間内のオーディオソースの復号化されたオーディオコンテンツに対して適用されるオーディオレンダリングスキームの複雑さは、関心空間外のオーディオソースの復号化されたオーディオコンテンツに対して適用されるオーディオレンダリングスキームの複雑さよりも高いので、関心空間内のオーディオソースの復号化されたオーディオコンテンツのレンダリング品質は、関心空間外のオーディオソースの復号化されたオーディオコンテンツのレンダリング品質よりも良い。

一実施形態において、オーディオレンダラは、関心空間内のオーディオソースの復号化されたオーディオコンテンツのみをレンダリングすることができ、関心空間外のオーディオソースの復号化されたオーディオコンテンツを廃棄することができる。

ＩＩ．フローチャート

図５は、本開示の一実施形態による例示的なプロセス（５００）を概説するフローチャートを示している
。様々な実施形態において、プロセス（５００）は、図７に示すような処理回路構成のような、処理回路構成によって実行される。幾つかの実施形態において、プロセス（５００）は、ソフトウェア命令で実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス（５００）を実行する。

プロセス（５００）は、一般に、ステップ（Ｓ５１０）で開始し、プロセス（５００）は、ステップ（Ｓ５１０）で、第１のオーディオソースデータと、第２のオーディオソースデータとを受信する。第１のオーディオソースデータは、オーディオシーン内の関心空間に対応し、第２のオーディオソースデータは、オーディオシーン内の関心空間に対応しない。オーディオシーン内の関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。次に、プロセス（５００）は、ステップ（Ｓ５２０）に進む。

ステップ（Ｓ５２０）で、プロセス（５００）は、関心空間に基づいて第１のオーディオソースデータを復号化する。次に、プロセス（５００）は、終了する。

一実施形態において、プロセス（５００）は、第２のオーディオソースデータが、関心空間に対応しないように決定される第２のオーディオソースデータに基づいて復号化されないと決定する。

一実施形態において、プロセス（５００）は、第１の復号化スキームに基づいて第１のオーディオソースデータを復号化する。プロセス（５００）は、第１の復号化スキームとは異なる第２の復号化スキームに基づいて第２のオーディオソースデータを復号化する。

一実施形態において、プロセス（５００）は、第１のオーディオレンダリングスキームに基づいて第１のオーディオソースデータのオーディオコンテンツをレンダリングする。プロセス（５００）は、第１のオーディオレンダリングスキームとは異なる第２のオーディオレンダリングスキームに基づいて第２のオーディオソースデータのオーディオコンテンツをレンダリングする。

一実施形態において、プロセス（５００）は、第１のオーディオソースデータのオーディオコンテンツが、レンダリングされるべきであると決定し、第２のオーディオソースデータのオーディオコンテンツが、関心空間に対応しないように決定される第２のオーディオソースデータに基づいてレンダリングされるべきでないと決定する。

図６は、本開示の一実施形態による例示的プロセス（６００）を概説する別のフローチャートを示している。様々な実施形態において、プロセス（６００）は、図７に示すような処理回路構成のような、処理回路構成によって実行される。幾つかの実施形態において、プロセス（６００）は、ソフトウェア命令で実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス（６００）を実行する。

プロセス（６００）は、一般に、ステップ（Ｓ６１０）で開始し、プロセス（６００）は、オーディオシーン内の複数のオーディオソースのオーディオコンテンツを受信する。次に、プロセス（６００）は、ステップ（Ｓ６２０）に進む。

ステップ（Ｓ６２０）で、プロセス（６００）は、複数のオーディオソースの各々について、それぞれのオーディオソースが、オーディオシーン内の関心空間内にあるかどうかを決定する。オーディオシーン内の関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される。それぞれのオーディオソースがオーディオシーン内の関心空間内にあることに基づいて、プロセス（６００）は、ステップ（Ｓ６３０）に進む。さもなければ、プロセス（６００）は、ステップ（Ｓ６４０）に進む。

ステップ（Ｓ６３０）で、プロセス（６００）は、それぞれのオーディオソースのオーディオコンテンツが、それぞれのオーディオソースがオーディオシーン内の関心空間にあることに基づいて第１の符号化スキームに従って符号化されるべきであると決定する。次に、プロセス（６００）は、ステップ（Ｓ６４０）に進む。

ステップ（Ｓ６４０）で、プロセス（６００）は、それぞれのオーディオソースのオーディオコンテンツが、（ｉ）符号化されるべきでないこと、または（ｉｉ）それぞれのオーディオソースがオーディオシーン内の関心空間内にないことに基づいて第２の符号化スキームに従って符号化されるべきであることのうちのいずれか一方であると決定する。第２の符号化スキームは、第１の符号化スキームと異なる。

次に、プロセス（６００）が終了する。

一実施形態において、それぞれのオーディオソースのオーディオコンテンツは、それぞれのオーディオソースがオーディオシーン内の関心空間にないことに基づいて符号化されない。

一実施形態において、それぞれのオーディオソースのオーディオコンテンツは、それぞれのオーディオソースがオーディオシーン内の関心空間にないことに基づいて第２の符号化スキームに従って符号化される。

ＩＩＩ．コンピュータシステム

上述の技術は、コンピュータ読取可能命令を用いてコンピュータソフトウェアとして実装されることができ、１つ以上のコンピュータ読取可能媒体内に物理的に格納されることができる。例えば、図７は、開示する主題の特定の実施形態を実装するのに適したコンピュータシステム（７００）を示している。

コンピュータソフトウェアを、アセンブリ、コンパイル、リンク、または類似のメカニズムの対象となることがある任意の適切な機械コードまたはコンピュータ言語を使用してコーディングして、１つ以上のコンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、および同等物によって、直接的に、或いは解釈、マイクロコード実行、および同等のことを通じて実行することができる命令を含むコードを作成することができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス、および同等物を含む、様々なタイプのコンピュータまたはそのコンポーネント(構成要素)上で実行されることができる。

コンピュータシステム（７００）について図７に示すコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性に関する如何なる限定を示唆することも意図するものでない。コンポーネントの構成は、コンピュータシステム（７００）の例示的な実施形態に図示されるコンポーネントの任意の１つまたは組み合わせに関する如何なる従属性または要件を有するものとしても解釈されてならない。

コンピュータシステム（７００）は、特定のヒューマンインターフェース入力デバイスを含むことがある。このようなヒューマンインターフェース入力デバイスは、例えば、（キーストローク、スワイプ、データグローブの動きのような）触覚入力、（音声(voice)、拍手のような）オーディオ入力、（ジェスチャのような）視覚入力、嗅覚入力（図示せず）を通じて、１人以上の人間ユーザによる入力に応答することがある。また、ヒューマンインターフェースデバイスは、（発話(speech)、音楽、周囲サウンドのような）オーディオ、（スキャンされた画像、静止画像カメラから得られる写真画像のような）画像、（二次元ビデオ、立体視ビデオを含む三次元ビデオのような）ビデオのような、人間による意識的入力に必ずしも直接的に関係しないことがある特定の媒体を取り込むためにも使用されることができる。

入力ヒューマンインターフェースデバイスは、キーボード（７０１）、マウス（７０２）、トラックパッド（７０３）、タッチスクリーン（７１０）、データグローブ（図示せず）、ジョイスティック（７０５）、マイクロホン（７０６）、スキャナ（７０７）、およびカメラ（７０８）のうちの１つ以上（それぞれ１つが描写されている）を含むことがある。

コンピュータシステム（７００）はまた、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、サウンド(音)、光、および臭覚／味覚を通じて、１人以上の人間ユーザの感覚を刺激することがある。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（７１０）、データグローブ（図示せず）、またはジョイスティック（７０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含み、各々がタッチスクリーン入力能力を有するか或いは有さず、各々が触覚フィードバック能力を有するか或いは有さず、それらの一部は、立体画像出力のような手段を通じて二次元視覚出力または三次元よりも多くの次元の出力を出力することができる、（スピーカ（７０９）、ヘッドフォン（図示せず）のような）オーディオ出力デバイス、仮想現実グラス（図示せず）、ホログラフィックディスプレイおよびスモークタンク（図示せず）、およびプリンタ（図示せず）を含むことがある。これらの（スクリーン（７１０）のような）視覚出力デバイスは、グラフィックスアダプタ（７５０）を通じてシステムバス（７４８）に接続されることができる。

コンピュータシステム（７００）は、ＣＤ／ＤＶＤまたは同等媒体（７２１）を備えるＣＤ／ＤＶＤＲＯＭ／ＲＷ（７２０）、サムドライブ（７２２）、取り外し可能なハードドライブまたはソリッドステートドライブ（７２３）、テープおよびフロッピーディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特殊化されたＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス、および同等物を含む、人間がアクセス可能な記憶デバイスおよびそれらの関連媒体を含むこともできる。

当業者は、現在開示されている主題に関連して使用されるような「コンピュータ読取可能媒体」という用語は、伝送媒体、搬送波、または他の過渡信号を包含しないことも理解するはずである。

コンピュータシステム（７００）は、１つ以上の通信ネットワーク（７５５）へのネットワークインターフェース（７５４）を含むこともできる。１つ以上の通信ネットワーク（７５５）は、例えば、無線、有線、光であることができる。１つ以上の通信ネットワーク（７５５）は、さらに、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性などであることができる。１つ以上の通信ネットワーク（７５５）の例は、イーサネット、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥおよび同等物を含むセルラネットワーク、ケーブルＴＶ、衛星ＴＶ、地上放送ＴＶを含む有線および無線ワイドエリアまたはデジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業などを含む。特定のネットワークは、一般に、（例えば、コンピュータシステム（７００）のＵＳＢポートのような）特定の汎用データポートまたは周辺バス（７４９）に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下に記載するシステムバスへの接続によってコンピュータシステム（７００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（７００）は、他のエンティティと通信することができる。そのような通信は、単指向性(uni-directional)、受信のみ（例えば、放送テレビ）、単指向性送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または、例えば、ローカルまたはワイドエリアデジタルネットワークを用いる他のコンピュータシステムへの双指向性(bi-directional)であることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、それらのネットワークおよびネットワークインターフェースの各々で使用されることができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム（７００）のコア（７４０）に取り付けられることができる。

コア（７４０）は、１つ以上の中央処理装置（ＣＰＵ）（７４１）、グラフィックス処理装置（ＧＰＵ）（７４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（７４３）の形態の特殊化されたプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ（７４４）、グラフィックスアダプタ（７５０）などを含むことができる。これらのデバイスは、読出し専用メモリ（ＲＯＭ）（７４５）、ランダムアクセスメモリ（７４６）、内部ユーザアクセス不能ハードドライブのような内部大容量記憶装置（７４７）、ＳＳＤ、および同等物と共に、例えば、システムバス（７４８）を通じて接続されてよい。幾つかのコンピュータシステムにおいて、システムバス（７４８）は、追加のＣＰＵ、ＧＰＵ、および同等物による拡張を可能にするために、１つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス（７４８）に直接的に、或いは周辺バス（７４９）を通じて取り付けられることができる。一例において、スクリーン（７１０）は、グラフィックスアダプタ（７５０）に接続されることができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢ、および同等物を含む。

ＣＰＵ（７４１）、ＧＰＵ（７４２）、ＦＰＧＡ（７４３）、およびアクセラレータ（７４４）は、組み合わせにおいて、上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（７４５）またはＲＡＭ（７４６）に格納されることができる。移行データも、ＲＡＭ（７４６）に格納されることができるのに対し、永久データは、例えば、内部大容量記憶装置（７４７）に格納されることができる。１つ以上のＣＰＵ（７４１）、ＧＰＵ（７４２）、大容量記憶装置（７４７）、ＲＯＭ（７４５）、ＲＡＭ（７４６）、および同等物と密接に関連付けられることができるキャッシュメモリの使用を通じて、メモリデバイスのいずれかへの高速記格納よび検索を可能にすることができる。

コンピュータ読取可能媒体は、様々なコンピュータ実装された動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、或いは、それらは、コンピュータソフトウェア技術に熟練した者によく知られており且つ利用可能な種類のものであることができる。

一例として、非限定的に、アーキテクチャ（７００）および具体的にはコア（７４０）を有するコンピュータシステムは、１つ以上の有形のコンピュータ読取可能媒体に具現化されたソフトウェアを実行する（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ、および同等物を含む）プロセッサの結果としての機能性を提供することができる。そのようなコンピュータ読取可能媒体は、上記で紹介したユーザアクセス可能な大容量記憶装置と関連付けられる媒体、並びにコア内部大容量記憶装置７４７またはＲＯＭ７４５のような非一時的な性質を有するコア（７４０）の特定の記憶装置であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納されることができ、且つコア（７４０）によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに従って、１つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（７４０）および具体的にはその中の（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、および同等物を含む）プロセッサに、ＲＡＭ（７４６）に格納されるデータ構造を定義することおよびソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的にまたは代替的に、コンピュータシステムは、回路内に配線された或いは他の方法で具現された論理(ロジック)の結果としての機能性（例えば、アクセラレータ（７４４））を提供することができ、それは本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに或いはソフトウェアと共に作動することができる。ソフトウェアへの言及は、論理を含み、必要に応じて、その逆も可能である。コンピュータ読取可能媒体への言及は、実行のためのソフトウェアを格納する（集積回路（ＩＣ）のような）回路、実行のための論理を具現する回路、または、適切な場合には、それらの両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。

本開示は、幾つかの例示的な実施形態を記載したが、本開示の範囲内にある変更、置換、および様々な代替的な均等物がある。よって、当業者は、本明細書に明示的に示されていないか或いは記載されていないが、本開示の原理を具現する、よって、本開示の精神および範囲内にある、多数のシステムおよび方法を考案することができることが理解されるであろう。

Claims

オーディオシーンのオーディオデータを復号化する方法であって、
第１のオーディオソースデータと、第２のオーディオソースデータとを受信するステップであって、前記第１のオーディオソースデータは、前記オーディオシーン内の関心空間に対応し、前記第２のオーディオソースデータは、前記オーディオシーン内の前記関心空間に対応せず、前記オーディオシーン内の前記関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される、受信することと、
前記関心空間に基づいて前記第１のオーディオソースデータを復号化することと、を含む、
方法。
前記第２のオーディオソースデータが前記関心空間に対応しないことに基づいて、前記第２のオーディオソースデータが復号化されるべきでないと決定することを更に含む、請求項１に記載の方法。
前記復号化することは、第１の復号化スキームに基づいて前記第１のオーディオソースデータを復号化することを含み、
当該方法は、前記第１の復号化スキームとは異なる第２の復号化スキームに基づいて前記第２のオーディオソースデータを復号化することを更に含む、
請求項１に記載の方法。
前記第１のオーディオソースデータおよび前記第２のオーディオソースデータを符号化する際に使用される符号化スキームは異なる、請求項１に記載の方法。
前記第１のオーディオソースデータおよび前記第２のオーディオソースデータを符号化する際に使用されるビット割当スキームは異なる、請求項１に記載の方法。
第１のオーディオレンダリングスキームに基づいて前記第１のオーディオソースデータのオーディオコンテンツをレンダリングすることと、
前記第１のオーディオレンダリングスキームとは異なる第２のオーディオレンダリングスキームに基づいて前記第２のオーディオソースデータのオーディオコンテンツをレンダリングすることと、を更に含む、
請求項１に記載の方法。
前記第２のオーディオソースデータが前記関心空間に対応しないと決定されることに基づいて、前記第１のオーディオソースデータのオーディオコンテンツがレンダリングされるべきこと、および前記第２のオーディオソースデータのオーディオコンテンツがレンダリングされるべきでないことを決定することを更に含む、請求項１に記載の方法。
前記第１の復号化スキームおよび前記第２の復号化スキームの複雑さは異なる、請求項３に記載の方法。
オーディオシーンのオーディオデータを符号化する方法であって、
前記オーディオシーン内の複数のオーディオソースのオーディオコンテンツを受信することと、
前記複数のオーディオソースの各々について、それぞれのオーディオソースが前記オーディオシーン内の関心空間内にあるかどうかを決定することであって、前記オーディオシーン内の前記関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表される、決定することと、
前記それぞれのオーディオソースが前記オーディオシーン内の前記関心空間内にあることに基づいて、前記それぞれのオーディオソースの前記オーディオコンテンツが第１の符号化スキームに従って符号化されるべきと決定することと、
前記それぞれのオーディオソースが前記オーディオシーン内の前記関心空間内にないことに基づいて、前記それぞれのオーディオソースの前記オーディオコンテンツが、第２の符号化スキームに従って（ｉ）符号化されるべきでないこと、または（ｉｉ）符号化されるべきであることのうちの１つであると決定することであって、前記第２の符号化スキームは、前記第１の符号化スキームとは異なる、
方法。
前記それぞれのオーディオソースの前記オーディオコンテンツは、前記それぞれのオーディオソースが前記オーディオシーン内の前記関心空間内にないことに基づいて符号化されない、請求項９に記載の方法。
前記それぞれのオーディオソースの前記オーディオコンテンツは、前記それぞれのオーディオソースが前記オーディオシーン内の前記関心空間内にないことに基づいて、前記第２の符号化スキームに従って符号化される、請求項９に記載の方法。
前記第１の符号化スキームは、第１のビット割当スキームであり、前記第２の符号化スキームは、前記第１のビット割当スキームとは異なる第２のビット割当スキームである、請求項９に記載の方法。
処理回路構成を含む、オーディオシーンの関心空間を表す装置であって、
前記処理回路構成は、第１のオーディオソースデータと、第２のオーディオソースデータとを受信するように構成され、前記第１のオーディオソースデータは、前記オーディオシーン内の関心空間に対応し、前記第２のオーディオソースデータは、前記オーディオシーン内の前記関心空間に対応せず、前記オーディオシーン内の前記関心空間は、視聴者空間、オーディオチャネル、またはオーディオオブジェクトのうちの少なくとも１つによって表され、
前記処理回路構成は、前記関心空間に基づいて前記第１のオーディオソースデータを復号化するように構成される、
装置。
前記処理回路構成は、前記第２のオーディオソースデータが前記関心空間に対応しないと決定されることに基づいて、前記第２のオーディオソースデータが復号化されるべきでないと決定するように構成される、請求項１３に記載の装置。
前記処理回路構成は、
第１の復号化スキームに基づいて前記第１のオーディオソースデータを復号化し、
前記第１の復号化スキームとは異なる第２の復号化スキームに基づいて前記第２のオーディオソースデータを復号化する、
ように構成される、
請求項１３に記載の装置。
前記第１のオーディオソースデータおよび前記第２のオーディオソースデータを符号化する際に使用される符号化スキームは異なる、請求項１３に記載の装置。
前記第１のオーディオソースデータおよび前記第２のオーディオソースデータを符号化する際に使用されるビット割当スキームは異なる、請求項１３に記載の装置。
前記処理回路構成は、
第１のオーディオレンダリングスキームに基づいて前記第１のオーディオソースデータのオーディオコンテンツをレンダリングし、
前記第１のオーディオレンダリングスキームとは異なる第２のオーディオレンダリングスキームに基づいて前記第２のオーディオソースデータのオーディオコンテンツをレンダリングする、
ように構成される、
請求項１３に記載の装置。
前記処理回路構成は、前記第２のオーディオソースデータが前記関心空間に対応しないと決定されることに基づいて、前記第１のオーディオソースデータのオーディオコンテンツがレンダリングされるべきであること、および前記第２のオーディオソースデータのオーディオコンテンツがレンダリングされるべきでないことを決定するように構成される、請求項１３に記載の装置。
前記第１の復号化スキームおよび前記第２の復号化スキームの複雑さは異なる、請求項１５に記載の装置。
命令を格納する、非一時的コンピュータ読取可能媒体であって、
前記命令は、少なくとも１つのプロセッサによって実行されたときに、請求項１～１２のうちのいずれか１項に記載の方法を実行させる、
非一時的なコンピュータ読取可能媒体。