JP2023529788A

JP2023529788A - オーディオシーンの関心空間を表現する方法および装置

Info

Publication number: JP2023529788A
Application number: JP2022566119A
Authority: JP
Inventors: ティエン，ジュン; リウ，シャン; シュー，シャオジョン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-05-05
Filing date: 2021-09-30
Publication date: 2023-07-12
Anticipated expiration: 2041-09-30
Also published as: US11622221B2; WO2022235289A1; US20220360929A1; KR20230003091A; EP4122225A4; JP7489488B2; CN115589787A; EP4122225A1

Abstract

本開示の態様は、オーディオシーンの関心空間を表す方法、装置、および非一時的なコンピュータ読取可能記憶媒体を含む。１つの装置は、オーディオシーンについてのオーディオシーンデータを復号化する処理回路構成を含む。オーディオシーンデータは、（ｉ）オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、（ｉｉ）複数のアイテムのサブセットのタイプを示す第１の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。処理回路構成は、第１の構文要素において示される複数のアイテムのサブセットのタイプに基づいて、複数のアイテムのサブセットについてのオーディオコンテンツの部分を決定する。処理回路構成は、決定されたオーディオコンテンツの部分をレンダリングする。

Description

（関連出願の参照）
本願は、２０２１年５月５日に出願された米国仮出願第６３／１８４，５７１号「REPRESENTING SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する、２０２１年９月２９日に出願された米国特許出願第１７／４８９，２１２号「METHOD AND APPARATUS FOR REPRESENTING SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する。この出願は、先の出願の開示は、その全体が参照により本明細書に援用される。

（技術分野）
本開示は、オーディオシーン表現に概ね関する実施形態を記載する。

本明細書で提供される背景記述は、本開示の文脈を一般的に提示するためのものである。その業績がこの背景セクションに記載されている範囲における、現在指名されている発明者の業績、並びに出願時に他の点では先行技術として適格でないことがある記述の側面は、本開示に対する先行技術として明示的にも暗示的にも認められない。

関心領域（ＲＯＩ：region of interest）は、特定の目的のために識別されたデータセット内のサンプルの領域である。ＲＯＩの概念は、医療撮像、地理情報システム、コンピュータビジョン、光学文字認識等のような、多くの応用エリアで一般に使用されている。

ＲＯＩは、一次元オーディオ信号に対して使用されることができるが、オーディオシーンにおいて、そのような概念は、直接的に適用されないことがある。この開示では、オーディオシーン(audio scene)の関心空間(space of interest)を表現する方法が提供される。

本開示の態様は、オーディオシーンの関心空間を表す装置を提供する。１つの装置は、オーディオシーンについてのオーディオシーンデータを復号化する処理回路構成を含む。オーディオシーンデータは、（ｉ）オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、（ｉｉ）複数のアイテムのサブセットのタイプを示す第１の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。処理回路構成は、第１の構文要素において示される複数のアイテムのサブセットのタイプに基づいて複数のアイテムのサブセットについてのオーディオコンテンツの部分を決定する。処理回路構成は、オーディオコンテンツの決定される部分をレンダリングする。

１つの実施形態において、第１の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの１つであることを示す。

１つの実施形態において、オーディオシーンデータは、複数のアイテムのサブセットの数を示す第２の構文要素を含む。

１つの実施形態において、第２の構文要素は、複数のアイテムのサブセットの数が、１よりも大きいことを示し、オーディオシーンデータは、複数のアイテムのサブセットの各々についての識別インデックスを示す第３の構文要素を含む。

１つの実施形態において、第１の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプであることを示し、オーディオシーンデータは、視聴者空間のサブタイプが信号伝達されるかどうかを示す第４の構文要素を含む。

１つの実施形態において、第４の構文要素は、視聴者空間のサブタイプが信号伝達されることを示し、オーディオシーンデータは、視聴者空間のサブタイプを示す第５の構文要素を含む。

１つの実施形態において、第４の構文要素は、視聴者空間のサブタイプが信号伝達されないことを示し、視聴者空間のサブタイプは、ビデオシーンに基づいて決定される。

１つの実施形態において、視聴者空間のサブタイプは、オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの１つである。

本開示の態様は、オーディオシーンの関心空間を表す方法を提供する。１つの方法において、オーディオシーンについてのオーディオシーンデータが復号化される。オーディオシーンデータは、（ｉ）オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、（ｉｉ）複数のアイテムのサブセットのタイプを示す第１の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。オーディオコンテンツの部分が、第１の構文要素において示される複数のアイテムのサブセットのタイプに基づいて複数のアイテムのサブセットについて決定される。オーディオコンテンツの決定される部分は、レンダリングされる。

本開示の態様は、少なくとも１つのプロセッサによって実行されるときに、少なくとも１つのプロセッサに、オーディオシーンの関心空間を表現する方法のいずれか１つまたは組み合わせを実行させる命令を格納する、非一時的なコンピュータ読取可能媒体も提供する。

開示される主題のさらなる構成、性質、および様々な利点は、以下の詳細な記述および添付の図面からより明らかになるであろう。

本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。

本開示の一実施形態による限定的な高さの範囲を有する聴覚空間の一例を示している。

本開示の一実施形態によるボール形状を有する聴覚空間の一例を示している。

本開示の一実施形態による転動ボール形状を有する聴覚空間の一例を示している。

本開示の一実施形態による例示的なフローチャートを示している。

本開示の一実施形態によるコンピュータシステムの概略図である。

Ｉ．オーディオシーンの関心空間の表現

この開示に含まれる方法を別々にまたは組み合わせにおいて使用することができることに留意されたい。これらの方法を部分的に又は全体として使用することができる。

本開示の態様によれば、関心空間(space of interest)が、オーディオシーン(audio scene)において考慮されている空間の境界として定義されることができる。関心空間は、オーディオコーディング、オーディオ処理、オーディオレンダリング等において利用されることができる。

オーディオシーンは、１つ以上の支配的なサウンドソース(音源)によって特徴付けられる意味的に一貫性のあるサウンドセグメントである。オーディオシーンは、サウンドソースの集合としてモデル化されることができる。いくつかの実施形態において、オーディオシーンは、サウンドソースの集合のサブセットによって支配されることができる。

いくつかの実施形態において、関心空間は、視聴者が移動できる空間によって表現されることができる。例えば、空間全体は、視聴者が移動できる１つ以上の領域と、視聴者が移動できない他の領域とに分割されることができる。従って、関心空間は、視聴者が移動できる領域の集合によって表現されることができる。

一実施形態において、関心空間は、個人（例えば、視聴者）が、オーディオミキサによって生成されたオーディオミックスを、それが聴かれることが意図される方法で、完全に聴くことができる、オーディオシーンのスイートスポット(sweet spot(s))によって表現されることができる。

図１は、本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。図１において、オーディオシーンのスイートスポットは、１～７のラベルが付されたオーディオソースによってカバーされるエリアの交点である。よって、スイートスポットは、図１の椅子の周りに円によって示されている。国際的な推奨のような幾つかの場合において、スウィートスポットは、参照リスニングポイント(reference listening point)と呼ばれる。

いくつかの実施形態において、関心空間は、聴覚空間(auditory space)によって表現されることができる。

一実施形態において、関心空間は、限定的な高さ(elevation)の範囲を有する聴覚空間によって表現されることができる。例えば、関心空間は、２つの数字で表現されることができ、その場合、聴覚空間は、これらの２つの数字の間の高さ内にある。

図２は、０．０メートル～４．０メートルの間の高さを有する聴覚空間の一例を示している。

一実施形態において、関心空間は、長方形プリズムを有する聴覚空間によって表現されることができる。その表現は、長方形プリズムの２つの対角の頂点の座標であることができる。その表現は、長方形プリズムの１つの頂点の座標、および長方形プリズムの高さ、幅、および長さの値であることができる。幾つかの場合において、長方形プリズムは、常に垂直または水平であるとは限らないので、長方形プリズムの方向性情報を記述することができる。

一実施形態において、関心空間は、多面体形状を有する聴覚空間によって表現されることができる。その表現は、多面体形状の頂点の座標であることができる。その表現は、多面体形状の表面の集合であることができる。

一実施形態において、関心空間は、図３に示すように、視聴者の場所を中心としたボール形状を有する聴覚空間によって表現されることができる。その表現は、ボール形状の中心の座標、およびボール形状の半径の値であることができる。

一実施形態において、関心空間は、転動ボール(rolling ball)形状を有する聴覚空間によって表現されることができる。転動ボール形状の中心は、図４に示すように、視聴者の歩行経路に沿う。その表現は、歩行経路および転動ボール形状の半径を記述する関数であることができる。

一実施形態において、関心空間は、マルチチャネルオーディオからのオーディオチャネルの組み合わせによって表現されることができる。例えば、その表現は、７．１オーディオチャネルからの前面左チャネルおよび前面右チャネルのセットであることができる。

一実施形態において、関心空間は、オーディオオブジェクトの組み合わせによって表現されることができる。例えば、病院オーディオシーンは、ドア、テーブル、椅子、ＴＶ、ラジオ、医師、および患者のオーディオオブジェクトを含むことができる。この例における関心空間は、ドア、医師、および患者のセットによって表現されることができる。

開示の態様によれば、関心空間は、（視聴者空間と呼ぶ）視聴者が移動できる空間、オーディオチャネル、およびオーディオオブジェクトからの２つまたは３つのタイプのアイテムの集合によって表現されることができる。すなわち、オーディオシーンの関心空間は、視聴者空間、オーディオチャネル、および／またはオーディオオブジェクトの集合によって表現されることができる。

いくつかの実施形態では、ｓｐａｃｅ＿ｏｆ＿ｉｎｔｅｒｅｓｔ＿ｔｙｐｅフラグのようなオーディオシーンデータ内の第１の構文要素が、関心空間が視聴者空間、オーディオチャネル構成、またはオーディオオブジェクト構成であるかどうかを示すために信号伝達される(signaled)ことができる。

いくつかの実施形態では、オーディオシーンのオーディオシーンデータ内の第２の構文要素が、多数の各タイプのアイテムを示すために信号伝達されることができる。例えば、第２の構文要素は、視聴者空間の数、オーディオチャネル構成、およびオーディオオブジェクト構成をそれぞれ示す、ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｃｏｕｎｔ、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇ＿ｃｈａｎｎｅｌ、およびａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔの３つの値のいずれか１つであることができる。

一実施形態では、視聴者空間がオーディオシーンの関心空間に存在しないときに、ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｃｏｕｎｔの値を０として設定することができる。

一実施形態では、オーディオチャネル構成がオーディオシーンの関心空間内に存在しないときに、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔの値を０として設定することができる。

一実施形態では、オーディオオブジェクト構成がオーディオシーンの関心空間内に存在しないときに、ａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔの値を０として設定することができる。

いくつかの実施形態では、第２の構文要素が、同じタイプのアイテムの総数が１よりも大きいことを示すときに、オーディオシーンのオーディオシーンデータ内の第３の構文要素が、同じタイプのアイテムの各々についての識別インデックス(identification index)を示すように信号伝達されることができる。

一実施形態では、ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｃｏｕｎｔが１よりも大きいときに、第３の構文要素は、ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｉｄであることができ、それは、各視聴者空間の識別インデックスを示すように信号伝達されることができる。

一実施形態では、ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｃｏｕｎｔが１に等しいときに、オーディオシーンの関心空間内に正確に１つの視聴者空間がある。

一実施形態では、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔが１よりも大きいときに、第３の構文要素は、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇ＿ｉｄであることができ、それは、各オーディオチャネル構成の識別インデックスを示すように信号伝達されることができる。

一実施形態では、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇｃｏｕｎｔが１に等しいときに、オーディオシーンの関心空間内に正確に１つのオーディオチャネル構成がある。

一実施形態では、ａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔが１より大きいときに、第３の構文要素は、ａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｉｄであることができ、それは、各オーディオオブジェクト構成の識別インデックスを示すように信号伝達されることができる。

一実施形態では、ａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔが１に等しいときに、オーディオシーンの関心空間内に正確に１つのオーディオオブジェクト構成がある。

本開示の態様によれば、オーディオ信号およびビデオ信号を相関させることができる。従って、オーディオシーンの視聴者空間は、対応するビデオシーンに従って設定されることができる。

一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのＲＯＩと同一に設定されることができる。

一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのＲＯＩの一部であることができる。

一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのＲＯＩの外にあることができる。

一実施形態では、ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｆｌａｇのようなオーディオシーンのオーディオシーンデータ内の第４の構文要素が、オーディオシーンの視聴者空間とビデオシーンのような他のコンポーネントとの間の関係を示すように信号伝達されることができる。第４の構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｆｌａｇが真として設定されるならば、それは、視聴者空間がオーディオ視聴者空間であり、第５の構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｓｕｂｔｙｐｅのような後続の構文要素において完全に表現されることができることを意味する。第４の構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｆｌａｇが偽として設定されているとき、それはオーディオシーンの視聴者空間が信号伝達なしで他の場所から推論されることができることを意味する。例えば、オーディオシーンの視聴者空間は、オーディオ－ビデオシーン内のビデオシーンのＲＯＩと同一であることができ、オーディオシーンの視聴者空間は、ビデオシーンのＲＯＩからコピーされることができる。

視聴者空間アイテムについて、第５の構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｓｕｂｔｙｐｅは、アイテムが、スイートスポット、限定的な高さの範囲を有する聴覚空間、長方形プリズムを有する聴覚空間、多面体形状を有する聴覚空間、ボール形状を有する聴覚空間、転動ボール形状を有する聴覚空間、または同等物のうちの１つであることを示すように信号伝達されることができる。

表１は、オーディオシーンの関心空間を表現する例示的な構文テーブルを示している。表１において、構文要素ｓｐａｃｅ＿ｏｆ＿ｉｎｔｅｒｅｓｔ＿ｔｙｐｅは、オーディオシーンのための関心領域内のアイテムのタイプを示している。アイテムのタイプは、視聴者空間、オーディオチャネル構成、またはオーディオオブジェクト構成のうちの１つであることができる。構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｃｏｕｎｔ、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔ、ａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｃｏｕｎｔは、それぞれ、視聴者空間の総数、オーディオチャネル構成の総数、オーディオオブジェクト構成の総数を示している。構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｉｄ、ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇ＿ｉｄ、ａｕｄｉｏ＿ｏｂｊｅｃｔ＿ｃｏｎｆｉｇ＿ｉｄは、それぞれ、視聴者空間の識別インデックス、オーディオチャネル構成の識別インデックス、オーディオオブジェクト構成の識別インデックスを示している。構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｆｌａｇは、視聴者空間を視聴者空間のサブタイプで表現することができるかどうかを示す。構文要素ｌｉｓｔｅｎｅｒ＿ｓｐａｃｅ＿ｓｕｂｔｙｐｅは、視聴者空間のサブタイプを示す。視聴者空間のサブタイプは、スイートスポット、限定的な高さの範囲を有する聴覚空間、長方形プリズムを有する聴覚空間、多面体形状を有する聴覚空間、ボール形状を有する聴覚空間、転動ボール形状を有する聴覚空間、または同等物のうちの１つであることができる。

オーディオエンコーダ、デコーダ、レンダラ、または他のプロセッサについて、対応するアイテムが所与のオーディオエンコーダ、デコーダ、レンダラ、または他のプロセッサのために有効にされているかどうかを示すために、固定長フラグｓｐａｃｅ＿ｏｆ＿ｉｎｔｅｒｅｓｔ＿ｓｅｌｅｃｔｉｏｎが、各視聴者空間、オーディオチャネル、およびオーディオオブジェクトのために信号伝達されることができる。例えば、フラグの「１」ビット値は、対応するアイテム（視聴者空間、オーディオチャネル、またはオーディオオブジェクト）が有効にされていることを示すことができ、フラグの「０」ビット値は、対応するアイテムが無効にされていることを示すことができる。

本実施形態において、オーディオチャネル構成は、いくつかのオーディオチャネルの集合であることができ、幾つかのオーディオチャネルの集合は、それらのチャネルの識別インデックスによってさらに示されることができる。代替的に、オーディオチャネル構成は、特定のオーディオチャネルであることができる。

本実施形態において、オーディオオブジェクト構成は、幾つかのオーディオオブジェクトの集合であることができ、幾つかのオーディオチャネルの集合は、それらのオブジェクトの識別インデックスによってさらに示されることができる。代替的に、オーディオオブジェクト構成は、特定のオーディオオブジェクトであることができる。

表２は、オーディオシーンの関心空間を表現する別の例示的な構文テーブルを示している。

ＩＩ．フローチャート

図５は、本開示の一実施形態による例示的なプロセス（５００）の概略するフローチャートを示している。様々な実施形態において、プロセス（５００）は、図６に示すような処理回路構成のような、処理回路構成によって実行される。いくつかの実施形態において、プロセス（５００）は、ソフトウェア命令で実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス（５００）を実行する。

プロセス（５００）は、一般に、ステップ（Ｓ５１０）で開始し、プロセス（５００）は、オーディオシーンについてのオーディオシーンデータを復号化する。オーディオシーンデータは、（ｉ）オーディオシーンを表現する複数のアイテムについてのオーディオコンテンツ、および（ｉｉ）複数のアイテムのサブセットのタイプを示す第１の構文要素を含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。次に、プロセス（５００）は、ステップ（Ｓ５２０）に進む。

ステップ（Ｓ５２０）で、プロセス（５００）は、第１の構文要素において示される複数のアイテムのサブセットのタイプに基づいて、複数のアイテムのサブセットのオーディオコンテンツの一部分を決定する。次に、プロセス（５００）は、ステップ（Ｓ５３０）に進む。

ステップ（Ｓ５３０）で、プロセス（５００）は、オーディオコンテンツの決定された部分をレンダリングする。次に、プロセス（５００）は、終了する。

一実施形態において、第１の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの１つであることを示す。

一実施形態において、オーディオシーンデータは、複数のアイテムのサブセットの数を示す第２の構文要素を含む。

一実施形態において、第２の構文要素は、複数のアイテムのサブセットの数が１よりも多いことを示し、オーディオシーンデータは、複数のアイテムのサブセットの各々についての識別インデックスを示す第３の構文要素を含む。

一実施形態において、第１の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプであることを示し、オーディオシーンデータは、視聴者空間のサブタイプが信号伝達されるかどうかを示す第４の構文要素を含む。

一実施形態において、第４の構文要素は、視聴者空間のサブタイプが信号伝達されることを示し、オーディオシーンデータは、視聴者空間のサブタイプを示す第５の構文要素を含む。

一実施形態において、第４の構文要素は、視聴者空間のサブタイプが信号伝達されないことを示し、視聴者空間のサブタイプは、ビデオシーンに基づいて決定される。

一実施形態においては、視聴者空間のサブタイプは、オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの１つである。

ＩＩＩ．コンピュータシステム

上述の技法は、コンピュータ読取可能命令を使用するコンピュータソフトウェアとして実装されることができ、１つ以上のコンピュータ読取可能媒体に物理的に格納されることができる。例えば、図６は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム（６００）を示している。

コンピュータソフトウェアは、１つ以上のコンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）等によって、直接的に或いは解釈、マイクロコード実行等を通じて実行されることができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または類似のメカニズムの対象となることがある任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス等を含む、様々なタイプのコンピュータまたはそれらのコンポーネント上で実行されることができる。

コンピュータシステム（６００）のための図６に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性に関する如何なる制限も示唆することを意図しない。コンポーネントの構成は、コンピュータシステム（６００）の例示的な実施形態において図示されるコンポーネントの任意の１つまたは組み合わせに関する如何なる従属性または要件も有するものとして解釈されてならない。

コンピュータシステム（６００）は、特定のヒューマンインターフェース入力デバイスを含んでよい。そのようなヒューマンインターフェース入力デバイスは、例えば、（キーストローク、スワイプ、データグローブの動きのような）触覚入力、（音声、拍手のような）オーディオ入力、（ジェスチャのような）視覚入力、嗅覚入力（図示せず）を通じて、１人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、（発話、音楽、周囲サウンドのような）オーディオ、（スキャンされた画像、静止画像カメラから得られる写真画像のような）画像、（二次元ビデオ、立体視ビデオを含む三次元ビデオのような）ビデオのような、人間による意識的入力に必ずしも直接的に関係しない特定の媒体を取り込むために使用されることもできる。

入力ヒューマンインターフェースデバイスは、キーボード（６０１）、マウス（６０２）、トラックパッド（６０３）、タッチスクリーン（６１０）、データグローブ（図示せず）、ジョイスティック（６０５）、マイクロホン（６０６）、スキャナ（６０７）、およびカメラ（６０８）の１つ以上（各々の１つのみが描かれている）を含んでよい。

コンピュータシステム（６００）は、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、サウンド、光、および嗅覚／味覚を通じて、１人以上の人間ユーザの感覚を刺激することがある。そのようなヒューマンインターフェース出力デバイスは、（例えば、タッチスクリーン（６１０）、データグローブ（図示せず）、ジョイスティック（６０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあることができる）触覚出力装置、（スピーカ（６０９）、ヘッドフォン（図示せず）のような）オーディオ出力デバイス、（各々がタッチスクリーン入力能力を持つか或いは持たない、各々が触覚フィードバック能力を持つか或いは持たない、それらの一部は、立体出力、仮想現実グラス（図示せず）、ホログラフィックディスプレイおよびスモークタンク（図示せず）、およびプリンタ（図示せず）のような手段を通じて、二次元視覚出力または三次元よりも多くの次元の出力を出力し得ることがある、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含む、スクリーン（６１０）のような）視覚出力デバイスを含むことがある。（スクリーン（６１０）のような）これらの視覚出力デバイスは、グラフィックスアダプタ（６５０）を通じてシステムバス（６４８）に接続されることができる。

コンピュータシステム（６００）は、人間がアクセス可能な記憶デバイスや、ＣＤ／ＤＶＤまたは同等の媒体（６２１）を備えるＣＤ／ＤＶＤＲＯＭ／ＲＷ（６２０）、サムドライブ（６２２）、取り外し可能なハードドライブまたはソリッドステートドライブ（６２３）、テープおよびフロッピーディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特殊化されたＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス、および同等物を含む、光媒体のような、それらの関連する媒体も含むことができる。

当業者は、現在開示されている主題に関連して使用されるような「コンピュータ読取可能媒体」という用語が、送信媒体、搬送波、または他の過渡信号を包含しないことも理解するはずである。

コンピュータシステム（６００）は、１つ以上の通信ネットワーク（６５５）へのインターフェース（６５４）を含むこともできる。１つ以上の通信ネットワーク（６５５）は、例えば、無線、有線、光であることができる。１つ以上の通信ネットワーク（６５５）は、更に、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性等であることができる。１つ以上の通信ネットワークの例は、イーサネット、無線ＬＡＮのようなローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥおよび同等のものを含むセルラネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上放送ＴＶを含むＴＶ有線または無線ワイドエリアデジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業等を含む。特定のネットワークは、一般に、（例えば、コンピュータシステム（６００）のＵＳＢポートのような）特定の汎用データポートまたは周辺バス（６４９）に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下に記載するようなシステムバスへの取り付けによって、コンピュータシステム（６００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（６００）は、他のエンティティと通信することができる。そのような通信は、単指向性、受信のみ（例えば、放送テレビ）、単指向性送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの、双指向性であることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、それらのネットワークおよびネットワークインターフェースの各々で使用されることができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム（６００）のコア（６４０）に取り付けられることができる。

コア（６４０）は、１つ以上の中央処理装置（ＣＰＵ）（６４１）、グラフィックス処理装置（ＧＰＵ）（６４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（６４３）の形態の特殊化されたプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ（６４４）等を含むことができる。これらのデバイスは、読出し専用メモリ（ＲＯＭ）（６４５）、ランダムアクセスメモリ（６４６）、内部ユーザアクセス可能でないハードドライブのような内部大容量記憶装置、ＳＳＤ、および同等物（６４７）と共に、システムバス（６４８）を通じて接続されてよい。幾つかのコンピュータシステムにおいて、システムバス（６４８）は、追加のＣＰＵ、ＧＰＵ、および同等物による拡張を可能にするために、１つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス（６４８）に直接的に取り付けられることができ、或いは周辺バス（６４９）を通じて取り付けられることができる。周辺バスのためのアーキテクチャは、ＰＣＩ、ＵＳＢ、および同等物を含む。

ＣＰＵ（６４１）、ＧＰＵ（６４２）、ＦＰＧＡ（６４３）、およびアクセラレータ（６４４）は、組み合わせにおいて、上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（６４５）またはＲＡＭ（６４６）に格納されることができる。移行データも、ＲＡＭ（６４６）に格納されることができるのに対し、永久データは、例えば、内部大容量記憶装置（６４７）に格納されることができる。１つ以上のＣＰＵ（６４１）、ＧＰＵ（６４２）、大容量記憶装置（６４７）、ＲＯＭ（６４５）、ＲＡＭ（６４６）、および同等物と密接に関連付けられることができるキャッシュメモリの使用を通じて、メモリデバイスのいずれかへの高速格納および検索を可能にすることができる。

コンピュータ読取可能媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、或いは、それらは、コンピュータソフトウェア技術の当業者によく知られており且つ利用可能である種類のものであることができる。

一例として、限定によってではなく、アーキテクチャ（６００）、具体的には、コア（６４０）を有する、コンピュータシステムは、１つ以上の有形のコンピュータ読取可能媒体において具現されるソフトウェアを実行する（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ、および同等物を含む）プロセッサの結果としての機能性を提供することができる。そのようなコンピュータ読取可能媒体は、上述のようなユーザアクセス可能な大容量記憶装置と関連付けられる媒体、並びにコア内部大容量記憶装置（６４７）またはＲＯＭ（６４５）のような非一時的な性質を有するコア（６４０）の特定の記憶装置であってよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納されることができ、コア（６４０）によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに従って、１つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（６４０）、特にコア内の（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、および同等物を含む）プロセッサに、ＲＡＭ（６４６）に格納されるデータ構造を定義ことと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的にまたは代替的に、コンピュータシステムは、回路内に配線された或いは他の方法で具現されたロジック(論理）の結果として機能性（例えば、アクセラレータ（６４４））を提供することができ、それは、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに或いはソフトウェアと共に作動することができる。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も同様である。コンピュータ読取可能媒体への言及は、実行のためのソフトウェアを格納する回路、実行のためのロジックを具現する（集積回路（ＩＣ）のような）回路、または適切な場合にはそれらの両方を含むことができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを含む。

この開示は幾つかの例示的な実施形態を記載したが、本開示の範囲内にある変更、置換、および様々な代替的な均等物がある。よって、当業者は、本明細書に明示的に示されていないか或いは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある、数多くのシステムおよび方法を考案することができることが理解されるであろう。

Claims

オーディオシーンの関心空間を表す方法であって、
前記オーディオシーンについてのオーディオシーンデータを復号化することであって、前記オーディオシーンデータは、（ｉ）前記オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、（ｉｉ）前記複数のアイテムのサブセットのタイプを示す第１の構文要素とを含み、前記複数のアイテムの前記サブセットは、前記オーディオシーンの前記関心空間を表す、復号化することと、
前記第１の構文要素において示される前記複数のアイテムの前記サブセットの前記タイプに基づいて前記複数のアイテムの前記サブセットについての前記オーディオコンテンツの部分を決定することと、
前記オーディオコンテンツの前記決定される部分をレンダリングすることと、を含む、
方法。
前記第１の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの１つであることを示す、請求項１に記載の方法。
前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの数を示す第２の構文要素を含む、請求項１に記載の方法。
前記第２の構文要素は、前記複数のアイテムの前記サブセットの前記数が、１よりも大きいことを示し、前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの各々についての識別インデックスを示す第３の構文要素を含む、請求項３に記載の方法。
前記第１の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、前記視聴者空間と関連付けられる前記タイプであることを示し、前記オーディオシーンデータは、前記視聴者空間のサブタイプが信号伝達されるかどうかを示す第４の構文要素を含む、請求項２に記載の方法。
前記第４の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されることを示し、前記オーディオシーンデータは、前記視聴者空間の前記サブタイプを示す第５の構文要素を含む、請求項５に記載の方法。
前記第４の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されないことを示し、前記視聴者空間の前記サブタイプは、ビデオシーンに基づいて決定される、請求項５に記載の方法。
前記視聴者空間の前記サブタイプは、前記オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの１つである、請求項５に記載の方法。
オーディオシーンの関心空間を表す装置であって、
当該装置は、処理回路構成を含み、該処理回路構成は、
前記オーディオシーンについてのオーディオシーンデータを復号化するように構成され、前記オーディオシーンデータは、（ｉ）前記オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、（ｉｉ）前記複数のアイテムのサブセットのタイプを示す第１の構文要素とを含み、前記複数のアイテムの前記サブセットは、前記オーディオシーンの前記関心空間を表し、
前記第１の構文要素において示される前記複数のアイテムの前記サブセットの前記タイプに基づいて前記複数のアイテムの前記サブセットについての前記オーディオコンテンツの部分を決定するように構成され、
前記オーディオコンテンツの前記決定される部分をレンダリングするように構成される、
装置。
前記第１の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの１つであることを示す、請求項９に記載の装置。
前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの数を示す第２の構文要素を含む、請求項９に記載の装置。
前記第２の構文要素は、前記複数のアイテムの前記サブセットの前記数が、１よりも大きいことを示し、前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの各々についての識別インデックスを示す第３の構文要素を含む、請求項１１に記載の装置。
前記第１の構文要素は、前記複数のアイテムの前記サブセットの前記タイプが、前記視聴者空間と関連付けられる前記タイプであることを示し、前記オーディオシーンデータは、前記視聴者空間のサブタイプが信号伝達されるかどうかを示す第４の構文要素を含む、請求項１０に記載の装置。
前記第４の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されることを示し、前記オーディオシーンデータは、前記視聴者空間の前記サブタイプを示す第５の構文要素を含む、請求項１３に記載の装置。
前記第４の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されないことを示し、前記視聴者空間の前記サブタイプは、ビデオシーンに基づいて決定される、請求項１３に記載の装置。
前記視聴者空間の前記サブタイプは、前記オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの１つである、請求項１３に記載の装置。
命令を含むコンピュータプログラムであって、前記命令は、少なくとも１つのプロセッサによって実行されるときに、請求項１～８のうちのいずれか１項に記載の方法を実行する、コンピュータプログラム。