JP2023533414A

JP2023533414A - 適応オーディオ配信およびレンダリング

Info

Publication number: JP2023533414A
Application number: JP2022566186A
Authority: JP
Inventors: リィウ，シャン; ティアン，ジュン; シュイ，シアオジョォン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-06-02
Filing date: 2022-06-02
Publication date: 2023-08-03
Anticipated expiration: 2042-06-02
Also published as: EP4128221A1; CN115701777A; KR20230003552A; US20220391167A1; EP4128221A4; WO2022256828A1

Abstract

本開示の態様は、オーディオ処理のための方法および装置（例えば、クライアントデバイスおよびサーバデバイス）を提供する。幾つかの例では、クライアントデバイスが、処理回路構成を含む。処理回路構成は、オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信する。処理回路構成は、選択信号の送信に応答して、符号化されたビットストリームをサーバデバイスから受信する。符号化されたビットストリームは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む。処理回路構成は、符号化されたビットストリームに基づいてオーディオ信号をレンダリングする。

Description

（関連出願の参照）
本願は、２０２１年６月２日に出願された米国仮出願第６３／１９６，０６６号「Adaptive Audio Delivery and Rendering」に対する優先権の利益を主張する、２０２２年５月３１日に出願された米国特許出願第１７／８２８，７５５号「ADAPTIVE AUDIO DELIVERY AND RENDERING」に対する優先権の利益を主張する。先の出願の開示は、その全体が参照により本明細書に援用される。

（技術分野）
本開示は、オーディオ処理(audio processing)に概ね関連する実施形態を記載する。

本明細書で提供される背景記述は、本開示の文脈を概ね提示するためのものである。その業績がこの背景セクションに記載されている範囲における、現在指名されている発明者の業績、並びに出願時に他の点では先行技術として適格でないことがある記述の側面は、本開示に対する先行技術として明示的にも暗示的にも認められていない。

仮想現実または拡張現実のアプリケーションにおいて、ユーザがアプリケーションの仮想世界における存在感を有するようにするために、アプリケーションの仮想シーンにおけるオーディオは、仮想シーンの関連する仮想フィギュア(virtual figures)から来るサウンド(sound)とともに、実世界におけるものとして知覚される。幾つかの例において、現実の世界におけるユーザの物理的な動きは、アプリケーション内の仮想シーンにおいて一致する動きを有するものとして知覚される。更に、そして、重要なことには、ユーザは、現実的であると知覚され且つ現実世界においてユーザの経験にマッチするオーディオを使用して、仮想シーンと対話することができる。

本開示の態様は、オーディオ処理のための方法および装置（例えば、クライアントデバイスおよびサーバデバイス）を提供する。幾つかの例では、クライアントデバイスが、処理回路構成を含む。処理回路構成は、オーディオ入力中のオーディオコンテンツを符号化(エンコード)するためのオーディオ符号化構成(オーディオエンコーディング構成)を示す選択信号をサーバデバイスに送信する。処理回路構成は、選択信号の送信に応答して、符号化されたビットストリームをサーバデバイスから受信する。符号化されたビットストリームは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む。処理回路構成は、符号化されたビットストリームに基づいてオーディオ信号をレンダリングする。

幾つかの実施形態において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。幾つかの例において、オーディオ符号化構成は、オーディオ入力中のオーディオコンテンツの一部分に対応するカテゴリ化層を含む。

幾つかの例では、オーディオ符号化構成と関連付けられる識別子が、クライアントデバイスからサーバデバイスに送信される。

幾つかの例において、オーディオ符号化構成は、クライアントデバイスのメディア処理能力、クライアントデバイスのネットワーク接続、およびクライアントデバイスのユーザによる嗜好入力のうちの少なくとも１つに従って決定される。

幾つかの例において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。一例において、符号化されたビットストリームは、ビットレートに従って符号化される１つ以上のオーディオチャネルを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化される１つ以上のオーディオオブジェクトを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化されるオーディオ高次アンビソニックス（ＨＯＡ）信号のセットを含む。

例えば、オーディオ符号化構成は、オーディオ入力中のオーディオコンテンツの一部分に対応するカテゴリ化層を含む。一例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される。オーディオチャネルのサブセットは、オーディオ入力中のオーディオコンテンツのカテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される。オーディオオブジェクトのサブセットは、オーディオ入力中のオーディオコンテンツのカテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のＨＯＡ信号の減少された次数のセットに基づいて符号化される。ＨＯＡ信号の減少された次数のセットは、オーディオ入力中オーディオコンテンツのカテゴリ化層に対応する。

本開示の態様は、コンピュータによって実行されるときにコンピュータにオーディオ処理の方法を実行させる命令を格納する非一時的なコンピュータ読取可能媒体(medium)も提供する。

開示する主題のさらなる構成、性質、および様々な利点は、以下の詳細な記述および添付の図面からより明らかになるであろう。

本開示の幾つかの実施形態によるメディアシステムのブロック図を示している。

幾つかの例における垂直三層サウンドシステムのレイアウトを示している。

幾つかの例におけるサウンドシステムにおけるスピーカ配置を示している。幾つかの例におけるサウンドシステムにおけるスピーカ配置を示している。幾つかの例におけるサウンドシステムにおけるスピーカ配置を示している。

幾つかの例におけるシーンの音場(sound field)における複数のサウンドソースの一例を示している。

本開示の一実施形態によるプロセス例を概説するフローチャートを示している。

本開示の一実施形態による別のプロセス例を概説するフローチャートを示している。

一実施形態によるコンピュータシステムの概略図である。

本開示の態様は、適応(adaptive)オーディオコンテンツ配信(delivery)およびレンダリング(rendering)のための技術を提供する。本開示のある態様によれば、オーディオコンテンツ配信およびレンダリングは、しばしば、レンダリングデバイス能力、ネットワーク条件、ユーザの好みなどのような、様々な要因によって制約される。これらの制約に対処するために、適応オーディオコンテンツ配信およびレンダリングスキームを使用することができる。

図１は、本開示の一実施形態に従ったメディアシステム(media system)（１００）のブロック図を示している。メディアシステム（１００）は、イマーシブメディアアプリケーション、拡張現実（ＡＲ）アプリケーション、仮想現実アプリケーション、ビデオゲームアプリケーション、スポーツゲームアニメーションアプリケーション、テレビ会議およびテレプレゼンスアプリケーション、メディアストリーミングアプリケーションおよび同等のもののような、様々な用途アプリケーションにおいて使用されることができる。

メディアシステム（１００）は、メディアサーバデバイス（１１０）と、ネットワーク（図示せず）によって接続されることができる、図１に示すメディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のような、複数のメディアクライアントデバイスとを含む。一例において、メディアサーバデバイス（１１０）は、オーディオコーディング(coding)機能およびビデオコーディング機能を有する１つ以上のデバイスを含むことができる。一例において、メディアサーバデバイス（１１０）は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、および同等物のような、単一のコンピューティングデバイスを含む。別の例において、メディアサーバデバイス（１１０）は、データセンタ、サーバファーム、および同等物を含む。メディアサーバデバイス（１１０）は、ビデオおよびオーディオコンテンツを受信することができ、適切なメディアコーディング標準に従って、ビデオコンテンツおよびオーディオコンテンツを１つ以上の符号化(エンコード)された(encoded)ビットストリームに圧縮することができる。符号化されたビットストリームは、ネットワークを介してメディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）に配信されることができる。

メディアクライアントデバイス（例えば、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ））は、それぞれ、メディアアプリケーションのためのビデオコーディング機能およびオーディオコーディング機能を有する１つ以上のデバイスを含む。一例において、メディアクライアントデバイスの各々は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、ヘッドマウントディスプレイデバイス、および同等物のような、コンピューティングデバイスを含む。メディアクライアントデバイスは、適切なメディアコーディング標準に従って符号化されたビットストリームを復号化(デコード)する(decode)ことができる。復号化された(decoded)ビデオコンテンツおよびオーディオコンテンツは、メディア再生(media play)に使用されることができる。

メディアサーバデバイス（１１０）は、任意の適切な技術を用いて実装されることができる。図１の例において、メディアサーバデバイス（１１０）は、互いに結合された処理回路（１３０）とインターフェース回路（１１１）とを含む。

処理回路（１３０）は、１つ以上の中央処理装置（ＣＰＵ）、１つ以上のグラフィックス処理装置（ＧＰＵ）、特定用途向け集積回路、および同等物のような、任意の適切な処理回路構成を含むことができる。図１の例において、処理回路（１３０）は、オーディオエンコーダ（１４０）、ビデオエンコーダ（図示せず）、および同等物のような、様々なエンコーダを含むように構成されることができる。一例では、１つ以上のＣＰＵおよび／またはＧＰＵが、オーディオエンコーダ（１４０）として機能するように、ソフトウェアを実行することができる。別の例において、オーディオエンコーダ（１４０）は、特定用途向け集積回路を使用して実装されることができる。

インターフェース回路（１１１）は、メディアサーバデバイス（１１０）をネットワークとインターフェース接続することができる。インターフェース回路（１１１）は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェース回路（１１１）は、符号化されたビットストリームを搬送する信号を、ネットワークを介して、メディアクライアントデバイス（１６０Ａ）、メディアクライアントデバイス（１６０Ｂ）、および同等物のような、他のデバイスに送信することができる。インターフェース回路（１１１）は、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のような、メディアクライアントデバイスから信号を受信することができる。

ネットワークは、イーサネット接続、光ファイバ接続、ＷｉＦｉ接続、携帯電話ネットワーク接続および同等物のような、有線および／または無線接続を介して、メディアサーバデバイス（１１０）およびメディアクライアントデバイス（例えば、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ））と適切に結合される。ネットワークは、ネットワークサーバデバイス、ストレージデバイス、ネットワークデバイスおよび同等物を含むことができる。ネットワークのコンポーネント(構成要素)は、有線および／または無線接続を介して互いに適切に結合される。

メディアクライアントデバイス（例えば、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ））は、それぞれ、コーディングされたビットストリームを復号化するように構成される。一例において、各メディアクライアントデバイスは、表示されることができるビデオフレームのシーケンスを再構成するためにビデオ復号化(デコーディング)を実行することができ、再生のためにオーディオ信号を生成するためにオーディオ復号化を実行することができる。

メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、任意の適切な技術を使用して実装されることができる。図１の例では、ユーザＡが使用することができるユーザ機器としてイヤホンを備えるヘッドマウントディスプレイ（ＨＭＤ）に限定されない、メディアクライアントデバイス（１６０Ａ）が示されており、ユーザＢが使用するスマートフォンに限定されない、メディアクライアントデバイス（１６０Ｂ）が示されている。

図１において、メディアクライアントデバイス（１６０Ａ）は、図１に示すように互いに結合されたインターフェース回路（１６１Ａ）と処理回路（１７０Ａ）とを含み、メディアクライアントデバイス（１６０Ｂ）は、図１に示すように互いに結合されたインターフェース回路（１６１Ｂ）と処理回路（１７０Ｂ）とを含む。

インターフェース回路（１６１Ａ）は、メディアクライアントデバイス（１６０Ａ）をネットワークとインターフェース接続することができる。インターフェース回路（１６１Ａ）は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェース回路（１６１Ａ）は、ネットワークから符号化されたビットストリームを搬送する信号のような、データを搬送する信号を受信することができる。

処理回路（１７０Ａ）は、ＣＰＵ、ＧＰＵ、特定用途向け集積回路および同等物のような、適切な処理回路を含むことができる。処理回路（１７０Ａ）は、オーディオデコーダ（１７１Ａ）、レンダラ（１７２Ａ）、および同等物のような、様々なコンポーネントを含むように構成されることができる。

幾つかの例において、オーディオデコーダ（１７１Ａ）は、オーディオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、符号化されたビットストリームにおけるオーディオコンテンツを復号化することができる。更に、レンダラ（１７２Ａ）は、符号化されたビットストリームから復号化されたオーディオコンテンツからメディアクライアントデバイス（１６０Ａ）に適した最終的なデジタル製品を生成することができる。処理回路（１７０Ａ）は、さらなるオーディオ処理のために、ミキサ、後処理回路、および同等物のような、他の適切なコンポーネント（図示せず）を含むことができることに留意されたい。

同様に、インターフェース回路（１６１Ｂ）は、メディアクライアントデバイス（１６０Ｂ）をネットワークとインターフェース接続することができる。インターフェース回路（１６１Ｂ）は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェース回路（１６１Ｂ）は、ネットワークから符号化されたビットストリームを搬送する信号のような、データを搬送する信号を受信することができる。

処理回路（１７０Ｂ）は、ＣＰＵ、ＧＰＵ、特定用途向け集積回路および同等物のような、適切な処理回路構成を含むことができる。処理回路（１７０Ｂ）は、オーディオデコーダ（１７１Ｂ）、レンダラ（１７２Ｂ）、および同等物のような、様々なコンポーネントを含むように構成されることができる。

幾つかの例において、オーディオデコーダ（１７１Ｂ）は、オーディオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、復号化されたビットストリームにおけるオーディオコンテンツを復号化することができる。更に、レンダラ（１７２Ｂ）は、符号化されたビットストリームから復号化されたオーディオコンテンツからメディアクライアントデバイス（１６０Ｂ）に適した最終的なデジタル製品を生成することができる。処理回路（１７０Ａ）は、さらなるオーディオ処理のために、ミキサ、後処理回路、および同等物のような、他の適切なコンポーネント（図示せず）を含むことができることに留意されたい。

本開示の一態様によれば、メディアクライアントデバイスは、異なるＣＰＵ構成、異なるメモリ構成、および同等物のような、異なるメディア処理能力を有することがある。同じ符号化されたビットストリームについて、幾つかのメディアクライアントデバイスは、如何なる問題もなく符号化されたビットストリームからオーディオをレンダリングすることがあるが、幾つかのメディアクライアントデバイスは、処理能力の欠如の故に、オーディオを成功裡にレンダリングできないことがある。本開示の別の態様によれば、帯域幅、待ち時間のような、ネットワーク条件も、レンダリングに影響を及ぼすことがある。加えて、メディアクライアントデバイスのユーザは、個人化を好むことがあり、オーディオをどのようにレンダリングするかについて好みを有することがある。

本開示の幾つかの態様によれば、メディアシステム（１００）は、適応オーディオ配信およびレンダリング技術を用いて構成される。適応オーディオ配信およびレンダリング技術は、聴覚体験を最適化することができるように、メディア処理能力制約、ネットワーク条件制約、ユーザ嗜好制約、および同等のもののような、様々な制約を考慮しながら、オーディオ配信およびレンダリングを調整することができる。

本開示の幾つかの態様によれば、オーディオ入力は、異なるオーディオ符号化構成の符号化されたビットストリームに符号化されることができる。メディアサーバデバイス（１１０）および／またはメディアクライアントデバイスは、メディアクライアントデバイスについて、様々な制約に基づいて適切なオーディオ符号化構成の符号化されたビットストリームを選択することができ、符号化されたビットストリームは、メディアクライアントデバイスに配信されることができ、オーディオ出力は、符号化されたビットストリームに基づいてメディアクライアントデバイスによってレンダリングされることができる。

幾つかの実施形態において、メディアサーバデバイス（１１０）は、メディアクライアントデバイスにそれぞれ適したオーディオ符号化構成を選択するように構成される。幾つかの例において、処理回路（１３０）は、メディアクライアントデバイスにそれぞれ適したオーディオ符号化構成を選択するように構成された適応コントローラ（１３５）を含む。

幾つかの例において、メディアサーバデバイス（１１０）は、オーディオソース（１０１）（例えば、オーディオ注入サーバ）からオーディオ入力を受信する。オーディオエンコーダ（１４０）は、オーディオ入力を異なるオーディオ符号化構成の符号化されたビットストリームに符号化することができる。オーディオ符号化構成は、ビットレート、カテゴリ化層(カテゴリ化レイヤー)、および同等物のような、オーディオ符号化に影響を及ぼす１つ以上のパラメータを含むことができる。

幾つかの例において、オーディオ符号化構成は、異なるビットレートを有し、オーディオ入力は、異なるビットレートに従って符号化されたビットストリームに符号化される。幾つかの例において、オーディオ符号化構成は、異なるカテゴリ化層を有し、オーディオ入力は、異なるカテゴリ化層に従って符号化されたビットストリームに符号化される。幾つかの例では、オーディオ符号化構成が、ビットレートおよびカテゴリ化層の両方を含むことができる。オーディオ符号化構成は、異なるビットレートおよび／または異なるカテゴリ化層を有し、オーディオ入力は、異なるビットレートおよび／または異なるカテゴリ化層に従って符号化されたビットストリームに符号化される。

幾つかのオンデマンドストリーミングアプリケーションにおいて、メディアサーバデバイス（１１０）は、異なるオーディオ符号化構成に従ってプログラム全体のオーディオコンテンツを符号化することができ、符号化されたビットストリームを格納することができる。一般に、メディアサーバデバイス（１１０）は、異なるオーディオ符号化構成の符号化されたビットストリームを格納するために、（メディアクライアントデバイスと比べて）比較的大きな記憶能力を有するように構成されることができる。異なるオーディオ符号化構成の符号化されたビットストリームは、例えば、メディアクライアントデバイスのそれぞれのメディア処理能力、メディアクライアントデバイスのそれぞれのネットワーク条件、メディアクライアントデバイスのそれぞれのユーザ嗜好、および同等のものに基づいて、それぞれのメディアクライアントデバイスに適応的に提供されることができる。

幾つかのリアルタイムストリーミングアプリケーションにおいて、メディアサーバデバイス（１１０）は、プログラムのオーディオコンテンツの一部をリアルタイムで受信することができ、オーディオコンテンツの一部を異なるオーディオ符号化構成に従って符号化することができる。符号化されたビットストリームは、バッファされることができる。一般に、メディアサーバデバイス（１１０）は、異なるオーディオ符号化構成に従ってオーディオコンテンツの一部をリアルタイムで符号化するために（メディアクライアントデバイスと比べて）比較的大きなメディア処理能力を有するように構成されることができ、異なるオーディオ符号化構成の符号化されたビットストリームをバッファするために（メディアクライアントデバイスと比べて）比較的大きな記憶能力を有するように構成されることができる。異なるオーディオ符号化構成の符号化されたビットストリームは、例えば、メディアクライアントデバイスのそれぞれのメディア処理能力、メディアクライアントデバイスのそれぞれのネットワーク条件、メディアクライアントデバイスのそれぞれのユーザ嗜好、および同等のものに基づいて、それぞれのメディアクライアントデバイスに適用的に提供されることができる。

例えば、図１の例において、第１の符号化されたビットストリームは、最低ビットレート、最低カテゴリ化層、最低品質、および同等のもののような、第１のオーディオ符号化構成に基づいて符号化され、第２の符号化されたビットストリームは、中位ビットレート、中位カテゴリ化層、中位品質、および同等のもののような、第２のオーディオ符号化構成に基づいて符号化され、第Ｎ番目の符号化されたビットストリームは、最高ビットレート、最高カテゴリ化層、最高品質、および同等のもののような、第Ｎ番目のオーディオ符号化構成に基づいて符号化される。

幾つかの例において、適応コントローラ（１３５）は、メディア処理能力制約、ネットワーク条件制約、ユーザ嗜好制約、および同等の制約のような、メディアクライアントデバイスに関連する制約の１つ以上を考慮して、メディアクライアントデバイスのための符号化されたビットストリームの１つを選択する。次に、選択された符号化されたビットストリームは、例えば、ネットワークを介して、メディアクライアントデバイスに送信される。幾つかの例では、制約のうちの１つ以上が変化することがあり、制約の変化に応答して、適応コントローラ（１３５）は、別の符号化されたビットストリームに切り替えて、他の符号化されたビットストリームをメディアクライアントデバイスに送信することを決定することができる。

一例において、メディアクライアントデバイス（１６０Ａ）は、ゲームアプリケーションにおいてユーザＡによって使用されるＶＲ機器である。ＶＲ機器は、ビデオおよびオーディオ処理のための十分な処理能力を有するように構成され、ゲームアプリケーションは、ユーザ体験のために高品質オーディオを好む。適応コントローラ（１３５）は、メディアクライアントデバイス（１６０Ａ）の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス（１６０Ａ）の構成は、オーディオ処理のための十分な処理能力を示し、よって、処理能力制約を示さず、ネットワーク条件情報は、十分な帯域幅を示し、ネットワーク接続制約を示さず、適応コントローラ（１３５）は、メディアクライアントデバイス（１６０Ａ）に送信するためにＮ番目のオーディオ符号化構成のＮ番目の符号化されたビットストリームを選択することができる。

一例として、メディアクライアントデバイス（１６０Ｂ）は、テレビ会議において空港でユーザＢによって使用されるスマートフォンである。スマートフォンは、ビデオおよびオーディオ処理について限定的な処理能力を有することがあり、テレビ会議は、ユーザ体験のために高品質オーディオを必要としない。適応コントローラ（１３５）は、メディアクライアントデバイス（１６０Ｂ）の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス（１６０Ｂ）の構成は、オーディオ処理のための限定的な処理能力を示し、ネットワーク条件情報は、空港での限定的な帯域幅を示し、その後、適応コントローラ（１３５）は、メディアクライアントデバイス（１６０Ｂ）に送信するために、第１のオーディオ符号化構成の第１の符号化されたビットストリームを選択することができる。

幾つかの実施形態において、メディアクライアントデバイスは、様々な制約に基づいて適切なオーディオ符号化構成を選択することができ、メディアサーバデバイス（１１０）に相応して通知／要求することができる。次に、メディアサーバデバイス（１１０）は、適切なオーディオ符号化構成を使用して符号化される符号化されたビットストリームをメディアクライアントデバイスに送信する。幾つかの例では、１つ以上の制約が変化するとき、メディアクライアントデバイスは、別のオーディオ符号化構成に切り替えることを決定することができ、メディアサーバデバイス（１１０）に相応して通知することができる。次に、メディアサーバデバイス（１１０）は、他のオーディオ符号化構成に従って符号化される別の符号化されたビットストリームをメディアクライアントデバイスに送信する。

図１の例において、メディアクライアントデバイス（１６０Ａ）は、メディアクライアントデバイス（１６０Ａ）に関連する様々な制約に基づいて適切なオーディオ符号化構成を選択するように構成された適応コントローラ（１７５Ａ）を含み、メディアクライアントデバイス（１６０Ｂ）は、メディアクライアントデバイス（１６０Ｂ）に関連する様々な制約に基づいて適切なオーディオ符号化構成を選択するように構成された適応コントローラ（１７５Ｂ）を含む。

一例において、適応コントローラ（１７５Ａ）は、メディアクライアントデバイス（１６０Ａ）の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス（１６０Ａ）の構成は、オーディオ処理のための十分な処理能力を示し、よって、処理能力制約を示さず、ネットワーク条件情報は、十分な帯域幅を示し、ネットワーク接続制約を示さず、次に、適応コントローラ（１７５Ａ）は、例えば、Ｎ番目のオーディオ符号化構成を選択することができる。

一例において、適応コントローラ（１７５Ｂ）は、メディアクライアントデバイス（１６０Ｂ）の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス（１６０Ｂ）の構成は、オーディオ処理のための限定的な処理能力を示し、ネットワーク条件情報は、空港での限定的な帯域幅を示し、次に、適応コントローラ（１７５Ｂ）は、例えば、第１のオーディオ符号化構成を選択することができる。

本開示の幾つかの態様によれば、メディアクライアントサーバ（１１０）に注入されるオーディオ入力は、オーディオチャネル、オーディオオブジェクト、高次アンビソニックス（ＨＯＡ：higher order ambisonics）信号のセット、またはそれらの２つ以上の組み合わせのような、送信および再生のための様々なフォーマットを有することがある。

本開示の一態様によれば、シーンのオーディオコンテンツは、シーンの音場内の場所に関連するオーディオチャネルのフォーマットにあることができる。例えば、オーディオチャネルは、サウンドシステム内のスピーカと関連付けられてよい。サウンドシステムは、様々なマルチチャネル構成を有することができる。幾つかの例において、サウンドシステム内のスピーカは、上層、中間層、下層と呼ぶ、３つの垂直層において視聴者(audience)の周りに配置されてよい。

図２は、視聴者の周りの垂直３層スピーカレイアウトを示している。

本開示の一態様によれば、マルチチャネルフォーマットにあるオーディオコンテンツは、音場内の場所のための複数のオーディオチャネルを含む。

図３Ａ～図３Ｃは、サウンドシステムにおける上層、中間層および下層のスピーカ構成を示している。サウンドシステムは、２２．２マルチチャネルサウンドシステムによって示されており、２２．２マルチチャネルオーディオコンテンツを再生することができる。２２．２マルチチャネルオーディオコンテンツは、２４個のオーディオチャネルを含む。一例において、２４個のオーディオチャネルは、サウンドシステム内の２４個のスピーカ場所に対応することができる。２４個のオーディオチャネルは、２つの低周波エフェクト（ＬＦＥ：low frequency effects）チャネルを含む。図３Ａ～図３Ｂ中の小さな正方形は、スピーカ場所を表しており、小さな正方形内の数字は、スピーカ場所についての指標である。図３Ａは、上層におけるスピーカ構成を示しており、図３Ｂは、中間層におけるスピーカ構成を示しており、図３Ｃは、下層におけるスピーカ構成を示している。一例において、スピーカ場所２３および２４は、２つのＬＦＥチャネル用であってよい。

幾つかのサウンドシステムは、より少ない数のスピーカを有することがあり、２２．２マルチチャネルオーディオコンテンツは、より少ないオーディオチャネルのオーディオコンテンツを形成するためにダウンミックスされる(down mixed)ことができる。

一例では、２．０マルチチャネルサウンドシステムによって示されるサウンドシステムは、２つのスピーカ場所を含むことがあり、２２．２マルチチャネルオーディオコンテンツは、２つのスピーカ場所に対応する２つのオーディオチャネルを含む２．０マルチチャネルオーディオコンテンツを形成するためにダウンミックスされることができる。別の例では、５．１マルチチャネルサウンドシステムによって示されるサウンドシステムは、６つのスピーカ場所を含むことがあり、２２．２マルチチャネルオーディオコンテンツは、６つのスピーカ場所に対応する６つのオーディオチャネルを含む５．１マルチチャネルオーディオコンテンツを形成するためにダウンミックスされることができる。別の例では、９．２マルチチャネルサウンドシステムによって示されるサウンドシステムが、１１個のスピーカ場所を含むことがあり、２２．２マルチチャネルオーディオコンテンツは、１１個のスピーカ場所に対応する１１個のオーディオチャネルを含む９．２マルチチャネルオーディオコンテンツを形成するためにダウンミックスされることができる。

より少ない数のチャネルのオーディオコンテンツは、より少ない数のビットによって表されることができ、より少ない配信およびレンダリングリソースを要求することができることに留意されたい。

本開示の別の態様によれば、シーンのオーディオコンテンツは、シーンの音場におけるサウンドソース(音源)と関連付けられる複数のオーディオオブジェクトのフォーマットにあることができる。

図４は、ＶＲアプリケーションにおけるシーンの音場における複数のサウンドソース（４１１）～（４１５）の一例を示している。シーンのオーディオコンテンツは、サウンドソース（４１１）～（４１５）のためのオーディオオブジェクトをそれぞれ含むことができる。

別の例では、病院オーディオシーンは、医師室におけるように音場設定を有することができる。音場は、サウンドソースとして、医師、患者、テレビ、ラジオ、ドア、テーブルおよび椅子を含むことができる。よって、シーンのオーディオコンテンツは、サウンドソースのために７つのオーディオオブジェクトをそれぞれ含むことができる。例えば、第１のオーディオオブジェクトは、医師のサウンドに対応し、第２のオーディオオブジェクトは、患者のサウンドに対応し、第３のオーディオオブジェクトは、テレビのサウンドに対応し、第４のオーディオオブジェクトは、ラジオのサウンドに対応し、第５のオーディオオブジェクトは、ドアのサウンドに対応し、第６のオーディオオブジェクトは、テーブルのサウンドに対応し、第７のオーディオオブジェクトは、椅子のサウンドに対応する。

本開示の別の態様によれば、シーンのオーディオコンテンツは、ＨＯＡのセットのフォーマットにあることができる。

アンビソニック(ambisonic)は、全球サラウンドサウンドフォーマットである。水平面に加えて、アンビソニックは、聴取者の上下のサウンドソースをカバーする。アンビソニックの送信チャネルは、スピーカ信号を搬送しない。代わりに、送信チャネルは、Ｂフォーマットと呼ばれる音場のスピーカ非依存表現を含み、次に、それはスピーカセットアップに従って復号化される。アンビソニックは、再生がラウドスピーカ位置ではなくソース方向に関して考えることを可能にし、再生のために使用されるスピーカのレイアウトおよび数についてのかなりの程度の柔軟性を視聴者に提供する。

一例では、一次アンビソニックが、高さおよび深さについての追加的な差分チャネル(difference channels)を追加する、中(mid)／側(side)（Ｍ／Ｓ）ステレオの三次元拡張として理解されることができる。結果として得られた信号セットは、Ｂフォーマットと呼ばれ、音圧についてＷ（Ｍ／ＳにおけるＭ）とラベル付けされ、前方マイナス後方(front-minus-back)音圧勾配についてＸとラベル付けされ、左マイナス右(left-minus-right)についてＹ（Ｍ／ＳにおけるＳ）とラベル付けされ、上下(up-minus-down)についてＺとラベル付けされる、４つのコンポーネントチャネルを含む。

高次アンビソニックを使用することによって一次アンビソニックの空間分解能を改良することができる。例えば、一次アンビソニックは、僅かにぼやけたソースを有するが、比較的小さな使用可能な視聴エリアまたはスイートスポットに及ぶ。より選択的な指向性成分のグループをＢフォーマットに加えることによって、空間分解能を増加させることができ、スイートスポットを拡大することができる。その場合、結果として得られた信号セットは、二次アンビソニック、三次アンビソニック、または集合的に高次アンビソニック（ＨＯＡ）と呼ばれる。一般に、高次アンビソニックのセットは、低次アンビソニックのセットに加えて、より選択的な指向性成分を含む。

本開示の幾つかの態様によれば、メディアサーバデバイス（１１０）へのオーディオ入力は、（オーディオ符号化構成に対応する）幾つかの異なるビットレートで符号化されることができる。幾つかの例において、メディアクライアントサーバ（１１０）は、異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

幾つかの実施態様において、オーディオ入力は、オーディオチャネルのフォーマットにあるオーディオコンテンツを含む。オーディオチャネルは、幾つかの異なるビットレートで符号化される。例えば、オーディオチャネルは、第１の符号化されたビットストリームを形成するために（第１のオーディオ符号化構成に対応する）第１のビットレートで符号化され、オーディオチャネルは、第２の符号化されたビットストリームを形成するために（第２のオーディオ符号化構成に対応する）第２のビットレートで符号化されなどである。幾つかの例において、メディアクライアントサーバ（１１０）は、（異なるオーディオ符号化構成に対応する）異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、（異なるオーディオ符号化構成に対応する）異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

幾つかの実施形態において、オーディオ入力は、オーディオオブジェクトのフォーマットにあるオーディオコンテンツを含む。オーディオオブジェクトは、幾つかの異なるビットレートで符号化される。例えば、オーディオオブジェクトは、第１の符号化されたビットストリームを形成するために、（第１のオーディオ符号化構成に対応する）第１のビットレートで符号化され、オーディオオブジェクトは、第２のビットレートで第２の符号化されたビットストリームを形成するために、（第２のオーディオエンコード構成に対応する）第２のビットレートで符号化される。幾つかの例において、メディアクライアントサーバ（１１０）は、（異なるオーディオ符号化構成に対応する）異なるビットレートの符号化されたビットストリームを選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、（異なるオーディオ符号化構成に対応する）異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

幾つかの実施形態において、オーディオ入力は、二次アンビソニック信号のセット、三次アンビソニック信号のセット、四次アンビソニック信号のセット、および同等のもののような、ＨＯＡ信号のセットのフォーマットにあるオーディオコンテンツを含む。ＨＯＡフォーマットにあるオーディオコンテンツは、幾つかの異なるビットレートで符号化される。例えば、ＨＯＡフォーマットのオーディオコンテンツは、第１の符号化されたビットストリームを形成するために、（第１のオーディオ符号化構成に対応する）第１のビットレートで符号化され、ＨＯＡフォーマットのオーディオコンテンツは、第２のビットレートで第２の符号化されたビットストリームを形成するために、（第２のオーディオ符号化構成に対応する）第２のビットレートで符号化される。幾つかの例において、メディアクライアントサーバ（１１０）は、（異なるオーディオ符号化構成に対応する）異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、（異なるオーディオ符号化構成に対応する）異なるビットレートの符号化ビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

幾つかの実施形態では、品質識別子（ＩＤ）がビットレートで割り当てられる。メディアサーバデバイス（１１０）またはコンテンツ作成者は、品質ＩＤを使用して、オーディオ入力を配信のために符号化されたビットストリームに符号化するためにどのビットレートを使用するかを示すことができる。メディアクライアントデバイス（１６０Ａ）またはメディアクライアントデバイス（１６０Ｂ）のようなメディアクライアントデバイスは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに基づいて、特定の品質ＩＤを要求することができる。

オーディオシーンのオーディオコンテンツは、オーディオチャネル、オーディオオブジェクト、ＨＯＡなどをミキシングする混合されたフォーマットにあり得ることに留意されたい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびＨＯＡのうちの２つ以上のものの混合されたフォーマットであるとき、符号化ビットレートが、オーディオチャネル、オーディオオブジェクト、またはＨＯＡ信号に別々に適用されてよい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびＨＯＡのうちの２つ以上のものの混合されたフォーマットであるとき、符号化ビットレートは、オーディオチャネル、オーディオオブジェクト、およびＨＯＡ信号の組み合わせに適用されてよい。

本開示の幾つかの態様によれば、メディアサーバデバイス（１１０）へのオーディオ入力中のオーディオコンテンツは、幾つかのカテゴリ化層に分類されることができる。幾つかの例において、各カテゴリ化層は、オーディオ入力中のオーディオコンテンツの一部を含むことができる。幾つかの例では、より高いカテゴリ化層は、より低いカテゴリ化層と、オーディオ入力中のオーディオコンテンツの追加部分とを含むことができる。よって、カテゴリ化層は、オーディオ符号化構成におけるパラメータであることができる。幾つかの例において、メディアクライアントサーバ（１１０）は、（オーディオ符号化構成に対応する）異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、（オーディオ符号化構成に対応する）異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

幾つかの実施態様において、オーディオ入力は、オーディオチャネルのフォーマットにあるオーディオコンテンツを含む。オーディオチャネルは、幾つかのカテゴリ化層に分類されることができる。

例えば、オーディオ入力は、２２．２マルチチャネルオーディオコンテンツのフォーマットにあるオーディオコンテンツを含む。例えば、２２．２マルチチャネルオーディオコンテンツは、４つのカテゴリ化層、すなわち、２．０マルチチャネルオーディオコンテンツの第１のカテゴリ化層、５．１マルチチャネルオーディオコンテンツの第２のカテゴリ化層、９．２マルチチャネルオーディオコンテンツの第３のカテゴリ化層、および２２．２マルチチャネルオーディオコンテンツの第４のカテゴリ化層に分類されることができる。２．０マルチチャネルオーディオコンテンツは、（第１のオーディオ符号化構成の）第１の符号化されたビットストリームに符号化されることができ、５．１マルチチャネルオーディオコンテンツは、（第２のオーディオ符号化構成の）第２の符号化されたビットストリームに符号化されることができ、９．２マルチチャネルオーディオコンテンツは、（第３のオーディオ符号化構成の）第３の符号化されたビットストリームに符号化されることができ、２２．２マルチチャネルオーディオコンテンツは、（第４のオーディオ符号化構成の）第４の符号化されたビットストリームに符号化されることができる。

幾つかの例において、メディアクライアントサーバ（１１０）は、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

上記記述は、オーディオチャネルカテゴリ化の一例である。２２．２マルチチャネルオーディオコンテンツは、幾つかの例において、上記記述とは異なって分類され得ることに留意されたい。

別の実施形態において、オーディオオブジェクトは、幾つかのカテゴリ化層に分類される。病院のオーディオシーンを例にとると、病院のオーディオシーンのオーディオコンテンツは、サウンドソースのためのそれぞれ７つのオーディオオブジェクト、すなわち、医師のサウンドに対応する第１のオーディオオブジェクト、患者のサウンドに対応する第２のオーディオオブジェクト、テレビのサウンドに対応する第３のオーディオオブジェクト、ラジオのサウンドに対応する第４のオーディオオブジェクト、ドアのサウンドに対応する第５のオーディオオブジェクト、テーブルのサウンドに対応する第６のオーディオオブジェクト、および椅子のサウンドに対応する第７のオーディオオブジェクトを含むことができる。

一例において、７つのオーディオオブジェクトは、第３のカテゴリ化層に分類されることができる。第１のカテゴリ化層は、医師のサウンドに対応する第１のオーディオオブジェクトと、患者のサウンドに対応する第２のオーディオオブジェクトとを含む。第２のカテゴリ化層は、医師のサウンドに対応する第１のオーディオオブジェクトと、患者のサウンドに対応する第２のオーディオオブジェクトと、テレビのサウンドに対応する第３のオーディオオブジェクトと、ラジオのサウンドに対応する第４のオーディオオブジェクトとを含む。第３のカテゴリ化層は、医師のサウンドに対応する第１のオーディオオブジェクトと、患者のサウンドに対応する第２のオーディオオブジェクトと、テレビのサウンドに対応する第３のオーディオオブジェクトと、ラジオのサウンドに対応する第４のオーディオオブジェクトと、ドアのサウンドに対応する第５のオーディオオブジェクトと、テーブルのサウンドに対応する第６のオーディオオブジェクトと、椅子のサウンドに対応する第７のオーディオオブジェクトとを含む。

第１のカテゴリ化層は、（第１のオーディオ符号化構成の）第１の符号化されたビットストリームに符号化されることができ、第２のカテゴリ化層は、（第２のオーディオ符号化構成の）第２の符号化されたビットストリームに符号化されることができ、第３のカテゴリ化層は、（第３のオーディオ符号化構成の）第３の符号化されたビットストリームに符号化されることができる。幾つかの例において、メディアクライアントサーバ（１１０）は、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

上記記述は、オーディオオブジェクトのカテゴリ化の一例である。オーディオオブジェクトを有するオーディオシーンは、幾つかの例において、上記記述とは異なって分類され得ることに留意されたい。

別の実施形態では、ＨＯＡ信号は、異なる順序に従って幾つかのカテゴリ化層に分類される。一例において、４次のＨＯＡ信号のセットは、４つのカテゴリ化層に分類されることができる。第１のカテゴリ化層は、一次のＨＯＡ信号のセットを含む。第２のカテゴリ化層は、二次のＨＯＡ信号のセットを含む。第３のカテゴリ化層は、三次のＨＯＡ信号のセットを含む。第４のカテゴリ化層は、四次のＨＯＡ信号のセットを含む。

第１のカテゴリ化層は、（第１のオーディオ符号化構成の）第１の符号化されたビットストリームに符号化されることができ、第２のカテゴリ化層は、（第２のオーディオ符号化構成の）第２の符号化されたビットストリームに符号化されることができ、第３のカテゴリ化層は、（第３のオーディオ符号化構成の）第３の符号化されたビットストリームに符号化されることができ、第４のカテゴリ化層は、（第４のオーディオ符号化構成の）第４の符号化されたビットストリームに符号化されることができる。幾つかの例において、メディアクライアントサーバ（１１０）は、（異なるオーディオ符号化構成に対応する）異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例では、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）のようなメディアクライアントデバイスは、（異なるオーディオ符号化構成に対応する）異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース（例えば、処理能力、ネットワーク帯域幅）、および／またはユーザ嗜好、および同等のものに依存することができる。

上記記述は、ＨＯＡカテゴリ化の一例である。ＨＯＡ信号は、幾つかの例において上記記述とは異なって分類され得ることに留意されたい。

幾つかの実施形態において、層識別子（ＩＤ）は、オーディオ入力のカテゴリ化層のために割り当てられることができる。サーバデバイスまたはコンテンツ作成者は、層ＩＤを使用して、オーディオ入力のどの層が配信されるかを示すことができ、クライアントデバイスは、利用可能なリソースおよび／またはユーザ嗜好などに基づいて、特定の層ＩＤを要求することができる。

オーディオシーンのオーディオコンテンツは、オーディオチャネル、オーディオオブジェクト、ＨＯＡなどをミキシングする混合されたフォーマットにあり得ることに留意されたい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびＨＯＡのうちの２つ以上のものの混合されたフォーマットにあるとき、カテゴリ化層は、オーディオチャネル、オーディオオブジェクト、またはＨＯＡ信号に従って別々に決定されてよい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびＨＯＡのうちの２つ以上のものの混合されたフォーマットであるとき、カテゴリ化層は、オーディオチャネル、オーディオオブジェクト、およびＨＯＡ信号の組み合わせに基づいて決定されてよい。

図５は、本開示の一実施形態によるプロセス（５００）を概説するフローチャートを示している。プロセス（５００）は、メディアクライアントデバイス（１６０Ａ）および（１６０Ｂ）に使用されるような、オーディオ処理のためのクライアントデバイスにおいて使用されることができ、処理回路（１７０Ａ）および処理回路（１７０Ｂ）、および同等のものによって実行されることができる。幾つかの実施形態において、プロセス（５００）は、ソフトウェア命令において実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス（５００）を実行する。プロセスは、（Ｓ５３０１）で始まり、（Ｓ５１０）に進む。

（Ｓ５１０）で、選択信号がクライアントデバイスによって送信される。選択信号は、オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す。

幾つかの例において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。幾つかの例において、オーディオ符号化構成は、オーディオ入力のオーディオコンテンツの一部に対応するカテゴリ化層を含む。

一例では、オーディオ符号化構成と関連付けられる識別子（例えば、品質識別子、カテゴリ化識別子）が送信される。

一例において、選択信号は、クライアントデバイスのメディア処理能力、クライアントデバイスのネットワーク接続、およびクライアントデバイスのユーザによる嗜好入力のうちの少なくとも１つに従って決定される。

（Ｓ５２０）で、符号化されたビットストリームが、選択信号の送信に応答して受信される。符号化されたビットストリームは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む。

幾つかの例において、オーディオ符号化構成は、ビットレートを含む。一例において、符号化されたビットストリームは、ビットレートに従って符号化される複数のオーディオチャネルを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化される複数のオーディオオブジェクトを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化されるオーディオ高次アンビソニック（ＨＯＡ）信号のセットを含む。

幾つかの例において、オーディオ符号化構成は、カテゴリ化層を含む。一例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオチャネルのサブセットを含む（そのようなサブセットに基づいて符号化される）。オーディオチャネルのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオオブジェクトのサブセットを含む（そのようなサブセットに基づいて符号化される）。オーディオオブジェクトのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のＨＯＡ信号の低減された次数のセットを含む（そのようなセットに基づいて符号化される）。ＨＯＡ信号の低減された次数のセットは、カテゴリ化層に対応する。

（Ｓ５３０）で、オーディオ信号は、符号化されたビットストリームに従ってレンダリングされる。次に、プロセスは、（Ｓ５９９）に進み、終了する。

プロセス（５００）は、適切に適合されることができる。プロセス（５００）におけるステップは、修正および／または省略されることができる。追加的なステップを追加することができる。任意の適切な順序の実装を使用することができる。

図６は、本開示の一実施形態によるプロセス（６００）の概説するフローチャートを示している。プロセス（６００）は、メディアサーバデバイス（１１０）において使用されるようなオーディオ処理のためのサーバデバイスにおいて使用されることができ、処理回路（１３０）および同等のものによって実行されることができる。幾つかの実施形態において、プロセス（６００）は、ソフトウェア命令において実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス（６００）を実行する。プロセスは、（Ｓ６０１）で開始し、（Ｓ６１０）に進む。

（Ｓ６１０）で、サーバデバイスは、クライアントデバイス（例えば、メディアクライアントデバイス（１６０Ａ）、メディアクライアントデバイス（１６０Ｂ）、および同等のもの）について、オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を決定する。

幾つかの例において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。幾つかの例において、オーディオ符号化構成は、オーディオ入力のオーディオコンテンツ中の一部に対応するカテゴリ化層を含む。

幾つかの例において、サーバデバイスは、クライアントデバイスのメディア処理能力、クライアントデバイスのネットワーク接続、および嗜好入力のうちの少なくとも１つに従って、オーディオ符号化構成を決定する。

（Ｓ６２０）で、サーバデバイスは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む符号化されたビットストリームを取得する。

幾つかの例において、オーディオ符号化構成は、カテゴリ化層を含む。一例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオチャネルのサブセットを含む（そのようなサブセットに基づいて符号化される）。オーディオチャネルのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオオブジェクトのサブセットを含む（そのようなサブセットに基づいて符号化される）。オーディオオブジェクトのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のＨＯＡ信号の低減された次数のセットを含む（そのようなセットに基づいて符号化される）。ＨＯＡ信号の減少された次数のセットは、カテゴリ化層に対応する。

（Ｓ６３０）で、符号化されたビットストリームは、クライアントデバイスに送信される。幾つかの例において、サーバデバイスは、オーディオ入力のオーディオコンテンツを符号化するために使用されるオーディオ符号化構成を示す識別子（ＩＤ）（例えば、品質識別子、カテゴリ化層識別子、および同等のもの）も送信する。

次に、プロセスは、（Ｓ６９９）に進み、終了する。

プロセス（６００）は、適切に適合されることができる。プロセス（６００）におけるステップは、修正および／または省略されることができる。追加的なステップを追加することができる。任意の適切な順序の実装を使用することができる。

上述の技術は、コンピュータ読取可能命令を用いてコンピュータソフトウェアとして実装されることができ、１つ以上のコンピュータ読取可能媒体に物理的に格納されることができる。例えば、図７は、開示する主題の特定の実施形態を実装するのに適したコンピュータシステム（７００）を示している。

コンピュータソフトウェアは、直接的に或いは１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）および同等物による解釈、マイクロコード実行および同等のことを通じて実行されることができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクまたは類似のメカニズムの対象となることがある、任意の適切な機械コードまたはコンピュータ言語を使用して、コーディングされることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス、および同等物を含む、様々なタイプのコンピュータまたはそれらのコンポーネント上で実行されることができる。

コンピュータシステム（７００）について図７に示すコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性についての如何なる制限を示唆することも意図していない。コンポーネントの構成は、コンピュータシステム（７００）の例示的な実施形態に示すコンポーネントの任意の１つまたは組み合わせに関する如何なる従属性または要件を有するものとして解釈されてもならない。

コンピュータシステム（７００）は、特定のヒューマンインターフェース入力デバイスを含むことがある。そのようなヒューマンインターフェース入力デバイスは、例えば、（キーストローク、スワイプ、データグローブの動きのような）触覚入力、（音声(voice)、拍手のような）可聴入力、（ジェスチャのような）視覚入力、嗅覚入力（図示せず）を通じて、１人以上の人間ユーザによる入力に応答することがある。ヒューマンインターフェースデバイスは、（発話、音楽、周囲サウンドのような）オーディオ、（スキャンされた画像、静止画像カメラから得られる写真画像のような）画像、（例えば、二次元ビデオ、立体視ビデオを含む三次元ビデオのような）ビデオのような、人間による意識的な入力に必ずしも直接的に関係しない特定のメディアを取り込むために使用されることもできる。

入力ヒューマンインターフェースデバイスは、キーボード（７０１）、マウス（７０２）、トラックパッド（７０３）、タッチスクリーン（７１０）、データグローブ（図示せず）、ジョイスティック（７０５）、マイクロホン（７０６）、スキャナ（７０７）、カメラ（７０８）のうちの１つ以上（各々１つだけが描かれている）を含んでよい。

コンピュータシステム（７００）は、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、サウンド、光、および嗅覚／味覚を通じて、１人以上の人間ユーザの感覚を刺激することがある。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（７１０）、データグローブ（図示せず）、またはジョイスティック（７０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもある）、（スピーカ（７０９）、ヘッドフォン（図示せず）のような）オーディオ出力デバイス、（各々がタッチスクリーン入力能力を持つか或いは持たない、各々が触覚フィードバック能力を持つか或いは持たない、それらの一部は、立体出力、仮想現実ガラス（図示せず）、ホログラフィックディスプレイおよびスモークタンク（図示せず）およびプリンタ（図示せず）のような手段を通じて、二次元視覚出力または三次元よりも多くの次元の出力を出力し得ることがある、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含む、スクリーン（７１０）のような）視覚出力デバイスを含むことがある。

コンピュータシステム（７００）は、人間がアクセス可能な記憶デバイスや、ＣＤ／ＤＶＤまたは同等物を備えるＣＤ／ＤＶＤＲＯＭ／ＲＷ（７２０）、サムドライブ（７２２）、取り外し可能なハードドライブまたはソリッドステートドライブ（７２３）、テープおよびフロッピーディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特殊化されたＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス、および同等物を含む、光媒体のような、それらの関連する媒体も含むことができる。

当業者は、現在開示されている主題に関連して使用されるような「コンピュータ可読媒体」という用語が、送信媒体、搬送波、または他の過渡信号を包含しないことも理解するはずである。

コンピュータシステム（７００）は、１つ以上の通信ネットワーク（７５５）へのインターフェース（７５４）を含むこともできる。ネットワークは、例えば、無線、有線、光であることができる。ネットワークは、更に、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性等であることができる。ネットワークの例は、イーサネット、無線ＬＡＮのようなローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥおよび同等のものを含むセルラネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上放送ＴＶを含むＴＶ有線または無線ワイドエリアデジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業などを含む。特定のネットワークは、一般に、（例えば、コンピュータシステム（７００）のＵＳＢポートのような）特定の汎用データポートまたは周辺バス（７４９）に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下に記載するようなシステムバスへの取り付けによって、コンピュータシステム（７００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（７００）は、他のエンティティと通信することができる。そのような通信は、単指向性、受信のみ（例えば、放送テレビ）、単指向性送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの、双指向性であることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、それらのネットワークおよびネットワークインターフェースの各々で使用されることができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム（７００）のコア（７４０）に取り付けられることができる。

コア（７４０）は、１つ以上の中央処理装置（ＣＰＵ）（７４１）、グラフィックス処理装置（ＧＰＵ）（７４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（７４３）の形態の特殊化されたプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ（７４４）、グラフィックスアダプタ（７５０）などを含むことができる。これらのデバイスは、読出し専用メモリ（ＲＯＭ）（７４５）、ランダムアクセスメモリ（７４６）、内部ユーザアクセス可能でないハードドライブのような内部大容量記憶装置、ＳＳＤ、および同等物（７４７）と共に、システムバス（７４８）を通じて接続されてよい。幾つかのコンピュータシステムにおいて、システムバス（７４８）は、追加のＣＰＵ、ＧＰＵ、および同等物による拡張を可能にするために、１つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス（７４８）に直接的に取り付けられることができ、或いは周辺バス（７４９）を通じて取り付けられることができる。一例において、スクリーン（７１０）は、グラフィックスアダプタ（７５０）に接続されることができる。周辺バスのためのアーキテクチャは、ＰＣＩ、ＵＳＢ、および同等物を含む。

ＣＰＵ（７４１）、ＧＰＵ（７４２）、ＦＰＧＡ（７４３）、およびアクセラレータ（７４４）は、組み合わせにおいて、上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（７４５）またはＲＡＭ（７４６）に格納されることができる。移行データも、ＲＡＭ（７４６）に格納されることができるのに対し、永久データは、例えば、内部大容量記憶装置（７４７）に格納されることができる。１つ以上のＣＰＵ（７４１）、ＧＰＵ（７４２）、大容量記憶装置（７４７）、ＲＯＭ（７４５）、ＲＡＭ（７４６）、および同等物と密接に関連付けられることができるキャッシュメモリの使用を通じて、メモリデバイスのいずれかへの高速格納および検索を可能にすることができる。

コンピュータ読取可能媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、或いは、それらは、コンピュータソフトウェア技術の当業者によく知られており且つ利用可能である種類のものであることができる。

一例として、限定によってではなく、アーキテクチャ（７００）、具体的には、コア（７４０）を有する、コンピュータシステムは、１つ以上の有形のコンピュータ読取可能媒体において具現されるソフトウェアを実行する（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ、および同等物を含む）プロセッサの結果としての機能性を提供することができる。そのようなコンピュータ読取可能媒体は、上述のようなユーザアクセス可能な大容量記憶装置と関連付けられる媒体、並びにコア内部大容量記憶装置（７４７）またはＲＯＭ（７４５）のような非一時的な性質を有するコア（７４０）の特定の記憶装置であってよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納されることができ、コア（７４０）によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに従って、１つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（７４０）、特にコア内の（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、および同等物を含む）プロセッサに、ＲＡＭ（７４６）に格納されるデータ構造を定義ことと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的にまたは代替的に、コンピュータシステムは、回路内に配線された或いは他の方法で具現されたロジック(論理）の結果として機能性（例えば、アクセラレータ（７４４））を提供することができ、それは、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに或いはソフトウェアと共に作動することができる。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も同様である。コンピュータ読取可能媒体への言及は、実行のためのソフトウェアを格納する（集積回路（ＩＣ）のような）回路、実行のためのロジックを具現する回路、または適切な場合にはそれらの両方を含むことができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを含む。

この開示は幾つかの例示的な実施形態を記載したが、本開示の範囲内にある変更、置換、および様々な代替的な均等物がある。よって、当業者は、本明細書に明示的に示されていないか或いは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある、数多くのシステムおよび方法を考案することができることが理解されるであろう。

Claims

クライアントデバイスでオーディオ処理する方法であって、
オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信することと、
前記選択信号の送信に応答して前記オーディオ符号化構成に従って符号化される前記オーディオコンテンツを含む符号化されたビットストリームを前記サーバデバイスから受信することと、
前記符号化されたビットストリームに基づいてオーディオ信号をレンダリングすることと、を含む、
方法。
前記選択信号を送信することは、
前記オーディオコンテンツを符号化するためのビットレートを示す前記選択信号を送信することを更に含む、
請求項１に記載の方法。
前記符号化されたビットストリームを受信することは、
前記ビットストリームに従って符号化される１つ以上のオーディオチャネルを含む前記符号化されたビットストリームを受信することを更に含む、
請求項２に記載の方法。
前記符号化されたビットストリームを受信することは、
前記ビットレートに従って符号化される１つ以上のオーディオオブジェクトを含む前記符号化されたビットストリームを受信することを更に含む、
請求項２に記載の方法。
前記符号化されたビットストリームを受信することは、
前記ビットレートに従って符号化されるオーディオ高次アンビソニックス（ＨＯＡ）信号を含む前記符号化されたビットストリームを受信することを更に含む、
請求項２に記載の方法。
前記選択信号を送信することは、
前記オーディオ入力中の前記オーディオコンテンツの一部分に対応するカテゴリ化層を示す前記選択信号を送信することを更に含む、
請求項１に記載の方法。
前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項６に記載の方法。
前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項６に記載の方法。
前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中の高次アンビソニックス（ＨＯＡ）信号の減少された次数のセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項６に記載の方法。
前記選択信号を送信することは、
前記オーディオ符号化構成と関連付けられる識別子を送信することを更に含む、
請求項１に記載の方法。
前記クライアントデバイスのメディア処理能力、前記クライアントデバイスのネットワーク接続、および嗜好入力のうちの少なくとも１つに従って、前記選択信号を決定することを更に含む、
請求項１に記載の方法。
処理回路構成を含む、オーディオ処理のための装置であって、
前記処理回路構成は、
オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信し、
前記選択信号を送信することに応答して、前記オーディオ符号化構成に従って符号化される前記オーディオコンテンツを含む符号化されたビットストリームを、前記サーバデバイスから受信し、
前記符号化されたビットストリームに基づいてオーディオ信号をレンダリングする、
ように構成される、
装置。
前記処理回路構成は、
前記オーディオコンテンツを符号化するためのビットレートを示す前記選択信号を送信する
ように更に構成される、
請求項１２に記載の装置。
前記処理回路構成は、
前記ビットレートに従って符号化される１つ以上のオーディオチャネルを含む前記符号化されたビットストリームを受信する
ように構成される、
請求項１３に記載の装置。
前記処理回路構成は、
記ビットレートに従って符号化される１つ以上のオーディオオブジェクトを含む前記符号化されたビットストリームを受信する
ように構成される、
請求項１３に記載の装置。
前記処理回路構成は、
前記ビットレートに従って符号化されるオーディオ高次アンビソニックス（ＨＯＡ）信号を含む前記符号化されたビットストリームを受信する
ように構成される、
請求項１３に記載の装置。
前記処理回路構成は、
前記オーディオ入力中の前記オーディオコンテンツの一部分に対応するカテゴリ化層を示す前記選択信号を送信する
ように構成される、
請求項１２に記載の装置。
前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項１７に記載の装置。
前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項１７に記載の装置。
前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中の高次アンビソニックス（ＨＯＡ）信号の減少された次数のセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項１７に記載の装置。
命令を格納する非一時的なコンピュータ読取可能媒体コンピュータであって、前記命令は、コンピュータによって実行されるときに、前記コンピュータに請求項１－１１に記載の方法を実行させる、非一時的なコンピュータ読取可能媒体。