JP2022551535A - オーディオ符号化のための装置及び方法 - Google Patents

オーディオ符号化のための装置及び方法 Download PDF

Info

Publication number
JP2022551535A
JP2022551535A JP2022521735A JP2022521735A JP2022551535A JP 2022551535 A JP2022551535 A JP 2022551535A JP 2022521735 A JP2022521735 A JP 2022521735A JP 2022521735 A JP2022521735 A JP 2022521735A JP 2022551535 A JP2022551535 A JP 2022551535A
Authority
JP
Japan
Prior art keywords
audio
item
presentation metadata
metadata
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022521735A
Other languages
English (en)
Other versions
JPWO2021074007A5 (ja
Inventor
パウルス ヘンリクス アントニウス ディレン
ボン フランシスカス マリヌス ヨセフス デ
イェルーン ジェラルドゥス ヘンリクス コッペンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022551535A publication Critical patent/JP2022551535A/ja
Publication of JPWO2021074007A5 publication Critical patent/JPWO2021074007A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Figure 2022551535000001
オーディオ符号化装置は、オーディオシーンを表すオーディオアイテムを受け取るオーディオ受信機201を有し、メタデータ受信機203は、オーディオアイテムのレンダリングに対する提示制約を記述する、オーディオアイテムのための入力提示メタデータを受け取る。提示制約は、オーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する。オーディオエンコーダ205が、複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するのであるが、この符号化は、入力提示メタデータに応答して適合されている。メタデータ回路207は、入力提示メタデータから、出力提示メタデータを生成する。出力提示メタデータは、符号化されたオーディオアイテムのためのデータであって、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する。出力209が、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成する。

Description

本発明は、オーディオ符号化のための装置及び方法に関し、特に、ただし排他的にではないが、仮想現実アプリケーションなどの動的アプリケーションのためのオーディオ符号化のための装置及び方法に関する。
オーディオ及びビデオアプリケーションの多様性及び範囲は、近年において、オーディオ、イメージ及びビデオを利用し消費する新たなサービス及び様態が連続的に開発され導入されていることに伴い、大幅に増加している。
例えば、ますます人気が出ているサービスの1つは、レンダリングのパラメータを変更するため、視聴者が、能動的かつ動的にシステムと対話することが可能であるように、オーディオ及びイメージを提供することである。多くのアプリケーションにおいて非常にアピールする特徴として、有効な視/聴位置を変更することができる能力がある。そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にする。
傾向としては、シーンのレンダリング側の適合を許容する柔軟性の増加を提供する方向に向かっている。オーディオシーンのレンダリングのためにレンダリング側の柔軟性の増加を提供する目的で、いくつかのオーディオ符号化及び分散アプローチが提案されてきており、それらにおいては、オーディオシーンが、異なるオーディオアイテムの合成によって表される。例えば、オーディオアイテムが、特定のスピーカなど、別個の音源を表す場合がある。いくつかのアプローチでは、すべてのオーディオアイテムが同一のタイプであるが、複数の異なるオーディオタイプが同時に用いられサポートされることを可能にするシステムの開発が増加している。例えば、いくつかのオーディオアイテムはオーディオチャネルであり得るが、他のものは別個のオーディオオブジェクトであり得るし、さらに他のものは、アンビソニックオーディオアイテムなど、シーンベースの場合もあり得る。多くのシステムにおいて、メタデータが、オーディオアイテムを表すオーディオデータと共に、提供される。そのようなメタデータは、例えば、あるオーディオアイテムのオーディオ源のために、シーンにおける公称位置を示す。
そのようなアプローチは、クライアント/レンダリング側での高い程度でのカスタマイズと適合とを可能にする。例えば、オーディオシーンを、そのオーディオシーンにおけるリスナの仮想位置の変更に局所的に適合させることが可能であるし、又は、個別的なリスナの特定の好みに適合させることも可能である。
特定の例として、3GPP(登録商標)コンソーシアムが、現在、いわゆるイマーシブボイスアンドオーディオサービシズ(IVAS)コーデックを開発している。このコーデックは、チャネル、オブジェクト又はシーン(特に、アンビソニックス)ベースの設定など、様々な設定で、オーディオコンテンツをコード化することが可能である。コード化の目的は、最小のデータ量を用いて、オーディオ情報を運ぶことである。
IVASコーデックは、さらに、様々なオーディオストリームを受信端における再生に適する形式に変換するレンダラを有することになる。例えば、オーディオを、既知のラウドスピーカの設定にマップすることが可能であるし、又は、オーディオを、ヘッドフォン経由での再生のためのバイノーラル形式にレンダリングすることも可能である。
3GPP(登録商標)のIVASコーデックスコープでは、潜在的な使用の場合を収集するための作業が進行中である。これらのためには、コーデックはレンダリングを変調する対話可能性を提供すべきであると考えられる。例えば、ヘッドフォンオーディオは、頭部位置及び変換と独立にレンダリングされなければならず、これは、ヘッドフォンオーディオが頭部の移動に対して補償されなければならないことを意味する。別の例として、ユーザは、仮想会議への参加者のオーディオを運ぶオブジェクトを(再度)位置決めするなど、オーディオアイテムを空間的に位置決めするように付勢される。
レンダラは、3GPP(登録商標)のIVASコーデックの作業アイテムの一部であると考えられ、IVASコーデックに内在するものと考えられる。しかし、コーデックがパススルーモードも含むことが、提案されてきている。このモードは、オーディオアイテムが、エンコーダ入力において入力されたのと同じ設定で(すなわち、1:1の対応するチャネル、オブジェクト及びシーンベースのオーディオアイテムとして)デコーダ出力において表されることを可能にする。外部レンダラは、専用の外部レンダリングインターフェースを経由して、これらのアイテムへのアクセスを有し、内部IVASレンダラへの代替的なレンダリングを実現する。
そのようなアプローチは、追加的な柔軟性を提供し、受信端におけるカスタマイズ及び適合のための範囲を増加させる。しかし、このアプローチには、短所が付随することもあり得る。例えば、柔軟性とオーディオ品質及び複雑性との間には、トレードオフが存在する。自由度を制約することによりコンテンツプロバイダがクライアント側におけるレンダリングに関するいくらかの制御を保持することを許容することは、一般的に有用である。これは、レンダリングを助け、より現実的なレンダリングされたオーディオシーンを結果的に生じさせるだけではなく、ユーザに提供される経験に対するある程度の制御をコンテンツプロバイダが保持することも許容する。例えば、それは、レンダラが、非現実的でありコンテンツとコンテンツプロバイダに対して悪影響を及ぼす可能性があるオーディオシーンを生成することを防止する。
符号化されたオーディオアイテムが、オーディオアイテムをレンダリングするのをレンダラがどのように許容されるかを制約するメタデータによって補充されることは可能であると想定される。これは、多くの状況において、異なる要件の間でのトレードオフを改善することを可能にする。しかし、それは、すべての状況において必ずしも最適ではない可能性があり、例えば、データレートの上昇を要求する場合があり得るし、結果的に、柔軟性及び/又はレンダリングされたオーディオシーンのための品質を低下させることもあり得る。
よって、改善されたアプローチが望まれている。特に、操作性の改善、柔軟性の改善、実装の容易化、操作性の容易化、コスト削減、複雑性の低下、データレートの低下、知覚されるオーディオ品質の向上、レンダリング制御の改善、トレードオフの改善、及び/又はパフォーマンスの向上を可能にするアプローチであれば、有利であり得る。
したがって、本発明は、上述された短所の中の1つ又は複数を、単独で又はいずれかの組合せで、好ましくは、軽減し、緩和し、又は消去することを目指す。
本発明のある態様によると、オーディオ符号化装置が提供されるのであるが、このオーディオ符号化装置は、オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機と、複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機であって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約であって、複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、メタデータ受信機と、入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するためのオーディオエンコーダと、入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路であって、出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、メタデータ回路と、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路とを有する。
本発明は、多くのシナリオにおいて、改善された及び/又はより柔軟な符号化を提供する。このアプローチによると、多くの実施形態において、ビットレート比率に改善された品質を提供する符号化されたオーディオデータストリームが生成されることが可能になる。符号化されたオーディオデータストリームは、ソース/復号化側からのレンダリングのいくらかの制御も可能にしながら、レンダリングのいくらかの柔軟性を可能にするように生成される。
オーディオアイテムのための提示メタデータは、例えば、レンダリング位置、利得レベル、信号レベル、空間分布、又は残響特性を制約することを含め、オーディオアイテムのレンダリングのための空間パラメータと音量パラメータとの少なくとも一方を制約する。
オーディオエンコーダは、入力提示メタデータに基づき、そして特にオーディオアイテムのための入力提示メタデータに基づき、オーディオアイテムの符号化を適合させるように構成される。この適合は、オーディオアイテムの復号化のためのビット/データ(レート)の圧縮を、適合させる。オーディオアイテムを符号化することの結果として生じるビットレートは、入力提示メタデータに基づいて、適合される。
入力提示メタデータは、受け取られた複数のオーディオアイテムに対する提示/レンダリングの制約を記述する。符号化されたオーディオデータは、複数の符号化されたオーディオアイテムのためのオーディオデータを有する。複数の符号化されたオーディオアイテムは、受け取られた複数のオーディオアイテムの符号化によって、生成される。出力提示メタデータは、複数の符号化されたオーディオアイテムのレンダリングに対する提示/レンダリングの制約を記述している。
提示制約は、レンダリングの制約であり得るし、オーディオアイテムのためのレンダリングパラメータを制約する。レンダリングパラメータは、レンダリングプロセス及び/又はレンダリングされた信号の特性のパラメータである。
出力提示メタデータは、具体的には、符号化されたオーディオアイテムをレンダリングするときに提示/レンダリングの1つ又は複数の適合可能/可変である態様/特性/パラメータを適合させ得る/適合可能な範囲を制約する、オーディオエンコーダによって生成される符号化されたオーディオアイテムと関連する/リンクする/そのために提供される任意のデータである。
出力提示メタデータと、特に、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約する符号化されたオーディオアイテムのためのデータとは、複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約に応答して、メタデータ回路によって、生成される。
オーディオエンコーダは、(複数のオーディオアイテムを符号化することによって)複数の符号化されたオーディオアイテムを含むように、符号化されたオーディオデータを生成する。
本発明のオプションである特徴によると、オーディオエンコーダは、複数のオーディオアイテムの中の少なくとも第1のオーディオアイテムと第2のオーディオアイテムとを、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナを有しており、オーディオエンコーダは、合成されたオーディオ符号化データを、合成されたオーディオアイテムを符号化することにより、第1及び第2のオーディオアイテムのために生成し、合成されたオーディオ符号化データを符号化されたオーディオデータに含ませるように、構成される。
これは、多くの実施形態において、特に効率的な符号化及び/又は柔軟性を提供する。それは、特に、多くの実施形態において、知覚的な劣化が縮小されている効率的なビットレートの圧縮を提供する。
本発明のオプションである特徴によると、コンバイナは、第1のオーディオアイテムと第2のオーディオアイテムとのための入力提示メタデータに応答して、複数のオーディオアイテムから第1のオーディオアイテムと第2のオーディオアイテムとを選択するように構成される。
これは、多くの実施形態において、特に効率的な符号化及び/又は柔軟性を提供する。
本発明のオプションである特徴によると、コンバイナは、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、第1のオーディオアイテムと第2のオーディオアイテムとを選択するように構成される。
これは、多くの実施形態において、特に効率的な符号化及び/又は柔軟性を提供する。類似性基準は、提示メタデータによって制約されるレンダリングパラメータに対するレンダリング制約が類似性基準を満たすという要件を有する。
本発明のオプションである特徴によると、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとは、利得制約と位置制約との少なくとも一方を有する。
これは、多くの実施形態において、特に効率的な操作性を提供する。
本発明のオプションである特徴によると、オーディオエンコーダは、さらに、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとに応答して、合成された提示メタデータを合成されたオーディオアイテムのために生成し、合成された提示メタデータを出力提示メタデータに含めるように構成される。
これは、多くの実施形態において、改善された操作性を提供し、特に、多くの実施形態において、エンコーダが、合成されたオーディオアイテムと符号化された入力オーディオアイテムとを、同じ様態で、個々のオーディオアイテムが合成されたオーディオアイテムであるかそうでないかに関してまったく知ることなく、処理することを可能にする。
本発明のオプションである特徴によると、オーディオエンコーダは、合成されたオーディオアイテムのための提示パラメータに対する制約であって、第1のオーディオアイテムのための入力提示メタデータによって示された第1のオーディオアイテムに対する制約と第2のオーディオアイテムのための入力提示メタデータによって示された第2のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成するように構成される。
これは、多くのシナリオ及びアプリケーションにおいて、パフォーマンスの向上を提供する。
本発明のオプションである特徴によると、オーディオエンコーダは、第2のオーディオアイテムのための入力提示メタデータに応答して、第1のオーディオアイテムの圧縮を適合させるように構成される。
このアプローチは、典型的には、オーディオアイテムの圧縮と符号化との向上を可能にする。圧縮はビットレートの低下であり、圧縮の増加は、結果的に、符号化されたオーディオアイテムのデータレートの低下を生じさせる。圧縮は、ビットレートの低下/圧縮である。オーディオ符号化は、1つ又は複数の入力オーディオアイテムを表す符号化されたオーディオアイテムが、1つ又は複数の入力オーディオアイテムよりも少ないビットによって表されるようなものであり得る。
本発明のオプションである特徴によると、オーディオエンコーダは、第2のオーディオアイテムのための入力提示メタデータに応答して第2のオーディオアイテムから第1のオーディオアイテムへのマスキング効果を推定し、マスキング効果に応答して第1のオーディオアイテムの圧縮を適合させるように構成される。
これは、多くの実施形態において、特に効率的な操作性とパフォーマンスの向上とを提供する。
本発明のオプションである特徴によると、オーディオエンコーダは、第2のオーディアイテムのための入力提示メタデータによって示される第2のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、第2のオーディオアイテムから第1のオーディオアイテムへのマスキング効果を推定するように構成される。
これは、多くの実施形態において、特に効率的な操作性とパフォーマンスの向上とを提供する。
本発明のオプションである特徴によると、オーディオエンコーダは、さらに、第1のオーディオアイテムのための入力提示メタデータに応答して、第1のオーディオアイテムの圧縮を適合させるように構成される。
これは、多くの実施形態において、特に有利な操作性及び/又はパフォーマンスを提供する。
本発明のオプションである特徴によると、入力提示メタデータは、少なくともいくつかのオーディオアイテムのための優先順位データを有しており、オーディオエンコーダは、入力提示メタデータにおける第1のオーディオアイテムのための優先順位の指示に応答して、第1のオーディオアイテムのための圧縮を適合させるように構成される。
これは、多くの実施形態において、特に有利な操作性及び/又はパフォーマンスを提供する。
本発明のオプションである特徴によると、オーディオエンコーダは、入力提示メタデータに応答して符号化がどのように適合されるかを示す符号化適合データを生成し、符号化適合データを符号化されたオーディオデータのストリームに含めるように構成される。
これは、多くの実施形態において、特に有利な操作性及び/又はパフォーマンスを提供する。それは、特に、デコーダによる改善された適合が符号化プロセスと一致することを可能にする。
本発明のある態様によると、オーディオを符号化する方法が提供され、この方法は、オーディオシーンを表す複数のオーディオアイテムを受け取るステップと、複数のオーディオアイテムのための入力提示メタデータを受け取るステップであって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約であって、複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、受け取るステップと、入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するステップと、入力提示メタデータから出力提示メタデータを生成するステップであって、出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、生成するステップと、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するステップとを有する。
本発明のこれらの及びそれ以外の態様、特徴及び利点は、本明細書において以下で説明される実施形態を参照することから明らかになり、明確となる。
本発明の実施形態は、以下の図面を参照して、単なる例示により、説明される。
本発明のいくつかの実施形態によるオーディオ分散システムの要素の例の図解である。 本発明のいくつかの実施形態によるオーディオ符号化装置の要素の例の図解である。 本発明のいくつかの実施形態によるオーディオ復号化装置の要素の例の図解である。
以下の説明は、3GPP(登録商標)没入型ボイスアンドオーディオサービシズ(IVAS)コーデックと互換であるオーディオ符号化及び復号システムに焦点を当てているが、説明されている原理及び概念は、多くの他のアプリケーション及び実施形態においても用いることが可能であることが理解されるだろう。
図1は、オーディオ符号化システムのある例を、図解している。このシステムでは、オーディオソース101が、オーディオデータを、オーディオエンコーダユニット103に提供する。オーディオデータは、オーディオシーンのオーディオを表す複数のオーディオアイテムのためのオーディオデータを有する。オーディオアイテムは、具体的には下記のものを含む異なるタイプとして、提供される。
チャネルベースのオーディオアイテム:このようなオーディオアイテムの場合、1D(モノラル)、2D又は3Dの空間オーディオコンテンツは、典型的には、リスナに対して所定の位置にあるラウドスピーカを介して提示されることが意図されている離散信号として、表される。広く知られているラウドスピーカの設定としては、例えば、2チャネルステレオ(「2.0」としても知られている)、又は、リスナを包囲する5チャネルプラス低周波効果チャネル(「5.1」とも称される)がある。また、バイノーラルオーディオも、リスナのそれぞれの耳に(通常はヘッドフォンを介して)直接に提示されることが意図された2つのオーディオ信号チャネルから構成される、チャネルベースのオーディオであると考えられる。
オブジェクトベースのオーディオアイテム:このようなオーディオアイテムの場合、個々のオーディオ信号は、典型的には、別個のサウンドソースを表すのに用いられる。これらのサウンドソースは、多くの場合に、例えば電話会議における参加者など、実際のオブジェクト又は人間と関係する。信号は、典型的にはモノであるが、他の表現も用いられる。オブジェクトベースのオーディオ信号は、多くの場合、オブジェクトオーディオの範囲(空間的広がり)、指向性又は散漫性など、さらなる特性を記述するメタデータに伴われている。
シーンベースのオーディオアイテム:このようなオーディオアイテムの場合、元の2D又は3Dの空間的オーディオシーンは、典型的には、ある球面調和関数と関係を有するいくつかのオーディオ信号として表される。これらのシーンベースのオーディオ信号を合成することにより、提示可能なオーディオ信号は、例えば、オーディオ再生設定における実際のラウドスピーカの位置など、任意の2D又は3D位置において構築可能である。シーンベースのオーディオの例示的な実施に、アンビソニックスがある。シーンベースのオーディオは、ライブに捕捉されたサウンドシーンと特定のラウドスピーカのレイアウトとは独立である人工的に作成されたサウンドシーンとの両方の全体的な記述を生じさせるための「高次アンビソニックス」(HOA)と称される音場技術を用いる。
オーディオデータに加え、オーディオソースは、オーディオアイテムのための提示メタデータを提供する。提示メタデータは、オーディオシーンのレンダリングに対する提示制約を記述しており、よって、複数のオーディオアイテムに対する提示/レンダリング制約を提供する。
提示メタデータは、オーディオアイテムのレンダリングがレンダラによってどのように実行されるのかにおける制約を記述する。提示メタデータは、1つ又は複数のレンダリングパラメータ/特性に対する制約を定義している。パラメータ/特性は、具体的には、オーディオアイテムのレンダリングの知覚的特性に影響を与えるものである。この制約は、シーンにおけるオーディオアイテムの空間的知覚及び/又は(相対的な)信号レベルに影響する制約である。提示メタデータは、特に、1つ又は複数のオーディオアイテムのための空間的な及び/又は利得/信号レベルのパラメータを制約する。このメタデータは、例えば、各オーディオアイテムのための位置及び/又は利得に対する制約である。
このメタデータは、例えば、1つ又は複数のオーディオアイテムの1つ又は複数のパラメータのための、ある範囲又はある組の許容可能な値を記述する。オーディオアイテムのレンダリングは、制約の範囲内で自由に行われるのであって、すなわち、レンダリングは、制約されたパラメータが、指示された許容可能な値のいずれかを有するようなものであり得るが、しかし、制約されたパラメータがこの値を有しないようなものであってはならない。
例を挙げると、提示メタデータは、オーディオアイテムの中の1つ又は複数に対し、ある領域及び/又は(相対的な)利得範囲を記述する。よって、オーディオアイテムは、その領域の内部にある知覚される位置で及び/又はその利得の範囲内の利得でレンダリングされなければならない。
提示メタデータは、したがって、局所的なレンダリングを適合させカスタマイズするいくらかの柔軟性を依然として許容しながら、レンダリングを制約する。
提示メタデータによって提供されるパラメータ又は特性のレンダリング制約の例には、下記が含まれる。
1つ又は複数のオーディオアイテムに対する位置の制約。これは、例えば、オーディオアイテムがそこからレンダリングされなければならないオーディオシーンにおける空間的領域又はボリュームを定義する。
1つ又は複数のオーディオアイテムに対する反響の制約。これは、例えば、最小又は最大の反響時間を定義する。この制約は、例えば、オーディオアイテムが所望の程度の散漫性でレンダリングされることを保証する。例えば、最小量の反響でレンダリングされるためには、一般的な周辺背景サウンドを表すオーディオアイテムが要求されるが、他方で、反響の与えられた閾値未満でレンダリングされるためには、メインスピーカを表すオーディオアイテムが要求される。
利得の制約。オーディオアイテムのレンダリングは、レンダリングプロセスの特定の好みに従い、より大音量で又はより静かになるように、レンダラによって適合させられる。例えば、周辺背景サウンドに対するスピーカのための利得は、いくつかの場合には、リスナの好みに基づいて、上昇又は低下させ得る。しかし、利得の制約は、利得がどのくらい修正可能であるかどうかを制約することにより、例えば、スピーカが周囲の雑音に勝って常に聞こえるようにすることを保証する。
ラウドネスの制約。オーディオアイテムのレンダリングは、レンダリングプロセスの特定の好みに従って、レンダラにより、より大音量で又はより静かになるように適合させることが可能である。例えば、電話会議の参加者のための利得は、いくつかの場合には、リスナの好みに基づいて、上昇又は低下させることが可能である。しかし、ラウドネスの制約は、ある参加者の知覚されるラウドネスをどれだけ修正することができるのかを制約し、例えば、それにより、他の話者又は背景雑音が存在しても会議の議長が常に十分なラウドネスを有することを保証する。
ダイナミックレンジの制約。オーディオアイテムのダイナミックレンジは、レンダラによってその大きさを適合させることが可能であり、例えば、リスナの位置に背景雑音が存在する場合に、より低いレベルの期間の間であってもオーディオが可聴に留まるように、低下させることができる。例えば、バイオリンのサウンドは、低いレベルでは、自動的により大きなラウドネスを有するようにされる。しかし、ダイナミックレンジ制御の制約は、ダイナミックレンジをどのくらい低下させることが可能であるかを制約し、したがって、例えば、バイオリンの通常のダイナミクスの十分に自然な知覚を保証する。
複数のオーディオアイテムのレンダリングのための提示制約を記述する提示メタデータは、具体的には、(提示メタデータが提供される)オーディオアイテムをレンダリングするときに適合させることが可能な、レンダリングパラメータ又は特性に対する制約を提供するデータである。レンダリングパラメータ又は特性は、レンダリング動作のパラメータ/特性である、並びに/或いは、生成されレンダリング/提示された信号及び/若しくはオーディオのパラメータ又は特性である。
入力提示メタデータは、具体的には、入力オーディオアイテムをレンダリングするときに提示/レンダリングの1つ又は複数の適合可能/可変な態様/特性/パラメータを適合させることが可能な範囲を制約する、オーディオエンコーダ205のための入力オーディオアイテムと関連する/入力オーディオアイテムにリンクされている/入力オーディオアイテムに提供されるいずれかのデータである。
オーディオエンコーダユニット103は、オーディオシーンのための符号化されたオーディオデータを含む符号化されたオーディオデータストリームを生成するように構成されている。符号化されたオーディオデータは、オーディオアイテムを符号化することによって、生成される(すなわち、受信されたオーディオデータは、オーディオアイテムを表す)。それに加えて、オーディオエンコーダユニット103は、符号化されたオーディオアイテムのための出力提示メタデータを生成して、このメタデータを符号化されたオーディオデータストリームに含ませる。出力提示メタデータは、符号化されたオーディオアイテムに対するレンダリング制約を記述する。
出力提示メタデータは、具体的には、符号化されたオーディオアイテムをレンダリングするときに提示/レンダリングの1つ又は複数の適合可能/可変な態様/特性/パラメータを適合させることが可能な範囲を制約する、オーディオエンコーダ205によって生成される符号化されたオーディオアイテムと関連する/入力オーディオアイテムにリンクされている/入力オーディオアイテムに提供されるいずれかのデータである。
出力提示メタデータと、特に、符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約する符号化されたオーディオアイテムのためのデータとは、複数の(入力)オーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する(入力)提示制約に応答して、メタデータ回路によって生成される。
オーディオエンコーダユニット103は、符号化されたオーディオデータストリームが与えられる送信機105に結合されている。送信機105は、この例では、符号化されたオーディオデータストリームを、符号化されたオーディオデータストリームに基づいてオーディオシーンをレンダリングする1つ又は複数のクライアントに送信/分散するように、構成されている。
この例では、符号化されたオーディオデータストリームは、具体的にはインターネットである又はインターネットを含むネットワーク107を経由して、分散される。送信機105は、潜在的に多数のクライアントを同時にサポートするように構成されており、オーディオデータは、一般的に複数のクライアントに分散される。
この特定の例では、符号化されたオーディオデータストリームは、1つ又は複数のレンダリングデバイス109に送信される。レンダリングデバイス109は、符号化されたオーディオデータストリームをネットワーク107から受け取る受信機111を含む。
送信機105と受信機111とは、いずれかの適切な形式で、いずれかの適切な通信プロトコル、標準、技術及び機能を用いて通信する、と理解される。この例では、送信機105と受信機111とは、適したネットワークインターフェース機能を有するのであるが、他の実施形態では、送信機105/受信機111は、例えば、無線通信機能、光ファイバ通信機能などを含むと理解される。
受信機111は、受信された符号化されたオーディオデータストリームが与えられるデコーダ113に結合されている。デコーダ113は、オーディオアイテムを再現するために、符号化されたオーディオデータストリームを復号するように構成されている。デコーダ113は、さらに、符号化されたオーディオデータストリームから、提示メタデータを復号する。
デコーダ113は、オーディオアイテムのための復号されたオーディオデータと提示メタデータとを与えられるレンダラ115に結合されている。レンダラ115は、受け取られた提示メタデータに基づいてオーディオアイテムをレンダリングすることにより、オーディオシーンをレンダリングする。レンダラ115によるレンダリングは、用いられている特定の再生システムに向けられている。例えば、5.1サラウンドサウンドシステムの場合には、個々のチャネルのためのオーディオ信号が生成されるのであるが、その理由は、ヘッドフォンシステムのバイノーラル信号が例えばHRTFフィルタなどを用いて生成されるからである。多くの異なる可能性があるオーディオレンダリングアルゴリズム及び技術が知られており、本発明を損なうことなくいずれかの適切なアプローチが用いられ得る、ということが理解されるだろう。
レンダラ115は、特に、リスナによって知覚されると、合成された再生がオーディオシーンの知覚を提供するように、再生のための出力オーディオ信号を生成する。レンダラは、典型的には、異なるオーディオアイテムを、個々のオーディオアイテムのための特定の特徴に応じて、別々に異なるように処理し、その次に、それぞれの出力チャネルのために、結果的に生じる信号成分を合成する。例えば、オーディオオブジェクトオーディオアイテムの場合には、信号成分は、オーディオオブジェクトに対応するオーディオソースのためのオーディオシーンにおける所望の位置に応じて、それぞれの出力チャネルのために、生成される。オーディオチャネルオーディオアイテムは、例えば、対応する出力再生チャネルのための信号成分の生成によって、又は、例えば、再生チャネルの中の1つに厳密にマッピングされない場合には複数の再生チャネルによって(例えば、適当であれば、パニング若しくはアップミキシング技術を用いて)、レンダリングされる。
いくつかの典型的には異なるタイプのオーディオアイテムによるオーディオシーンの表現によると、レンダラ115に、シーンのレンダリングにおける高度な柔軟性及び適合可能性が許容されることになる。これは、例えば、レンダリングされたオーディオシーンを適合させカスタマイズするために、レンダラによって用いられる。例えば、異なるオーディオオブジェクトの相対的な利得及び/又は位置を適合させることが可能、オーディオアイテムの周波数コンテンツの修正が可能、オーディオアイテムのダイナミックレンジの制御が可能、残響特性の変更が可能、などである。よって、レンダラ115が出力を生成するのであるが、その場合、オーディオシーンは、現在のアプリケーション/レンダリングのための特定の好みに適合され、これには、用いられている特定の再生システムへの、及び/又はリスナの個人的好みへの適合が含まれる。このアプローチによると、また、例えば、レンダリングされたオーディオシーンを、オーディオシーンにおける仮想的な聴取位置の変更に効率的に局所的に適合させることが可能になる。例えば、仮想現実アプリケーションをサポートするために、レンダラ115は、ユーザ位置データ入力を動的かつ連続的に受け取り、オーディオシーンにおけるユーザの示された仮想的な位置の変化に応答して、レンダリングを適合させる。
レンダラ115は、受け取られた提示メタデータに基づいてオーディオアイテムをレンダリングするように、構成されている。特に、提示メタデータは、符号化された/復号されたオーディオアイテムのレンダリングの可変な態様/特性/パラメータに対する制約を示し、レンダラ115は、レンダリングの際には、これらの制約に従う。
レンダラ115/レンダリングデバイス109からの出力オーディオ信号は、受け取られた符号化されたオーディオデータストリームからデコーダ113によって生成された復号されたオーディオアイテムにレンダリング動作を適用することの結果として生じる。レンダリング動作は、外部的に又は局所的に適合させることが可能でありレンダリングされた出力オーディオ(の態様)に知覚的に影響を与えるいくつかのパラメータを有する。レンダリングに対する提示制約を記述する提示メタデータは、具体的には、レンダリングの際にレンダリングパラメータを適合させることが可能な集合(すなわち、連続的に適合可能なパラメータの場合には、値の範囲であり、又は、列挙するパラメータの場合には、離散的な値の組)を制限するデータである。
図2は、オーディオエンコーダユニット103の要素の例を、より詳細に示している。この例では、オーディオエンコーダユニット103は、シーンを記述する入力オーディオデータを受け取るオーディオ受信機201を有する。現在の例では、オーディオシーンは、3つの異なるタイプのオーディオデータによって、すなわち、チャネルベースのオーディオアイテムCと、オブジェクトベースのオーディオアイテムOと、シーンベースのオーディオアイテムSとによって、表されている。オーディオアイテムは、いずれかの適切な形式のオーディオデータによって提供される。オーディオデータは、例えば、オーディオアイテムを、生のWAVファイルとして、又は、いずれかの適切なフォーマットに従って符号化されたオーディオとして、提供する。典型的には、入力オーディオアイテムは、オーディオ品質とデータレートとが高い。
オーディオエンコーダユニット103は、さらに、入力オーディオアイテムのための提示メタデータを受け取るように構成されているメタデータ受信機203を有する。上述したように、提示メタデータは、オーディオアイテムのレンダリングに対する制約を提供する。
オーディオ受信機201とメタデータ受信機203とは、受け取られたオーディオアイテムを符号化することによってオーディオシーンのための符号化されたオーディオデータを生成するように構成されているオーディオエンコーダ205に結合されている。この例のオーディオエンコーダ205は、特に、符号化されたオーディオアイテムを、すなわち、符号化されたオーディオデータによって表されるオーディオアイテムを生成する。入力オーディオアイテムに対し、出力/符号化されたオーディオアイテムも、やはり異なるタイプのオーディオアイテムであり、特定の例では、具体的には、チャネルベースのオーディオアイテムC’と、オブジェクトベースのオーディオアイテムO’と、シーンベースのオーディオアイテムS’とである。
符号化されたオーディオアイテムの中の1つ、いくつか又は全部が、入力オーディオアイテムを独立に符号化することによって生成され、すなわち、符号化されたオーディオアイテムは、符号化された入力オーディオアイテムである。しかし、いくつかのシナリオでは、符号化されたオーディオアイテムのうちの1つ又は複数が、複数の入力オーディオアイテムを表すように生成されるか、又は、入力オーディオアイテムが、複数の符号化されたオーディオアイテムとして/複数の符号化されたオーディオアイテムによって、表される。
多くの符号化アルゴリズム及び技術が知られていること、そして、いずれかの適切なアルゴリズム、標準及びアプローチが用いられるということが理解されるだろう。また、異なるオーディオアイテムには異なるアルゴリズム及び技術が用いられるということも理解されるだろう。例えば、音楽に対応するオーディオアイテムは、AAA符号化アプローチを用いて符号化され、音声に対応するオーディオアイテムは、CELP符号化アプローチを用いて符号化されるなどである。符号化されたフォーマットで既に受け取られているオーディオアイテムについては、オーディオエンコーダ205による符号化は、異なる符号化フォーマットへのトランスコーディングであるか、又は、例えば、単純に、(例えば、量子化及び/又はクリッピングレベルを修正することによる)データレートの変換である。典型的には、符号化はビットレートの圧縮を含んでおり、符号化されたオーディオアイテムは、入力オーディオアイテムよりも少ないビットによって表される。
オーディオエンコーダユニット103は、さらに、符号化されたオーディオアイテムのための出力提示メタデータを生成するように構成されているメタデータ回路207を有する。提示メタデータ回路207は、この出力提示メタデータを、受け取られた入力提示メタデータから生成するように構成されている。実際には、多くのオーディオアイテムの場合に、出力提示メタデータは、入力提示メタデータと同一である。1つ又は複数のオーディオアイテムに対して、出力提示メタデータは、後でより詳細に説明するように、修正される。
オーディオエンコーダ205とメタデータ回路207とは、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するように構成されている出力回路209に、結合されている。出力回路209は、具体的には、符号化されたオーディオデータと出力メタデータとの両方を含む符号化されたオーディオデータストリームを生成するビットストリームパッカである。符号化されたオーディオデータストリームは、標準化されたフォーマットに従って生成されることにより、一連の受信機によって解釈されることが可能になる。
こうして、出力回路209は、ビットレートが縮小された/符号化されたオーディオアイテムと出力提示メタデータとを受け入れ、これらを例えば5Gネットワークなどの適切な通信チャネル上を運ばれることが可能なビットストリームに合成するビットストリームパッカとして、動作する。
図3は、オーディオエンコーダユニット103からの符号化されたオーディオデータストリームを受け取って処理するレンダリングデバイス109の要素の特定の例を図解している。レンダリングデバイス109は、オーディオエンコーダユニット103から符号化されたオーディオデータストリームを受け取り受け取られたデータストリームから異なるデータを分離して取り出すビットストリームアンパッカという形態の受信機111を有する。特に、受信機111は、符号化されたオーディオアイテムのための個々のオーディオデータを分離して取り出し、これらをデコーダ113に与える。
デコーダ113は、特に、チャネル、オブジェクト及びシーンベースのオーディオアイテムの典型的には符号化されていない表現を生成するために、受け取られた符号化されたオーディオアイテムを復号するように構成されている。
多くのオーディオアイテムについて、デコーダ113は、オーディオエンコーダ205によって実行された符号化を反転させる。他のオーディオアイテムについては、この復号は、例えば、」符号化動作を単に部分的に反転させるだけである。例えば、オーディオエンコーダ205がオーディオアイテムを単一の合成されたオーディオアイテムに合成した場合には、デコーダ113は、合成されたオーディオアイテムだけを復号し、個々のオーディオアイテムを完全に生成することはない。個々の実施形態の特定の好みと要件とに応じて、いずれかの適切な復号アルゴリズム及び技術が用いられるということが理解されるだろう。
復号されたオーディオアイテムは、上述したように例えばバイノーラル信号又はサラウンドサウンド信号としてオーディオアイテムをレンダリングすることによってオーディオシーンをレンダリングするように構成されているレンダラ115に、与えられる。
レンダリングデバイス109は、さらに、受信機111からの提示メタデータを与えられるメタデータコントローラ/回路301を有する。この例では、メタデータコントローラ301は、また、例えば個別的なユーザの好み又は用いられている再生システムの特性など、局所的な好み又は要件を反映する局所的な提示メタデータを受け取る。
よって、受け取られたビットストリームからアンパックされたオーディオ提示メタデータに加えて、レンダリングデバイス109は、また、例えば1つ又は複数の入力インターフェースを介して提供される局所的なオーディオ提示メタデータも、受け取る。
このデータは、下記のような、エンコーダ側では利用可能でないオーディオが提示されているコンテキストに関する情報を提供する。
- 所望の提示(ラウドスピーカ)設定
- ユーザの好み(例えば、仮想会議における参加者のオーディオのオーディオレベル及び向きなど)
- 例えば部屋の反響など、局所的な音響特性
これにより、レンダラが、どの環境効果と特性を下記のようなオーディオアイテムに適用すべきかを決定することが可能になる。
- (例えば、オーディオアイテムのための利得を選択するときに考慮すべき)局所的なオーディオ信号
- リスナの位置、及び
- リスナの頭部の向き
メタデータコントローラ301は、受け取られたメタデータと局所的なメタデータとを相互に合併し、提示メタデータの制約に従ってオーディオアイテムをレンダリングするように処理を進行させるレンダラ115に、それを提供する。
レンダラ115は、デコーダ113によって生成されたオーディオアイテムC”とO”とS”とを、所望の提示設定(例えば、バイノーラル又はサラウンドサウンド)の提示可能なオーディオに合成する。
レンダラ115は、特にメタデータコントローラ301から受け取られたメタデータと、受け取られた提示メタデータの制約によって制約されているすなわちエンコーダ側から制約されているレンダリングされたオーディオとに従って、オーディオ提示を生成する。これは、クライアント側におけるいくらかの柔軟性を依然として許容しながら、オーディオレンダリングと提示されたオーディオシーンに対する、ソース側/コンテンツプロバイダの制御を提供する。これは、例えば、コンテンツの著者がエンドユーザなどに対するある限定された制御を提供するように設計されている没入型アプリケーションの制御を保持するサービス又はアプリケーションを提供するのに用いられ得る。
より詳細には、メタデータコントローラ301は、例えばオーディオアイテムの抑制など、受け取られたメタデータを、したがって局所的なメタデータを処理する。メタデータコントローラ301は、例えば回転又は上昇の範囲など局所的なメタデータを、したがって受け取られたメタデータを制約する。
いくつかの実施形態では、レンダラ115は、レンダリングデバイス109とは異なるデバイス又は機能エンティティである。例えば、想定される3GPP(登録商標)のIVASコーデックなどの標準は、デコーダ113の動作を規定するが、レンダラ115がプロプライエタリでありより自由に適合可能であることを許容する。いくつかの実施形態では、メタデータコントローラ301は、異なるデバイス又は機能エンティティの一部である。
そのような実施形態では、したがて、外部レンダラが、復号されたO”、C”、S”と受け取られた提示メタデータとを処理し解釈することを要求される。外部レンダラによるレンダリング動作は、依然として、提示メタデータによって提供される制約に従わなければならない。
提示メタデータは、よって、クライアントにおけるレンダリング動作を制御するためにソース側/コンテンツプロバイダによって用いられるデータである。レンダリングは、提示メタデータに従って、適合される/制限されなければならない。
しかし、クライアント側のレンダラ115によるレンダリングを制御するのに用いられている提示メタデータに追加して、オーディオエンコーダユニット103のオーディオエンコーダ205もまた、入力提示メタデータに応答して符号化を適合させるように構成されている。入力提示メタデータは、オーディオエンコーダ205に与えられ、これが、1つ又は複数のオーディオアイテムの符号化を、(典型的には、その1つ又は複数のオーディオアイテムのための)提示メタデータに基づいて、修正する。オーディオエンコーダ205は、よって、オーディオアイテムと共に受け取られた提示メタデータに応答する、適合可能なエンコーダである。
オーディオエンコーダ205は、具体的には、オーディオアイテムの符号化を実行するように構成されている符号化回路211と、提示メタデータに基づいて符号化回路211による符号化を適合させるように構成されている符号化アダプタ213とを有する。
符号化アダプタ213は、与えられたオーディオアイテムのための符号化のパラメータを、そのオーディオアイテムのための提示メタデータに基づいて設定するように構成されている。例えば、それは、符号化のためのビットレートの配分/ターゲット、量子化レベル、マスキング閾値、周波数レンジなどを、例えば、提示メタデータによってそのオーディオアイテムに対して許容可能であるように示された利得範囲又は位置範囲に基づいて、設定するように構成されている。
多くの実施形態において、符号化回路211は、受け取られた入力オーディオアイテムと比較して縮小されたビット数を用いてオーディオアイテムを符号化するように構成されているビットレートコンプレッサである。この符号化は、したがって、ビットレート圧縮であり、それによって、生成される符号化されたオーディオデータストリームを分散させることが、より効率的でより容易になる。そのような実施形態では、符号化アダプタ213は、(適切な最適化基準/アルゴリズムに従って、レンダリングされたオーディオの品質を最適化するように)提示メタデータに基づいて、符号化回路211のビットレート縮小を適合させる。
符号化アダプタ213は、例えば、提示メタデータを解析して様々な入力オーディオアイテムのビットレート縮小をどのようにして最良に実行するのかに関する決定を下すコーディング解析プロセスを実行する。符号化アダプタ213によって実行される動作と適合との例は、下記を含む。
- ビットレート縮小のために順守すべき符号化回路211のための(最小の)マスキングレベルを告知することである。符号化アダプタ213は、どのオーディオアイテムがどのレベルでどの向きに、共に提示されるのかに関する情報を有する。これにより、符号化によってその時点で用いられているマスキングレベルを用いて、個々のオーディオアイテムのためのマスキングレベルを適合させることが可能になる。
- 例えば、オーディオオブジェクトをチャネル又はシーンベースのオーディオに移動するなど、オーディオアイテムを変換することである。
- ダウンミキシングのためのオーディオアイテムを選択すること(関連するアップミックスパラメータを用いて)であるが、この場合、パラメータによるダウンミックスコーディングのアーチファクトが一緒に提示される様々なオーディオアイテムによって十分にマスキングされることを保証しながら、ダウンミックスは、デコーダ側での没入型オーディオを再構築するためにアップミックスされる。さらなる精緻化のため、符号化アダプタ213は、
- 最大のパフォーマンス/最小のアーチファクトのために、ダウンミキシング/アップミキシングの利得を最適化することと、
- 最適の時間/周波数特性を有するアップミキシングパラメータを選ぶこととが可能である。
- オーディオアイテムを、レンダラ115によって単一のオーディオアイテムとしてレンダリングされる合成されたオーディオアイテムに、不可逆的に合成することである。これは、すべてのオーディオ情報がレンダリング側において個別に利用可能とする内在的な必要性は存在しないことを、利用している。例えば、いくつかの入力オーディオアイテムの別々の適合が許容されない(例えば、それらが、同じ位置でレンダリングされることが要求されている)場合には、オーディオアイテムが個別的に利用可能であることは必要ない。例えば、類似の向き及び利得適合制約を有する複数の入力オーディオオブジェクトは、1つのシーンベースのオーディオアイテムに合成可能であり、その場合、レンダリングの間、そのシーンのために、利得と向きとを全体として適合させることが依然として可能であるが、以前のオブジェクトが、シーンにおける相対的なオーディオレベルと相対的な位置とを修正している。
- オーディオアイテムのための提示メタデータに応じて、異なるビットレート予算を、異なるオーディオアイテムに配分することである。例えば、それぞれが表しているマスキングされていない情報の量に基づいて、ビットレートがオーディオアイテムに配分される。
符号化回路211は、次に、符号化アダプタ213によって生成されたコーディング制御データに従い、オーディオアイテムのコーディングを用いる。例えば、符号化回路211が、いくつかのチャネル、オブジェクト及びシーンベースのオーディオアイテムの、ビットレートの低下バージョン(例えば、量子化、パラメトライズされたものなど)を生成する。さらに、例えば、異なる複数のオーディオアイテムの符号化の一部としての合成又は変換に起因して、符号化されたオーディオアイテムの少なくともいくつかは、入力オーディオアイテムとは異なるオーディオ情報を表す場合があり、すなわち、入力オーディオアイテムと符号化されたオーディオアイテムとの間に直接的な対応が存在しない場合があり得る。
いくつかの実施形態では、オーディオエンコーダ205は、特に、複数の入力オーディオアイテムを1つ又は複数の合成されたオーディオアイテムに合成するように構成されたコンバイナ215を有する。コンバイナ215は、特に、第1及び第2の入力オーディオアイテムを、単一の合成されたオーディオアイテムに合成する。合成されたオーディオアイテムは、次に、合成され符号化されたオーディオアイテムを生成するように符号化され、この合成され符号化されたオーディオアイテムは、符号化されたオーディオデータストリームに含められ、典型的には、第1及び第2のオーディオアイテムを置き換える。こうして、第1及び第2のオーディオアイテムを個別的に符号化するよりも、コンバイナ215が、それらを単一の合成されたオーディオアイテムに合成し、次に、この合成されたオーディオアイテムは、符号化されたオーディオデータストリームに含められるが、他方では、第1及び第2のオーディオアイテムそれぞれに対しては、個別的な符号化されたオーディオアイテムが含まれることはない。
オーディオアイテムの合成は、受け取られた提示メタデータに応答して、実行される。多くの実施形態において、合成のために選択されるオーディオアイテムは、提示メタデータに基づいて、選択される。例えば、符号化アダプタ213は、オーディオアイテムに対する制約が類似性基準を満たすという要件を含む基準に応答して、合成のためのオーディオアイテムを選択する。
例えば、合成されるオーディオアイテムに対しては、提示メタデータによって示されたオーディオアイテムに対する制約が矛盾するものであってはならないということが要求されるのであって、すなわち、両方の制約を満たすことが可能でなければならない。よって、提示メタデータによって示される制約が矛盾していないということ、例えば、合成される両方の(又は、全部の)オーディオアイテムに対するレンダリング制約が満たされることを可能にする少なくとも1つのレンダリングパラメータが存在するように、制約が少なくとも重複を有することが要求され得る。符号化アダプタ213は、共通のレンダリングパラメータに対する両立し得ない制約を提示メタデータが記述しないということを、要求する。
例えば、提示メタデータは、オーディオシーンにおけるオーディオアイテムの位置に対する複数の制約を記述する場合がある。そのような場合には、これらの位置制約が重複していること、そして、いくつかの共通の許容される位置が存在することが、要求される。
合成するオーディオアイテムの選択は、それらのオーディオアイテムに対する提示メタデータに基づく。よって、合成するための第1及び第2のオーディオアイテムの選択は、それらの第1及び第2のオーディオアイテムに対する提示メタデータに基づく。例えば、上述したように、第1及び第2のオーディオアイテムに対する提示メタデータが対立する制約を定義していないことが要求される。
いくつかの実施形態では、第1及び第2のオーディオアイテムが、例えば、同じパラメータに対する制約であって例えば最も類似する制約を有するオーディオアイテムとして選択される。例えば、実質的に同じ位置制約を有するオーディオアイテムが、選択される。
具体的には、2つのオーディオアイテムに対する類似性尺度(similarity measure)が、許容可能な位置の間の重複を反映するように、決定される。例えば、類似性尺度は、2つのオーディオアイテムに対して、重複する許容可能な位置の領域のボリュームと個々の許容可能な位置のボリュームの和との比率として、生成される。
他の例としては、位置適合制約に対する類似性基準を満たす複数のオーディオオブジェクトは、それぞれの位置レンジ又は空間ボリュームが重複しない場合でさえ、シーンベースのオーディオアイテムに合成することが可能であり、オーディオソースは、そのシーンベースのオーディオアイテムにおいて、相互に対する固定された相対的な向きを、その上から有することになる(すなわち、別々に適合可能ではない)が、それらの向きは、依然として、全体として適合させることは可能である。
他の例として、類似性尺度は、2つのオーディオアイテムに対する重複する利得レンジのサイズを反映するように生成される。共通の許容可能な利得レンジが大きければ大きいほど、類似性は高くなる。
符号化アダプタ213は、オーディオアイテムの異なるペアに対するそのような類似性尺度を評価して、例えば、与えられた閾値よりも類似性尺度が高いペアを選択することができる。これらのオーディオアイテムは、次に、単一の合成されたオーディオアイテムに合成される。
多くの実施形態において、符号化アダプタ213は、さらに、合成されたオーディオアイテムのための合成された提示メタデータを入力提示メタデータから生成するように構成されている。この提示メタデータは、次に、ビットストリームパッカ209に与えられ、ビットストリームパッカ209は、それを、出力される符号化されたオーディオデータストリームに含める。
メタデータ回路207は、特に、合成された提示メタデータを生成するが、この合成された提示メタデータは、合成されたオーディオアイテムにリンクされており、合成された提示メタデータに対するレンダリング制約を提供する。生成された合成されたオーディオアイテムは、関連する合成された提示メタデータを伴うのであるが、次に、任意の他のオーディオアイテムとして処理されるが、実際には、クライアント/デコーダ/レンダラは、合成されたオーディオアイテムが実はオーディオエンコーダ205による入力オーディオアイテムの合成によって生成されることに気が付いてさえいない。むしろ、合成されたオーディオアイテム及び関連する提示メタデータは、クライアント側に対しては、入力オーディオアイテム及び関連する提示メタデータと区別不可能であり、任意の他のオーディオアイテムとしてレンダリングされる。
多くの実施形態において、合成された提示メタデータは、例えば、合成されたオーディオアイテムのための提示パラメータに対する制約を反映するように、生成される。この制約は、これらのオーディオアイテムに対する入力提示メタデータにより示されるように、合成されつつあるオーディオアイテムに対する個々の制約を満たすように、決定される。具体的には、第1及び第2のオーディオアイテムに対する合成されたオーディオアイテムへの制約は、第1のオーディオアイテムのための入力提示メタデータによって示される第1のオーディオアイテムに対する制約と、第2のオーディオアイテムのための入力提示メタデータによって示される第2のオーディオアイテムに対する制約との両方を満たす制約として、決定される。よって、合成された提示メタデータは、合成された制約が満たされるならば個々のオーディオアイテムに対する個々の制約が満たされることを保証する1つ又は複数の制約を提供するように、生成される。
例えば、第1のオーディオアイテムがオーディオオブジェクトである場合は、入力提示メタデータは、それが、例えば-6dBから0dBというレンジの相対的利得で、例えば([0,100],[-40,60],[0.5,1.5])という(方位角,仰角,半径)の座標体積内部の位置において、レンダリングされなければならないことを示す。第2のオーディオアイテムがオーディオオブジェクトである場合は、入力提示メタデータは、それが、例えば-3dBから3dBというレンジの相対的利得で、例えば([-100,80],[-20,70],[0.2,1.0])という(方位角,仰角,半径)の座標体積内部の位置において、レンダリングされなければならないことを示す。この場合に、合成された提示メタデータは、オーディオオブジェクトである合成されたオーディオアイテムが例えば-3dBから0dBというレンジの相対的利得で、例えば([0,80],[-20,60],[-0.5,1.0])という(方位角,仰角,半径)の座標体積内部の位置において、レンダリングされなければならないことを示すように、生成される。これにより、合成されたオーディオアイテムが、第1のオーディオアイテムと第2のオーディオアイテムとの両方に対して受け入れ可能であるようにレンダリングされることが確実になる。
いくつかの実施形態では、オーディオエンコーダ205は、あるオーディオアイテムの圧縮を、それとは別のオーディオアイテムに対する提示メタデータに基づいて、適合させるように構成されている。
複雑性の低い例として、あるオーディオアイテムの圧縮が、それとは別のオーディオアイテムに対する近接性及び利得/レベルに依存することがあり得る。例えば、現在のオーディオアイテムに対する提示メタデータが位置レンジ及びレベルレンジを示す場合には、これは、第2のオーディオアイテムに対する位置レンジ及びレベルレンジと比較される。第2のオーディオアイテムが第1のオーディオアイテムに近接して位置決めされるように制約され、第1のオーディオアイテムよりも大幅に高いレベルでレンダリングされるように制約されている場合には、第1のオーディオアイテムは、リスナによって、ほんの僅かにだけしか知覚されない可能性がある。したがって、第1のオーディオアイテムの符号化は、他のオーディオアイテムが存在しない場合よりも、より高い圧縮/ビットレートの低下を伴うことになる。具体的には、第1のオーディオアイテムの符号化のためのビットレートの配分は、1つ又は複数の他のオーディオアイテムへの距離とそのレベルとに左右される。
いくつかの実施形態では、符号化アダプタ213は、第2のオーディオアイテムから第1のオーディオアイテムへのマスキング効果を推定するように構成されている。マスキング効果は、第2のオーディオアイテムのレンダリングから第1のオーディオアイテムにもたらされるマスキングの程度を示すマスキング尺度によって、表される。マスキング尺度は、よって、第2のオーディオアイテムが存在する場合における第1のオーディオアイテムの知覚的重要性を示す。
マスキング尺度は、具体的には、提示メタデータによって示される制約に従って第2のオーディオアイテムがレンダリングされるときに、第1のオーディオアイテムから受け取られた音声レベルに対する第2のオーディオアイテムから受け取られた音声レベルを示すものとして、生成される。
例えば、その最高利得における第2のオーディオアイテムに対するその最低利得における第1のオーディオアイテムのマスキング効果は、第2のオーディオアイテムのマスキングレベルを推定するために取得され、逆もまた同様である。
他の例として、第1のオーディオアイテムと第2のオーディオアイテムとの間の最も離れた(又は、例えば、平均の)距離が決定され、それらの間での減衰が推定される。すると、減衰に対する補償の後での相対的なレベル差に基づいて、マスキング効果が推定され得る。
他の例として、システムが公称の聴取位置を用いる場合には、第1及び第2それぞれのオーディオアイテムからの聴取位置における信号レベルは、相対的な利得レベル又は信号レベルと、サウンドソースの位置からの減衰の差異とに基づいて、決定される。オーディオアイテムの位置は、例えばマスキング効果が最小化されるように、許容可能な位置から選択される(第1のオーディオアイテムに対する最も近接した許容可能な位置、第2のオーディオアイテムに対する最も離れた位置)。
このように、符号化アダプタ213は、第2のオーディオアイテムから第1のオーディオアイテムへのマスキング効果を、第2のオーディオアイテムに対する入力提示メタデータによって示される第2のオーディオアイテムに対する利得/レベル制約と位置制約とに基づいて、そして多くの場合に、第1のオーディオアイテムに対する入力提示メタデータによって示される第1のオーディオアイテムに対する利得/レベル制約と位置制約とにも基づいて、推定する。
いくつかの実施形態では、符号化アダプタ213は、第2のオーディオアイテムに対する提示メタデータに基づいて、第1のオーディオアイテムのためのマスキング閾値を直接に決定し、符号化回路211は、それに続き、決定されたマスキング閾値を用いて、第1のオーディオアイテムを符号化する。
いくつかの実施形態では、オーディオエンコーダ205による符号化の適合は、それ以外の機能がそれに従って適合されることのない、内部プロセスである。例えば、複数のオーディオアイテムから単一の合成されたオーディオアイテムへの不可逆的な合成は、合成されたオーディオアイテムが符号化されたオーディオデータストリームに含まれることがなく、合成されたオーディオアイテムがどのようにして作成されるのかに関する指示もなく、すなわち、合成されたオーディオアイテムのいずれか特定の処理を実行するレンダリングデバイスなしで、実行される。
しかし、多くの実施形態では、オーディオエンコーダ205は、符号化が入力提示メタデータに応答してどのように適合されるのかを示す符号化適合データを生成する。次に、この符号化適合データは、符号化されたオーディオデータストリームに含められる。したがって、このアプローチでは、レンダリングデバイス109は、符号化の適合に関する情報を有しており、それに従って復号及び/又はレンダリングを適合させるように構成される。
例えば、オーディオエンコーダ205は、音響環境データの中のどのオーディオアイテムが実際に合成されたオーディオアイテムであるのかを示すデータを生成する。それが、さらに、合成のいくつかのパラメータを示し、これらが実際に、多くの実施形態において、レンダリングデバイス109が、合成された元のオーディオアイテムの表現を生成することを可能にする。実際に、いくつかの実施形態では、合成されたオーディオアイテムが、入力オーディオアイテムのダウンミックスとして生成され、オーディオエンコーダ205が、パラメータによるアップミックスデータを生成して、これを符号化されたオーディオデータストリームに含めることにより、レンダリングデバイスが合理的なアップミキシングを実行することを可能にする。
他の例として、復号は、それ自体、適合されることはないが、リスナ/エンドユーザとの対話に、その情報が用いられる。例えば、それらの適合制約が近接していると考えられる複数のオーディオオブジェクトは、エンコーダによって、単一のシーンベースのオーディオアイテムに合成され得るが、他方では、「仮想オブジェクト」としてのそれらの存在が、符号化適合データの中でデコーダに告知される。次に、ユーザが、この情報を与えられることになり、仮想オブジェクトのキャリヤとしてシーンベースのオーディオアイテムについて告知されている/知っているというよりもむしろ、「仮想サウンドソース」を(それらはシーンベースのオーディオアイテムとして合成されているために、全体としてだけであるが)手動で制御するようにとのオファーを受ける。
いくつかの実施形態では、提示メタデータは、1つ又は複数のオーディオアイテムのための優先順位データを有しており、オーディオエンコーダ205は、第1のオーディオアイテムに対する優先順位の指示に応答して、第1のオーディオアイテムのための圧縮を適合させるように構成されている。
優先順位の指示は、オーディオシーンにおけるオーディオアイテムの知覚的意義又は重要性を示すレンダリングの優先順位の指示である。例えば、それは、メインスピーカを表すオーディオアイテムが、例えば、背景における鳥の鳴き声を表すオーディオアイテムよりも、さらに意義深いことを示すのに用いられる。
レンダラ115は、優先順位の指示に基づいて、レンダリングを適合させる。例えば、聴力が劣るリスナのために、レンダラ115は、優先順位が低い背景雑音に対して優先順位が高い主たる会話のための利得を上昇させることにより、発話を、より理解可能にできる。
さらに、オーディオエンコーダ205は、優先順位を下げるために、圧縮を増大させることができる。例えば、オーディオアイテムを合成するために、優先順位のレベルを与えられたレベルよりも低くしなければならないことが要求される場合があり得る。他の例としては、オーディオエンコーダ205が、優先順位のレベルが与えられたレベルよりも低いすべてのオーディオアイテムを合成する場合もある。
いくつかの実施形態では、各オーディオアイテムに対するビット配分が、優先順位のレベルに依存する。例えば、異なるオーディオアイテムへのビット配分が、優先順位を含む複数のパラメータを考慮するアルゴリズム又は公式に基づく場合があり得る。与えられたオーディオアイテムに対するビット配分が、優先順位の上昇に伴い単調増加することもあり得る。
上述の説明では、明瞭であるために、異なる機能回路、ユニット及びプロセッサに言及して、本発明の実施形態について説明してきたということが理解されるだろう。しかし、異なる機能回路、ユニット又はプロセッサの間における機能のいずれかの適切な分散が、本発明を損なうことなく用いられることが、明らかであろう。例えば、別々のプロセッサ又はコントローラによって実行されるものとして例示された機能が、同一のプロセッサ又はコントローラによって実行される場合もある。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的若しくは物理的な構造又は編成を示すのではなく、単に、説明された機能を提供するための適切な手段への言及として、見なされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含むいずれかの適切な形態で、実装される。本発明は、オプションとして、少なくとも部分的には、1つ若しくは複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして、実装される。本発明の一実施形態の要素とコンポーネントとは、物理的、機能的及び論理的に、いずれかの適切な様態として、実装される。実際に、機能は、単一のユニットとして、複数のユニットとして又は他の機能ユニットの一部として、実装される。したがって、本発明は、単一のユニットで実装される場合があるし、又は、異なるユニット、回路及びプロセッサの間で、物理的及び機能的に分散される場合もある。
一般に、オーディオ符号化装置、オーディオを符号化する方法、及びその方法を実装するコンピュータプログラム製品の例が、下記の実施形態によって示される。
1.オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機(201)と、
複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機(203)であって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約を記述する、メタデータ受信機と、
入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するためのオーディオエンコーダ(205)と、
入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路(207)と、
符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路(209)と、
を有する、オーディオ符号化装置。
2.オーディオエンコーダ(205)が、複数のオーディオアイテムの中の少なくとも第1のオーディオアイテムと第2のオーディオアイテムとを、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナ(215)を有しており、オーディオエンコーダ(205)が、合成されたオーディオ符号化データを、合成されたオーディオアイテムを符号化することにより、第1及び第2のオーディオアイテムのために生成し、合成されたオーディオ符号化データを符号化されたオーディオデータに含ませるように構成されている、上記1に記載のオーディオ符号化装置。
3.コンバイナ(215)が、第1のオーディオアイテムと第2のオーディオアイテムとのための入力提示メタデータに応答して、複数のオーディオアイテムから第1のオーディオアイテムと第2のオーディオアイテムとを選択するように構成されている、上記2に記載のオーディオ符号化装置。
4.コンバイナ(215)が、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、第1のオーディオアイテムと第2のオーディオアイテムとを選択するように構成されている、上記2又は3に記載のオーディオ符号化装置。
5.第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとが、利得制約と位置制約との少なくとも一方を有する、上記2から4のいずれかに記載のオーディオ符号化装置。
6.オーディオエンコーダ(205)が、さらに、第1のオーディオアイテムのための入力提示メタデータと第2のオーディオアイテムのための入力提示メタデータとに応答して、合成された提示メタデータを合成されたオーディオアイテムのために生成し、合成された提示メタデータを出力提示メタデータに含めるように構成されている、上記2から5のいずれかに記載のオーディオ復号化装置。
7.オーディオエンコーダ(205)が、合成されたオーディオアイテムのための提示パラメータに対する制約であって、第1のオーディオアイテムのための入力提示メタデータによって示された第1のオーディオアイテムに対する制約と第2のオーディオアイテムのための入力提示メタデータによって示された第2のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成するように構成されている、上記6に記載のオーディオ符号化装置。
8.オーディオエンコーダ(205)が、第2のオーディオアイテムのための入力提示メタデータに応答して、第1のオーディオアイテムの圧縮を適合させるように構成されている、上記1から7のいずれかに記載のオーディオ符号化装置。
9.オーディオエンコーダ(205)が、第2のオーディオアイテムのための入力提示メタデータに応答して第2のオーディオアイテムから第1のオーディオアイテムへのマスキング効果を推定し、マスキング効果に応答して第1のオーディオアイテムの圧縮を適合させるように構成されている、上記8に記載のオーディオ符号化装置。
10.オーディオエンコーダ(205)が、第2のオーディオアイテムのための入力提示メタデータによって示される第2のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、第2のオーディオアイテムから第1のオーディオアイテムへのマスキング効果を推定するように構成されている、上記9に記載のオーディオ符号化装置。
11.オーディオエンコーダ(205)が、さらに、第1のオーディオアイテムのための入力提示メタデータに応答して、第1のオーディオアイテムの圧縮を適合させるように構成されている、上記8から10のいずれかに記載のオーディオ符号化装置。
12.入力提示メタデータが、少なくともいくつかのオーディオアイテムのための優先順位データを有しており、オーディオエンコーダが、入力提示メタデータにおける第1のオーディオアイテムのための優先順位の指示に応答して、第1のオーディオアイテムのための圧縮を適合させるように構成されている、上記1から11のいずれかに記載のオーディオ符号化装置。
13.オーディオエンコーダ(205)が、入力提示メタデータに応答して符号化がどのように適合されるかを示す符号化適合データを生成し、符号化適合データを符号化されたオーディオデータのストリームに含めるように構成されている、上記1から12のいずれかに記載のオーディオ符号化装置。
14.オーディオシーンを表す複数のオーディオアイテムを受け取るステップと、
複数のオーディオアイテムのための入力提示メタデータを受け取るステップであって、入力提示メタデータが、複数のオーディオアイテムのレンダリングに対する提示制約を記述する、受け取るステップと、
入力提示メタデータに応答して複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータをオーディオシーンのために生成するステップと、
入力提示メタデータから出力提示メタデータを生成するステップと、
符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するステップと、
を有するオーディオを符号化する方法。
15.コンピュータプログラムコード手段を有するコンピュータプログラム製品であって、コンピュータプログラムコード手段が、プログラムがコンピュータ上で動作させられるときに上記14に記載の方法のすべてのステップを実行するように適合されている、コンピュータプログラム製品。
より具体的には、本発明は、添付の特許請求の範囲によって定義される。
以上では、いくつかの実施形態との関係で本発明が説明されてきたが、本発明が本明細書に記載されている特定の形態に限定されることは、意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ、限定される。さらに、ある特徴が特定の実施形態との関係で説明されているように見えるかもしれないが、当業者であれば、説明された実施形態の様々な特徴は本発明に従って組み合わされる、ということを認識するであろう。特許請求の範囲では、「有する」という用語が、他の要素又はステップの存在を排除することはない。
さらに、個別に列挙されているとしても、複数の手段、要素、回路又は方法のステップが、例えば単一の回路、ユニット又はプロセッサによって実装される場合もある。その上に、個別の特徴が異なる請求項に含まれていることもあるが、それらは、場合によっては、有利に組み合わされるのであって、異なる請求項に含まれていても、そのことが、特徴の組合せは実現可能ではない及び/又は有利ではない、ということを意味しない。また、ある特徴を1つのカテゴリの請求項に含めることは、そのカテゴリへの限定を意味せず、むしろ、その特徴が必要に応じて他の請求項カテゴリにも等しく適用可能であることを示している。さらに、請求項における特徴の順序は、それらの特徴が機能しなければならないどのような特定の順序も意味しておらず、特に、方法の請求項における個々のステップの順序は、それらのステップがこの順序で実行されなければならないことを意味しない。むしろ、それらのステップは、いずれかの適切な順序で実行される。その上で、単数への言及が、複数を除外することはない。したがって、単数形の表現、「第1の」、「第2の」などへの言及が、複数を排除することはない。請求項における参照符号は、単に明確化のための例として提供されているにすぎず、いかなる様態でも請求項の範囲を限定するものとして解釈されてはならない。

Claims (15)

  1. オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機と、
    前記複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機であって、前記入力提示メタデータが、前記複数のオーディオアイテムのレンダリングに対する提示制約であって、前記複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、メタデータ受信機と、
    前記入力提示メタデータに応答して前記複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータを前記オーディオシーンのために生成するためのオーディオエンコーダと、
    前記入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路であって、前記出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、前記符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、メタデータ回路と、
    前記符号化されたオーディオデータと前記出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路と、
    を有する、オーディオ符号化装置。
  2. 前記オーディオエンコーダが、前記複数のオーディオアイテムの中の少なくとも第1のオーディオアイテムと第2のオーディオアイテムとを、前記第1のオーディオアイテムのための入力提示メタデータと前記第2のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナを有しており、前記オーディオエンコーダが、合成されたオーディオ符号化データを、前記合成されたオーディオアイテムを符号化することにより、前記第1及び第2のオーディオアイテムのために生成して、前記合成されたオーディオ符号化データを前記符号化されたオーディオデータに含ませる、請求項1に記載のオーディオ符号化装置。
  3. 前記コンバイナが、前記第1のオーディオアイテムと前記第2のオーディオアイテムとのための前記入力提示メタデータに応答して、前記複数のオーディオアイテムから前記第1のオーディオアイテムと前記第2のオーディオアイテムとを選択する、請求項2に記載のオーディオ符号化装置。
  4. 前記コンバイナが、前記第1のオーディオアイテムのための入力提示メタデータと前記第2のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、前記第1のオーディオアイテムと前記第2のオーディオアイテムとを選択する、請求項2又は3に記載のオーディオ符号化装置。
  5. 前記第1のオーディオアイテムのための前記入力提示メタデータと前記第2のオーディオアイテムのための前記入力提示メタデータとが、利得制約と位置制約との少なくとも一方を有する、請求項2から4のいずれか一項に記載のオーディオ符号化装置。
  6. 前記オーディオエンコーダが、さらに、前記第1のオーディオアイテムのための前記入力提示メタデータと前記第2のオーディオアイテムのための前記入力提示メタデータとに応答して、合成された提示メタデータを前記合成されたオーディオアイテムのために生成し、前記合成された提示メタデータを前記出力提示メタデータに含める、請求項2から5のいずれか一項に記載のオーディオ復号化装置。
  7. 前記オーディオエンコーダが、前記合成されたオーディオアイテムのための提示パラメータに対する制約であって、前記第1のオーディオアイテムのための入力提示メタデータによって示された前記第1のオーディオアイテムに対する制約と前記第2のオーディオアイテムのための入力提示メタデータによって示された前記第2のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成する、請求項6に記載のオーディオ符号化装置。
  8. 前記オーディオエンコーダが、第2のオーディオアイテムのための入力提示メタデータに応答して、第1のオーディオアイテムの圧縮を適合させる、請求項1から7のいずれか一項に記載のオーディオ符号化装置。
  9. 前記オーディオエンコーダが、前記第2のオーディオアイテムのための入力提示メタデータに応答して前記第2のオーディオアイテムから前記第1のオーディオアイテムへのマスキング効果を推定し、前記マスキング効果に応答して前記第1のオーディオアイテムの前記圧縮を適合させる、請求項8に記載のオーディオ符号化装置。
  10. 前記オーディオエンコーダが、前記第2のオーディオアイテムのための前記入力提示メタデータによって示される前記第2のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、前記第2のオーディオアイテムから前記第1のオーディオアイテムへの前記マスキング効果を推定する、請求項9に記載のオーディオ符号化装置。
  11. 前記オーディオエンコーダが、さらに、前記第1のオーディオアイテムのための入力提示メタデータに応答して、前記第1のオーディオアイテムの前記圧縮を適合させる、請求項8から10のいずれか一項に記載のオーディオ符号化装置。
  12. 前記入力提示メタデータが、少なくともいくつかのオーディオアイテムのための優先順位データを有しており、前記オーディオエンコーダが、前記入力提示メタデータにおける前記第1のオーディオアイテムのための優先順位の指示に応答して、第1のオーディオアイテムのための圧縮を適合させる、請求項1から11のいずれか一項に記載のオーディオ符号化装置。
  13. 前記オーディオエンコーダが、前記入力提示メタデータに応答して前記符号化がどのように適合されるかを示す符号化適合データを生成し、前記符号化適合データを前記符号化されたオーディオデータのストリームに含める、請求項1から12のいずれか一項に記載のオーディオ符号化装置。
  14. オーディオシーンを表す複数のオーディオアイテムを受け取るステップと、
    前記複数のオーディオアイテムのための入力提示メタデータを受け取るステップであって、前記入力提示メタデータが、前記複数のオーディオアイテムのレンダリングに対する提示制約であって、前記複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、受け取るステップと、
    前記入力提示メタデータに応答して前記複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータを前記オーディオシーンのために生成するステップと、
    前記入力提示メタデータから出力提示メタデータを生成するステップであって、前記出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、前記符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、生成するステップと、
    前記符号化されたオーディオデータと前記出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するステップと、
    を有する、オーディオを符号化する方法。
  15. コンピュータプログラムコード手段を有するコンピュータプログラムであって、前記コンピュータプログラムコード手段が、前記プログラムがコンピュータ上で動作させられるときに請求項14に記載の方法のすべての前記ステップを実行するように適合されている、コンピュータプログラム。
JP2022521735A 2019-10-14 2020-10-08 オーディオ符号化のための装置及び方法 Pending JP2022551535A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19202935.3A EP3809709A1 (en) 2019-10-14 2019-10-14 Apparatus and method for audio encoding
EP19202935.3 2019-10-14
PCT/EP2020/078297 WO2021074007A1 (en) 2019-10-14 2020-10-08 Apparatus and method for audio encoding

Publications (2)

Publication Number Publication Date
JP2022551535A true JP2022551535A (ja) 2022-12-09
JPWO2021074007A5 JPWO2021074007A5 (ja) 2023-10-16

Family

ID=68280951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022521735A Pending JP2022551535A (ja) 2019-10-14 2020-10-08 オーディオ符号化のための装置及び方法

Country Status (8)

Country Link
US (1) US20220383885A1 (ja)
EP (2) EP3809709A1 (ja)
JP (1) JP2022551535A (ja)
KR (1) KR20220084113A (ja)
CN (1) CN114600188A (ja)
BR (1) BR112022006905A2 (ja)
MX (1) MX2022004393A (ja)
WO (1) WO2021074007A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
US11622221B2 (en) 2021-05-05 2023-04-04 Tencent America LLC Method and apparatus for representing space of interest of audio scene
CN117501362A (zh) * 2021-06-15 2024-02-02 北京字跳网络技术有限公司 音频渲染系统、方法和电子设备
WO2022262758A1 (zh) * 2021-06-15 2022-12-22 北京字跳网络技术有限公司 音频渲染系统、方法和电子设备
GB2608406A (en) * 2021-06-30 2023-01-04 Nokia Technologies Oy Creating spatial audio stream from audio objects with spatial extent

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI447709B (zh) * 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
WO2014099285A1 (en) * 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
EP3605531A4 (en) * 2017-03-28 2020-04-15 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM

Also Published As

Publication number Publication date
KR20220084113A (ko) 2022-06-21
EP4046385A1 (en) 2022-08-24
EP3809709A1 (en) 2021-04-21
US20220383885A1 (en) 2022-12-01
WO2021074007A1 (en) 2021-04-22
MX2022004393A (es) 2022-05-18
BR112022006905A2 (pt) 2022-07-05
CN114600188A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
JP2022551535A (ja) オーディオ符号化のための装置及び方法
US9460729B2 (en) Layered approach to spatial audio coding
JP5281575B2 (ja) オーディオオブジェクトのエンコード及びデコード
JP4708493B2 (ja) バイノーラル音響信号の動的な復号
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
KR101790641B1 (ko) 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
JP5319704B2 (ja) オーディオ信号の処理方法及び装置
EP3761672B1 (en) Using metadata to aggregate signal processing operations
TW202347316A (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
CN112673649A (zh) 空间音频增强
GB2580899A (en) Audio representation and associated rendering
EP3818730A1 (en) Energy-ratio signalling and synthesis
EP3923280A1 (en) Adapting multi-source inputs for constant rate encoding
RU2823537C1 (ru) Устройство и способ кодирования аудио
US20230360660A1 (en) Seamless scalable decoding of channels, objects, and hoa audio content
KR20240012519A (ko) 3차원 오디오 신호를 처리하기 위한 방법 및 장치
JP2024518846A (ja) 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
Fug et al. An Introduction to MPEG-H 3D Audio
JP2023044657A (ja) イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置
EP4035428A1 (en) Presentation of premixed content in 6 degree of freedom scenes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231005