JP2022506338A - オーディオ・エンコーダおよびオーディオ・デコーダ - Google Patents

オーディオ・エンコーダおよびオーディオ・デコーダ Download PDF

Info

Publication number
JP2022506338A
JP2022506338A JP2021523656A JP2021523656A JP2022506338A JP 2022506338 A JP2022506338 A JP 2022506338A JP 2021523656 A JP2021523656 A JP 2021523656A JP 2021523656 A JP2021523656 A JP 2021523656A JP 2022506338 A JP2022506338 A JP 2022506338A
Authority
JP
Japan
Prior art keywords
audio
audio objects
dynamic
objects
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021523656A
Other languages
English (en)
Other versions
JP7504091B2 (ja
Inventor
フリードリヒ,トビアス
プルンハーゲン,ハイコ
ゴルロフ,スタニスラフ
メルピラット,セリーヌ
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2022506338A publication Critical patent/JP2022506338A/ja
Application granted granted Critical
Publication of JP7504091B2 publication Critical patent/JP7504091B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本開示は、オーディオ符号化の分野に関し、特に、少なくとも2つのデコード・モードを有するオーディオ・デコーダ、ならびにそのようなオーディオ・デコーダのための関連するデコード方法およびデコード・ソフトウェアに関する。デコード・モードの一つでは、少なくとも1つの動的オーディオ・オブジェクトが静的オーディオ・オブジェクトの集合にマッピングされ、前記静的オーディオ・オブジェクトの集合はあらかじめ定義されたスピーカー構成に対応する。本開示はさらに、対応するオーディオ・エンコーダならびにかかるオーディオ・エンコーダのための関連するエンコード方法およびエンコード・ソフトウェアに関する。

Description

関連出願への相互参照
本願は、以下の優先権出願の優先権を主張する:米国仮出願第62/754,758号(整理番号:D18053USP1)、2018年11月2日出願、欧州特許出願第18204046.9号(整理番号:D18053EP)、2018年11月2日出願、および米国仮出願第62/793,073号(整理番号:D18053USP2)。これらはここに参照により組み込まれる。
技術分野
本開示は、オーディオ符号化の分野に関し、特に、少なくとも2つのデコード・モードを有するオーディオ・デコーダ、ならびにそのようなオーディオ・デコーダのための関連するデコード方法およびデコード・ソフトウェアに関する。本開示は、さらに、対応するオーディオ・エンコーダ、およびそのようなオーディオ・エンコーダのための関連するエンコード方法およびエンコード・ソフトウェアに関する。
オーディオ・シーンは、一般に、オーディオ・オブジェクトを含むことができる。オーディオ・オブジェクトは、関連する空間位置を有するオーディオ信号である。オーディオ・オブジェクトの空間位置が時間とともに変化する場合、そのオーディオ・オブジェクトは、典型的には、動的オーディオ・オブジェクトと呼ばれる。位置が静的である場合、オーディオ・オブジェクトは、典型的には、静的オーディオ・オブジェクトまたはベッド・オブジェクトと呼ばれる。ベッド・オブジェクトは、典型的には、左右のスピーカーをもつ古典的なステレオ構成、または3つのフロントスピーカー、2つのサラウンドスピーカー、および低周波効果スピーカーをもついわゆる5.1スピーカー構成などのマルチチャネルスピーカー構成のチャネルに直接対応するオーディオ信号である。ベッドは、1ないし多数個のベッド・オブジェクトを含むことができる。それは、このようにマルチチャネルスピーカー構成にマッチできるベッド・オブジェクトの集合である。
オーディオ・オブジェクトの数は、典型的には非常に多いことがあり、たとえば、数十または数百個のオーダーのオーディオ・オブジェクトがあるので、オーディオ・オブジェクトが、エンコーダ側でたとえばビットストリーム(データ・ストリームなど)として伝送するために効率的に圧縮できるようにするエンコード方法が必要とされている。伝送のために低ビットレートを目標とするときには特にそうである。その際、動的オーディオ・オブジェクトのクラスターは、オーディオ・デコーダにおけるある種のデコード・モードでは、個々のオーディオ・オブジェクトに再度パラメトリックに再構成される。オーディオ信号の再生のために使用される出力装置(たとえば、スピーカー、ヘッドフォンなど)の構成に依存して、出力オーディオ信号の集合にレンダリングされるためである。しかしながら、場合によっては、デコーダは、コアモードで機能することを強制され、このことは、たとえばデコーダの処理能力の制約または他の理由のために、動的オーディオ・オブジェクトのクラスターから個々の動的オーディオ・オブジェクトをパラメトリックに再構成することが可能でないことを意味する。これは、没入的オーディオ体験(たとえば、3Dオーディオ)が出力オーディオを聴いているユーザーから期待される場合には特に、問題を引き起こすことがある。
よって、この文脈での改善が必要である。
上記を考慮すると、本発明の目的は、上述の問題の少なくともいくつかを克服または緩和することである。特に、本開示の目的は、コア・デコード・モードにあるデコーダにおいて、受領された動的オーディオ・オブジェクトから、好ましくは没入的なオーディオ出力を提供することである。さらに、上記のようにオーディオ・ビットストリームを好ましくは没入的なオーディオ・オブジェクトにデコードすることを許容しうる仕方で、動的オーディオ・オブジェクトの集合からオーディオ・ビットストリームをエンコードするためのエンコーダを提供することが本開示の目的である。本発明のさらなるおよび/または代替的な目的は、本開示の読者にとって明らかであろう。
本発明の第1の側面によれば、受領されたオーディオ・ビットストリームを格納するための一つまたは複数のバッファと、前記一つまたは複数のバッファに結合されたコントローラとを有するオーディオ・デコーダが提供される。
コントローラは、複数の異なるデコード・モードから選択されたデコード・モードで動作するように構成され、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、第1のデコード・モードおよび第2のデコード・モードのうち、第1のデコード・モードのみが、ビットストリーム内の一つまたは複数のエンコードされた動的オーディオ・オブジェクトを、再構成された個々のオーディオ・オブジェクトに完全にデコードすることを許容する。
選択されたデコード・モードが第2のデコード・モードである場合、コントローラは、受領されたオーディオ・ビットストリームにアクセスし、受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定し、少なくとも受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを静的オーディオ・オブジェクトの集合にマッピングするように構成され、前記静的オーディオ・オブジェクトの集合はあらかじめ定義されたスピーカー構成に対応する。
前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも一つを静的オーディオ・オブジェクトの集合にマッピングするステップを含めることによって、動的オーディオ・オブジェクトのクラスターから個々の動的オーディオ・オブジェクトをパラメトリックに再構成することが可能でない(完全なデコードが可能でない)低計算量デコード・モード(コア・デコード)で動作するデコーダにおいてであっても、たとえば10個までのオーディオ・オブジェクト(動的および静的)、または7個、5個などまでのオーディオ・オブジェクトのみを含むように制約された低ビットレートのビットストリームから、没入的オーディオ出力が達成できる。
「没入的(immersive)オーディオ出力」という用語によって、本明細書の文脈においては、上スピーカー(top speakers)のためのチャネルを含むチャネル出力構成が理解されるべきである。
「没入的スピーカー構成」という用語によって、同様の意味、すなわち、上スピーカーを含むスピーカー構成が理解されるべきである。
さらに、本実施形態は、すべての受領された動的オーディオ・オブジェクトが必ずしもあらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングされるわけではないので、柔軟なデコード方法を提供する。これはたとえば、異なる目的、たとえばダイアログや関連するオーディオに役立つ追加のダイアログ・オブジェクトをオーディオ・ビットストリームに含めることを許容する。
さらに、本実施形態は、たとえばより低い計算量を達成するために、またはデコーダを実装するために使用される既存のソフトウェア・コード/関数の再利用を可能にするために、静的オーディオ・オブジェクトの集合を提供し、後にレンダリングする柔軟なプロセスを許容する。これについてはのちにさらに論じる。
一般に、本実施形態は、低ビットレート、低計算量のシナリオにおいてデコーダ側の柔軟性を可能にする。
受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むことをコントローラが判定するステップは、種々の仕方で達成できる。いくつかの実施形態によれば、これは、ビットストリーム、たとえば整数値またはフラグ値などのメタデータから決定される。他の実施形態では、これは、オーディオ・オブジェクトまたは関連するオブジェクト・メタデータの解析によって決定されてもよい。
コントローラは、デコード・モードを種々の仕方で選択できる。たとえば、選択は、ビットストリーム・パラメータを使用して、および/またはレンダリングされた出力オーディオ信号のための出力構成に鑑みて、および/またはオーディオ・ビットストリーム内の動的オーディオ・オブジェクト(ダウンミックスオーディオ・オブジェクト、クラスターなど)の数をチェックすることによって、および/またはユーザー・パラメータに基づいて、などで行なうことができる。一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを静的オーディオ・オブジェクトの集合にマッピングする決定は、単に受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかの判定よりも多くの情報を用いて行なうことができることに留意しておくべきである。
いくつかの実施形態によれば、コントローラは、ビットストリーム・パラメータなどのさらなるデータにも基づいて、そのような決定を行なう。例として、受領されたオーディオ・ビットストリームが動的オーディオ・オブジェクトを含まないと判定された場合、または他の事情で上述の動的オーディオ・オブジェクトのマッピングが実行されるべきでないと判定された場合、コントローラは、たとえば出力オーディオ・チャネルの構成に適用可能な受領されたレンダリング係数(たとえばダウンミックス係数)を用いて、受領された静的オーディオ・オブジェクト(ベッド・オブジェクト)を出力オーディオ・チャネルの集合に直接レンダリングすることを決定してもよい。コントローラのこの動作モードでは、受領された動的オーディオ・オブジェクトは通常の仕方で、出力オーディオ・チャネルにレンダリングされる。
いくつかの実施形態によれば、選択されたデコード・モードが第2のデコード・モードである場合、コントローラは、静的オーディオ・オブジェクトの集合を出力オーディオ・チャネルの集合にレンダリングするようにさらに構成される。(LFEのような)オーディオ・ビットストリームにおいて受領された他の任意の静的オーディオ・オブジェクトも、有利には同じレンダリング・ステップで、出力オーディオ・チャネルの集合にレンダリングされる。
いくつかの実施形態によれば、出力オーディオ・チャネルのセットの構成は、上記のように動的オーディオ・オブジェクトを静的オーディオ・オブジェクトの集合にマッピングするために使用されるあらかじめ定義されたスピーカー構成とは異なる。あらかじめ定義されたスピーカー構成は、出力オーディオ・チャネルの構成に限定されないため、向上した柔軟性が達成される。
いくつかの実施形態によれば、オーディオ・ビットストリームは、ダウンミックス係数の第1の集合を含み、コントローラは、静的オーディオ・オブジェクトの集合を出力オーディオ・チャネルの集合にレンダリングするために、ダウンミックス係数の第1の集合を利用するように構成される。ビットストリームにおけるさらなる受領された静的オーディオ・オブジェクトの場合、ダウンミックス係数は、静的オーディオ・オブジェクトの集合と該さらなる静的オーディオ・オブジェクトの両方に適用される。
コントローラは、いくつかの実施形態では、受領されたダウンミックス係数の第1の集合をそのまま、静的オーディオ・オブジェクトの集合を出力オーディオ・チャネルの集合にレンダリングするために使用することができる。しかしながら、他の実施形態では、ダウンミックス係数の第1の集合はまず、ビットストリームにおいて受領された前記一つまたは複数の動的オーディオ・オブジェクトを生じさせたエンコーダ側でのダウンミックス動作のタイプに基づいて処理される必要がある。
いくつかの実施形態では、コントローラは、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用された減衰に関する情報を受領するようにさらに構成される。該情報は、ビットストリームにおいて受領されてもよいし、あるいはデコーダにおいてあらかじめ定義されていてもよい。次いで、コントローラは、静的オーディオ・オブジェクトの集合を出力オーディオ・チャネルの集合にレンダリングするためにダウンミックス係数の第1の集合を使用するときに、しかるべくダウンミックス係数の第1の集合を修正するように構成されてもよい。結果として、ダウンミックス係数に含まれるが、エンコーダ側にすでに適用されている減衰が2回適用されることはなく、より良好なリスニング体験が得られる。
いくつかの実施形態では、コントローラは、エンコーダ側で実行されるダウンミックス動作に関する情報を受領するようにさらに構成され、該情報は、オーディオ信号のもとのチャネル構成を定義し、前記ダウンミックス動作は、結果として、オーディオ信号を前記一つまたは複数の動的オーディオ・オブジェクトにダウンミックスする。この場合、コントローラは、ダウンミックス情報に関する情報に基づいて、ダウンミックス係数の第1の集合の部分集合を選択するように構成されてもよく、静的オーディオ・オブジェクトの集合を出力オーディオ・チャネルの集合にレンダリングするために、ダウンミックス係数の第1の集合を利用することは、静的オーディオ・オブジェクトの集合を出力オーディオ・チャネルの集合にレンダリングするためにダウンミックス係数の第1の集合の該部分集合を利用することを含む。これは、エンコーダ側で実行されて結果として前記の受領された一つまたは複数の動的オーディオ・オブジェクトをもたらすすべてのタイプのダウンミックス動作を扱う、より柔軟なデコード方法をもたらしうる。
いくつかの実施形態によれば、コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つのマッピングと、静的オーディオ・オブジェクトの集合のレンダリングとを、単一の行列を用いた組み合わされた計算において実行するように構成される。有利なことに、これは、受領されたオーディオ・ビットストリームにおけるオーディオ・オブジェクトのレンダリングの計算量を減少させることができる。
いくつかの実施形態によれば、コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つのマッピングと、静的オーディオ・オブジェクトの集合のレンダリングとを、それぞれの行列を用いた個々の計算において実行するように構成される。この実施形態では、前記一つまたは複数の動的オーディオ・オブジェクトは、静的オーディオ・オブジェクトの集合にあらかじめレンダリングされており、これはすなわち、前記一つまたは複数の動的オーディオ・オブジェクトの中間ベッド表現を定義する。有利には、これは、オーディオ・シーンのベッド表現を出力オーディオ・チャネルの集合にレンダリングするように適応されたデコーダを実装するために使用される既存のソフトウェア・コード/関数の再利用を可能にする。さらに、この実施形態は、デコーダにおける本明細書に記載される発明の実装の追加的な複雑さを低減する。
いくつかの実施形態によれば、受領されたオーディオ・ビットストリームは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つを識別するメタデータを含む。これは、デコーダ方法の向上した柔軟性を許容する。なぜなら、受領された一つまたは複数の動的オーディオ・オブジェクトのすべてが静的オーディオ・オブジェクトの集合にマッピングされる必要があるわけではなく、コントローラは、前記メタデータを使用して、受領された一つまたは複数の動的オブジェクトのうちのどれがマッピングされるべきか、そしてどれが出力オーディオ・チャネルの集合のレンダリングに直接転送されるべきかを容易に決定することができるからである。
いくつかの実施形態によれば、メタデータは、前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個が、静的オーディオ・オブジェクトの集合にマッピングされるべきであることを示し、コントローラは、前記メタデータに応答して、受領されたオーディオ・ビットストリーム内のあらかじめ定義された位置(単数または複数)から選択された前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個を、静的オーディオ・オブジェクトの集合にマッピングするように構成される。たとえば、N個の動的オーディオ・オブジェクトは、最初のN個の受領された動的オーディオ・オブジェクトであってもよく、または最後のN個の受領された動的オーディオ・オブジェクトであってもよい。結果として、いくつかの実施形態では、前記メタデータに応答して、コントローラは、受領されたオーディオ・ビットストリーム内の前記一つまたは複数の動的オーディオ・オブジェクトのうちの最初のN個を、静的オーディオ・オブジェクトの集合にマッピングするように構成される。これは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つを識別するための、より少ないメタデータ、たとえば整数値を許容する。
いくつかの実施形態によれば、受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、N個より多くの動的オーディオ・オブジェクトを含む。上述したように、たとえば異なる言語でのダイアログを含むオーディオのについて、サポートされる言語のそれぞれについて動的オーディオ・オブジェクトを提供することが有利でありうる。
いくつかの実施形態によれば、受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、前記N個の動的オーディオ・オブジェクトと、K個のさらなる動的オーディオ・オブジェクトとを含み、コントローラは、静的オーディオ・オブジェクトの集合と、K個のさらなるオーディオ・オブジェクトとを出力オーディオ・チャネルの集合にレンダリングするように構成される。よって、たとえば、上記の例による選択された言語(すなわち、対応する動的オーディオ・オブジェクト)は、静的オーディオ・オブジェクトの集合とともに、出力オーディオ信号の集合にレンダリングされうる。
いくつかの実施形態によれば、静的オーディオ・オブジェクトの集合は、M個の静的オーディオ・オブジェクトからなり、M>N>0である。有利なことに、マッピングされる動的オーディオ・オブジェクトの数を減らすことができるので、ビットレートを節約できる。あるいはまた、オーディオ・ビットストリーム内のさらなる動的オーディオ・オブジェクトの数(K)が増加されてもよい。
いくつかの実施形態によれば、受領されたオーディオ・ビットストリームはさらに、一つまたは複数のさらなる静的オーディオ・オブジェクトを含む。該さらなる静的オブジェクトは、LFEまたは他のベッドまたは中間空間フォーマット(Intermediate Spatial Format、ISF)オブジェクトを含みうる。
いくつかの実施形態によれば、出力オーディオ・チャネルの集合は:ステレオ出力チャネル、5.1サラウンドサウンド音声出力チャネル、5.1.2没入的音声出力チャネル、または5.1.4没入的音声出力チャネルのいずれかである。
いくつかの実施形態によれば、前記あらかじめ定義されたスピーカー構成は、5.0.2スピーカー構成である。この実施形態では、Nは5に等しくてもよい。
本発明の第2の側面によれば、上記の目的の少なくとも一部は、以下の段階を含むデコーダにおける方法によって達成される:
-オーディオ・ビットストリームを受領し、受領されたオーディオ・ビットストリームを一つまたは複数のバッファに格納する段階と、
-複数の異なるデコード・モードからデコード・モードを選択する段階であって、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび前記第2のデコード・モードのうち前記第1のデコード・モードのみが、動的オーディオ・オブジェクトのクラスターからの個々の動的オーディオ・オブジェクトのパラメトリック再構成を許容する、段階と;
-選択されたデコード・モードで前記一つまたは複数のバッファに結合されたコントローラを動作させる段階、
-選択されたデコード・モードが第2のデコード・モードである場合、当該方法はさらに、以下の段階をさらに含む:
・コントローラによって、受領されたオーディオ・ビットストリームにアクセスする段階と;
・コントローラによって、受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定する段階と;
・少なくとも、受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、コントローラによって、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを、あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングする段階とを含む。
本発明の第3の側面によれば、上記の目的の少なくとも一部は、処理能力を有する装置によって実行されたときに第2の側面の方法を実行するように適応されたコンピュータ・コード命令を有するコンピュータ可読媒体を備えるコンピュータ・プログラム・プロダクトによって得られる。
第2および第3の側面は、一般に、第1の側面と同じ特徴および利点を有してもよい。
本発明の第4の側面によれば、上記の目的の少なくとも一部は、以下を含むオーディオ・エンコーダによって得られる:
オーディオ・オブジェクトの集合を受領するように構成された受領コンポーネントと;
前記オーディオ・オブジェクトの集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするように構成されたダウンミックス・コンポーネントであって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることが意図されており、前記静的オーディオ・オブジェクトの集合は、あらかじめ定義されたスピーカー構成に対応する、ダウンミックス・コンポーネントと;
前記あらかじめ定義されたスピーカー構成に対応する前記静的オーディオ・オブジェクトの集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるべきダウンミックス係数の第1の集合を決定するよう構成されたダウンミックス係数提供コンポーネントと;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化するように構成されたビットストリーム・マルチプレクサ。
いくつかの実施形態によれば、ダウンミックス・コンポーネントは、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの前記少なくとも1つを同定するメタデータをビットストリーム・マルチプレクサに提供するようにさらに構成され、ビットストリーム・マルチプレクサは、該メタデータを前記オーディオ・ビットストリームに多重化するようにさらに構成される。
いくつかの実施形態によれば、エンコーダは、前記オーディオ・オブジェクトの集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするときに、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つにおいて適用される減衰に関する情報を決定するようにさらに適応され、ビットストリーム・マルチプレクサは、さらに、減衰に関する該情報を前記オーディオ・ビットストリームに多重化するように構成される。
いくつかの実施形態によれば、ビットストリーム・マルチプレクサはさらに、受領コンポーネントによって受領されたオーディオ・オブジェクトのチャネル構成に関する情報を多重化するように構成される。
本発明の第5の側面によれば、上記目的の少なくとも一部は、以下の段階を含むエンコーダにおける方法によって得られる:
-オーディオ・オブジェクトの集合を受領する段階;
-前記オーディオ・オブジェクトの集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスする段階であって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、前記静的オーディオ・オブジェクトの集合は、あらかじめ定義されたスピーカー構成に対応する、段階と;
-前記あらかじめ定義されたスピーカー構成に対応する前記静的オーディオ・オブジェクトの集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために使用されるダウンミックス係数の第1の集合を決定する段階と;
-前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化する段階。
本発明の第6の側面によれば、上記の目的の少なくとも一部は、処理能力を有する装置によって実行されたときに第5の側面の方法を実行するように適応されたコンピュータ・コード命令を有するコンピュータ可読媒体を備えるコンピュータ・プログラム・プロダクトによって得られる。
第5および第6の側面は、一般に、第4の側面と同じ特徴および利点を有してもよい。さらに、第4、第5、および第6の側面は、一般に、第1、第2、および第3の側面と対応する特徴(ただしエンコーダ側からの特徴)を有してもよい。たとえば、エンコーダは、静的オーディオ・オブジェクト(たとえば、LFE)をオーディオ・ビットストリームに含めるように構成されてもよい。
さらに、本発明は、明示的に別段の記載がない限り、特徴のすべての可能な組み合わせに関することが留意される。
上記、ならびに本発明の追加の目的、特徴、および利点は、添付の図面を参照して、本発明の好ましい実施形態の以下の例示的かつ非限定的な詳細な説明によって、よりよく理解されるであろう。図面では、同じ参照番号が同様の要素に対して使用されるであろう。
いくつかの実施形態によるオーディオ・デコーダを示す図である。 第1の実施形態によるデコード動作を示す図である。 第2の実施形態によるデコード動作を示す図である。 第3の実施形態によるデコード動作を示す図である。 いくつかの実施形態によるエンコード動作を示す図である。 一組の出力オーディオ・チャネルをレンダリングするために使用される利得行列を生成するためのオーディオ・デコーダのユニットを例として示している。
これから以下で、本発明の実施形態が示されている添付の図面を参照して、本発明をより詳細に説明する。本明細書に開示されるシステムおよび装置は、動作中に説明される。
下記では、ドルビーAC-4オーディオ・フォーマット(文書ETSI TS103 190-2 V1.2.1(2018-02)において公開されている)が、本発明を例示するためのコンテキストとして使用される。しかしながら、本発明の範囲はAC-4に限定されるものではなく、本明細書に記載される種々の実施形態は、任意の好適なオーディオ・フォーマットのために使用されうることに留意しておくべきである。
いくつかのオーディオ・デコーダにおける計算上の制約のために、動的オーディオ・オブジェクトのクラスターからの個々の動的オーディオ・オブジェクトのパラメトリック再構成は可能ではない。さらに、オーディオ・ビットストリームについての目標ビットレートにおける制約は、オーディオ・ビットストリームの内容の制約を課すことがあり、たとえば、送信されるオーディオ・オブジェクト/オーディオ・チャネルの数を10に制限することがある。さらなる制約は、使用されるエンコード標準に由来し、たとえば、いくつかの特定のケースにおけるある種の符号化ツールの使用を制約することがある。たとえば、AC-4デコーダは、種々のレベルで構成され、レベル3デコーダは、ある種の状況下で没入的オーディオ体験を達成するために有利に使用されうる、A-JCC(Advanced Joint Channel Coding[先進合同チャネル符号化])およびA-CPL(Advanced Coupling[先進結合])のような符号化ツールの使用を制約する。そのような状況は、必須チャネル・エンコード・モードを含んでいてもよいが、そこでは、デコーダはそのようなコンテンツをデコードするための符号化ツールをもたない(たとえば、A-JCCの使用は許可されない)。この場合、本発明は、以下に記載されるように、チャネルベースの没入を「模倣」するために使用されうる。さらなる考えられる制約は、チャネルベースのコンテンツと動的/静的オーディオ・オブジェクト(離散的なオーディオ・オブジェクト)の両方を同じビットストリームに含める可能性を含み、ある種の状況下ではそれが許されないことがある。
本稿では、「クラスター」という用語は、エンコーダ内でダウンミックスされたオーディオ・オブジェクトを指す。このことは図5を参照して後述する。非限定的な例では、10個の個別の動的オブジェクトがエンコーダに入力されてもよい。場合によっては、上述のように、10個の動的オーディオ・オブジェクトすべてを独立して符号化することができないことがある。たとえば、目標ビットレートは、5つの動的オーディオ・オブジェクトを符号化することを許容するだけであるようなものである。この場合、動的オーディオ・オブジェクトの総数を減らす必要がある。考えられる解決策は、10個の動的オーディオ・オブジェクトを、より少数、この例では5個の動的オーディオ・オブジェクトに組み合わせることである。10個の動的オーディオ・オブジェクトを組み合わせる(ダウンミックスする)ことによって導出されるこれらの5個の動的オーディオ・オブジェクトは、本願で「クラスター」と呼ばれる動的なダウンミックスされたオーディオ・オブジェクトである。
本発明は、上記の制約のいくつかを回避し、低いビットレートおよびデコーダ複雑さでオーディオ出力の聴取者に有利な聴取体験を提供することを目的とする。
図1は、例として、オーディオ・デコーダ100を示す。オーディオ・デコーダは、受領されたオーディオ・ビットストリーム110を記憶するための一つまたは複数のバッファ102を含む。いくつかの実施形態では、受領されたオーディオ・ビットストリームは、A-JOC(Advanced Joint Object Coding[先進合同オブジェクト符号化])サブストリームを含み、たとえば、音楽および効果(Music and Effects、M&E)、またはM&Eとダイアログ(dialogue、D)の組み合わせ(すなわち、完全なMAIN(CM))を表わす。
先進合同オブジェクト符号化(A-JOC)は、オブジェクトの集合を効率的に符号化するパラメトリック符号化ツールである。A-JOCは、オブジェクトベースのコンテンツのパラメトリック・モデルに依拠する。この符号化ツールはオーディオ・オブジェクト間の依存性を決定し、知覚ベースのパラメトリック・モデルを利用して、高い符号化効率を達成しうる。
オーディオ・デコーダ100は、前記一つまたは複数のバッファ102に結合されたコントローラ104をさらに含む。よって、コントローラ104は、バッファ102からオーディオ・ビットストリーム110の少なくとも諸部分112を抽出し、エンコードされたオーディオ・ビットストリームをオーディオ出力チャネル118の集合にデコードすることができる。次いで、オーディオ出力チャネル118の集合は、スピーカー120の集合による再生のために使用されうる。
上述のように、オーディオ・デコーダ100、あるいはコントローラ104は、異なるデコード・モードで動作することができる。以下では、2つのデコード・モードがこれを例示する。しかしながら、さらなるデコード・モードが使用されてもよい。
第1のデコード・モード(フル・デコード・モード、複雑デコード・モードなど)では、動的オーディオ・オブジェクトのクラスターからの個々の動的オーディオ・オブジェクトのパラメトリック再構成が可能である。AC-4の文脈では、第1のデコード・モードはA-JOCフル・デコードと呼ばれてもよい。10個の個々の動的オブジェクトおよび5個のクラスター(動的なダウンミックスされたオーディオ・オブジェクト)に関して上述した非限定的な例では、フル・デコード・モードは、5個のクラスターから10個のもとの個々の動的オブジェクト(またはその近似)を再構成することを許容する。
第2のデコード・モード(コア・デコード、低複雑性デコードなど)では、そのような再構成は、デコーダ100における制約のために実行されない。AC-4の文脈では、第2のデコード・モードは、A-JOCコア・デコードと呼ばれてもよい。10個の個々の動的オブジェクトおよび5個のクラスター(動的なダウンミックスされたオーディオ・オブジェクト)に関して上述した非限定的な例では、コア・デコード・モードは、5個のクラスターから10個のもとの個々の動的オブジェクト(またはその近似)を再構成することはできない。
よって、コントローラは、第1のデコード・モードまたは第2のデコード・モードのいずれかのデコード・モードを選択するように構成される。そのような決定は、たとえばデコーダ100のメモリ106に記憶された、デコーダ100の内部パラメータ116に基づいて行なうことができる。代替的または追加的に、決定は、たとえばユーザーからの入力114に基づいてもよい。代替的または追加的に、決定は、オーディオ・ビットストリーム110の内容に基づいてもよい。たとえば、受領されたオーディオ・ビットストリームが、閾値数より多い動的なダウンミックスされたオーディオ・オブジェクト(たとえば、6個より多い、または10個より多い、または文脈に依存して任意の他の好適な数)を含む場合、コントローラは、第2のデコード・モードを選択してもよい。いくつかの実施形態では、オーディオ・ビットストリーム110は、選択すべきデコード・モードをコントローラに示すフラグ値を含んでいてもよい。
たとえば、AC-4の文脈では、ある実施形態によれば、第1のデコード・モードの選択は、以下のうちの1つまたは多数でありうる:
・提示レベル(presentation level)が2以下である(ビットストリーム・パラメータ)。
・出力段が5.1.2出力のために構成されている(ユーザー・パラメータ)。
・A-JOCサブストリームは、最大5つのダウンミックス・オブジェクト(クラスター)を含む(ビットストリーム・パラメータ)。
・アプリケーションは、APIを介してコア・デコードを強制しない(ユーザー・パラメータ)。
以下では、図2~図4との関連で、第2のデコード・モード(コア・デコード)が例示される。
図2は、図1との関連で説明される第2のデコード・モード109の第1の実施形態109aを示す。
コントローラ104は、受領されたオーディオ・ビットストリーム110が一つまたは複数の動的オーディオ・オブジェクト(この実施形態ではみな静的オーディオ・オブジェクトの集合にマッピングされている)を含むかどうかを判定し、受領されたオーディオ・ビットストリームをどのようにデコードするかの決定を、その判定に基づかせるように構成される。いくつかの実施形態によれば、コントローラは、かかる決定を、ビットストリーム・パラメータなどのさらなるデータにも基づかせる。たとえば、AC-4では、コントローラは、以下のビットストリーム・パラメータの一方または両方の値に従って、すなわち、以下の一方が真である場合に、受領されたオーディオ・ビットストリームを図2に記載されるようにデコードすることを決定することができる:
1.「num_bed_obj_ajoc」が0より大きい(たとえば1~7)、または
2.「num_bed_obj_ajoc」がビットストリームに存在せず、「n_fullband_dmx_signals」が6より小さい。
コントローラ104が、一つまたは複数の動的オーディオ・オブジェクト210が考慮に入れられるべきであると決定する場合、任意的に、上述した他のデータも考慮して、コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトの少なくとも1つ210を静的オーディオ・オブジェクトの集合にマッピングするように構成される。図2では、受領されたすべての動的オーディオ・オブジェクトは、静的オーディオ・オブジェクトの集合222にマッピングされ、静的オーディオ・オブジェクトの集合222は、あらかじめ定義されたスピーカー構成に対応する。マッピングは、以下のように行なわれる。オーディオ・ビットストリーム110は、N個の動的オーディオ・オブジェクト210を含む。オーディオ・ビットストリームはさらに、N個の対応するオブジェクト・メタデータ(object audio metadata[オブジェクト・オーディオ・メタデータ]、OAMD)212を含む。各OAMD 212は、N個の動的オーディオ・オブジェクト210のそれぞれの属性、たとえば利得および位置を定義する。N個のOAMD 212は、N個の動的オーディオ・オブジェクト210を静的オーディオ・オブジェクト222の集合にプリレンダリングするために使用される利得行列218を計算206するために使用される。静的オーディオ・オブジェクトの集合のサイズはMである。よって、N個の動的オーディオ・オブジェクト210は、ベッド222、たとえば5.0.2ベッド(M=7)に変換(レンダリング)される。7.0.2(M=9)のような他の構成も等しく可能である。ベッドの構成(たとえば5.0.2)は、デコーダ100においてあらかじめ定義されており、デコーダ100は、この知識を使用して利得行列218を計算206する。換言すれば、静的オーディオ・オブジェクトの集合222は、あらかじめ定義されたスピーカー構成に対応する。よって、この場合の利得行列218は、サイズがM×Nである。
いくつかの実施形態によれば、M>N>0である。
N個の動的オーディオ・オブジェクト210を実際にベッド222にレンダリングすることの利点は、ベッド222(および任意的には図3に記載されるようにさらなる動的オーディオ・オブジェクト)を出力オーディオ信号の集合118にレンダリングするように適応されたデコーダを実装するために使用される既存のソフトウェア・コード/関数を再利用することによって、デコーダ100の残りの動作(すなわち、出力オーディオ信号の集合118を生成すること)を達成できることである。
デコーダは、さらなるOAMD 214の集合を生成する。これらのOAMD 214は、中間レンダリングされたベッド222についての位置および利得を定義する。よって、OAMD 214は、ビットストリームにおいて伝達されず、代わりに、プリレンダリング202の出力において生成される(典型的には5.0.2の)チャネル構成を記述するために、デコーダ内でローカルに「生成」される。たとえば、中間ベッド222が5.0.2として構成される場合、OAMD 214は、5.0.2ベッド222についての位置(L、R、C、Ls、Rs、Ltm、Rtm)および利得を定義する。中間ベッドの別の構成、たとえば3.0.0が用いられる場合、位置はL、R、Cとなる。よって、この実施形態におけるOAMD 214の数は、静止オーディオ・オブジェクト222の数、たとえば5.0.2ベッド222の場合では7に対応する。いくつかの実施形態において、OAMD 214のそれぞれの利得は1である。よって、OAMD 214は、静的オーディオ・オブジェクトの集合222についての属性、たとえば、各静的オーディオ・オブジェクト222についての利得および位置を含む。換言すれば、OAMD 214は、ベッド222のあらかじめ定義された構成を示す。
オーディオ・ビットストリーム110は、ダウンミックス係数216をさらに含む。出力チャネル118の集合の構成に依存して、コントローラは、第2の利得行列220を計算するときに利用されるべき対応するダウンミックス係数216を選択する。例として、出力オーディオ・チャネルの集合は、ステレオ出力チャネル;5.1サラウンド音声出力チャネル 5.1.2没入的音声出力チャネル(immersive audio output configuration[没入的オーディオ出力構成]);5.1.4没入的音声出力チャネル(immersive audio output configuration);7.1サラウンド音声出力チャネル;または9.1サラウンド音声出力チャネルのいずれかである。よって、結果として得られる利得行列は、Ch(出力チャネルの数)×Mのサイズである。選択されたダウンミックス係数は、第2の利得行列220を計算するとき、そのまま使用されてもよい。しかしながら、図6に関連して以下にさらに説明するように、選択されたダウンミックス係数は、もとのオーディオ信号をダウンミックスしてN個の動的オーディオ・オブジェクト210を達成する際にエンコーダ側で実行された減衰を補償するように修正される必要があることがある。さらに、いくつかの実施形態では、受領されたダウンミックス係数216のうちどのダウンミックス係数が第2の利得行列220を計算するために使用されるべきかの選択プロセスは、出力チャネル118の集合の構成に加えて、エンコーダ側で実行されるダウンミックス動作にも基づくことができる。これについては、図6との関連で以下でさらに説明する。
第2の利得行列は、静的オーディオ・オブジェクトの集合222を出力オーディオ・チャネルの集合118にレンダリングするために、デコーダ100のレンダリング段204において使用される。
なお、図2では、LFEは示されていない。この文脈では、LFEは、出力オーディオ・チャネル118の集合に含まれる(またはその中に混合される)よう、最終レンダリング段204に直接伝送されるべきである。
図3では、第2のデコード・モード109の第2の実施形態109bが示されている。図2に示される実施形態と同様に、この実施形態では、コア・デコード・モードでデコードされた低レート伝送(低ビットレートのオーディオ・ビットストリーム)が示されている。図3における相違点は、受領されたオーディオ・ビットストリーム110が、静的オーディオ・オブジェクト222にマップされるN個の動的オーディオ・オブジェクト210に加えて、さらにオーディオ・オブジェクト302を搬送することである。そのような追加のオーディオ・オブジェクトは、離散的で合同な(A-JOC)動的オーディオ・オブジェクトおよび/または静的オーディオ・オブジェクト(ベッド・オブジェクト)またはISFを含んでいてもよい。たとえば、追加のオーディオ・オブジェクト302は、以下を含むことができる:
・LFE(ゼロ~多)
・他のベッド・オブジェクト
・他の動的オブジェクト
・ISF。
よって、いくつかの実施形態では、受領されたオーディオ・ビットストリームに含まれる動的オーディオ・オブジェクトは、N個の動的オーディオ・オブジェクト210より多くなる。たとえば、受領されたオーディオ・ビットストリームに含まれる動的オーディオ・オブジェクトは、N個の動的オーディオ・オブジェクトと、K個のさらなる動的オーディオ・オブジェクトを含む。いくつかの実施形態によれば、受領されたオーディオ・ビットストリームはM&E+Dを含む。その場合、出力チャネル118の集合をレンダリングするときに別個のダイアログが追加される場合、これは、受領オーディオ・ビットストリーム110に含まれうるオーディオ・オブジェクトがわずか10個である低レートの場合に問題を引き起こす可能性がある。出力チャネル118の集合が5.1.2構成であり、ベッド・オブジェクトが使用された(すなわち、レガシー解決策)場合、8つのベッド・オブジェクトが伝送される必要がある。これは、ダイアログを表わす可能なオーディオ・オブジェクトを2つのみを残し、これは、たとえば、5つの異なるダイアログ・オブジェクトがサポートされるべきである場合には、少なすぎる可能性がある。本発明を用いると、没入的出力オーディオは、この場合、たとえば、静的オーディオ・オブジェクトの集合222にマッピング202されたM&Eのための4つ(N個)の動的オーディオ・オブジェクトと、LFEのための1つの追加的な静的オブジェクト302と、ダイアログのための5つ(K個)の追加的な動的オブジェクトとを伝送することによって達成することができる。
図3の実施形態では、N個の動的オーディオ・オブジェクト210は、図2に関連して上述したように、M個の静的オーディオ・オブジェクト222にプリレンダリングされる。
レンダリング204のために、一組のOAMD 214が使用される。受領されたオーディオ・ビットストリームは、この例では、それぞれの追加的なオーディオ・オブジェクト302について1つ、6つのOAMD 214を含む。よって、これら6つのOAMDは、エンコーダ側でオーディオ・ビットストリームに含められ、本稿に記載されるデコード・プロセスのためにデコーダ100において使用される。さらに、図2に関連して上述したように、デコーダは、中間レンダリングされたベッド222についての位置および利得を定義するさらなるOAMD 214の集合を生成する。この例では、合計13のOAMD 214が存在する。OAMD 214は、静的オーディオ・オブジェクトの集合222についての属性、たとえば、各静的オーディオ・オブジェクト222についての利得(すなわち、1)および位置、ならびに、追加的オーディオ・オブジェクト302についての属性、たとえば、各追加的オーディオ・オブジェクト302についての利得および位置を含む。
オーディオ・ビットストリーム110はさらに、ダウンミックス係数216を含み、これは、図2に関連して上述され、図6に関連して後述されるものと同様の出力チャネル118の集合をレンダリングするために利用される。
第2の利得行列220は、静的オーディオ・オブジェクトの集合222およびさらなるオーディオ・オブジェクトの集合302(これは、上記で定義されたように動的オーディオ・オブジェクトおよび/または静的オーディオ・オブジェクトおよび/またはISFオブジェクトを含み得る)を出力オーディオ・チャネル118の集合にレンダリングするために、デコーダ100のレンダリング段204において使用される。
図3において記述される場合では、コントローラは、どの受領された動的オーディオ・オブジェクトが静的オーディオ・オブジェクトの集合222にマッピングされるべきであり、どれが最終レンダリング段204に直接渡されるべきであるかを認識する必要がある。これは、複数の異なる方法で達成することができる。たとえば、各受領されたオーディオ・オブジェクトは、オーディオ・オブジェクトがマッピングされる(プリレンダリングされる)かどうかをコントローラに通知するフラグ値を含んでいてもよい。別の例では、受領されたオーディオ・ビットストリームは、マップされるべき動的オーディオ・オブジェクト(単数または複数)を識別するメタデータを含む。AC-4の文脈では、追加の動的オブジェクトがN個の動的オーディオ・オブジェクトと同じA-JOCサブストリームの一部である場合にのみ、プリレンダラー202に送られる部分集合を、たとえば上述したようなフラグ値またはメタデータを使用して、見出す必要があることに留意しておくべきである。
ある実施形態では、メタデータは、前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個が、静的オーディオ・オブジェクトの集合にマッピングされるべきであることを示し、それにより、コントローラは、これらのN個の動的オーディオ・オブジェクトが、受領されたオーディオ・ビットストリーム内のあらかじめ定義された位置(単数または複数)から選択されるべきであることを知る。マッピングされる動的オーディオ・オブジェクト210は、たとえば、オーディオ・ビットストリーム110内の最初または最後のN個のオーディオ・オブジェクトであってもよい。マッピングされるオーディオ・オブジェクトの数は、(文書ETSI TS103 190-2 V1.2.1(2018-02)で公開されている)AC-4規格において、フラグ値Num_bed_obj_ajoc(num_obj_with_bed_render_infoと呼ばれてもよい)および/またはn_fullband_dmx_signalsによって示されてもよい。他の規格では、フラグ値の他の名前が使われることがありうる。また、フラグ値は、上述のAC-4規格の、より新しいバージョンのために名前が変更される可能性があることにも留意しておくべきである。いくつかの実施形態によれば、num_bed_obj_ajocがゼロより大きい場合、これは、num_bed_obj_ajoc個の動的オブジェクトが静的オーディオ・オブジェクトの集合にマッピングされることを意味する。いくつかの実施形態によれば、num_bed_obj_ajocが存在せず、n_fullband_dmx_signalsが6未満である場合、これは、すべての動的オブジェクトが静的オーディオ・オブジェクトの集合にマッピングされることを意味する。
いくつかの実施形態では、動的オーディオ・オブジェクトは、受領されたビットストリーム110内の任意の静的オーディオ・オブジェクトの前に受領される。他の実施形態では、LFEは、動的オーディオ・オブジェクトおよび任意のさらなる静的オーディオ・オブジェクトの前に、ビットストリーム110において最初に受領される。
図4は、例として、第2のデコード・モード109の第3の実施形態109cを示す。図2~図3の実施形態の二重レンダリング段202、204は、いくつかの場合には、計算の複雑さのために非効率的であるとみなされることがある。結果として、いくつかの実施形態では、受領されたオーディオ・ビットストリーム110のオーディオ・オブジェクト210、302を出力チャネル118の集合にレンダリング204する前に、2つの利得行列218、220は単一の行列404に組み合わされる。この実施形態では、単一のレンダリング段204が使用される。図4のセットアップは、図2に記載される場合、すなわち、静的オーディオ・オブジェクトの集合222にマップされる動的オブジェクト210のみが、受領されるオーディオ・ビットストリーム110に含まれる場合と、図3に記載される場合、すなわち、受領されるオーディオ・ビットストリーム110が、さらなるオーディオ・オブジェクト302をさらに含む場合の両方に適用可能である。図3の場合、図4による行列乗算が使用されるべき場合に備えて、行列218は、追加的オブジェクト302の「素通し」を扱う追加の列および/または行によって増強される必要があることに留意しておくべきである。
図5は、例示として、上記の任意の実施形態に従ってデコードされるべきオーディオ・ビットストリーム110をエンコードするためのエンコーダ500を示す。一般的な表現では、エンコーダ500は、本開示の読者によって理解されるように、そのようなビットストリーム110を達成するために、オーディオ・ビットストリーム110の内容に対応する構成要素を含む。典型的には、エンコーダ500は、オーディオ・オブジェクト(動的および/または静的)の集合を受領するように構成された受領コンポーネント(図示せず)を含む。エンコーダ500は、オーディオ・オブジェクトの集合508を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクト510にダウンミックスするように構成されたダウンミックス・コンポーネント502をさらに含み、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つのダウンミックスされたオーディオ・オブジェクト510は、デコーダ側で複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、該静的オーディオ・オブジェクトの集合は、あらかじめ定義されたスピーカー構成に対応する。ダウンミックス・コンポーネント502は、図6との関連で後述するように、オーディオ・オブジェクトのいくつかを減衰させることがある。この場合、実行される減衰は、デコーダ側で補償される必要がある。結果として、実行された減衰および/またはオーディオ・オブジェクト508の構成の情報が、いくつかの実施形態では、ビットストリーム110に含められる。他の実施形態では、デコーダは、この情報の全部/一部をもってあらかじめ構成されており、結果として、そのような情報はビットストリーム110から省略されてもよい。言い換えると、いくつかの実施形態では、ビットストリーム・マルチプレクサ506は、受領コンポーネントによって受領されたオーディオ・オブジェクト508のチャネル構成に関する情報を前記オーディオ・ビットストリーム内に多重化するようにさらに構成される。もとのチャネル構成(もとのオーディオ信号のフォーマット)は、7.1.4、5.1.4などのような任意の好適な構成であってもよい。いくつかの実施形態では、エンコーダ(たとえば、ダウンミックス・コンポーネント502)は、オーディオ・オブジェクトの集合508を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクト510にダウンミックスするときに、前記一つまたは複数の動的オーディオ・オブジェクト510のうちの少なくとも1つにおいて適用される減衰に関する情報を決定するようにさらに適応される。この情報(図5には示さず)は、次いで、減衰に関する情報を前記オーディオ・ビットストリーム110に多重化するように構成されたビットストリーム・マルチプレクサ506に伝送される。
エンコーダ500は、あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるダウンミックス係数の第1の集合516を決定するために構成されるダウンミックス係数提供コンポーネント504をさらに含む。図6に関連して後述されるように、たとえば、ダウンミックス・コンポーネントによって実行されるダウンミックス動作(減衰および/またはどのようなタイプのダウンミックスが実行されたか、どのような構成からどの構成にだったか)に依存して、デコーダは、結果として得られるダウンミックス係数をレンダリングのために実際に使用する前に、第1の集合のダウンミックス係数516の間でさらなる選択プロセスおよび/または調整を行なう必要があることがある。
エンコーダはさらに、前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクト510とダウンミックス係数の第1の集合516とをオーディオ・ビットストリーム110に多重化するように構成されたビットストリーム・マルチプレクサ506を含む。
いくつかの実施形態では、ダウンミックス・コンポーネント502は、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの前記少なくとも1つのダウンミックスされたオーディオ・オブジェクト510をビットストリーム・マルチプレクサ506に対して同定するメタデータ514をも提供する。この場合、ビットストリーム・マルチプレクサ506は、メタデータ514を前記オーディオ・ビットストリーム110中に多重化するようにさらに構成される。
いくつかの実施形態では、ダウンミックス・コンポーネント502は、ダウンミックス動作の詳細、たとえば、動的オーディオ・オブジェクトの集合508から何個のダウンミックスされたオーディオ・オブジェクトが計算されるべきかを決定するために、目標ビットレート509を受領する。換言すれば、目標ビットレートは、ダウンミックス動作のためのクラスタリング・パラメータを決定することができる。
理解されるように、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクト510が、デコーダ側の静的オーディオ・オブジェクトの集合にマッピングされることが意図される動的オーディオ・オブジェクトよりも多くのものを含む場合、それらについてもダウンミックス係数が計算される必要がある。さらに、静的オーディオ・オブジェクト(たとえば、LFEなど)は、対応するダウンミックス係数とともに、オーディオ・ビットストリーム110に含めるためにビットストリーム・マルチプレクサ506によって送信されてもよい。さらに、オーディオ・ビットストリーム110に含まれる各オーディオ・オブジェクトは、関連するOAMD、たとえば、デコーダ側で静的オーディオ・オブジェクトの集合にマッピングされることが意図されているすべての動的オーディオ・オブジェクト510に関連するOAMD 512を有し、これらは前記オーディオ・ビットストリーム110に多重化される。
図6は、例として、図2~図4の第2の利得行列220が利得行列計算ユニット208を使用してどのように決定されうるかのさらなる詳細を示す。上述したように、利得行列計算ユニット208は、ビットストリームからダウンミックス係数216を受領する。また、利得行列計算ユニット208は、本実施形態では、エンコーダ側で実行されたオーディオ信号のダウンミックスのタイプに関するデータ612を受領する。よって、データ612は、エンコーダ側で実行された、前記N個の動的オーディオ・オブジェクト210をもたらしたダウンミックス動作に関する情報を含む。データ612は、N個の動的オーディオ・オブジェクト210にダウンミックスされているオーディオ信号のもとのチャネル構成を定義する/示すことができる。受領されたデータ612および受領されたダウンミックス係数216に基づいて、ダウンミックス係数(DC)選択・修正ユニット606は、ダウンミックス係数608を決定し、それがその後、上述のOAMD 214および出力チャネル118の構成、たとえば5.1を使用して、第2の利得行列220を形成するよう、利得行列計算ユニット610において使用される。よって、利得行列計算ユニット610は、出力チャネル118の要求された構成のために好適なダウンミックス係数608からそれらの係数を選択し、この特定のオーディオ・レンダリング・セットアップのために使用されるべき第2の利得行列220を決定する。いくつかの実施形態では、DC選択・修正ユニット606は、受領されたダウンミックス係数216からダウンミックス係数の集合608を直接選択してもよい。他の実施形態では、DC選択・修正ユニット606は、まずダウンミックス係数を選択し、次いでそれらを修正して、第2の利得行列220を計算するために利得行列計算ユニット610において使用されるダウンミックス係数608を導出する必要がありうる。
ここで、DC選択・修正ユニット606の機能について、エンコードおよびデコードされたオーディオの特定のセットアップについて例示する。
いくつかの実施形態では、エンコーダによって、伝送されるオーディオ・オブジェクト210のいくつかにおいて/に対して減衰が適用される。そのような減衰は、エンコーダ内でのもとのオーディオ信号の、ダウンミックス・オーディオ信号へのダウンミックス・プロセスの結果である。たとえば、もとのオーディオ信号のフォーマットが7.1.4(L、R、C、LFE、Ls、Rs、Lb、Rb、Tfl、Tfr、Tbl、Tbr)であり、これがエンコーダにおいて5.1.2(Ld、Rd、Cd、LFE、Lsd、Rsd、Tld、Trd)フォーマットにダウンミックスされる場合、Lsd信号はエンコーダ内で:
・N dB(Ls+Lb)
として決定され、Tld信号はエンコーダ内で:
・M dB(Tfl+Tbl)
として決定される。
典型的には、N=M=3であるが、他の減衰レベルが適用されてもよい。
このセットアップでは、このように、LsdおよびTldにおいて3dBの減衰がすでに適用されている。これらの例では、左側のチャネルのみが説明されているが、右側のチャネルは対応して扱われる。
ビットレートをさらに低減するために、ダウンミックス(たとえば、5.1.2チャネル・オーディオ)は、その後、さらにエンコーダにおいて、たとえば、5つの動的オーディオ・オブジェクト(図2および図3における210)に低減されることに留意しておくべきである。
この場合、ビットストリームにおいて伝送される関連するダウンミックス係数216は、以下の通りである。
・gain_tfb_to_tm:上前方および/または上後方から上中央への利得
・gain_t2a、gain_t2b:上前方チャネルの、それぞれ前方チャネルおよびサラウンド・チャネルへの利得
・典型値/デフォルト:gain_t2aは-Inf dBにマップされ、gain_t2bは-3dBにマップされる。これは、-3dBでサラウンド・チャネルにダウンミックスすることを意味する。
・gain_t2d、gain_t2e:上後方チャネルの、前方またはサラウンド・チャネルへの利得
・典型値/デフォルト:gain_t2dは-Inf dBにマップされ、gain_t2eは-3dBにマップされる。これは、-3dBでサラウンド・チャネルにダウンミックスすることを意味する。
・gain_b4_to_b2:後方およびサラウンド・チャネルからサラウンド・チャネルへ
・典型値/デフォルト:-3dBにマップ。
しかしながら、出力チャネル118のオーディオ・フォーマットが5.1であるときに上記のダウンミックス係数が直接適用される場合には、サラウンド出力において上チャネルTflおよびTblが6dBで減衰されることになる、すなわち、すでにエンコーダにおいてすでに適用されているM=3dBと、ビットストリームにおいて受領されたgain_t2bダウンミックス係数の3dBである。同じことは、より低いチャネルLsおよびLbにも当てはまる。これらはサラウンド出力においてやはり6dBで減衰される。すなわち、エンコーダにおいてすでに適用されたN=3dBと、ビットストリームにおいて受領されたgain_b4_to_b2ダウンミックス係数の3dBである。エンコーダ側ですでに行なわれた減衰について補償するために、DC選択・修正ユニット606は、この場合、出力チャネルが次のようにレンダリングされるようにダウンミックス係数608を決定するように構成される:
Lout=Ld+(+M dB+gain_t2a)Tld=L+gain_t2a(Tfl+Tbl)
Lsout=(+N dB+gain_b4_to_b2)Lsd+(+M dB+gain_t2b)Tld=gain_b4_to_b2(Ls+Lb)+gain_t2b(Tfl+Tbl)
この実施形態では、デコーダは、上前方チャネルの、それぞれ前方およびサラウンド・チャネルへの利得であるgain_t2a、gain_t2bを選択する。よって、これらは、上後方チャネルについての利得であるgain_t2d、gain_t2eよりも好ましい。また、上記の式は、エンコーダによってなされた減衰の、デコーダにおける補償という発想を伝えるためのものであり、実際には、これを達成する式は、たとえば、対数dB領域における利得/減衰から線形利得への変換が正しく処理されることを確実にするように設計されることにも留意しておくべきである。
上記を達成するために、デコーダは、エンコーダによってなされた減衰を認識する必要がある。いくつかの実施形態では、N(dB)およびM(dB)の値は、追加のメタデータ602としてビットストリームにおいて示される。よって、追加のメタデータ602は、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用される減衰に関する情報を定義する。他の実施形態では、デコーダは、エンコーダにおいて適用される減衰603を(メモリ604内に)あらかじめ構成されている。たとえば、エンコーダにおける7.1.4(または5.1.4)から5.1.2へのダウンミックスの場合、デコーダは、3dBの減衰が常に実行されることを認識してもよい。実施形態では、デコーダは、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用される減衰に関する情報602、603を受領している。この情報602、603は、どのタイプのダウンミックスがエンコーダにおいて実行されたかを示す受領されたデータ612との関連で、DC選択・修正ユニット606においてダウンミックス係数216を選択および/または調整するために使用されてもよい。選択および/または調整された係数608は、上述したように、第2の利得行列220を形成するために、OAMD 214および出力オーディオ信号118の構成との関連で、利得行列計算ユニット610によって使用される。
別の例示的なセットアップでは、エンコーダにおけるもとのオーディオ信号は、上前方チャネル(L、R、C、LFE、Ls、Rs、Tfl、Tfr)をもつ5.1.2であり、これは、代わりに上中央チャネル(Ld、Rd、Cd、LFE、Lsd、Rsd、Tld、Trd)をもつ5.1.2フォーマットにダウンミックスされる。この実施形態では、エンコーダにおいて減衰は行なわれない。しかしながら、この場合、DC選択・修正ユニット606は、5.1出力信号118についての適切なダウンミックス係数を選択するために、エンコーダ側においてもとの信号構成が何であったかを知る必要がある。この場合、ビットストリームにおいて伝送される関連するダウンミックス係数216は:上前方チャネル、それぞれ前方およびサラウンド・チャネルへの利得であるgain_t2a、gain_t2bである。DC選択・修正ユニット606は、この場合、出力チャネル118が次のようにレンダリングされるように、ダウンミックス係数608を決定するように構成される:
Lout=Ld+gain_t2a(Tld)=L+gain_t2a(Tfl)
Lsout=Lsd+gain_t2b(Tld)=Ls+gain_t2b(Tfl)
上記の記述を吟味したのちには本開示のさらなる実施形態が当業者には明白となるであろう。本記述および図面は実施形態および例を開示しているが、本開示はそうした特定の例に制約されるものではない。数多くの修正および変形が、付属の請求項によって定義される本開示の範囲から外れることなく、なされることができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する際に、当業者によって、開示される実施形態への変形が理解され、実施されることができる。請求項において、単語「有する/含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、当業者には、通信媒体が典型的には、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことはよく知られている。
本発明のさまざまな側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されうる。
〔EEE1〕
受領されたオーディオ・ビットストリームを格納するための一つまたは複数のバッファと;
前記一つまたは複数のバッファに結合されたコントローラとを有するオーディオ・デコーダであって、前記コントローラは:
複数の異なるデコード・モードから選択されたデコード・モードで動作する段階であって、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび第2のデコード・モードのうち、前記第1のデコード・モードのみが、動的オーディオ・オブジェクトのクラスターからの個々のオーディオ・オブジェクトのパラメトリックな再構成を許容する、段階と;
選択されたデコード・モードが前記第2のデコード・モードである場合:
前記受領されたオーディオ・ビットストリームにアクセスし;
前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定し;
少なくとも前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを静的オーディオ・オブジェクトの集合にマッピングする段階とを実行するように構成され、前記静的オーディオ・オブジェクトの集合はあらかじめ定義されたスピーカー構成に対応する、
オーディオ・デコーダ。
〔EEE2〕
選択されたデコード・モードが前記第2のデコード・モードである場合、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするようにさらに構成されている、EEE1に記載のオーディオ・デコーダ。
〔EEE3〕
前記オーディオ・ビットストリームは、ダウンミックス係数の第1の集合を含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用するように構成されている、EEE2に記載のオーディオ・デコーダ。
〔EEE4〕
前記コントローラは、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用された減衰に関する情報を受領するようにさらに構成され、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするためにダウンミックス係数の前記第1の集合を使用するときに、しかるべくダウンミックス係数の前記第1の集合を修正するように構成されている、EEE3に記載のオーディオ・デコーダ。
〔EEE5〕
前記コントローラは、エンコーダ側で実行されるダウンミックス動作に関する情報を受領するようにさらに構成され、該情報は、オーディオ信号のもとのチャネル構成を定義し、前記ダウンミックス動作は、結果として、前記オーディオ信号を前記一つまたは複数の動的オーディオ・オブジェクトにダウンミックスすることになり、前記コントローラは、前記ダウンミックス情報に関する前記情報に基づいて、ダウンミックス係数の前記第1の集合の部分集合を選択するように構成されており、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用することは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするためにダウンミックス係数の前記第1の集合の該部分集合を利用することを含む、EEE3または4に記載のオーディオ・デコーダ。
〔EEE6〕
前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つのマッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、単一の行列を用いた組み合わされた計算において実行するように構成されている、EEE2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE7〕
前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つの前記マッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、それぞれの行列を用いた個々の計算において実行するように構成されている、EEE2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE8〕
前記受領されたオーディオ・ビットストリームは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つを識別するメタデータを含む、EEE1ないし7のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE9〕
前記メタデータは、前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個が、静的オーディオ・オブジェクトの前記集合にマッピングされるべきであることを示し、
前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内のあらかじめ定義された位置(単数または複数)から選択された前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、
EEE8に記載のオーディオ・デコーダ。
〔EEE10〕
前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、N個より多くの動的オーディオ・オブジェクトを含む、EEE9に記載のオーディオ・デコーダ。
〔EEE11〕
前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、前記N個の動的オーディオ・オブジェクトと、K個のさらなる動的オーディオ・オブジェクトとを含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合と、前記K個のさらなるオーディオ・オブジェクトとを出力オーディオ・チャネルの集合にレンダリングするように構成されている、EEE10に記載のオーディオ・デコーダ。
〔EEE12〕
前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内の前記一つまたは複数の動的オーディオ・オブジェクトのうちの最初のN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、EEE9ないし11のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE13〕
静的オーディオ・オブジェクトの前記集合は、M個の静的オーディオ・オブジェクトからなり、M>N>0である、EEE9ないし12のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE14〕
前記受領されたオーディオ・ビットストリームはさらに、一つまたは複数のさらなる静的オーディオ・オブジェクトを含む、EEE1ないし13のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE15〕
出力オーディオ・チャネルの前記集合は:ステレオ出力チャネル;5.1サラウンドサウンド音声出力チャネル;5.1.2没入的音声出力チャネル;または5.1.4没入的音声出力チャネルのいずれかである、EEE2またはEEE2を引用する先行するいずれかのEEEに記載のオーディオ・デコーダ。
〔EEE16〕
前記あらかじめ定義されたスピーカー構成は、5.0.2スピーカー構成である、EEE1ないし15のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE17〕
デコーダにおける方法であって:
オーディオ・ビットストリームを受領し、受領されたオーディオ・ビットストリームを一つまたは複数のバッファに格納する段階と;
複数の異なるデコード・モードからデコード・モードを選択する段階であって、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび前記第2のデコード・モードのうち前記第1のデコード・モードのみが、動的オーディオ・オブジェクトのクラスターからの個々の動的オーディオ・オブジェクトのパラメトリック再構成を許容する、段階と;
選択されたデコード・モードで前記一つまたは複数のバッファに結合されたコントローラを動作させる段階とを含み、
前記選択されたデコード・モードが前記第2のデコード・モードである場合、当該方法はさらに:
前記コントローラによって、前記受領されたオーディオ・ビットストリームにアクセスする段階と;
前記コントローラによって、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定する段階と;
少なくとも、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記コントローラによって、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを、あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングする段階とを含む、
方法。
〔EEE18〕
オーディオ・エンコーダであって、
オーディオ・オブジェクトの集合を受領するように構成された受領コンポーネントと;
オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするように構成されたダウンミックス・コンポーネントであって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることが意図されており、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義されたスピーカー構成に対応する、ダウンミックス・コンポーネントと;
前記あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるべきダウンミックス係数の第1の集合を決定するよう構成されたダウンミックス係数提供コンポーネントと;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化するように構成されたビットストリーム・マルチプレクサとを有する、
エンコーダ。
〔EEE19〕
前記ダウンミックス・コンポーネントは、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの前記少なくとも1つを同定するメタデータを前記ビットストリーム・マルチプレクサに提供するようにさらに構成され、
前記ビットストリーム・マルチプレクサは、該メタデータを前記オーディオ・ビットストリームに多重化するようにさらに構成されている、
EEE18に記載のエンコーダ。
〔EEE20〕
当該エンコーダは、オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするときに、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つにおいて適用される減衰に関する情報を決定するようにさらに適応されており、
前記ビットストリーム・マルチプレクサは、さらに、減衰に関する該情報を前記オーディオ・ビットストリームに多重化するように構成されている、
EEE18または19に記載のエンコーダ。
〔EEE21〕
前記ビットストリーム・マルチプレクサはさらに、前記受領コンポーネントによって受領された前記オーディオ・オブジェクトのチャネル構成に関する情報を前記オーディオ・ビットストリームに多重化するように構成されている、EEE18ないし20のうちいずれか一項に記載のエンコーダ。
〔EEE22〕
エンコーダにおける方法であって:
オーディオ・オブジェクトの集合を受領する段階と;
前記オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスする段階であって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義されたスピーカー構成に対応する、段階と;
前記あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために使用されるダウンミックス係数の第1の集合を決定する段階と;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化する段階とを含む、
方法。
〔EEE23〕
処理能力を有する装置によって実行されたときにEEE17ないし22のうちいずれか一項に記載の方法を実行するように適応された命令を有するコンピュータ可読媒体を備えるコンピュータ・プログラム・プロダクト。

Claims (23)

  1. 受領されたオーディオ・ビットストリームを格納するための一つまたは複数のバッファと;
    前記一つまたは複数のバッファに結合されたコントローラとを有するオーディオ・デコーダであって、前記コントローラは:
    前記受領されたオーディオ・ビットストリームを一つまたは複数の動的もしくは静的オーディオ・オブジェクトにデコードするための複数の異なるデコード・モードから選択されたデコード・モードで動作する段階であって、動的もしくは静的オーディオ・オブジェクトは時間変化するもしくは静的な空間位置に関連付けられたオーディオ信号を含み、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび第2のデコード・モードのうち、前記第1のデコード・モードのみが、前記ビットストリーム内の一つまたは複数のエンコードされた動的オーディオ・オブジェクトの、再構成された個々のオーディオ・オブジェクトへのフル・デコードを許容する、段階と;
    選択されたデコード・モードが前記第2のデコード・モードである場合:
    前記受領されたオーディオ・ビットストリームにアクセスし;
    前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定し;
    少なくとも前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを静的オーディオ・オブジェクトの集合にマッピングする段階とを実行するように構成され、前記静的オーディオ・オブジェクトの集合はあらかじめ定義された没入的スピーカー構成に対応する、
    オーディオ・デコーダ。
  2. 選択されたデコード・モードが前記第2のデコード・モードである場合、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするようにさらに構成されている、請求項1に記載のオーディオ・デコーダ。
  3. 前記オーディオ・ビットストリームは、ダウンミックス係数の第1の集合を含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用するように構成されている、請求項2に記載のオーディオ・デコーダ。
  4. 前記コントローラは、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用された減衰に関する情報を受領するようにさらに構成され、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするためにダウンミックス係数の前記第1の集合を使用するときに、しかるべくダウンミックス係数の前記第1の集合を修正するように構成されている、請求項3に記載のオーディオ・デコーダ。
  5. 前記コントローラは、エンコーダ側で実行されるダウンミックス動作に関する情報を受領するようにさらに構成され、該情報は、オーディオ信号のもとのチャネル構成を定義し、前記ダウンミックス動作は、結果として、前記オーディオ信号を前記一つまたは複数の動的オーディオ・オブジェクトにダウンミックスすることになり、前記コントローラは、前記ダウンミックス情報に関する前記情報に基づいて、ダウンミックス係数の前記第1の集合の部分集合を選択するように構成されており、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用することは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするためにダウンミックス係数の前記第1の集合の該部分集合を利用することを含む、請求項3または4に記載のオーディオ・デコーダ。
  6. 前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つのマッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、単一の行列を用いた組み合わされた計算において実行するように構成されている、請求項2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
  7. 前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つの前記マッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、それぞれの行列を用いた個々の計算において実行するように構成されている、請求項2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
  8. 前記受領されたオーディオ・ビットストリームは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つを識別するメタデータを含む、請求項1ないし7のうちいずれか一項に記載のオーディオ・デコーダ。
  9. 前記メタデータは、前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個が、静的オーディオ・オブジェクトの前記集合にマッピングされるべきであることを示し、
    前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内のあらかじめ定義された位置(単数または複数)から選択された前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、
    請求項8に記載のオーディオ・デコーダ。
  10. 前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、N個より多くの動的オーディオ・オブジェクトを含む、請求項9に記載のオーディオ・デコーダ。
  11. 前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、前記N個の動的オーディオ・オブジェクトと、K個のさらなる動的オーディオ・オブジェクトとを含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合と、前記K個のさらなるオーディオ・オブジェクトとを出力オーディオ・チャネルの集合にレンダリングするように構成されている、請求項10に記載のオーディオ・デコーダ。
  12. 前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内の前記一つまたは複数の動的オーディオ・オブジェクトのうちの最初のN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、請求項9ないし11のうちいずれか一項に記載のオーディオ・デコーダ。
  13. 静的オーディオ・オブジェクトの前記集合は、M個の静的オーディオ・オブジェクトからなり、M>N>0である、請求項9ないし12のうちいずれか一項に記載のオーディオ・デコーダ。
  14. 前記受領されたオーディオ・ビットストリームはさらに、一つまたは複数のさらなる静的オーディオ・オブジェクトを含む、請求項1ないし13のうちいずれか一項に記載のオーディオ・デコーダ。
  15. 出力オーディオ・チャネルの前記集合は:ステレオ出力チャネル;5.1サラウンドサウンド音声出力チャネル;5.1.2没入的音声出力チャネル;または5.1.4没入的音声出力チャネルのいずれかである、請求項2を引用する限りでの請求項1ないし14のうちいずれか一項に記載のオーディオ・デコーダ。
  16. 前記あらかじめ定義された没入的スピーカー構成は、5.0.2スピーカー構成である、請求項1ないし15のうちいずれか一項に記載のオーディオ・デコーダ。
  17. デコーダにおける方法であって:
    オーディオ・ビットストリームを受領し、受領されたオーディオ・ビットストリームを一つまたは複数のバッファに格納する段階と;
    前記受領されたオーディオ・ビットストリームを一つまたは複数の動的もしくは静的オーディオ・オブジェクトにデコードするための複数の異なるデコード・モードからデコード・モードを選択する段階であって、動的もしくは静的オーディオ・オブジェクトは時間変化するもしくは静的な空間位置に関連付けられたオーディオ信号を含み、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび前記第2のデコード・モードのうち前記第1のデコード・モードのみが、前記ビットストリームにおける一つまたは複数のエンコードされた動的オーディオ・オブジェクトの、再構成された個々のオーディオ・オブジェクトへのフル・デコードを許容する、段階と;
    選択されたデコード・モードで前記一つまたは複数のバッファに結合されたコントローラを動作させる段階とを含み、
    前記選択されたデコード・モードが前記第2のデコード・モードである場合、当該方法はさらに:
    前記コントローラによって、前記受領されたオーディオ・ビットストリームにアクセスする段階と;
    前記コントローラによって、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定する段階と;
    少なくとも、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記コントローラによって、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを、あらかじめ定義された没入的スピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングする段階とを含む、
    方法。
  18. オーディオ・エンコーダであって、
    オーディオ・オブジェクトの集合を受領するように構成された受領コンポーネントと;
    オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするように構成されたダウンミックス・コンポーネントであって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることが意図されており、前記静的オーディオ・オブジェクトは静的な空間位置に関連付けられたオーディオ信号を含み、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義された没入的スピーカー構成に対応する、ダウンミックス・コンポーネントと;
    前記あらかじめ定義された没入的スピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるべきダウンミックス係数の第1の集合を決定するよう構成されたダウンミックス係数提供コンポーネントと;
    前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化するように構成されたビットストリーム・マルチプレクサとを有する、
    エンコーダ。
  19. 前記ダウンミックス・コンポーネントは、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの前記少なくとも1つを同定するメタデータを前記ビットストリーム・マルチプレクサに提供するようにさらに構成され、
    前記ビットストリーム・マルチプレクサは、該メタデータを前記オーディオ・ビットストリームに多重化するようにさらに構成されている、
    請求項18に記載のエンコーダ。
  20. 当該エンコーダは、オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするときに、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つにおいて適用される減衰に関する情報を決定するようにさらに適応されており、
    前記ビットストリーム・マルチプレクサは、さらに、減衰に関する該情報を前記オーディオ・ビットストリームに多重化するように構成されている、
    請求項18または19に記載のエンコーダ。
  21. 前記ビットストリーム・マルチプレクサはさらに、前記受領コンポーネントによって受領された前記オーディオ・オブジェクトのチャネル構成に関する情報を前記オーディオ・ビットストリームに多重化するように構成されている、請求項18ないし20のうちいずれか一項に記載のエンコーダ。
  22. エンコーダにおける方法であって:
    オーディオ・オブジェクトの集合を受領する段階と;
    前記オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスする段階であって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、前記静的オーディオ・オブジェクトは静的な空間位置に関連付けられたオーディオ信号を含み、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義された没入的スピーカー構成に対応する、段階と;
    前記あらかじめ定義された没入的スピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために使用されるダウンミックス係数の第1の集合を決定する段階と;
    前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化する段階とを含む、
    方法。
  23. 処理能力を有する装置によって実行されたときに請求項17ないし22のうちいずれか一項に記載の方法を実行するように適応された命令を有するコンピュータ可読媒体を備えるコンピュータ・プログラム・プロダクト。
JP2021523656A 2018-11-02 2019-10-30 オーディオ・エンコーダおよびオーディオ・デコーダ Active JP7504091B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862754758P 2018-11-02 2018-11-02
EP18204046 2018-11-02
US62/754,758 2018-11-02
EP18204046.9 2018-11-02
US201962793073P 2019-01-16 2019-01-16
US62/793,073 2019-01-16
PCT/EP2019/079683 WO2020089302A1 (en) 2018-11-02 2019-10-30 An audio encoder and an audio decoder

Publications (2)

Publication Number Publication Date
JP2022506338A true JP2022506338A (ja) 2022-01-17
JP7504091B2 JP7504091B2 (ja) 2024-06-21

Family

ID=

Also Published As

Publication number Publication date
WO2020089302A1 (en) 2020-05-07
US20220005484A1 (en) 2022-01-06
US11929082B2 (en) 2024-03-12
BR112021008089A2 (pt) 2021-08-03
CN113168838A (zh) 2021-07-23
EP3874491A1 (en) 2021-09-08
EP3874491B1 (en) 2024-05-01
KR20210076145A (ko) 2021-06-23

Similar Documents

Publication Publication Date Title
US11343631B2 (en) Compatible multi-channel coding/decoding
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
US9966080B2 (en) Audio object encoding and decoding
KR101049144B1 (ko) 오디오 신호 처리방법 및 장치
CN106463125B (zh) 基于空间元数据的音频分割
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
EP3050055B1 (en) Rendering of multichannel audio using interpolated matrices
CN107077861B (zh) 音频编码器和解码器
US11929082B2 (en) Audio encoder and an audio decoder
US10176813B2 (en) Audio encoding and rendering with discontinuity compensation
JP2017537342A (ja) オーディオ信号のパラメトリック混合
JP7504091B2 (ja) オーディオ・エンコーダおよびオーディオ・デコーダ
RU2795865C2 (ru) Звуковой кодер и звуковой декодер

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240205

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514