JP2022547038A

JP2022547038A - 低レイテンシ・低音効果コーデック

Info

Publication number: JP2022547038A
Application number: JP2022514462A
Authority: JP
Inventors: ティアギ，リシャブ; マックグラス，デイビッド
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-09-03
Filing date: 2020-09-01
Publication date: 2022-11-10
Also published as: AR125511A2; AU2020340937A1; BR112022003440A2; MX2022002323A; CN114424282A; WO2021046060A1; CA3153258A1; AR125559A2; IL290684A; EP4026122A1; KR20220054645A; US20220293112A1

Abstract

いくつかの実施態様において、低音効果（ＬＦＥ）チャンネルをエンコードする方法は、時間領域ＬＦＥチャンネル信号を受信するステップと、ローパスフィルタを用いて、前記時間領域ＬＦＥチャンネル信号をフィルタリングするステップと、前記フィルタリングされた時間領域ＬＦＥチャンネル信号を、前記ＬＦＥチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記ＬＦＥチャンネル信号の周波数領域表現に変換するステップと、係数を、前記ＬＦＥチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップと、前記ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップと、各サブ帯域グループの前記量子化された係数を、前記サブ帯域グループごとに調整されたエントロピー符号化器を使用してエンコードするステップと、エンコード後の前記量子化された係数を含むビットストリームを生成するステップと、前記ビットストリームを記憶装置に格納する、または前記ビットストリームを下流のデバイスにストリーミングするステップと、を包含する。【選択図】図１

Description

関連出願への相互参照
本出願は、２０１９年０９月０３日に出願された米国仮特許出願第６２／８９５，０４９号および２０２０年０８月２４日に出願された米国仮特許出願第６３／０６９，４２０号の優先権を主張するものであり、これらの各々を本願に参考のため援用する。

本開示は、一般に、オーディオ信号処理に関し、特に、低音効果（ＬＦＥ）チャンネルの処理に関するものである。

背景
没入型サービスの標準化には、音声、マルチストリーム電話会議、仮想現実（ＶＲ）、ユーザー生成のライブおよび非ライブコンテンツストリーミングなどのための没入型音声およびオーディオサービス（ＩＶＡＳ：ＩｍｍｅｒｓｉｖｅＶｏｉｃｅａｎｄＡｕｄｉｏＳｅｒｖｉｃｅ）コーデックの開発が含まれる。ＩＶＡＳ規格の目標は、優れた音質、低レイテンシ、空間オーディオ符号化のサポート、適切な範囲のビットレート、高品質エラーレジリエンス、実用的な実装の複雑度を備えた、単一のコーデックを開発することである。この目標を達成するために、ＩＶＡＳ対応デバイスやＬＦＥ信号を処理できるその他のデバイスにおいて、低レイテンシＬＦＥ動作を扱えるＩＶＡＳコーデックの開発が望まれている。ＬＦＥチャンネルは、２０～１２０Ｈｚの深く低い音を対象としており、典型的には、低周波のオーディオコンテンツを再生するように設計されたスピーカに送られる。

要約
設定可能な低レイテンシＬＦＥコーデックについての実施態様を開示する。

いくつかの実施態様において、低音効果（ＬＦＥ）チャンネルをエンコードする方法は、１つまたは複数のプロセッサを用いて、時間領域ＬＦＥチャンネル信号を受信するステップと、ローパスフィルタを用いて、前記時間領域ＬＦＥチャンネル信号をフィルタリングするステップと、前記１つまたは複数のプロセッサを用いて、前記フィルタリングされた時間領域ＬＦＥチャンネル信号を、前記ＬＦＥチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記ＬＦＥチャンネル信号の周波数領域表現に変換するステップと、前記１つまたは複数のプロセッサを用いて、係数を、前記ＬＦＥチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップと、前記１つまたは複数のプロセッサを用いて、前記ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップと、前記１つまたは複数のプロセッサを用いて、各サブ帯域グループの前記量子化された係数を、前記サブ帯域グループごとに調整されたエントロピー符号化器を使用してエンコードするステップと、前記１つまたは複数のプロセッサを用いて、エンコード後の前記量子化された係数を含むビットストリームを生成するステップと、前記１つまたは複数のプロセッサを用いて、前記ビットストリームを記憶装置に格納する、または前記ビットストリームを下流のデバイスにストリーミングするステップと、を包含する。

いくつかの実施態様において、各サブ帯域グループの前記係数を量子化する前記ステップは、利用可能な量子化点の最大数と前記係数の絶対値の合計とに基づいて、スケーリングシフト係数を生成することと、前記スケーリングシフト係数を用いて前記係数を量子化することと、をさらに含む。

いくつかの実施態様において、ある量子化された係数が前記量子化点の最大数を超える場合、前記スケーリングシフト係数が減少されて前記係数は再び量子化される。

いくつかの実施態様において、前記量子化点は各サブ帯域グループに対して異なる。

いくつかの実施態様において、各サブ帯域グループの前記係数は、精細量子化スキームまたは粗量子化スキームに従って量子化され、前記精細量子化スキームでは、前記粗量子化スキームに従って前記各サブ帯域グループに割り当てられるよりも多くの量子化点が、１つまたは複数のサブ帯域グループに割り当てられる。

いくつかの実施態様において、前記係数のための符号ビットは、前記係数とは別々に符号化される、

いくつかの実施態様において、４つのサブ帯域グループが存在し、第１のサブ帯域グループは０～１００Ｈｚである第１の周波数範囲に対応し、第２のサブ帯域グループは１００～２００Ｈｚである第２の周波数範囲に対応し、第３のサブ帯域グループは２００～３００Ｈｚである第３の周波数範囲に対応し、第４のサブ帯域グループは３００～４００Ｈｚである第４の周波数範囲に対応している。

いくつかの実施態様において、前記エントロピー符号化器は算術エントロピー符号化器である。

いくつかの実施態様において、前記フィルタリングされた時間領域ＬＦＥチャンネル信号を、前記ＬＦＥチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記ＬＦＥチャンネル信号の周波数領域表現に変換する前記ステップは、前記ＬＦＥチャンネル信号の第１のストライド長を決定することと、前記第１のストライド長に基づき、あるウィンドウ関数の第１のウィンドウサイズを指定することと、時間領域ＬＦＥチャンネル信号の１つまたは複数のフレームに前記第１のウィンドウサイズを適用することと、ウィンドウ化された前記フレームに修正離散コサイン変換（ＭＤＣＴ）を適用し、前記係数を生成することと、をさらに含む。

いくつかの実施態様において、前記方法は、前記ＬＦＥチャンネル信号の第２のストライド長を決定するステップと、前記第２のストライド長に基づいて、前記ウィンドウ関数の第２のウィンドウサイズを指定するステップと、前記時間領域ＬＦＥチャンネル信号の前記１つまたは複数のフレームに、前記第２のウィンドウサイズを適用するステップと、をさらに包含する。

いくつかの実施態様において、前記第１のストライド長はＮミリ秒（ｍｓ）であり、Ｎは５ｍｓ以上６０ｍｓ以下であり、前記第１のウィンドウサイズは１０ｍｓ以上であり、前記第２のストライド長は５ｍｓであり、前記第２のウィンドウサイズは１０ｍｓである。

いくつかの実施態様において、前記第１のストライド長は２０ミリ秒（ｍｓ）であり、前記第１のウィンドウサイズは１０ｍｓ、２０ｍｓ、または４０ｍｓであり、前記第２のストライド長は１０ｍｓであり、前記第２のウィンドウサイズは１０ｍｓまたは２０ｍｓである。

いくつかの実施態様において、前記第１のストライド長は１０ミリ秒（ｍｓ）であり、前記第１のウィンドウサイズは１０ｍｓまたは２０ｍｓであり、前記第２のストライド長は５ｍｓであり、前記第２のウィンドウサイズは１０ｍｓである。

いくつかの実施態様において、前記第１のストライド長は２０ミリ秒（ｍｓ）であり、前記第１のウィンドウサイズは１０ｍｓ、２０ｍｓ、または４０ｍｓであり、前記第２のストライド長は５ｍｓであり、前記第２のウィンドウサイズは１０ｍである。

いくつかの実施態様において、前記ウィンドウ関数は、設定可能なフェード長を有するＫａｉｓｅｒ－Ｂｅｓｓｅｌ－ｄｅｒｉｖｅｄ（ＫＢＤ）ウィンドウ関数である。

いくつかの実施態様において、前記ローパスフィルタは、カットオフ周波数が約１３０Ｈｚ以下の４次バターワースフィルタローパスフィルタである。

いくつかの実施態様において、前記方法は、前記１つまたは複数のプロセッサを用いて、前記ＬＦＥチャンネル信号のあるフレームのエネルギーレベルが閾値未満であるか否かを判断するステップと、前記エネルギーレベルが閾値レベル未満であることに応じて、前記デコーダに無音フレームであることを示す無音フレームインジケータを生成するステップと、前記無音フレームインジケータを前記ＬＦＥチャンネルビットストリームのメタデータに挿入するステップと、無音フレーム検出時にＬＦＥチャンネルビットレートを低減するステップと、をさらに包含する。

いくつかの実施態様において、低音効果（ＬＦＥ）をデコードする方法は、低音効果（ＬＦＥ）チャンネルビットストリームをデコードする方法であって、１つまたは複数のプロセッサを用いて、時間領域ＬＦＥチャンネル信号の周波数スペクトルを表すエントロピー符号化された係数を含むＬＦＥチャンネルビットストリームを受信するステップと、前記１つまたは複数のプロセッサを用いて、エントロピーデコーダを用いて前記量子化された係数をデコードするステップと、前記１つまたは複数のプロセッサを用いて、前記逆量子化された係数を逆量子化するステップであって、エンコーダ中において前記時間領域ＬＦＥチャンネル信号をフィルタリングするために用いられるローパスフィルタの周波数応答曲線に従った周波数帯群に対応するサブ帯域グループ群において、前記係数が量子化された、ステップと、前記１つまたは複数のプロセッサを用いて、前記逆量子化された係数を時間領域ＬＦＥチャンネル信号に変換するステップと、前記１つまたは複数のプロセッサを用いて、時間領域ＬＦＥチャンネル信号の遅延を調節するステップと、ローパスフィルタを用いて、遅延調節された前記ＬＦＥチャンネルの信号をフィルタリングするステップと、を包含する。

いくつかの実施態様において、ローパスフィルタの次数は、前記ＬＦＥチャンネルをエンコードおよびデコードすることによる第１の総アルゴリズム遅延が、前記ＬＦＥチャンネル信号を含むマルチチャンネルオーディオ信号の他のオーディオチャンネルをエンコードおよびデコードすることによる第２の総アルゴリズム遅延以下となるように構成される。

いくつかの実施態様において、前記方法は、前記第２の総アルゴリズム遅延が閾値を超えるか否かを判断するステップと、前記第２の総アルゴリズム遅延が前記閾値を超えたことに応じて、前記ローパスフィルタをＮ次ローパスフィルタとして構成し、ここでＮは２以上の整数であるステップと、前記第２の総アルゴリズム遅延が前記閾値を超えないことに応じて、前記ローパスフィルタの次数をＮ未満に設定するステップと、
をさらに包含する。

本明細書に開示される他の実施態様は、システム、装置およびコンピュータ可読媒体に関する。開示される実施態様の詳細は、添付図面および以下の説明において明らかにされる。他の特徴、目的および利点は、以下の説明、図面および特許請求の範囲から明らかである。

本明細書に開示される特定の実施形態は、以下の利点のうちの１つ以上を提供する。本開示の低レイテンシＬＦＥコーデックは、１）ＬＦＥチャンネルを主に対象とし、２）主に２０～１２０Ｈｚの周波数範囲を対象とするが、低／中ビットレート状況では３００Ｈｚまで、高ビットレート状況では４００Ｈｚまで、オーディオを伝送し、３）入力ローパスフィルタの周波数応答曲線に応じた量子化スキームを適用することにより、低ビットレートを達成し、４）アルゴリズム的レイテンシが低く、２０ミリ秒（ｍｓ）のストライドで動作し、３３ｍｓｅｃの総アルゴリズム的レイテンシ（フレーム化を含み）を有するように設計されており、５）他の状況をサポートするためより小さなストライドとより低いアルゴリズム的レイテンシに構成することが可能であり、ストライド５ｍｓｅｃ、総アルゴリズムレイテンシの（フレーム化を含み）１３ｍｓｅｃまで低い構成が含まれており、６）デコーダ出力において、ＬＦＥコーデックで得られるレイテンシに基づいて自動的にローパスフィルタを選択し、７）無音時には５０ビット／秒（ｂｐｓ）という低ビットレートの無音モードを持ち、８）アクティブフレーム時においては、使用する量子化レベルに応じてビットレートが２キロビット／秒（ｋｂｐｓ）～４ｋｂｐｓの間で変動し、無音フレーム時にはビットレートが５０ｂｐｓになる。

図面において、デバイス、ユニット、命令ブロック、およびデータ要素を表す要素等の図的要素の特定の配列または順序付けは、説明を容易にするために示されている。しかしながら、図面におけるこれらの図的要素の特定の順序付けまたは配列は、処理の特定の順序またはシーケンスが必要とされていることも、プロセスの分離が必要とされていることも暗に意味するように意図しているものではないことが当業者によって理解されるべきである。さらに、図的要素が図面に含まれているということは、そのような要素が全ての実施形態において必要とされることを暗に意味するように意図しているものでもなければ、そのような要素によって表される特徴部をいくつかの実施態様における他の要素に含めることができないかまたは他の要素と組み合わせることができないことを暗に意味するように意図しているものでもない。

さらに、図面において、実線もしくは破線または矢印等の接続要素が、２つ以上の他の図的要素間の接続、関係、または関連付けを示すのに用いられている場合、そのような接続のいかなる要素がないことも、接続、関係、または関連付けが存在する可能性がないことを暗に意味するように意図するものではない。換言すれば、要素間のいくつかの接続、関係、または関連付けは、本開示を分かりにくくしないように図面に示されていない。加えて、図示を容易にするために、要素間の複数の接続、関係、または関連付けを表すのに、単一の接続要素が用いられる。例えば、接続要素が、信号、データ、または命令の通信を表す場合、そのような要素は、通信を実施するために必要に応じて、１つまたは複数の信号パスを表すことが当業者によって理解されるべきである。

図１は、１つ以上の実施態様における、ＩＶＡＳおよびＬＦＥビットストリームをエンコードおよびデコードするためのＩＶＡＳコーデックを示す図である。

図２Ａは、１つ以上の実施態様におけるＬＦＥエンコーディングを示すブロック図である。

図２Ｂは、１つ以上の実施態様におけるＬＦＥデコーディングを示すブロック図である。

図３は、１つ以上の実施態様における、１３０Ｈｚのコーナーカットオフを有する４次バターワースローパスフィルタの周波数応答を示すプロットである。

図４は、１つ以上の実施態様における、Ｆｉｅｌｄｅｒウィンドウを示すプロットである。

図５は、１つ以上の実施態様における、周波数による精細量子化点の変化を示す。

図６は、１つ以上の実施態様における、周波数による粗量子化点の変化を示す図である。

図７は、１つ以上の実施態様における、精細量子化により量子化されたＭＤＣＴ係数の確率分布を示す図である。

図８は、１つ以上の実施態様における、粗量子化により量子化されたＭＤＣＴ係数の確率分布を示す図である。

図９は、１つ以上の実施態様における、修正離散コサイン変換（ＭＤＣＴ）係数をエンコードするプロセスのフロー図である。

図１０は、１つ以上の実施態様における、修正離散コサイン変換（ＭＤＣＴ）係数をデコードするプロセスのフロー図である。

図１１は、１つ以上の実施態様における、図１～１０を参照して説明される特徴およびプロセスを実装するためのシステム１１００のブロック図である。

各図面で使用されている同じ参照記号は、同様の要素を示している。

以下の詳細な説明において、説明される様々な実施形態の十分な理解を提供するために、非常に多くの具体的な詳細が述べられている。説明される様々な実施態様は、これらの具体的な詳細がなくても実施することができることが当業者には明らかである。他の場合において、既知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には説明されていない。互いに独立にまたは他の特徴の何らかの組み合わせでそれぞれ使用することができるいくつかの特徴が以下で説明される。

命名法
本明細書に使用されるような用語「含む」／「備える」（include）およびその変異形は、「～を含むが、～に限定されるものではない」を意味する非限定的（open-ended）用語として解釈されるべきである。用語「または」／「もしくは」（or）は、文脈上明らかに他の意味を示していない限り、「および／または」と解釈されるべきである。用語「～に基づいて」（based on）は、「～に少なくとも部分的に基づいて」と解釈されるべきである。用語「１つの例示の実施態様」および「一例示の実施態様」は、「少なくとも１つの例示の実施態様」と解釈されるべきである。用語「別の実施態様」は、「少なくとも１つの別の実施態様」と解釈されるべきである。用語「求められる」（determined）、「求める」／「決定する」（determines, determining）は、「取得する」、「受信する」、「計算する」、「算出する」、「推定する」、「予測する」または「導出する」と解釈されるべきである。加えて、以下の説明および特許請求の範囲において、別段の定義がない限り、本明細書に使用される全ての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般に理解されているものと同じ意味を有する。

システム概要
図１は、１つ以上の実施態様における、ＬＦＥチャンネルビットストリームを含むＩＶＡＳビットストリームをエンコードおよびデコードするための、ＩＶＡＳコーデック１００を示す。ＩＶＡＳコーデック１００は、Ｎ＋１チャンネルのオーディオデータ１０１を、エンコードするために受信する。Ｎチャンネルのオーディオデータ１０１は空間分析・ダウンミックスユニット１０２に入力され、１つのＬＦＥチャンネルはＬＦＥチャンネルエンコードユニット１０５に入力される。オーディオデータ１０１は、モノラル信号、ステレオ信号、バイノーラル信号、空間オーディオ信号（例えば、マルチチャンネル空間オーディオオブジェクト）、１次アンビソニックス（ＦｏＡ：ｆｉｒｓｔｏｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）、高次アンビソニックス（ＨｏＡ：ｈｉｇｈｅｒｏｒｄｅｒＡｍｂｉｓｏｎｉｃｓ）、および他の任意のオーディオデータを含むが、これらに限定されるものではない。

いくつかの実施態様において、空間分析・ダウンミックスユニット１０２は、ステレオオーディオデータを分析／ダウンミックスするためのコンプレックスアドバンスカップリング（ＣＡＣＰＬ）、および／またはＦｏＡオーディオデータを分析／ダウンミックスするための空間再構成（ＳＰＡＲ）を実装するように構成される。他の実施態様では、空間分析・ダウンミックスユニット１０２は他のフォーマットを実装する。空間分析・ダウンミックスユニット１０２の出力は、空間メタデータ、および１～Ｎチャンネルのオーディオデータを含む。空間メタデータは、空間メタデータエンコードユニット１０４に入力される。空間メタデータエンコードユニット１０４は、空間メタデータを量子化し、エントロピー符号化するように構成される。いくつかの実施態様において、量子化は、精細な量子化、中程度な量子化、粗い量子化、および極めて粗い量子化ストラテジーを含むことができ、エントロピー符号化は、ハフマンまたは算術符号化を含むことができる。

オーディオデータの１～Ｎチャンネルは、プライマリオーディオチャンネルエンコードユニット１０３に入力される。プライマリオーディオチャンネルエンコードユニット１０３は、オーディオデータの１～Ｎチャンネルを１つ以上のｅｎｈａｎｃｅｄｖｏｉｃｅｓｅｒｖｉｃｅｓ（ＥＶＳ）ビットストリームに符号化するように構成されている。いくつかの実施態様において、プライマリオーディオチャンネルエンコードユニット１０３は、３ＧＰＰＴＳ２６．４４５に準拠しており、ナローバンド（ＥＶＳ－ＮＢ）およびワイドバンド（ＥＶＳ－ＷＢ）音声サービスについての品質および符号化効率の向上、スーパーワイドバンド（ＥＶＳ－ＳＷＢ）音声を用いた品質の向上、会話用途での混合コンテンツおよび音楽についての品質の向上、パケット損失および遅延ジッタに対するロバスト性ならびにＡＭＲ－ＷＢコーデックへの後方互換性など、広範囲の機能性が提供されている。

いくつかの実施態様において、プライマリオーディオチャンネルエンコードユニット１０３は、前処理・モード選択ユニットを含む。この前処理・モード選択ユニットは、音声信号をエンコードするための音声符号化器と、指定ビットレートでオーディオ信号をエンコードするための知覚符号化器との間の選択を、モード／ビットレート制御に基づいて行う。いくつかの実施態様において、音声エンコーダは、異なる音声クラスに対して専用のＬＰ型モードによって拡張された、代数符号励振線形予測（ＡＣＥＬＰ）の改良型変形である。

いくつかの実施態様において、オーディオエンコーダは、低遅延・低ビットレートで効率が向上した修正離散コサイン変換（ＭＤＣＴ）エンコーダであり、音声エンコーダとオーディオエンコーダとの間のシームレスかつ信頼性の高い切り替えを実行するように設計されている。

前述したように、ＬＦＥチャンネル信号は、２０～１２０Ｈｚの深く低い音を対象としており、典型的には、低周波のオーディオコンテンツを再生するように設計されたスピーカ（例えば、サブウーファ）に送られる。ＬＦＥチャンネル信号は、図２Ａを参照して説明したように、ＬＦＥチャンネル信号をエンコードするように構成されたＬＦＥチャンネル信号エンコードユニット１０５に入力される。

いくつかの実施態様において、ＩＶＡＳデコーダは、空間メタデータを復元するように構成されている空間メタデータデコードユニット１０６と、１～Ｎチャンネルオーディオ信号を復元するように構成されているプライマリオーディオチャンネルデコードユニット１０７とを含む。復元された空間メタデータおよび復元された１～Ｎチャンネルオーディオ信号は、空間合成／アップミキシング／レンダリングユニット１０９に入力される。この空間合成／アップミキシング／レンダリングユニット１０９は、ホームシアターシステム、テレビ会議室システム、仮想現実（ＶＲ）ギアおよびオーディオをレンダリングできる任意の他のオーディオシステムを含むがそれだけに限らない種々のオーディオシステムのスピーカでの再生のために空間メタデータを使用して、１～Ｎチャンネルオーディオ信号をＮ個以上のチャンネル出力オーディオ信号に合成およびレンダリングを行うように構成されている。ＬＦＥチャンネルデコードユニット１０８は、ＬＦＥビットストリームを受信し、図２Ｂを参照して説明したように、ＬＦＥビットストリームをデコードするように構成される。

上述のＬＦＥエンコーディング／デコーディングの実装例は、ＩＶＡＳコーデックによって実行されるが、以下に説明する低レイテンシＬＦＥコーデックは、スタンドアロンのＬＦＥコーデックであってもよいし、低レイテンシと設定可能であることが要求または望まれるオーディオ用途において低周波信号をエンコードおよびデコードする任意の独自または標準のオーディオコーデックに含まれてもよいものである。

図２Ａは、１つ以上の実施形態における、図１に示すＬＦＥチャンネルエンコードユニット１０５の機能コンポーネントを示すブロック図である。図２Ｂは、１つ以上の実施形態における、図１に示されるＬＦＥチャンネルデコーダ１０８の機能コンポーネントを示すブロック図である。ＬＦＥチャンネルデコーダ１０８は、エントロピーデコーディング・逆量子化ユニット２０４、逆ＭＤＣＴ・ウィンドウ化ユニット２０５、遅延調節ユニット２０６、および出力ＬＰＦ２０７を含む。遅延調節ユニット２０６は、ＬＰＦ２０７の前段または後段にあってよく、デコードされたＬＦＥチャンネル信号とプライマリコーデックデコード出力を一致させるために遅延調節（例えば、デコードされたＬＦＥチャンネル信号をバッファリングすることによって）を実行する。以下、図２Ｂを参照して説明したＬＦＥチャンネルエンコードユニット１０５およびＬＦＥチャンネルデコードユニット１０８を総称してＬＦＥコーデックという。

ＬＦＥチャンネルエンコードユニット１０５は、入力ローパスフィルタ（ＬＰＦ）２０１、ウィンドウ化・ＭＤＣＴユニット２０２、および量子化およびエントロピー符号化ユニット２０３を含む。一実施形態において、入力オーディオ信号は、パルスコード変調（ＰＣＭ）オーディオ信号であり、ＬＦＥチャンネルエンコードユニット１０５は、５ミリ秒、１０ミリ秒、または２０ミリ秒のいずれかのストライドを有する入力オーディオ信号を期待する。内部的には、ＬＦＥチャンネルエンコードユニット１０５は、５ミリ秒または１０ミリ秒のサブフレームで動作し、これらのサブフレームの組み合わせでウィンドウ化とＭＤＣＴが実行される。一実施形態において、ＬＦＥチャンネルエンコードユニット１０５は、２０ミリ秒の入力ストライドで動作し、内部的にこの入力を等しい長さの２つのサブフレームに分割する。ＬＦＥへの前の入力フレームの最後のサブフレームは、ＬＦＥへの現在の入力フレームの最初のサブフレームと連結され、ウィンドウ化される。ＬＦＥへの現在の入力フレームの最初のサブフレームは、ＬＦＥへの現在の入力フレームの２番目のサブフレームと連結され、ウィンドウ化される。ＭＤＣＴは、各ウィンドウ化されたブロックに対して１回ずつの、２回実行される。

一実施形態において、アルゴリズム遅延（フレーミング遅延なし）は、８ミリ秒に入力ＬＰＦ１０３によって発生する遅延と出力ＬＰＦ２０７によって発生する遅延を足したものに等しい。４次入力ＬＰＦ２０１および４次出力ＬＰＦ２０７を使用すると、システムの総レイテンシは約１５ミリ秒である。４次入力ＬＰＦ２０１、２次出力ＬＰＦ２０７の場合、総ＬＦＥコーデックレイテンシは約１３ミリ秒となる。

図３は、１つ以上の実施形態における例示的な入力ＬＰＦ２０１の周波数応答を示すプロットである。示された例では、ＬＰＦ２０１は、１３０Ｈｚのカットオフ周波数を有する４次バターワースフィルタである。他の実施形態では、同じまたは異なる次数および同じまたは異なるカットオフ周波数を有する異なるタイプのＬＰＦ（例えば、チェビシェフ（Ｃｈｅｂｙｓｈｅｖ）、ベッセル（Ｂｅｓｓｅｌ））を使用することができる。

図４は、１つ以上の実施形態における、Ｆｉｅｌｄｅｒウィンドウを示すプロットである。一実施形態において、ウィンドウ化・ＭＤＣＴユニット２０２によって適用されるウィンドウ化関数は、８ミリ秒のフェード長を有するＦｉｅｌｄｅｒウィンドウ関数である。Ｆｉｅｌｄｅｒウィンドウは、アルファ＝５のＫａｉｓｅｒ－Ｂｅｓｓｅｌ－ｄｅｒｉｖｅｄ（ＫＢＤ）ウィンドウであり、これは、構造上、ＭＤＣＴのＰｒｉｎｃｅｎ－Ｂｒａｄｌｅｙ条件を満たすウィンドウであり、したがって、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）デジタルオーディオフォーマットと共に使用されるものである。その他のウィンドウ関数も使用可能である。

量子化およびエントロピー符号化
一実施形態において、量子化・エントロピー符号化ユニット２０３は、ＭＤＣＴ係数をより効率的に量子化するために、入力ＬＰＦ２０１の周波数応答曲線に従う量子化ストラテジーを実行する。一実施形態において、周波数範囲は、４つの周波数帯域を表す４つのサブ帯域グループ、すなわち０～１００Ｈｚ、１００～２００Ｈｚ、２００～３００Ｈｚ、３００～４００Ｈｚに分割される。これらの帯域は一例であり、同じまたは異なる周波数範囲を持つより多くの帯域またはより少ない帯域を使用することができる。より詳細には、図５～８に示すように、特定のフレームにおけるＭＤＣＴ係数値に基づいて動的に計算されるスケーリングシフト係数を用いてＭＤＣＴ係数を量子化し、ＬＰＦ周波数応答曲線の通りに量子化点を選択する。この量子化ストラテジーは、１００～２００Ｈｚ、２００～３００Ｈｚ、および３００～４００Ｈｚ帯に属するＭＤＣＴ係数の量子化点を減らすのに役立ち、また一方で、ほとんどの低音効果（例えばランブル（ｒｕｍｂｌｉｎｇ）など）のエネルギーが見出される０～１００ＨｚのプライマリＬＦＥ帯域についての最適量子化点が維持される。

一実施形態において、ＬＦＥチャンネルエンコードユニット１０５へのＦ_ｌｅｎミリ秒（ｍｓ）入力ＰＣＭストライド（入力フレーム長）に対する量子化ストラテジーを以下に説明する。フレーム長Ｆ_ｌｅｎは５＊ｆｍｓによって与えられる任意の値を取ることができ、ここでは１＜＝ｆ＜＝１２である。

まず、入力ＰＣＭストライドを等しい長さのＮ個のサブフレームに分割し、各サブフレーム幅（Ｓ_ｗ）＝Ｆ_ｌｅｎ／Ｎｍｓとする。Ｎは、各Ｓ_ｗが５ｍｓの倍数になるように選択される必要がある（例えば、Ｆ_ｌｅｎ＝２０ｍｓの場合Ｎは１、２または４、Ｆ_ｌｅｎ＝１０ｍｓの場合Ｎは１または２、Ｆ_ｌｅｎ＝５ｍｓの場合Ｎは１に等しくなる）。Ｓ_ｉを所与のフレームにおけるｉ番目のサブフレームとする、ここでｉは範囲０＜＝ｉ＜＝Ｎの整数であり、Ｓ_０はＬＦＥエンコードユニット１０５への前の入力フレームの最後のサブフレームに対応し、Ｓ_１からＳ_Ｎは現在のフレームのＮ個のサブフレームである。

次に、各Ｓ_ｉとＳ_ｉ＋１サブフレームを連結してＦｉｅｌｄｅｒウィンドウ（図４参照）でウィンドウ化し、このウィンドウ化したサンプルに対してＭＤＣＴを行う。この結果、各フレームについて合計Ｎ回のＭＤＣＴが得られる。各ＭＤＣＴのＭＤＣＴ係数の数（ｎｕｍ＿ｃｏｅｆｆｓ）＝サンプリング周波数×Ｓ_ｗ／１０００となる。各ＭＤＣＴの周波数分解能（各ＭＤＣＴ係数の幅）（Ｗ_ｍｄｃｔ）は約１０００／（２×Ｓ_ｗ）Ｈｚとなる。サブウーファは典型的にはＬＰＦカットオフが１００～１２０Ｈｚ付近であり、４００Ｈｚ以降のＬＰＦ後のエネルギーは典型的には非常に小さいことから、４００ＨｚまでのＭＤＣＴ係数を量子化してＬＦＥデコードユニット１０８に送り、残りのＭＤＣＴ係数は０に量子化する。４００ＨｚまでのＭＤＣＴ係数を送ることにより、ＬＦＥデコードユニット１０８での１２０Ｈｚまでの高品質な再構成を確実にすることができる。したがって、量子化および符号化するＭＤＣＴ係数の総数（Ｎ_{ｑｕａｎｔ}）は、Ｎ×４００／Ｗ_ｍｄｃｔに等しくなる。

次に、ＭＤＣＴ係数を、各サブ帯域グループの幅がＷ_ｍｄｃｔの倍数であり、すべてのサブ帯域グループの幅の和が４００Ｈｚに等しいような、Ｍ個のサブ帯域グループに配置する。各サブ帯域の幅をＳＢＷ_ｍＨｚとし、ｍは範囲１＜＝ｍ＜＝Ｍの整数とする。この幅では、ｍ番目のサブ帯域グループの係数の数＝ＳＮ_{ｑｕａｎｔ}＝Ｎ×ＳＢＷ_ｍ／Ｗ_ｍｄｃｔ（すなわち、各ＭＤＣＴからＳＢＷ_ｍ／Ｗ_ｍｄｃｔ個の係数）である。そして、各サブ帯域グループのＭＤＣＴ係数は、Ｎ_{ｑｕａｎｔ}個全てのＭＤＣＴ係数の絶対値の和または最大値によって決定される後述のシフトスケーリング係数（ｓｈｉｆｔ）によりスケーリングされる。次に、各サブ帯域グループのスケーリングされたＭＤＣＴ係数は、エンコーダ入力のＬＰＦ曲線に従う量子化スキームを用いて別々に量子化され、符号化される。量子化されたＭＤＣＴ係数の符号化は、エントロピー符号化器（例えば、算術符号化器やハフマン符号化器）を用いて行われる。各サブ帯域グループは異なるエントロピー符号化器で符号化され、各エントロピー符号化器は適切な確率分布モデルを用いてそれぞれのサブ帯域グループを効率的に符号化する。

２０ミリ秒（ｍｓ）ストライド（Ｆ_ｌｅｎ＝２０ｍｓ）、２サブフレーム（Ｎ＝２）、サンプリング周波数＝４８０００の量子化ストラテジーの例について説明する。この例の入力構成では、サブフレーム幅Ｓ_ｗ＝１０ｍｓ、ＭＤＣＴの数＝Ｎ＝２である。１回目のＭＤＣＴは、２０ｍｓのブロックに対して行われる。このブロックは、前回の２０ｍｓ入力の１０～２０ｍｓのサブフレームと今回の２０ｍｓ入力の０～１０ｍｓのサブフレームを連結し、２０ｍｓ長のＦｉｅｌｄｅｒウィンドウ（図４参照）でウィンドウ化することで形成されたものである。Ｎ＝１およびＮ＝４では、Ｆｉｅｌｄｅｒウィンドウを適宜スケーリングし、フェード長を１６／Ｎｍｓに変更する。２回目のＭＤＣＴは、現在の２０ｍｓの入力フレームを２０ｍｓ長のＦｉｅｌｄｅｒウィンドウでウィンドウ化することにより形成される２０ｍｓのブロックに対して、実行される。各ＭＤＣＴによるＭＤＣＴ係数の数（ｎｕｍ＿ｃｏｅｆｆｓ）＝４８０、各ＭＤＣＴ係数の幅Ｗ_ｍｄｃｔ＝５０Ｈｚ、量子化および符号化する係数の総数Ｎ_{ｑｕａｎｔ}＝１６、ＭＤＣＴ毎の量子化および符号化する係数の総数＝１６／Ｎ＝８とした。

次に、ＭＤＣＴ係数を４つのサブ帯域グループ（Ｍ＝４）に配置する。各サブ帯域グループは１００Ｈｚの帯域に対応する（０～１００、１００～２００、２００～３００、３００～４００、ＳＢＷ_ｍ＝１００Ｈｚ、各サブ帯域グループの係数数＝ＳＮ_{ｑｕａｎｔ}＝Ｎ×ＳＢＷ_ｍ／Ｗ_ｍｄｃｔ＝４）。ａ_１、ａ_２、ａ_３、ａ_４、ａ_５、ａ_６、ａ_７、ａ_８を１回目のＭＤＣＴから量子化する最初の８個のＭＤＣＴ係数、ｂ_１、ｂ_２、ｂ_３、ｂ_４、ｂ_５、ｂ_６、ｂ_７、ｂ_８を２回目のＭＤＣＴから量子化する最初の８個のＭＤＣＴであるとする。４つのサブ帯域グループは、以下の係数を有するように配置される。
サブ帯域グループ１＝｛ａ_１，ａ_２，ｂ_１，ｂ_２｝
サブ帯域グループ２＝｛ａ_３，ａ_４，ｂ_３，ｂ_４｝
サブ帯域グループ３＝｛ａ_５，ａ_６，ｂ_５，ｂ_６｝
サブ帯域グループ４＝｛ａ_７，ａ_８，ｂ_７，ｂ_８｝
ここで各サブ帯域グループは１００Ｈｚの帯域に対応する。

ゲインが約－３０ｄＢ（またはそれ以下）のフレームでは、１０^－２もくしは１０^－１程度またはそれ以下の値のＭＤＣＴ係数を持つことができるが、フルスケールゲインを有するフレームでは、２０以上の値のＭＤＣＴ係数を持つことができる。このような広範囲の値を満たすために、利用可能な量子化点の最大数（ｍａｘ＿ｖａｌｕｅ）とＭＤＣＴ係数の絶対値の和（ｌｆｅ＿ｄｃｔ＿ｎｅｗ）とに基づいて、以下のようにスケーリングシフト係数（ｓｈｉｆｔ）が算出される。
ｓｈｉｆｔ＝ｆｌｏｏｒ（ｓｈｉｆｔｓ＿ｐｅｒ＿ｄｏｕｂｌｅ×ｌｏｇ^２（ｍａｘ＿ｖａｌｕｅ／ｓｕｍ（ａｂｓ（ｌｆｅ＿ｄｃｔ＿ｎｅｗ））））

一実施態様において、ｌｆｅ＿ｄｃｔ＿ｎｅｗは１６個のＭＤＣＴ係数の配列、ｓｈｉｆｔｓ＿ｐｅｒ＿ｄｏｕｂｌｅは定数（例えば４）、ｍａｘ＿ｖａｌｕｅは精細量子化（例えば６３個の量子化値）および粗量子化（例えば３１個の量子化値）に選ばれた整数、ｓｈｉｆｔは精細量子化では４から３５、粗量子化では２から３３の５ビット値に制限されている。

次に、量子化されたＭＤＣＴ係数は、以下のように算出される。
ｖａｌｓ＝ｒｏｕｎｄ（ｌｆｅ＿ｄｃｔ＿ｎｅｗ×（２＾（ｓｈｉｆｔ／ｓｈｉｆｔｓ＿ｐｅｒ＿ｄｏｕｂｌｅ）））
ここでｒｏｕｎｄ（）演算は、結果を最も近い整数値に丸めるものである。

量子化された値（ｖａｌｓ）が利用可能な最大の許容可能な量子化点数（ｍａｘ＿ｖａｌ）を超える場合、スケールシフト係数（ｓｈｉｆｔ）を減らして、量子化された値（ｖａｌｓ）を再度計算する。他の実施態様では、ｓｕｍ関数ｓｕｍ（ａｂｓ（ｌｆｅ＿ｄｃｔ＿ｎｅｗ）））の代わりに、ｍａｘ関数ｍａｘ（ａｂｓ（ｌｆｅ＿ｄｃｔ＿ｎｅｗ）））を使用してスケーリングシフト係数（ｓｈｉｆｔ）を計算できるが、ｍａｘ（）関数を使用すると量子化値がより散らばり、効率の良いエントロピー符号化器の設計が難しくなる。

上述の量子化ステップでは、各サブ帯域グループの量子化された値を１ループで一緒に計算するが、量子化点は各サブ帯域グループごとに異なる。最初のサブ帯域グループが許容範囲を超えた場合、スケーリングシフト係数が減少される。他のサブ帯域グループのいずれかが許容範囲を超えた場合、そのサブ帯域グループはｍａｘ＿ｖａｌｕｅに切り捨てされる。すべてのＭＤＣＴ係数に対する符号ビットおよび量子化されたＭＤＣＴ係数の絶対値は、各サブ帯域グループについて別々に符号化される。

図５は、１つ以上の実施態様における、周波数による精細量子化点の変化を示す図である。精細量子化では、サブ帯域グループ１（０～１００Ｈｚ）は６４個の量子化点、サブ帯域グループ２（１００～２００Ｈｚ）は３２個の量子化点、サブ帯域グループ３（２００～３００Ｈｚ）は８個の量子化点、サブ帯域グループ４（３００～４００Ｈｚ）は２個の量子化点を有する。一実施形態において、各サブ帯域グループは、別々のエントロピー符号化器（例えば、算術符号化器またはハフマンエントロピー符号化器）でエントロピー符号化され、各エントロピー符号化器は異なる確率分布を使用する。したがって、０～１００Ｈｚプライマリ域に、最も多くの量子化点が割り当てられる。

なお、サブ帯域グループ１～４への量子化点の割り当ては、低域の情報が高域よりも多く、カットオフ周波数外の情報が無いＬＰＦ周波数応答曲線の形状に沿っている。１３０Ｈｚまでの周波数を正しく再構成するために、１３０Ｈｚ以上の周波数に対応するＭＤＣＴ係数も符号化し、エイリアシングを回避または最小にする。いくつかの実施態様において、１３０Ｈｚまでの周波数をデコードユニットで適切に再構成できるように、４００ＨｚまでのＭＤＣＴ係数がエンコードされる。

図６は、１つ以上の実施態様における、周波数による粗量子化点の変化を示す図である。粗量子化では、サブ帯域グループ１（０～１００Ｈｚ）は３２個の量子化点を有し、サブ帯域グループ２（１００～２００Ｈｚ）は１６個の量子化点を有し、サブ帯域グループ３（２００～３００Ｈｚ）は４個の量子化点を有し、サブ帯域グループ４（３００～４００Ｈｚ）は量子化およびエントロピー符号化されない。一実施形態において、各サブ帯域グループは、異なる確率分布を用いた別々のエントロピー符号化器でエントロピー符号化される。

図７は、１つ以上の実施態様における、精細量子化により量子化されたＭＤＣＴ係数の確率分布を示す図である。ｙ軸は出現頻度であり、ｘ軸は量子化点の数である。Ｓｇ１は０～１００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ１であり、Ｓｇ２は１００～２００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ２である。Ｓｇ３は、２００～３００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ３である。Ｓｇ４は、３００～４００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ４である。

図８は、１つ以上の実施態様における、粗量子化により量子化されたＭＤＣＴ係数の確率分布を示す図である。ｙ軸は出現頻度であり、ｘ軸は量子化点の数である。Ｓｇ１は０～１００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ１であり、Ｓｇ２は１００～２００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ２である。Ｓｇ３は、２００～３００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ３である。Ｓｇ４は、３００～４００Ｈｚ帯の量子化されたＭＤＣＴ係数に対応するサブ帯域グループ４である。

なお、プライマリ帯域（０～１００Ｈｚ）はＬＦＥ効果が最も多く見られるため、解像度を上げるために量子化点をより多く割り当てている。しかし、粗量子化では、精細量子化よりもプライマリ帯域に割り当てられるビットが少なくなる。一実施形態において、１フレームぶんのＭＤＣＴ係数に対して精細量子化または粗量子化のどちらが使用されるかは、プライマリオーディオチャンネルエンコーダ１０３によって設定される所望の目標ビットレートに依存する。プライマリオーディオチャンネルエンコーダ１０３は、初期化中に一度、または各フレーム中のプライマリオーディオチャンネルをエンコードするために必要なまたは使用されるビットに基づいてフレーム単位で動的に、この値を設定する。

無音フレーム
いくつかの実施態様において、ＬＦＥチャンネルビットストリームに無音フレームを示すための信号が追加される。無音フレームとは、指定された閾値未満のエネルギーを有するフレームである。いくつかの実施態様において、無音フレームを示すために、デコーダに送信されるＬＦＥチャンネルビットストリームに１ビットが含まれ（例えば、フレームヘッダに挿入される）、ＬＦＥチャンネルビットストリーム内のすべてのＭＤＣＴ係数は０に設定される。この技術は、無音フレーム中にビットレートを５０ｂｐｓに低減させることができる。

デコーダＬＰＦ
ＬＰＦ２０７（図２Ｂ参照）を実装するための２つのオプションが、ＬＦＥチャンネルデコードユニット１０８の出力において提供される。ＬＰＦ２０７は、利用可能な遅延（他のオーディオチャンネルの総遅延マイナスＬＦＥフェージング遅延マイナス入力ＬＰＦ遅延）に基づき、選択される。他のチャンネルは、プライマリオーディオチャンネルエンコード／デコードユニット１０３、１０７によってエンコード／デコードされることが期待され、それらチャンネルの遅延は、プライマリオーディオチャンネルエンコード／デコードユニット１０３、１０７のアルゴリズム遅延に依存することに留意されたい。

一実施態様において、利用可能な遅延が３．５ｍｓ未満であれば、１３０Ｈｚでカットオフの２次バターワースＬＰＦが使用され、そうでなければ、１３０Ｈｚでカットオフの４次バターワースＬＰＦが使用される。このように、ＬＦＥチャンネルデコードユニット１０８において、カットオフ周波数を超えるエイリアシングエネルギーの除去とアルゴリズム遅延との間にトレードオフが存在する。いくつかの実施態様において、サブウーファは通常ＬＰＦを有するので、ＬＰＦ２０７は完全に除去することができる。ＬＰＦ２０７は、ＬＦＥデコーダ出力自体においてカットオフを超えるエイリアシングエネルギーを低減するのに役立ち、効率的な後処理に役立つことができる。

プロセス例
図９は、１つ以上の実施態様における、ＭＤＣＴ係数をエンコードするプロセス９００のフロー図である。プロセス９００は、例えば、図１１を参照して説明されるシステム１１００を使用して実装することができる。

プロセス９００は、以下のステップを含む。時間領域ＬＦＥチャンネル信号を受信するステップ（９０１）と、ローパスフィルタを用いて時間領域ＬＦＥチャンネル信号をフィルタリングするステップ（９０２）と、フィルタリングされた時間領域ＬＦＥチャンネル信号を、ＬＦＥチャンネル信号の周波数スペクトルを表す複数の係数を含む、ＬＦＥチャンネル信号の周波数領域表現に変換するステップ（９０３）と、係数をＬＦＥチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップ（９０４）と、スケーリングシフト係数を使用して、ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップ（９０５）と、サブ帯域グループ用に構成されたエントロピー符号化器を使用して各サブ帯域グループの量子化された係数をエンコードするステップ（９０６）と、エンコード後の量子化された係数を含むビットストリームを生成するステップ（９０７）と、ビットストリームを記憶装置に格納することまたは下流のデバイスにビットストリームをストリーミングするステップ（９０８）。

図１０は、１つ以上の実施態様における、ＭＤＣＴ係数をデコードするプロセス１０００のフロー図である。プロセス１０００は、例えば、図１１を参照して説明されるシステム１１００を使用して実装することができる。

プロセス１０００は、以下のステップを含む。ＬＦＥチャンネルビットストリームを受信するステップであって、ＬＦＥチャンネルビットストリームは、時間領域ＬＦＥチャンネル信号の周波数スペクトルを表すエントロピー符号化された係数を含むステップ（１００１）と、係数をデコードし逆量子化するステップであって、係数は、スケーリングシフト係数を用いて、ローパスフィルタの周波数応答曲線に従って異なる周波数帯域に対応するサブ帯域グループに量子化されていたステップ（１００２）と、デコードおよび逆量子化された係数を時間領域ＬＦＥチャンネル信号に変換するステップ（１００３）と、時間領域ＬＦＥチャンネル信号の遅延を調節するステップ（１００４）と、ローパスフィルタを使用して、遅延調節されたＬＦＥチャンネル信号をフィルタリングするステップ（１００５）。一実施形態において、ローパスフィルタの次数は、時間領域ＬＦＥチャンネル信号を含むマルチチャンネルオーディオ信号のフル帯域幅チャンネルをエンコード／デコードするために用いられるプライマリコーデックから得られる、総アルゴリズム遅延に基づいて設定され得る。いくつかの実施態様において、デコードユニットは、ＭＤＣＴ係数がエンコードユニットによって精細量子化でエンコードされたか粗量子化でエンコードされたかを知るだけでよい。量子化のタイプは、ＬＦＥビットストリームヘッダ内のビット、または他の適切なシグナリングメカニズムを用いて示すことができる。

いくつかの実施態様において、時間領域ＰＣＭサンプルへの逆量子化された係数のデコードは、以下のように実行される。各サブ帯域グループの逆量子化された係数は、Ｎ個のグループ（Ｎは、エンコードユニットにおいて算出されるＭＤＣＴの数）に再配置され、各グループは、それぞれのＭＤＣＴに対応する係数を有する。上述した実装例のように、エンコードユニットは、以下の４つのサブ帯域グループをエンコードする。
サブ帯域グループ１＝｛ａ_１，ａ_２，ｂ_１，ｂ_２｝
サブ帯域グループ２＝｛ａ_３，ａ_４，ｂ_３，ｂ_４｝
サブ帯域グループ３＝｛ａ_５，ａ_６，ｂ_５，ｂ_６｝
サブ帯域グループ４＝｛ａ_７，ａ_８，ｂ_７，ｂ_８｝

デコードユニットは、４つのサブ帯域グループをデコードし、｛ａ_１，ａ_２，ａ_３，ａ_４，ａ_５，ａ_６，ａ_７，ａ_８｝および｛ｂ_１，ｂ_２，ｂ_３，ｂ_４，ｂ_５，ｂ_６，ｂ_７，ｂ_８｝に再配置し、これらグループをゼロでパディングして所望の逆ＭＤＣＴ（ｉＭＤＣＴ）入力長になるようにする。各グループのＭＤＣＴ係数を時間領域のブロックに逆変換するためにＮ回のｉＭＤＣＴが実行される。この例では、各ブロックは幅２×Ｓｗｍｓであり、ここでＳ_ｗは上記で定義されたサブフレーム幅である。次にこのブロックを、図４に示したＬＦＥエンコードユニットで用いられるのと同じＦｉｅｌｄｅｒウィンドウを用いてウィンドウ化する。各サブフレームＳ_ｉ（ｉは１＜＝ｉ＜＝Ｎの整数）は、前回のｉＭＤＣＴ出力と今回のｉＭＤＣＴ出力のウィンドウ化されたデータを適切にオーバーラップ加算することによって再構成される。最後に、Ｎ個のサブフレームをすべて連結することによって（１００３）の出力を再構成する。

システムアーキテクチャ例
図１１は、１つ以上の実施態様における、図１～１０を参照して説明した特徴およびプロセスを実装するためのシステム１１００のブロック図である。システム１１００は、以下を含むがこれらに限定されない、１つ以上のサーバコンピュータまたは任意のクライアントデバイスを含む：通話サーバ、ユーザー機器、会議室システム、ホームシアターシステム、仮想現実（ＶＲ）ギアおよび没入型コンテンツ取り込み（ｃｏｎｔｅｎｔｉｎｇｅｓｔｉｏｎ）デバイス。システム１１００は、以下を含むが、これらに限定されない：任意のコンシューマー機器を含む：スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなど。

図示するように、システム１１００は、例えば、リードオンリーメモリ（ＲＯＭ）１１０２に記憶されたプログラム、または、例えば、記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたプログラムに従って様々なプロセスを実行することが可能な中央処理装置（ＣＰＵ）１１０１を含む。ＲＡＭ１１０３には、ＣＰＵ１１０１が様々なプロセスを実行するときに必要とされるデータも、必要に応じて記憶される。ＣＰＵ１１０１、ＲＯＭ１１０２およびＲＡＭ１１０３は、バス１１０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１１０５もバス１１０４に接続される。

次の構成要素、すなわち、キーボード、マウス等を含むことができる入力ユニット８０６、液晶ディスプレイ（ＬＣＤ）等のディスプレイおよび１つ以上のスピーカを含むことができる出力ユニット８０７、ハードディスクまたは別の適した記憶装置を含む記憶ユニット１１０８、ならびにネットワークカード（例えば、有線または無線）等のネットワークインターフェースカードを含む通信ユニット１１０９が、Ｉ／Ｏインターフェース１１０５に接続される。

いくつかの実施態様において、入力ユニット１１０６は、様々なフォーマット（例えば、モノラル、ステレオ、空間、没入型、および他の適したフォーマット）のオーディオ信号のキャプチャーを可能にする（ホストデバイスに応じて）異なる位置にある１つ以上のマイクロフォンを含む。

いくつかの実施態様において、出力ユニット１１０７は、様々な数のスピーカを有するシステムを含む。出力ユニット１１０７は、（ホストデバイスの能力に応じて）様々なフォーマット（例えば、モノラル、ステレオ、没入型、バイノーラル、および他の適したフォーマット）のオーディオ信号をレンダリングすることができる。

通信ユニット１１０９は、他のデバイスと（例えば、ネットワークを介して）通信するように構成される。ドライブ８１０も、必要に応じてＩ／Ｏインターフェース１１０５に接続される。リムーバブルメディア１１１１、例えば磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブまたは別の適したリムーバブルメディア等が、そこから読み出されたコンピュータプログラムが必要に応じて記憶ユニット１１０８内にインストールされるように、ドライブ１１１０に取り付けられる。当業者であれば、システム１１００は、上述した構成要素を含むものとして説明されているが、実際の用途において、これらの構成要素のうちの一部を追加、除去、および／または交換することが可能であり、これらの全ての変更または改変は全て本開示の範囲内に含まれることを理解するであろう。

本開示の例示の実施形態によれば、上述したプロセスは、コンピュータソフトウェアプログラムとしてまたはコンピュータ可読記憶媒体上に実装することができる。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、方法を実行するプログラムコードを含む。そのような実施形態において、コンピュータプログラムは、ネットワークから通信ユニット１３０９を介してダウンロードして実装することができ、および／またはリムーバブルメディア１１１１からインストールすることができる。

一般に、本開示の様々な例示の実施形態は、ハードウェアもしくは専用回路（例えば、制御回路類）、ソフトウェア、ロジックまたはそれらの任意の組み合わせで実装することができる。例えば、上述したユニットは、制御回路類（例えば、図１１の他の構成要素と組み合わせたＣＰＵ）によって実行することができ、したがって、この制御回路類は、本開示において説明された動作を実行することができる。ハードウェアで実装することができる態様もあれば、コントローラ、マイクロプロセッサまたは他のコンピューティングデバイス（例えば、制御回路類）によって実行することができるファームウェアまたはソフトウェアで実装することができる態様もある。本開示の例示の実施形態の様々な態様は、ブロック図、フローチャートとして、または他の或る図形表現を使用して図示および説明されているが、本明細書において説明されているブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラもしくは他のコンピューティングデバイス、またはそれらの或る組み合わせで実装することができることが理解されるであろう。

加えて、フローチャートに示す様々なブロックは、コンピュータプログラムコードの動作の結果からもたらされる方法ステップおよび／または動作、および／または、関連した機能（複数の場合もある）を実行するように構成された複数の結合された論理回路素子とみなすことができる。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、上述したような方法を実行するように構成されるプログラムコードを含む。

本開示の文脈において、機械／コンピュータ可読媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによってまたはそれらに関連して使用されるプログラムを収容または記憶することができる任意の有形媒体とすることができる。機械／コンピュータ可読媒体は、機械／コンピュータ可読信号媒体であってもよいし、機械／コンピュータ可読記憶媒体であってもよい。機械／コンピュータ可読媒体は、非一時的なものであってもよく、電子、磁気、光、電磁気、赤外線、または半導体システム、装置、もしくはデバイス、またはそれらの任意の適した組み合わせを含むことができるが、これらに限定されるものではない。機械／コンピュータ可読記憶媒体のより具体的な例は、１つ以上の配線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、またはそれらの任意の適した組み合わせを含む。

本開示の方法を実行するコンピュータプログラムコードは、１つ以上のプログラミング言語の任意の組み合わせで記述することができる。これらのコンピュータプログラムコードは、当該プログラムコードが、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図において指定された機能／動作の実施を引き起こすように、汎用コンピュータ、専用コンピュータ、または制御回路類を有する他のプログラマブルデータ処理装置のプロセッサに提供することができる。プログラムコードは、スタンドアローンソフトウェアパッケージとしてコンピュータ上で全体的またはコンピュータ上で部分的に実行することもできるし、一部はコンピュータ上および一部はリモートコンピュータ上で実行することもできるし、全体をリモートコンピュータまたはリモートサーバー上で実行することもできるし、１つ以上のリモートコンピュータおよび／またはリモートサーバーにわたって分散させることもできる。

本明細書は、多くの具体的な実施の詳細を含むが、これらは、特許請求され得るものの範囲に対する限定と解釈されるべきではなく、逆に、特定の実施形態に固有であり得る特徴の説明と解釈されるべきである。別々の実施形態の文脈で本明細書に説明されている或る特定の特徴は、単一の実施形態に組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、複数の実施形態において別々にまた任意の適したサブコンビネーションで実施することもできる。その上、特徴は、或る特定の組み合わせで動作するものとして上記で説明され、そのようなものとして最初に請求項に記載されることさえあるが、請求項に記載の組み合わせからの１つ以上の特徴は、いくつかの場合には、その組み合わせから削除することができ、請求項に記載の組み合わせは、サブコンビネーションまたはサブコンビネーションの変形形態を対象とすることができる。図に示された論理フローは、望ましい結果を達成するために、図示された特定の順序も逐次的な順序も必須とするものではない。加えて、記載のフローに対して他のステップを設けることもできるし、ステップを削除することもでき、記載のシステムに対して他の構成要素を追加または削除することができる。したがって、他の実施態様は、添付の特許請求の範囲の範囲内にある。

Claims

低音効果（ＬＦＥ）チャンネルをエンコードする方法であって、
１つまたは複数のプロセッサを用いて、時間領域ＬＦＥチャンネル信号を受信するステップと、
ローパスフィルタを用いて、前記時間領域ＬＦＥチャンネル信号をフィルタリングするステップと、
前記１つまたは複数のプロセッサを用いて、フィルタリングされた前記時間領域ＬＦＥチャンネル信号を、前記ＬＦＥチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記ＬＦＥチャンネル信号の周波数領域表現に変換するステップと、
前記１つまたは複数のプロセッサを用いて、係数を、前記ＬＦＥチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップと、
前記１つまたは複数のプロセッサを用いて、前記ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップと、
前記１つまたは複数のプロセッサを用いて、各サブ帯域グループの量子化された係数を、前記サブ帯域グループごとに調整されたエントロピー符号化器を使用してエンコードするステップと、
前記１つまたは複数のプロセッサを用いて、エンコード後の前記量子化された係数を含むビットストリームを生成するステップと、
前記１つまたは複数のプロセッサを用いて、前記ビットストリームを記憶装置に格納する、または前記ビットストリームを下流のデバイスにストリーミングするステップと、
を包含する、方法。
各サブ帯域グループの前記係数を量子化する前記ステップは、
利用可能な量子化点の最大数と前記係数の絶対値の合計とに基づいて、スケーリングシフト係数を生成することと、
前記スケーリングシフト係数を用いて前記係数を量子化することと、
をさらに含む、請求項１に記載の方法。
ある量子化された係数が前記量子化点の最大数を超える場合、前記スケーリングシフト係数が減少されて前記係数は再び量子化される、請求項２に記載の方法。
前記量子化点は各サブ帯域グループに対して異なる、前記請求項１から３のいずれかに記載の方法。
各サブ帯域グループの前記係数は、精細量子化スキームまたは粗量子化スキームに従って量子化され、前記精細量子化スキームでは、前記粗量子化スキームに従って前記各サブ帯域グループに割り当てられるよりも多くの量子化点が、１つまたは複数のサブ帯域グループに割り当てられる、前記請求項１から４のいずれかに記載の方法。
前記係数のための符号ビットは、前記係数とは別々に符号化される、前記請求項１から５のいずれかに記載の方法。
４つのサブ帯域グループが存在し、第１のサブ帯域グループは０～１００Ｈｚである第１の周波数範囲に対応し、第２のサブ帯域グループは１００～２００Ｈｚである第２の周波数範囲に対応し、第３のサブ帯域グループは２００～３００Ｈｚである第３の周波数範囲に対応し、第４のサブ帯域グループは３００～４００Ｈｚである第４の周波数範囲に対応している、前記請求項１から６のいずれかに記載の方法。
前記エントロピー符号化器は算術エントロピー符号化器である、前記請求項１から７のいずれかに記載の方法。
前記請求項１から８のいずれかに記載の方法であって、
フィルタリングされた前記時間領域ＬＦＥチャンネル信号を、前記ＬＦＥチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記ＬＦＥチャンネル信号の周波数領域表現に変換する前記ステップは、
前記ＬＦＥチャンネル信号の第１のストライド長を決定することと、
前記第１のストライド長に基づき、あるウィンドウ関数の第１のウィンドウサイズを指定することと、
時間領域ＬＦＥチャンネル信号の１つまたは複数のフレームに前記第１のウィンドウサイズを適用することと、
ウィンドウ化された前記フレームに修正離散コサイン変換（ＭＤＣＴ）を適用し、前記係数を生成することと、
をさらに含む、方法。
前記ＬＦＥチャンネル信号の第２のストライド長を決定するステップと、
前記第２のストライド長に基づいて、前記ウィンドウ関数の第２のウィンドウサイズを指定するステップと、
前記時間領域ＬＦＥチャンネル信号の前記１つまたは複数のフレームに、前記第２のウィンドウサイズを適用するステップと、
をさらに包含する、請求項９に記載の方法。
前記第１のストライド長はＮミリ秒（ｍｓ）であり、
Ｎは５ｍｓ以上６０ｍｓ以下であり、
前記第１のウィンドウサイズは１０ｍｓ以上であり、
前記第２のストライド長は５ｍｓであり、
前記第２のウィンドウサイズは１０ｍｓである、
請求項１０に記載の方法。
前記第１のストライド長は２０ミリ秒（ｍｓ）であり、
前記第１のウィンドウサイズは１０ｍｓ、２０ｍｓ、または４０ｍｓであり、
前記第２のストライド長は１０ｍｓであり、
前記第２のウィンドウサイズは１０ｍｓまたは２０ｍｓである、
請求項１０に記載の方法。
前記第１のストライド長は１０ミリ秒（ｍｓ）であり、
前記第１のウィンドウサイズは１０ｍｓまたは２０ｍｓであり、
前記第２のストライド長は５ｍｓであり、
前記第２のウィンドウサイズは１０ｍｓである、
請求項１０に記載の方法。
前記第１のストライド長は２０ミリ秒（ｍｓ）であり、
前記第１のウィンドウサイズは１０ｍｓ、２０ｍｓ、または４０ｍｓであり、
前記第２のストライド長は５ｍｓであり、
前記第２のウィンドウサイズは１０ｍである、
請求項１０に記載の方法。
前記ウィンドウ関数は、設定可能なフェード長を有するＫａｉｓｅｒ－Ｂｅｓｓｅｌ－ｄｅｒｉｖｅｄ（ＫＢＤ）ウィンドウ関数である、請求項９に記載の方法。
前記ローパスフィルタは、カットオフ周波数が約１３０Ｈｚ以下の４次バターワースフィルタローパスフィルタである、前記請求項１から１５のいずれかに記載の方法。
前記１つまたは複数のプロセッサを用いて、前記ＬＦＥチャンネル信号のあるフレームのエネルギーレベルが閾値未満であるか否かを判断するステップと、
前記エネルギーレベルが閾値レベル未満であることに応じて、
前記デコーダに無音フレームであることを示す無音フレームインジケータを生成するステップと、
前記無音フレームインジケータを前記ＬＦＥチャンネルビットストリームのメタデータに挿入するステップと、
無音フレーム検出時にＬＦＥチャンネルビットレートを低減するステップと、
をさらに包含する、前記請求項１から１６のいずれかに記載の方法。
低音効果（ＬＦＥ）チャンネルビットストリームをデコードする方法であって、
１つまたは複数のプロセッサを用いて、時間領域ＬＦＥチャンネル信号の周波数スペクトルを表すエントロピー符号化された係数を含むＬＦＥチャンネルビットストリームを受信するステップと、
前記１つまたは複数のプロセッサを用いて、エントロピーデコーダを用いて前記量子化された係数をデコードするステップと、
前記１つまたは複数のプロセッサを用いて、前記逆量子化された係数を逆量子化するステップであって、エンコーダ中において前記時間領域ＬＦＥチャンネル信号をフィルタリングするために用いられるローパスフィルタの周波数応答曲線に従った周波数帯群に対応するサブ帯域グループ群において、前記係数が量子化された、ステップと、
前記１つまたは複数のプロセッサを用いて、逆量子化された前記係数を時間領域ＬＦＥチャンネル信号に変換するステップと、
前記１つまたは複数のプロセッサを用いて、時間領域ＬＦＥチャンネル信号の遅延を調節するステップと、
ローパスフィルタを用いて、遅延調節された前記ＬＦＥチャンネルの信号をフィルタリングするステップと、
を包含する、方法。
ローパスフィルタの次数は、前記ＬＦＥチャンネルをエンコードおよびデコードすることによる第１の総アルゴリズム遅延が、前記ＬＦＥチャンネル信号を含むマルチチャンネルオーディオ信号の他のチャンネルをエンコードおよびデコードすることによる第２の総アルゴリズム遅延以下となるように構成される、請求項１８に記載の方法。
前記第２の総アルゴリズム遅延が閾値を超えるか否かを判断するステップと、
前記第２の総アルゴリズム遅延が前記閾値を超えたことに応じて、
前記ローパスフィルタをＮ次ローパスフィルタとして構成し、ここでＮは２以上の整数であるステップと、
前記第２の総アルゴリズム遅延が前記閾値を超えないことに応じて、
前記ローパスフィルタの次数をＮ未満に設定するステップと、
をさらに包含する、請求項１９に記載の方法。