JP2022547038A - 低レイテンシ・低音効果コーデック - Google Patents

低レイテンシ・低音効果コーデック Download PDF

Info

Publication number
JP2022547038A
JP2022547038A JP2022514462A JP2022514462A JP2022547038A JP 2022547038 A JP2022547038 A JP 2022547038A JP 2022514462 A JP2022514462 A JP 2022514462A JP 2022514462 A JP2022514462 A JP 2022514462A JP 2022547038 A JP2022547038 A JP 2022547038A
Authority
JP
Japan
Prior art keywords
coefficients
sub
channel signal
lfe channel
lfe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022514462A
Other languages
English (en)
Other versions
JPWO2021046060A5 (ja
Inventor
ティアギ,リシャブ
マックグラス,デイビッド
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022547038A publication Critical patent/JP2022547038A/ja
Publication of JPWO2021046060A5 publication Critical patent/JPWO2021046060A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

いくつかの実施態様において、低音効果(LFE)チャンネルをエンコードする方法は、時間領域LFEチャンネル信号を受信するステップと、ローパスフィルタを用いて、前記時間領域LFEチャンネル信号をフィルタリングするステップと、前記フィルタリングされた時間領域LFEチャンネル信号を、前記LFEチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記LFEチャンネル信号の周波数領域表現に変換するステップと、係数を、前記LFEチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップと、前記ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップと、各サブ帯域グループの前記量子化された係数を、前記サブ帯域グループごとに調整されたエントロピー符号化器を使用してエンコードするステップと、エンコード後の前記量子化された係数を含むビットストリームを生成するステップと、前記ビットストリームを記憶装置に格納する、または前記ビットストリームを下流のデバイスにストリーミングするステップと、を包含する。【選択図】図1

Description

関連出願への相互参照
本出願は、2019年09月03日に出願された米国仮特許出願第62/895,049号および2020年08月24日に出願された米国仮特許出願第63/069,420号の優先権を主張するものであり、これらの各々を本願に参考のため援用する。
本開示は、一般に、オーディオ信号処理に関し、特に、低音効果(LFE)チャンネルの処理に関するものである。
背景
没入型サービスの標準化には、音声、マルチストリーム電話会議、仮想現実(VR)、ユーザー生成のライブおよび非ライブコンテンツストリーミングなどのための没入型音声およびオーディオサービス(IVAS:Immersive Voice and Audio Service)コーデックの開発が含まれる。IVAS規格の目標は、優れた音質、低レイテンシ、空間オーディオ符号化のサポート、適切な範囲のビットレート、高品質エラーレジリエンス、実用的な実装の複雑度を備えた、単一のコーデックを開発することである。この目標を達成するために、IVAS対応デバイスやLFE信号を処理できるその他のデバイスにおいて、低レイテンシLFE動作を扱えるIVASコーデックの開発が望まれている。LFEチャンネルは、20~120Hzの深く低い音を対象としており、典型的には、低周波のオーディオコンテンツを再生するように設計されたスピーカに送られる。
要約
設定可能な低レイテンシLFEコーデックについての実施態様を開示する。
いくつかの実施態様において、低音効果(LFE)チャンネルをエンコードする方法は、1つまたは複数のプロセッサを用いて、時間領域LFEチャンネル信号を受信するステップと、ローパスフィルタを用いて、前記時間領域LFEチャンネル信号をフィルタリングするステップと、前記1つまたは複数のプロセッサを用いて、前記フィルタリングされた時間領域LFEチャンネル信号を、前記LFEチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記LFEチャンネル信号の周波数領域表現に変換するステップと、前記1つまたは複数のプロセッサを用いて、係数を、前記LFEチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップと、前記1つまたは複数のプロセッサを用いて、前記ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップと、前記1つまたは複数のプロセッサを用いて、各サブ帯域グループの前記量子化された係数を、前記サブ帯域グループごとに調整されたエントロピー符号化器を使用してエンコードするステップと、前記1つまたは複数のプロセッサを用いて、エンコード後の前記量子化された係数を含むビットストリームを生成するステップと、前記1つまたは複数のプロセッサを用いて、前記ビットストリームを記憶装置に格納する、または前記ビットストリームを下流のデバイスにストリーミングするステップと、を包含する。
いくつかの実施態様において、各サブ帯域グループの前記係数を量子化する前記ステップは、利用可能な量子化点の最大数と前記係数の絶対値の合計とに基づいて、スケーリングシフト係数を生成することと、前記スケーリングシフト係数を用いて前記係数を量子化することと、をさらに含む。
いくつかの実施態様において、ある量子化された係数が前記量子化点の最大数を超える場合、前記スケーリングシフト係数が減少されて前記係数は再び量子化される。
いくつかの実施態様において、前記量子化点は各サブ帯域グループに対して異なる。
いくつかの実施態様において、各サブ帯域グループの前記係数は、精細量子化スキームまたは粗量子化スキームに従って量子化され、前記精細量子化スキームでは、前記粗量子化スキームに従って前記各サブ帯域グループに割り当てられるよりも多くの量子化点が、1つまたは複数のサブ帯域グループに割り当てられる。
いくつかの実施態様において、前記係数のための符号ビットは、前記係数とは別々に符号化される、
いくつかの実施態様において、4つのサブ帯域グループが存在し、第1のサブ帯域グループは0~100Hzである第1の周波数範囲に対応し、第2のサブ帯域グループは100~200Hzである第2の周波数範囲に対応し、第3のサブ帯域グループは200~300Hzである第3の周波数範囲に対応し、第4のサブ帯域グループは300~400Hzである第4の周波数範囲に対応している。
いくつかの実施態様において、前記エントロピー符号化器は算術エントロピー符号化器である。
いくつかの実施態様において、前記フィルタリングされた時間領域LFEチャンネル信号を、前記LFEチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記LFEチャンネル信号の周波数領域表現に変換する前記ステップは、前記LFEチャンネル信号の第1のストライド長を決定することと、前記第1のストライド長に基づき、あるウィンドウ関数の第1のウィンドウサイズを指定することと、時間領域LFEチャンネル信号の1つまたは複数のフレームに前記第1のウィンドウサイズを適用することと、ウィンドウ化された前記フレームに修正離散コサイン変換(MDCT)を適用し、前記係数を生成することと、をさらに含む。
いくつかの実施態様において、前記方法は、前記LFEチャンネル信号の第2のストライド長を決定するステップと、前記第2のストライド長に基づいて、前記ウィンドウ関数の第2のウィンドウサイズを指定するステップと、前記時間領域LFEチャンネル信号の前記1つまたは複数のフレームに、前記第2のウィンドウサイズを適用するステップと、をさらに包含する。
いくつかの実施態様において、前記第1のストライド長はNミリ秒(ms)であり、Nは5ms以上60ms以下であり、前記第1のウィンドウサイズは10ms以上であり、前記第2のストライド長は5msであり、前記第2のウィンドウサイズは10msである。
いくつかの実施態様において、前記第1のストライド長は20ミリ秒(ms)であり、前記第1のウィンドウサイズは10ms、20ms、または40msであり、前記第2のストライド長は10msであり、前記第2のウィンドウサイズは10msまたは20msである。
いくつかの実施態様において、前記第1のストライド長は10ミリ秒(ms)であり、前記第1のウィンドウサイズは10msまたは20msであり、前記第2のストライド長は5msであり、前記第2のウィンドウサイズは10msである。
いくつかの実施態様において、前記第1のストライド長は20ミリ秒(ms)であり、前記第1のウィンドウサイズは10ms、20ms、または40msであり、前記第2のストライド長は5msであり、前記第2のウィンドウサイズは10mである。
いくつかの実施態様において、前記ウィンドウ関数は、設定可能なフェード長を有するKaiser-Bessel-derived(KBD)ウィンドウ関数である。
いくつかの実施態様において、前記ローパスフィルタは、カットオフ周波数が約130Hz以下の4次バターワースフィルタローパスフィルタである。
いくつかの実施態様において、前記方法は、前記1つまたは複数のプロセッサを用いて、前記LFEチャンネル信号のあるフレームのエネルギーレベルが閾値未満であるか否かを判断するステップと、前記エネルギーレベルが閾値レベル未満であることに応じて、前記デコーダに無音フレームであることを示す無音フレームインジケータを生成するステップと、前記無音フレームインジケータを前記LFEチャンネルビットストリームのメタデータに挿入するステップと、無音フレーム検出時にLFEチャンネルビットレートを低減するステップと、をさらに包含する。
いくつかの実施態様において、低音効果(LFE)をデコードする方法は、低音効果(LFE)チャンネルビットストリームをデコードする方法であって、1つまたは複数のプロセッサを用いて、時間領域LFEチャンネル信号の周波数スペクトルを表すエントロピー符号化された係数を含むLFEチャンネルビットストリームを受信するステップと、前記1つまたは複数のプロセッサを用いて、エントロピーデコーダを用いて前記量子化された係数をデコードするステップと、前記1つまたは複数のプロセッサを用いて、前記逆量子化された係数を逆量子化するステップであって、エンコーダ中において前記時間領域LFEチャンネル信号をフィルタリングするために用いられるローパスフィルタの周波数応答曲線に従った周波数帯群に対応するサブ帯域グループ群において、前記係数が量子化された、ステップと、前記1つまたは複数のプロセッサを用いて、前記逆量子化された係数を時間領域LFEチャンネル信号に変換するステップと、前記1つまたは複数のプロセッサを用いて、時間領域LFEチャンネル信号の遅延を調節するステップと、ローパスフィルタを用いて、遅延調節された前記LFEチャンネルの信号をフィルタリングするステップと、を包含する。
いくつかの実施態様において、ローパスフィルタの次数は、前記LFEチャンネルをエンコードおよびデコードすることによる第1の総アルゴリズム遅延が、前記LFEチャンネル信号を含むマルチチャンネルオーディオ信号の他のオーディオチャンネルをエンコードおよびデコードすることによる第2の総アルゴリズム遅延以下となるように構成される。
いくつかの実施態様において、前記方法は、前記第2の総アルゴリズム遅延が閾値を超えるか否かを判断するステップと、前記第2の総アルゴリズム遅延が前記閾値を超えたことに応じて、前記ローパスフィルタをN次ローパスフィルタとして構成し、ここでNは2以上の整数であるステップと、前記第2の総アルゴリズム遅延が前記閾値を超えないことに応じて、前記ローパスフィルタの次数をN未満に設定するステップと、
をさらに包含する。
本明細書に開示される他の実施態様は、システム、装置およびコンピュータ可読媒体に関する。開示される実施態様の詳細は、添付図面および以下の説明において明らかにされる。他の特徴、目的および利点は、以下の説明、図面および特許請求の範囲から明らかである。
本明細書に開示される特定の実施形態は、以下の利点のうちの1つ以上を提供する。本開示の低レイテンシLFEコーデックは、1)LFEチャンネルを主に対象とし、2)主に20~120Hzの周波数範囲を対象とするが、低/中ビットレート状況では300Hzまで、高ビットレート状況では400Hzまで、オーディオを伝送し、3)入力ローパスフィルタの周波数応答曲線に応じた量子化スキームを適用することにより、低ビットレートを達成し、4)アルゴリズム的レイテンシが低く、20ミリ秒(ms)のストライドで動作し、33msecの総アルゴリズム的レイテンシ(フレーム化を含み)を有するように設計されており、5)他の状況をサポートするためより小さなストライドとより低いアルゴリズム的レイテンシに構成することが可能であり、ストライド5msec、総アルゴリズムレイテンシの(フレーム化を含み)13msecまで低い構成が含まれており、6)デコーダ出力において、LFEコーデックで得られるレイテンシに基づいて自動的にローパスフィルタを選択し、7)無音時には50ビット/秒(bps)という低ビットレートの無音モードを持ち、8)アクティブフレーム時においては、使用する量子化レベルに応じてビットレートが2キロビット/秒(kbps)~4kbpsの間で変動し、無音フレーム時にはビットレートが50bpsになる。
図面において、デバイス、ユニット、命令ブロック、およびデータ要素を表す要素等の図的要素の特定の配列または順序付けは、説明を容易にするために示されている。しかしながら、図面におけるこれらの図的要素の特定の順序付けまたは配列は、処理の特定の順序またはシーケンスが必要とされていることも、プロセスの分離が必要とされていることも暗に意味するように意図しているものではないことが当業者によって理解されるべきである。さらに、図的要素が図面に含まれているということは、そのような要素が全ての実施形態において必要とされることを暗に意味するように意図しているものでもなければ、そのような要素によって表される特徴部をいくつかの実施態様における他の要素に含めることができないかまたは他の要素と組み合わせることができないことを暗に意味するように意図しているものでもない。
さらに、図面において、実線もしくは破線または矢印等の接続要素が、2つ以上の他の図的要素間の接続、関係、または関連付けを示すのに用いられている場合、そのような接続のいかなる要素がないことも、接続、関係、または関連付けが存在する可能性がないことを暗に意味するように意図するものではない。換言すれば、要素間のいくつかの接続、関係、または関連付けは、本開示を分かりにくくしないように図面に示されていない。加えて、図示を容易にするために、要素間の複数の接続、関係、または関連付けを表すのに、単一の接続要素が用いられる。例えば、接続要素が、信号、データ、または命令の通信を表す場合、そのような要素は、通信を実施するために必要に応じて、1つまたは複数の信号パスを表すことが当業者によって理解されるべきである。
図1は、1つ以上の実施態様における、IVASおよびLFEビットストリームをエンコードおよびデコードするためのIVASコーデックを示す図である。
図2Aは、1つ以上の実施態様におけるLFEエンコーディングを示すブロック図である。
図2Bは、1つ以上の実施態様におけるLFEデコーディングを示すブロック図である。
図3は、1つ以上の実施態様における、130Hzのコーナーカットオフを有する4次バターワースローパスフィルタの周波数応答を示すプロットである。
図4は、1つ以上の実施態様における、Fielderウィンドウを示すプロットである。
図5は、1つ以上の実施態様における、周波数による精細量子化点の変化を示す。
図6は、1つ以上の実施態様における、周波数による粗量子化点の変化を示す図である。
図7は、1つ以上の実施態様における、精細量子化により量子化されたMDCT係数の確率分布を示す図である。
図8は、1つ以上の実施態様における、粗量子化により量子化されたMDCT係数の確率分布を示す図である。
図9は、1つ以上の実施態様における、修正離散コサイン変換(MDCT)係数をエンコードするプロセスのフロー図である。
図10は、1つ以上の実施態様における、修正離散コサイン変換(MDCT)係数をデコードするプロセスのフロー図である。
図11は、1つ以上の実施態様における、図1~10を参照して説明される特徴およびプロセスを実装するためのシステム1100のブロック図である。
各図面で使用されている同じ参照記号は、同様の要素を示している。
以下の詳細な説明において、説明される様々な実施形態の十分な理解を提供するために、非常に多くの具体的な詳細が述べられている。説明される様々な実施態様は、これらの具体的な詳細がなくても実施することができることが当業者には明らかである。他の場合において、既知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には説明されていない。互いに独立にまたは他の特徴の何らかの組み合わせでそれぞれ使用することができるいくつかの特徴が以下で説明される。
命名法
本明細書に使用されるような用語「含む」/「備える」(include)およびその変異形は、「~を含むが、~に限定されるものではない」を意味する非限定的(open-ended)用語として解釈されるべきである。用語「または」/「もしくは」(or)は、文脈上明らかに他の意味を示していない限り、「および/または」と解釈されるべきである。用語「~に基づいて」(based on)は、「~に少なくとも部分的に基づいて」と解釈されるべきである。用語「1つの例示の実施態様」および「一例示の実施態様」は、「少なくとも1つの例示の実施態様」と解釈されるべきである。用語「別の実施態様」は、「少なくとも1つの別の実施態様」と解釈されるべきである。用語「求められる」(determined)、「求める」/「決定する」(determines, determining)は、「取得する」、「受信する」、「計算する」、「算出する」、「推定する」、「予測する」または「導出する」と解釈されるべきである。加えて、以下の説明および特許請求の範囲において、別段の定義がない限り、本明細書に使用される全ての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般に理解されているものと同じ意味を有する。
システム概要
図1は、1つ以上の実施態様における、LFEチャンネルビットストリームを含むIVASビットストリームをエンコードおよびデコードするための、IVASコーデック100を示す。IVASコーデック100は、N+1チャンネルのオーディオデータ101を、エンコードするために受信する。Nチャンネルのオーディオデータ101は空間分析・ダウンミックスユニット102に入力され、1つのLFEチャンネルはLFEチャンネルエンコードユニット105に入力される。オーディオデータ101は、モノラル信号、ステレオ信号、バイノーラル信号、空間オーディオ信号(例えば、マルチチャンネル空間オーディオオブジェクト)、1次アンビソニックス(FoA:first order Ambisonics)、高次アンビソニックス(HoA:higher order Ambisonics)、および他の任意のオーディオデータを含むが、これらに限定されるものではない。
いくつかの実施態様において、空間分析・ダウンミックスユニット102は、ステレオオーディオデータを分析/ダウンミックスするためのコンプレックスアドバンスカップリング(CACPL)、および/またはFoAオーディオデータを分析/ダウンミックスするための空間再構成(SPAR)を実装するように構成される。他の実施態様では、空間分析・ダウンミックスユニット102は他のフォーマットを実装する。空間分析・ダウンミックスユニット102の出力は、空間メタデータ、および1~Nチャンネルのオーディオデータを含む。空間メタデータは、空間メタデータエンコードユニット104に入力される。空間メタデータエンコードユニット104は、空間メタデータを量子化し、エントロピー符号化するように構成される。いくつかの実施態様において、量子化は、精細な量子化、中程度な量子化、粗い量子化、および極めて粗い量子化ストラテジーを含むことができ、エントロピー符号化は、ハフマンまたは算術符号化を含むことができる。
オーディオデータの1~Nチャンネルは、プライマリオーディオチャンネルエンコードユニット103に入力される。プライマリオーディオチャンネルエンコードユニット103は、オーディオデータの1~Nチャンネルを1つ以上のenhanced voice services(EVS)ビットストリームに符号化するように構成されている。いくつかの実施態様において、プライマリオーディオチャンネルエンコードユニット103は、3GPP TS 26.445に準拠しており、ナローバンド(EVS-NB)およびワイドバンド(EVS-WB)音声サービスについての品質および符号化効率の向上、スーパーワイドバンド(EVS-SWB)音声を用いた品質の向上、会話用途での混合コンテンツおよび音楽についての品質の向上、パケット損失および遅延ジッタに対するロバスト性ならびにAMR-WBコーデックへの後方互換性など、広範囲の機能性が提供されている。
いくつかの実施態様において、プライマリオーディオチャンネルエンコードユニット103は、前処理・モード選択ユニットを含む。この前処理・モード選択ユニットは、音声信号をエンコードするための音声符号化器と、指定ビットレートでオーディオ信号をエンコードするための知覚符号化器との間の選択を、モード/ビットレート制御に基づいて行う。いくつかの実施態様において、音声エンコーダは、異なる音声クラスに対して専用のLP型モードによって拡張された、代数符号励振線形予測(ACELP)の改良型変形である。
いくつかの実施態様において、オーディオエンコーダは、低遅延・低ビットレートで効率が向上した修正離散コサイン変換(MDCT)エンコーダであり、音声エンコーダとオーディオエンコーダとの間のシームレスかつ信頼性の高い切り替えを実行するように設計されている。
前述したように、LFEチャンネル信号は、20~120Hzの深く低い音を対象としており、典型的には、低周波のオーディオコンテンツを再生するように設計されたスピーカ(例えば、サブウーファ)に送られる。LFEチャンネル信号は、図2Aを参照して説明したように、LFEチャンネル信号をエンコードするように構成されたLFEチャンネル信号エンコードユニット105に入力される。
いくつかの実施態様において、IVASデコーダは、空間メタデータを復元するように構成されている空間メタデータデコードユニット106と、1~Nチャンネルオーディオ信号を復元するように構成されているプライマリオーディオチャンネルデコードユニット107とを含む。復元された空間メタデータおよび復元された1~Nチャンネルオーディオ信号は、空間合成/アップミキシング/レンダリングユニット109に入力される。この空間合成/アップミキシング/レンダリングユニット109は、ホームシアターシステム、テレビ会議室システム、仮想現実(VR)ギアおよびオーディオをレンダリングできる任意の他のオーディオシステムを含むがそれだけに限らない種々のオーディオシステムのスピーカでの再生のために空間メタデータを使用して、1~Nチャンネルオーディオ信号をN個以上のチャンネル出力オーディオ信号に合成およびレンダリングを行うように構成されている。LFEチャンネルデコードユニット108は、LFEビットストリームを受信し、図2Bを参照して説明したように、LFEビットストリームをデコードするように構成される。
上述のLFEエンコーディング/デコーディングの実装例は、IVASコーデックによって実行されるが、以下に説明する低レイテンシLFEコーデックは、スタンドアロンのLFEコーデックであってもよいし、低レイテンシと設定可能であることが要求または望まれるオーディオ用途において低周波信号をエンコードおよびデコードする任意の独自または標準のオーディオコーデックに含まれてもよいものである。
図2Aは、1つ以上の実施形態における、図1に示すLFEチャンネルエンコードユニット105の機能コンポーネントを示すブロック図である。図2Bは、1つ以上の実施形態における、図1に示されるLFEチャンネルデコーダ108の機能コンポーネントを示すブロック図である。LFEチャンネルデコーダ108は、エントロピーデコーディング・逆量子化ユニット204、逆MDCT・ウィンドウ化ユニット205、遅延調節ユニット206、および出力LPF207を含む。遅延調節ユニット206は、LPF207の前段または後段にあってよく、デコードされたLFEチャンネル信号とプライマリコーデックデコード出力を一致させるために遅延調節(例えば、デコードされたLFEチャンネル信号をバッファリングすることによって)を実行する。以下、図2Bを参照して説明したLFEチャンネルエンコードユニット105およびLFEチャンネルデコードユニット108を総称してLFEコーデックという。
LFEチャンネルエンコードユニット105は、入力ローパスフィルタ(LPF)201、ウィンドウ化・MDCTユニット202、および量子化およびエントロピー符号化ユニット203を含む。一実施形態において、入力オーディオ信号は、パルスコード変調(PCM)オーディオ信号であり、LFEチャンネルエンコードユニット105は、5ミリ秒、10ミリ秒、または20ミリ秒のいずれかのストライドを有する入力オーディオ信号を期待する。内部的には、LFEチャンネルエンコードユニット105は、5ミリ秒または10ミリ秒のサブフレームで動作し、これらのサブフレームの組み合わせでウィンドウ化とMDCTが実行される。一実施形態において、LFEチャンネルエンコードユニット105は、20ミリ秒の入力ストライドで動作し、内部的にこの入力を等しい長さの2つのサブフレームに分割する。LFEへの前の入力フレームの最後のサブフレームは、LFEへの現在の入力フレームの最初のサブフレームと連結され、ウィンドウ化される。LFEへの現在の入力フレームの最初のサブフレームは、LFEへの現在の入力フレームの2番目のサブフレームと連結され、ウィンドウ化される。MDCTは、各ウィンドウ化されたブロックに対して1回ずつの、2回実行される。
一実施形態において、アルゴリズム遅延(フレーミング遅延なし)は、8ミリ秒に入力LPF103によって発生する遅延と出力LPF207によって発生する遅延を足したものに等しい。4次入力LPF201および4次出力LPF207を使用すると、システムの総レイテンシは約15ミリ秒である。4次入力LPF201、2次出力LPF207の場合、総LFEコーデックレイテンシは約13ミリ秒となる。
図3は、1つ以上の実施形態における例示的な入力LPF201の周波数応答を示すプロットである。示された例では、LPF201は、130Hzのカットオフ周波数を有する4次バターワースフィルタである。他の実施形態では、同じまたは異なる次数および同じまたは異なるカットオフ周波数を有する異なるタイプのLPF(例えば、チェビシェフ(Chebyshev)、ベッセル(Bessel))を使用することができる。
図4は、1つ以上の実施形態における、Fielderウィンドウを示すプロットである。一実施形態において、ウィンドウ化・MDCTユニット202によって適用されるウィンドウ化関数は、8ミリ秒のフェード長を有するFielderウィンドウ関数である。Fielderウィンドウは、アルファ=5のKaiser-Bessel-derived (KBD)ウィンドウであり、これは、構造上、MDCTのPrincen-Bradley条件を満たすウィンドウであり、したがって、Advanced Audio Coding(AAC)デジタルオーディオフォーマットと共に使用されるものである。その他のウィンドウ関数も使用可能である。
量子化およびエントロピー符号化
一実施形態において、量子化・エントロピー符号化ユニット203は、MDCT係数をより効率的に量子化するために、入力LPF201の周波数応答曲線に従う量子化ストラテジーを実行する。一実施形態において、周波数範囲は、4つの周波数帯域を表す4つのサブ帯域グループ、すなわち0~100Hz、100~200Hz、200~300Hz、300~400Hzに分割される。これらの帯域は一例であり、同じまたは異なる周波数範囲を持つより多くの帯域またはより少ない帯域を使用することができる。より詳細には、図5~8に示すように、特定のフレームにおけるMDCT係数値に基づいて動的に計算されるスケーリングシフト係数を用いてMDCT係数を量子化し、LPF周波数応答曲線の通りに量子化点を選択する。この量子化ストラテジーは、100~200Hz、200~300Hz、および300~400Hz帯に属するMDCT係数の量子化点を減らすのに役立ち、また一方で、ほとんどの低音効果(例えばランブル(rumbling)など)のエネルギーが見出される0~100HzのプライマリLFE帯域についての最適量子化点が維持される。
一実施形態において、LFEチャンネルエンコードユニット105へのFlenミリ秒(ms)入力PCMストライド(入力フレーム長)に対する量子化ストラテジーを以下に説明する。フレーム長Flenは5*fmsによって与えられる任意の値を取ることができ、ここでは1<=f<=12である。
まず、入力PCMストライドを等しい長さのN個のサブフレームに分割し、各サブフレーム幅(S)=Flen/Nmsとする。Nは、各Sが5msの倍数になるように選択される必要がある(例えば、Flen=20msの場合Nは1、2または4、Flen=10msの場合Nは1または2、Flen=5msの場合Nは1に等しくなる)。Sを所与のフレームにおけるi番目のサブフレームとする、ここでiは範囲0<=i<=Nの整数であり、SはLFEエンコードユニット105への前の入力フレームの最後のサブフレームに対応し、SからSは現在のフレームのN個のサブフレームである。
次に、各SとSi+1サブフレームを連結してFielderウィンドウ(図4参照)でウィンドウ化し、このウィンドウ化したサンプルに対してMDCTを行う。この結果、各フレームについて合計N回のMDCTが得られる。各MDCTのMDCT係数の数(num_coeffs)=サンプリング周波数×S/1000となる。各MDCTの周波数分解能(各MDCT係数の幅)(Wmdct)は約1000/(2×S)Hzとなる。サブウーファは典型的にはLPFカットオフが100~120Hz付近であり、400Hz以降のLPF後のエネルギーは典型的には非常に小さいことから、400HzまでのMDCT係数を量子化してLFEデコードユニット108に送り、残りのMDCT係数は0に量子化する。400HzまでのMDCT係数を送ることにより、LFEデコードユニット108での120Hzまでの高品質な再構成を確実にすることができる。したがって、量子化および符号化するMDCT係数の総数(Nquant)は、N×400/Wmdctに等しくなる。
次に、MDCT係数を、各サブ帯域グループの幅がWmdctの倍数であり、すべてのサブ帯域グループの幅の和が400Hzに等しいような、M個のサブ帯域グループに配置する。各サブ帯域の幅をSBWHzとし、mは範囲1<=m<=Mの整数とする。この幅では、m番目のサブ帯域グループの係数の数=SNquant=N×SBW/Wmdct(すなわち、各MDCTからSBW/Wmdct個の係数)である。そして、各サブ帯域グループのMDCT係数は、Nquant個全てのMDCT係数の絶対値の和または最大値によって決定される後述のシフトスケーリング係数(shift)によりスケーリングされる。次に、各サブ帯域グループのスケーリングされたMDCT係数は、エンコーダ入力のLPF曲線に従う量子化スキームを用いて別々に量子化され、符号化される。量子化されたMDCT係数の符号化は、エントロピー符号化器(例えば、算術符号化器やハフマン符号化器)を用いて行われる。各サブ帯域グループは異なるエントロピー符号化器で符号化され、各エントロピー符号化器は適切な確率分布モデルを用いてそれぞれのサブ帯域グループを効率的に符号化する。
20ミリ秒(ms)ストライド(Flen=20ms)、2サブフレーム(N=2)、サンプリング周波数=48000の量子化ストラテジーの例について説明する。この例の入力構成では、サブフレーム幅S=10ms、MDCTの数=N=2である。1回目のMDCTは、20msのブロックに対して行われる。このブロックは、前回の20ms入力の10~20msのサブフレームと今回の20ms入力の0~10msのサブフレームを連結し、20ms長のFielderウィンドウ(図4参照)でウィンドウ化することで形成されたものである。N=1およびN=4では、Fielderウィンドウを適宜スケーリングし、フェード長を16/Nmsに変更する。2回目のMDCTは、現在の20msの入力フレームを20ms長のFielderウィンドウでウィンドウ化することにより形成される20msのブロックに対して、実行される。各MDCTによるMDCT係数の数(num_coeffs)=480、各MDCT係数の幅Wmdct=50Hz、量子化および符号化する係数の総数Nquant=16、MDCT毎の量子化および符号化する係数の総数=16/N=8とした。
次に、MDCT係数を4つのサブ帯域グループ(M=4)に配置する。各サブ帯域グループは100Hzの帯域に対応する(0~100、100~200、200~300、300~400、SBW=100Hz、各サブ帯域グループの係数数=SNquant=N×SBW/Wmdct=4)。a、a、a、a、a、a、a、aを1回目のMDCTから量子化する最初の8個のMDCT係数、b、b、b、b、b 、b、b、bを2回目のMDCTから量子化する最初の8個のMDCTであるとする。4つのサブ帯域グループは、以下の係数を有するように配置される。
サブ帯域グループ1={a,a,b,b
サブ帯域グループ2={a,a,b,b
サブ帯域グループ3={a,a,b,b
サブ帯域グループ4={a,a,b,b
ここで各サブ帯域グループは100Hzの帯域に対応する。
ゲインが約-30dB(またはそれ以下)のフレームでは、10-2もくしは10-1程度またはそれ以下の値のMDCT係数を持つことができるが、フルスケールゲインを有するフレームでは、20以上の値のMDCT係数を持つことができる。このような広範囲の値を満たすために、利用可能な量子化点の最大数(max_value)とMDCT係数の絶対値の和(lfe_dct_new)とに基づいて、以下のようにスケーリングシフト係数(shift)が算出される。
shift=floor(shifts_per_double×log(max_value/sum(abs(lfe_dct_new))))
一実施態様において、lfe_dct_newは16個のMDCT係数の配列、shifts_per_doubleは定数(例えば4)、max_valueは精細量子化(例えば63個の量子化値)および粗量子化(例えば31個の量子化値)に選ばれた整数、shiftは精細量子化では4から35、粗量子化では2から33の5ビット値に制限されている。
次に、量子化されたMDCT係数は、以下のように算出される。
vals=round(lfe_dct_new×(2^(shift/shifts_per_double)))
ここでround()演算は、結果を最も近い整数値に丸めるものである。
量子化された値(vals)が利用可能な最大の許容可能な量子化点数(max_val)を超える場合、スケールシフト係数(shift)を減らして、量子化された値(vals)を再度計算する。他の実施態様では、sum関数sum(abs(lfe_dct_new)))の代わりに、max関数max(abs(lfe_dct_new)))を使用してスケーリングシフト係数(shift)を計算できるが、max()関数を使用すると量子化値がより散らばり、効率の良いエントロピー符号化器の設計が難しくなる。
上述の量子化ステップでは、各サブ帯域グループの量子化された値を1ループで一緒に計算するが、量子化点は各サブ帯域グループごとに異なる。最初のサブ帯域グループが許容範囲を超えた場合、スケーリングシフト係数が減少される。他のサブ帯域グループのいずれかが許容範囲を超えた場合、そのサブ帯域グループはmax_valueに切り捨てされる。すべてのMDCT係数に対する符号ビットおよび量子化されたMDCT係数の絶対値は、各サブ帯域グループについて別々に符号化される。
図5は、1つ以上の実施態様における、周波数による精細量子化点の変化を示す図である。精細量子化では、サブ帯域グループ1(0~100Hz)は64個の量子化点、サブ帯域グループ2(100~200Hz)は32個の量子化点、サブ帯域グループ3(200~300Hz)は8個の量子化点、サブ帯域グループ4(300~400Hz)は2個の量子化点を有する。一実施形態において、各サブ帯域グループは、別々のエントロピー符号化器(例えば、算術符号化器またはハフマンエントロピー符号化器)でエントロピー符号化され、各エントロピー符号化器は異なる確率分布を使用する。したがって、0~100Hzプライマリ域に、最も多くの量子化点が割り当てられる。
なお、サブ帯域グループ1~4への量子化点の割り当ては、低域の情報が高域よりも多く、カットオフ周波数外の情報が無いLPF周波数応答曲線の形状に沿っている。130Hzまでの周波数を正しく再構成するために、130Hz以上の周波数に対応するMDCT係数も符号化し、エイリアシングを回避または最小にする。いくつかの実施態様において、130Hzまでの周波数をデコードユニットで適切に再構成できるように、400HzまでのMDCT係数がエンコードされる。
図6は、1つ以上の実施態様における、周波数による粗量子化点の変化を示す図である。粗量子化では、サブ帯域グループ1(0~100Hz)は32個の量子化点を有し、サブ帯域グループ2(100~200Hz)は16個の量子化点を有し、サブ帯域グループ3(200~300Hz)は4個の量子化点を有し、サブ帯域グループ4(300~400Hz)は量子化およびエントロピー符号化されない。一実施形態において、各サブ帯域グループは、異なる確率分布を用いた別々のエントロピー符号化器でエントロピー符号化される。
図7は、1つ以上の実施態様における、精細量子化により量子化されたMDCT係数の確率分布を示す図である。y軸は出現頻度であり、x軸は量子化点の数である。Sg1は0~100Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ1であり、Sg2は100~200Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ2である。Sg3は、200~300Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ3である。Sg4は、300~400Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ4である。
図8は、1つ以上の実施態様における、粗量子化により量子化されたMDCT係数の確率分布を示す図である。y軸は出現頻度であり、x軸は量子化点の数である。Sg1は0~100Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ1であり、Sg2は100~200Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ2である。Sg3は、200~300Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ3である。Sg4は、300~400Hz帯の量子化されたMDCT係数に対応するサブ帯域グループ4である。
なお、プライマリ帯域(0~100Hz)はLFE効果が最も多く見られるため、解像度を上げるために量子化点をより多く割り当てている。しかし、粗量子化では、精細量子化よりもプライマリ帯域に割り当てられるビットが少なくなる。一実施形態において、1フレームぶんのMDCT係数に対して精細量子化または粗量子化のどちらが使用されるかは、プライマリオーディオチャンネルエンコーダ103によって設定される所望の目標ビットレートに依存する。プライマリオーディオチャンネルエンコーダ103は、初期化中に一度、または各フレーム中のプライマリオーディオチャンネルをエンコードするために必要なまたは使用されるビットに基づいてフレーム単位で動的に、この値を設定する。
無音フレーム
いくつかの実施態様において、LFEチャンネルビットストリームに無音フレームを示すための信号が追加される。無音フレームとは、指定された閾値未満のエネルギーを有するフレームである。いくつかの実施態様において、無音フレームを示すために、デコーダに送信されるLFEチャンネルビットストリームに1ビットが含まれ(例えば、フレームヘッダに挿入される)、LFEチャンネルビットストリーム内のすべてのMDCT係数は0に設定される。この技術は、無音フレーム中にビットレートを50bpsに低減させることができる。
デコーダLPF
LPF207(図2B参照)を実装するための2つのオプションが、LFEチャンネルデコードユニット108の出力において提供される。LPF207は、利用可能な遅延(他のオーディオチャンネルの総遅延マイナスLFEフェージング遅延マイナス入力LPF遅延)に基づき、選択される。他のチャンネルは、プライマリオーディオチャンネルエンコード/デコードユニット103、107によってエンコード/デコードされることが期待され、それらチャンネルの遅延は、プライマリオーディオチャンネルエンコード/デコードユニット103、107のアルゴリズム遅延に依存することに留意されたい。
一実施態様において、利用可能な遅延が3.5ms未満であれば、130Hzでカットオフの2次バターワースLPFが使用され、そうでなければ、130Hzでカットオフの4次バターワースLPFが使用される。このように、LFEチャンネルデコードユニット108において、カットオフ周波数を超えるエイリアシングエネルギーの除去とアルゴリズム遅延との間にトレードオフが存在する。いくつかの実施態様において、サブウーファは通常LPFを有するので、LPF207は完全に除去することができる。LPF207は、LFEデコーダ出力自体においてカットオフを超えるエイリアシングエネルギーを低減するのに役立ち、効率的な後処理に役立つことができる。
プロセス例
図9は、1つ以上の実施態様における、MDCT係数をエンコードするプロセス900のフロー図である。プロセス900は、例えば、図11を参照して説明されるシステム1100を使用して実装することができる。
プロセス900は、以下のステップを含む。時間領域LFEチャンネル信号を受信するステップ(901)と、ローパスフィルタを用いて時間領域LFEチャンネル信号をフィルタリングするステップ(902)と、フィルタリングされた時間領域LFEチャンネル信号を、LFEチャンネル信号の周波数スペクトルを表す複数の係数を含む、LFEチャンネル信号の周波数領域表現に変換するステップ(903)と、係数をLFEチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップ(904)と、スケーリングシフト係数を使用して、ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップ(905)と、サブ帯域グループ用に構成されたエントロピー符号化器を使用して各サブ帯域グループの量子化された係数をエンコードするステップ(906)と、エンコード後の量子化された係数を含むビットストリームを生成するステップ(907)と、ビットストリームを記憶装置に格納することまたは下流のデバイスにビットストリームをストリーミングするステップ(908)。
図10は、1つ以上の実施態様における、MDCT係数をデコードするプロセス1000のフロー図である。プロセス1000は、例えば、図11を参照して説明されるシステム1100を使用して実装することができる。
プロセス1000は、以下のステップを含む。LFEチャンネルビットストリームを受信するステップであって、LFEチャンネルビットストリームは、時間領域LFEチャンネル信号の周波数スペクトルを表すエントロピー符号化された係数を含むステップ(1001)と、係数をデコードし逆量子化するステップであって、係数は、スケーリングシフト係数を用いて、ローパスフィルタの周波数応答曲線に従って異なる周波数帯域に対応するサブ帯域グループに量子化されていたステップ(1002)と、デコードおよび逆量子化された係数を時間領域LFEチャンネル信号に変換するステップ(1003)と、時間領域LFEチャンネル信号の遅延を調節するステップ(1004)と、ローパスフィルタを使用して、遅延調節されたLFEチャンネル信号をフィルタリングするステップ(1005)。一実施形態において、ローパスフィルタの次数は、時間領域LFEチャンネル信号を含むマルチチャンネルオーディオ信号のフル帯域幅チャンネルをエンコード/デコードするために用いられるプライマリコーデックから得られる、総アルゴリズム遅延に基づいて設定され得る。いくつかの実施態様において、デコードユニットは、MDCT係数がエンコードユニットによって精細量子化でエンコードされたか粗量子化でエンコードされたかを知るだけでよい。量子化のタイプは、LFEビットストリームヘッダ内のビット、または他の適切なシグナリングメカニズムを用いて示すことができる。
いくつかの実施態様において、時間領域PCMサンプルへの逆量子化された係数のデコードは、以下のように実行される。各サブ帯域グループの逆量子化された係数は、N個のグループ(Nは、エンコードユニットにおいて算出されるMDCTの数)に再配置され、各グループは、それぞれのMDCTに対応する係数を有する。上述した実装例のように、エンコードユニットは、以下の4つのサブ帯域グループをエンコードする。
サブ帯域グループ1={a,a,b,b
サブ帯域グループ2={a,a,b,b
サブ帯域グループ3={a,a,b,b
サブ帯域グループ4={a,a,b,b
デコードユニットは、4つのサブ帯域グループをデコードし、{a,a,a,a,a,a,a,a}および{b,b,b,b,b,b,b,b}に再配置し、これらグループをゼロでパディングして所望の逆MDCT(iMDCT)入力長になるようにする。各グループのMDCT係数を時間領域のブロックに逆変換するためにN回のiMDCTが実行される。この例では、各ブロックは幅2×Swmsであり、ここでSは上記で定義されたサブフレーム幅である。次にこのブロックを、図4に示したLFEエンコードユニットで用いられるのと同じFielderウィンドウを用いてウィンドウ化する。各サブフレームS(iは1<=i<=Nの整数)は、前回のiMDCT出力と今回のiMDCT出力のウィンドウ化されたデータを適切にオーバーラップ加算することによって再構成される。最後に、N個のサブフレームをすべて連結することによって(1003)の出力を再構成する。
システムアーキテクチャ例
図11は、1つ以上の実施態様における、図1~10を参照して説明した特徴およびプロセスを実装するためのシステム1100のブロック図である。システム1100は、以下を含むがこれらに限定されない、1つ以上のサーバコンピュータまたは任意のクライアントデバイスを含む:通話サーバ、ユーザー機器、会議室システム、ホームシアターシステム、仮想現実(VR)ギアおよび没入型コンテンツ取り込み(content ingestion)デバイス。システム1100は、以下を含むが、これらに限定されない:任意のコンシューマー機器を含む:スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなど。
図示するように、システム1100は、例えば、リードオンリーメモリ(ROM)1102に記憶されたプログラム、または、例えば、記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに従って様々なプロセスを実行することが可能な中央処理装置(CPU)1101を含む。RAM1103には、CPU1101が様々なプロセスを実行するときに必要とされるデータも、必要に応じて記憶される。CPU1101、ROM1102およびRAM1103は、バス1104を介して互いに接続される。入力/出力(I/O)インターフェース1105もバス1104に接続される。
次の構成要素、すなわち、キーボード、マウス等を含むことができる入力ユニット806、液晶ディスプレイ(LCD)等のディスプレイおよび1つ以上のスピーカを含むことができる出力ユニット807、ハードディスクまたは別の適した記憶装置を含む記憶ユニット1108、ならびにネットワークカード(例えば、有線または無線)等のネットワークインターフェースカードを含む通信ユニット1109が、I/Oインターフェース1105に接続される。
いくつかの実施態様において、入力ユニット1106は、様々なフォーマット(例えば、モノラル、ステレオ、空間、没入型、および他の適したフォーマット)のオーディオ信号のキャプチャーを可能にする(ホストデバイスに応じて)異なる位置にある1つ以上のマイクロフォンを含む。
いくつかの実施態様において、出力ユニット1107は、様々な数のスピーカを有するシステムを含む。出力ユニット1107は、(ホストデバイスの能力に応じて)様々なフォーマット(例えば、モノラル、ステレオ、没入型、バイノーラル、および他の適したフォーマット)のオーディオ信号をレンダリングすることができる。
通信ユニット1109は、他のデバイスと(例えば、ネットワークを介して)通信するように構成される。ドライブ810も、必要に応じてI/Oインターフェース1105に接続される。リムーバブルメディア1111、例えば磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブまたは別の適したリムーバブルメディア等が、そこから読み出されたコンピュータプログラムが必要に応じて記憶ユニット1108内にインストールされるように、ドライブ1110に取り付けられる。当業者であれば、システム1100は、上述した構成要素を含むものとして説明されているが、実際の用途において、これらの構成要素のうちの一部を追加、除去、および/または交換することが可能であり、これらの全ての変更または改変は全て本開示の範囲内に含まれることを理解するであろう。
本開示の例示の実施形態によれば、上述したプロセスは、コンピュータソフトウェアプログラムとしてまたはコンピュータ可読記憶媒体上に実装することができる。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、方法を実行するプログラムコードを含む。そのような実施形態において、コンピュータプログラムは、ネットワークから通信ユニット1309を介してダウンロードして実装することができ、および/またはリムーバブルメディア1111からインストールすることができる。
一般に、本開示の様々な例示の実施形態は、ハードウェアもしくは専用回路(例えば、制御回路類)、ソフトウェア、ロジックまたはそれらの任意の組み合わせで実装することができる。例えば、上述したユニットは、制御回路類(例えば、図11の他の構成要素と組み合わせたCPU)によって実行することができ、したがって、この制御回路類は、本開示において説明された動作を実行することができる。ハードウェアで実装することができる態様もあれば、コントローラ、マイクロプロセッサまたは他のコンピューティングデバイス(例えば、制御回路類)によって実行することができるファームウェアまたはソフトウェアで実装することができる態様もある。本開示の例示の実施形態の様々な態様は、ブロック図、フローチャートとして、または他の或る図形表現を使用して図示および説明されているが、本明細書において説明されているブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラもしくは他のコンピューティングデバイス、またはそれらの或る組み合わせで実装することができることが理解されるであろう。
加えて、フローチャートに示す様々なブロックは、コンピュータプログラムコードの動作の結果からもたらされる方法ステップおよび/または動作、および/または、関連した機能(複数の場合もある)を実行するように構成された複数の結合された論理回路素子とみなすことができる。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、上述したような方法を実行するように構成されるプログラムコードを含む。
本開示の文脈において、機械/コンピュータ可読媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによってまたはそれらに関連して使用されるプログラムを収容または記憶することができる任意の有形媒体とすることができる。機械/コンピュータ可読媒体は、機械/コンピュータ可読信号媒体であってもよいし、機械/コンピュータ可読記憶媒体であってもよい。機械/コンピュータ可読媒体は、非一時的なものであってもよく、電子、磁気、光、電磁気、赤外線、または半導体システム、装置、もしくはデバイス、またはそれらの任意の適した組み合わせを含むことができるが、これらに限定されるものではない。機械/コンピュータ可読記憶媒体のより具体的な例は、1つ以上の配線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、またはそれらの任意の適した組み合わせを含む。
本開示の方法を実行するコンピュータプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせで記述することができる。これらのコンピュータプログラムコードは、当該プログラムコードが、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図において指定された機能/動作の実施を引き起こすように、汎用コンピュータ、専用コンピュータ、または制御回路類を有する他のプログラマブルデータ処理装置のプロセッサに提供することができる。プログラムコードは、スタンドアローンソフトウェアパッケージとしてコンピュータ上で全体的またはコンピュータ上で部分的に実行することもできるし、一部はコンピュータ上および一部はリモートコンピュータ上で実行することもできるし、全体をリモートコンピュータまたはリモートサーバー上で実行することもできるし、1つ以上のリモートコンピュータおよび/またはリモートサーバーにわたって分散させることもできる。
本明細書は、多くの具体的な実施の詳細を含むが、これらは、特許請求され得るものの範囲に対する限定と解釈されるべきではなく、逆に、特定の実施形態に固有であり得る特徴の説明と解釈されるべきである。別々の実施形態の文脈で本明細書に説明されている或る特定の特徴は、単一の実施形態に組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、複数の実施形態において別々にまた任意の適したサブコンビネーションで実施することもできる。その上、特徴は、或る特定の組み合わせで動作するものとして上記で説明され、そのようなものとして最初に請求項に記載されることさえあるが、請求項に記載の組み合わせからの1つ以上の特徴は、いくつかの場合には、その組み合わせから削除することができ、請求項に記載の組み合わせは、サブコンビネーションまたはサブコンビネーションの変形形態を対象とすることができる。図に示された論理フローは、望ましい結果を達成するために、図示された特定の順序も逐次的な順序も必須とするものではない。加えて、記載のフローに対して他のステップを設けることもできるし、ステップを削除することもでき、記載のシステムに対して他の構成要素を追加または削除することができる。したがって、他の実施態様は、添付の特許請求の範囲の範囲内にある。

Claims (20)

  1. 低音効果(LFE)チャンネルをエンコードする方法であって、
    1つまたは複数のプロセッサを用いて、時間領域LFEチャンネル信号を受信するステップと、
    ローパスフィルタを用いて、前記時間領域LFEチャンネル信号をフィルタリングするステップと、
    前記1つまたは複数のプロセッサを用いて、フィルタリングされた前記時間領域LFEチャンネル信号を、前記LFEチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記LFEチャンネル信号の周波数領域表現に変換するステップと、
    前記1つまたは複数のプロセッサを用いて、係数を、前記LFEチャンネル信号の異なる周波数帯域に対応する複数のサブ帯域グループに配置するステップと、
    前記1つまたは複数のプロセッサを用いて、前記ローパスフィルタの周波数応答曲線に従って各サブ帯域グループの係数を量子化するステップと、
    前記1つまたは複数のプロセッサを用いて、各サブ帯域グループの量子化された係数を、前記サブ帯域グループごとに調整されたエントロピー符号化器を使用してエンコードするステップと、
    前記1つまたは複数のプロセッサを用いて、エンコード後の前記量子化された係数を含むビットストリームを生成するステップと、
    前記1つまたは複数のプロセッサを用いて、前記ビットストリームを記憶装置に格納する、または前記ビットストリームを下流のデバイスにストリーミングするステップと、
    を包含する、方法。
  2. 各サブ帯域グループの前記係数を量子化する前記ステップは、
    利用可能な量子化点の最大数と前記係数の絶対値の合計とに基づいて、スケーリングシフト係数を生成することと、
    前記スケーリングシフト係数を用いて前記係数を量子化することと、
    をさらに含む、請求項1に記載の方法。
  3. ある量子化された係数が前記量子化点の最大数を超える場合、前記スケーリングシフト係数が減少されて前記係数は再び量子化される、請求項2に記載の方法。
  4. 前記量子化点は各サブ帯域グループに対して異なる、前記請求項1から3のいずれかに記載の方法。
  5. 各サブ帯域グループの前記係数は、精細量子化スキームまたは粗量子化スキームに従って量子化され、前記精細量子化スキームでは、前記粗量子化スキームに従って前記各サブ帯域グループに割り当てられるよりも多くの量子化点が、1つまたは複数のサブ帯域グループに割り当てられる、前記請求項1から4のいずれかに記載の方法。
  6. 前記係数のための符号ビットは、前記係数とは別々に符号化される、前記請求項1から5のいずれかに記載の方法。
  7. 4つのサブ帯域グループが存在し、第1のサブ帯域グループは0~100Hzである第1の周波数範囲に対応し、第2のサブ帯域グループは100~200Hzである第2の周波数範囲に対応し、第3のサブ帯域グループは200~300Hzである第3の周波数範囲に対応し、第4のサブ帯域グループは300~400Hzである第4の周波数範囲に対応している、前記請求項1から6のいずれかに記載の方法。
  8. 前記エントロピー符号化器は算術エントロピー符号化器である、前記請求項1から7のいずれかに記載の方法。
  9. 前記請求項1から8のいずれかに記載の方法であって、
    フィルタリングされた前記時間領域LFEチャンネル信号を、前記LFEチャンネル信号の周波数スペクトルを表す複数の係数を含んだ前記LFEチャンネル信号の周波数領域表現に変換する前記ステップは、
    前記LFEチャンネル信号の第1のストライド長を決定することと、
    前記第1のストライド長に基づき、あるウィンドウ関数の第1のウィンドウサイズを指定することと、
    時間領域LFEチャンネル信号の1つまたは複数のフレームに前記第1のウィンドウサイズを適用することと、
    ウィンドウ化された前記フレームに修正離散コサイン変換(MDCT)を適用し、前記係数を生成することと、
    をさらに含む、方法。
  10. 前記LFEチャンネル信号の第2のストライド長を決定するステップと、
    前記第2のストライド長に基づいて、前記ウィンドウ関数の第2のウィンドウサイズを指定するステップと、
    前記時間領域LFEチャンネル信号の前記1つまたは複数のフレームに、前記第2のウィンドウサイズを適用するステップと、
    をさらに包含する、請求項9に記載の方法。
  11. 前記第1のストライド長はNミリ秒(ms)であり、
    Nは5ms以上60ms以下であり、
    前記第1のウィンドウサイズは10ms以上であり、
    前記第2のストライド長は5msであり、
    前記第2のウィンドウサイズは10msである、
    請求項10に記載の方法。
  12. 前記第1のストライド長は20ミリ秒(ms)であり、
    前記第1のウィンドウサイズは10ms、20ms、または40msであり、
    前記第2のストライド長は10msであり、
    前記第2のウィンドウサイズは10msまたは20msである、
    請求項10に記載の方法。
  13. 前記第1のストライド長は10ミリ秒(ms)であり、
    前記第1のウィンドウサイズは10msまたは20msであり、
    前記第2のストライド長は5msであり、
    前記第2のウィンドウサイズは10msである、
    請求項10に記載の方法。
  14. 前記第1のストライド長は20ミリ秒(ms)であり、
    前記第1のウィンドウサイズは10ms、20ms、または40msであり、
    前記第2のストライド長は5msであり、
    前記第2のウィンドウサイズは10mである、
    請求項10に記載の方法。
  15. 前記ウィンドウ関数は、設定可能なフェード長を有するKaiser-Bessel-derived(KBD)ウィンドウ関数である、請求項9に記載の方法。
  16. 前記ローパスフィルタは、カットオフ周波数が約130Hz以下の4次バターワースフィルタローパスフィルタである、前記請求項1から15のいずれかに記載の方法。
  17. 前記1つまたは複数のプロセッサを用いて、前記LFEチャンネル信号のあるフレームのエネルギーレベルが閾値未満であるか否かを判断するステップと、
    前記エネルギーレベルが閾値レベル未満であることに応じて、
    前記デコーダに無音フレームであることを示す無音フレームインジケータを生成するステップと、
    前記無音フレームインジケータを前記LFEチャンネルビットストリームのメタデータに挿入するステップと、
    無音フレーム検出時にLFEチャンネルビットレートを低減するステップと、
    をさらに包含する、前記請求項1から16のいずれかに記載の方法。
  18. 低音効果(LFE)チャンネルビットストリームをデコードする方法であって、
    1つまたは複数のプロセッサを用いて、時間領域LFEチャンネル信号の周波数スペクトルを表すエントロピー符号化された係数を含むLFEチャンネルビットストリームを受信するステップと、
    前記1つまたは複数のプロセッサを用いて、エントロピーデコーダを用いて前記量子化された係数をデコードするステップと、
    前記1つまたは複数のプロセッサを用いて、前記逆量子化された係数を逆量子化するステップであって、エンコーダ中において前記時間領域LFEチャンネル信号をフィルタリングするために用いられるローパスフィルタの周波数応答曲線に従った周波数帯群に対応するサブ帯域グループ群において、前記係数が量子化された、ステップと、
    前記1つまたは複数のプロセッサを用いて、逆量子化された前記係数を時間領域LFEチャンネル信号に変換するステップと、
    前記1つまたは複数のプロセッサを用いて、時間領域LFEチャンネル信号の遅延を調節するステップと、
    ローパスフィルタを用いて、遅延調節された前記LFEチャンネルの信号をフィルタリングするステップと、
    を包含する、方法。
  19. ローパスフィルタの次数は、前記LFEチャンネルをエンコードおよびデコードすることによる第1の総アルゴリズム遅延が、前記LFEチャンネル信号を含むマルチチャンネルオーディオ信号の他のチャンネルをエンコードおよびデコードすることによる第2の総アルゴリズム遅延以下となるように構成される、請求項18に記載の方法。
  20. 前記第2の総アルゴリズム遅延が閾値を超えるか否かを判断するステップと、
    前記第2の総アルゴリズム遅延が前記閾値を超えたことに応じて、
    前記ローパスフィルタをN次ローパスフィルタとして構成し、ここでNは2以上の整数であるステップと、
    前記第2の総アルゴリズム遅延が前記閾値を超えないことに応じて、
    前記ローパスフィルタの次数をN未満に設定するステップと、
    をさらに包含する、請求項19に記載の方法。
JP2022514462A 2019-09-03 2020-09-01 低レイテンシ・低音効果コーデック Pending JP2022547038A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962895049P 2019-09-03 2019-09-03
US62/895,049 2019-09-03
US202063069420P 2020-08-24 2020-08-24
US63/069,420 2020-08-24
PCT/US2020/048954 WO2021046060A1 (en) 2019-09-03 2020-09-01 Low-latency, low-frequency effects codec

Publications (2)

Publication Number Publication Date
JP2022547038A true JP2022547038A (ja) 2022-11-10
JPWO2021046060A5 JPWO2021046060A5 (ja) 2023-09-05

Family

ID=72474028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022514462A Pending JP2022547038A (ja) 2019-09-03 2020-09-01 低レイテンシ・低音効果コーデック

Country Status (12)

Country Link
US (1) US20220293112A1 (ja)
EP (1) EP4026122A1 (ja)
JP (1) JP2022547038A (ja)
KR (1) KR20220054645A (ja)
CN (1) CN114424282A (ja)
AR (2) AR125511A2 (ja)
AU (1) AU2020340937A1 (ja)
BR (1) BR112022003440A2 (ja)
CA (1) CA3153258A1 (ja)
IL (1) IL290684A (ja)
MX (1) MX2022002323A (ja)
WO (1) WO2021046060A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114531937B (zh) * 2019-09-25 2024-03-22 米沙洛公司 用于数据的鲁棒传输的多步幅包有效载荷映射

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100546233C (zh) * 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取

Also Published As

Publication number Publication date
AR125511A2 (es) 2023-07-26
AU2020340937A1 (en) 2022-03-24
BR112022003440A2 (pt) 2022-05-24
MX2022002323A (es) 2022-04-06
CN114424282A (zh) 2022-04-29
WO2021046060A1 (en) 2021-03-11
CA3153258A1 (en) 2021-03-11
AR125559A2 (es) 2023-07-26
IL290684A (en) 2022-04-01
EP4026122A1 (en) 2022-07-13
KR20220054645A (ko) 2022-05-03
US20220293112A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
US8527282B2 (en) Method and an apparatus for processing a signal
KR101763313B1 (ko) 메타데이터 구동된 동적 범위 제어
US8972270B2 (en) Method and an apparatus for processing an audio signal
EP2124224A1 (en) A method and an apparatus for processing an audio signal
US11640825B2 (en) Time-domain stereo encoding and decoding method and related product
JP2022543083A (ja) Ivasビットストリームの符号化および復号化
JP2023551732A (ja) 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas)
US11900952B2 (en) Time-domain stereo encoding and decoding method and related product
JP2023530409A (ja) マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス
JP2022547038A (ja) 低レイテンシ・低音効果コーデック
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
RU2809977C1 (ru) Кодек с малой задержкой и низкочастотными эффектами
TW202211206A (zh) 低延遲、低頻率效應之編碼解碼器
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
JP2023545197A (ja) オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
CN116982109A (zh) 具有下混信号自适应增益控制的音频编解码器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230825