JP2023551732A - 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas) - Google Patents

適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas) Download PDF

Info

Publication number
JP2023551732A
JP2023551732A JP2023533783A JP2023533783A JP2023551732A JP 2023551732 A JP2023551732 A JP 2023551732A JP 2023533783 A JP2023533783 A JP 2023533783A JP 2023533783 A JP2023533783 A JP 2023533783A JP 2023551732 A JP2023551732 A JP 2023551732A
Authority
JP
Japan
Prior art keywords
downmix
channel
gain
input
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023533783A
Other languages
English (en)
Inventor
ムント,ハラルド
エス. マクグラス,デイヴィッド
チャギ,リシャブ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023551732A publication Critical patent/JP2023551732A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

デコーダにおいて適用される復号リミックス/アップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化/復号方法が開示される。ダウンミックスコーディング方式のタイプに基づいて、本方法は、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップと、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインを決定するステップと、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、このサイドチャネル予測をサイドチャネルから減算することによって、サイドチャネルから残差チャネル(複数可)を決定するステップと、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、一次ダウンミックスチャネルと、残差チャネル(複数可)と、予測ゲインと、無相関ゲインとを符号化するステップと、ビットストリームをデコーダに送るステップとを含む。

Description

[関連出願への相互参照]
本出願は、2021年8月3日に出願された米国仮特許出願第63/228,732号、2021年4月6日に出願された米国仮特許出願第63/171,404号、および2020年12月2日に出願された米国仮特許出願第63/120,365号に対する優先権の利益を主張するものであり、これらのすべては参照により本明細書に組み込まれる。
[技術分野]
本開示は、一般に、オーディオビットストリーム符号化および復号に関する。
音声およびオーディオエンコーダ/デコーダ(「コーデック」)規格の開発は、最近、没入型音声およびオーディオサービス(IVAS:immersive voice and audio services)用のコーデックの開発に焦点を当てている。IVASは、モノラルからステレオへのアップミックス、ならびに完全没入型オーディオ符号化、復号、およびレンダリングを含むがこれらに限定されない、ある範囲のオーディオサービス能力をサポートすることが期待される。IVASは、携帯電話およびスマートフォン、電子タブレット、パーソナルコンピュータ、会議電話、会議室、仮想現実(VR)および拡張現実(AR)デバイス、ホームシアターデバイス、および他の適切なデバイスを含むがこれらに限定されない広範囲のデバイス、エンドポイント、およびネットワークノードによってサポートされることが意図されている。
IVASコーデックは、アンビソニックス入力を含むNチャネルのマルチチャネル入力を、この入力をN_dmx個のチャネル(N_dmx≦N)にダウンミックスし、サイド情報(空間メタデータ)を生成することによって効率的にコーディングし、次いで、これらのN_dmx個のチャネルは、コアコーデックの1つまたは複数のインスタンスによってコーディングされる。次いで、コアコーデックビットはコーディングされたサイド情報とともにIVASデコーダに送信される。IVASデコーダは、コアコーデックの1つまたは複数のインスタンスを使用してN_dmx個のダウンミックスチャネルを復号し、次いで、送信されたサイド情報およびデコリレータの1つまたは複数のインスタンスを使用してN_dmx個のチャネルからマルチチャネル入力を再構成する。
様々なビットレートでは、異なる数のN_dmxがコーディングされ得、例えば、32kbpsでは、1つのダウンミックスチャネルのみがコーディングされ得る。N_dmx個のダウンミックスチャネルのうちの1つは、N個のチャネル入力の支配的な固有信号(W’)(以下、「一次ダウンミックスチャネル」と呼ばれることもある)の表現であり、残りのダウンミックスチャネルは、W’およびマルチチャネル入力の関数として導出され得る。IVASでは、パッシブダウンミックス方式およびアクティブダウンミックス方式という2つのダウンミックス方式が利用可能である。パッシブダウンミックス方式では、支配的な固有信号(W’)は、中央チャネルまたは一次入力チャネル(アンビソニックス入力の場合のWチャネル)の遅延バージョンである。アクティブダウンミックス方式では、Nチャネル入力中の1つまたは複数のチャネルをスケーリングし、加算することによって固有信号(W’)が得られる。例えば、一次アンビソニックス(FoA)入力の場合、W’=sW+sY+sX+sZであり、ここで、s0~3は入力ダウンミックスゲインである。したがって、パッシブダウンミックス方式は、s=1、s=0、s=0およびs=0であるアクティブダウンミックス方式の特殊なケースと見なされ得る。
適応ダウンミックス戦略によるIVASコーディングのための実装形態が開示され、適応ダウンミックスは、パッシブダウンミックス、アクティブダウンミックス、またはパッシブダウンミックスとアクティブダウンミックスとの組み合わせのいずれかである。一実施形態では、デコーダにおいて適用される復号リミックス/アップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化方法は、少なくとも1つのプロセッサを用いて、入力オーディオ信号を取得するステップであって、入力オーディオ信号は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む、ステップと、少なくとも1つのプロセッサを用いて、入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップと、ダウンミックスコーディング方式のタイプに基づいて、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき1つまたは複数の入力ダウンミックスゲインを計算するステップであって、入力ダウンミックスゲインは、サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップと、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルをスケーリングするための1つまたは複数のダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、一次ダウンミックスチャネルからの入力オーディオシーンの再構成された表現と入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップと、少なくとも1つのプロセッサを用いて、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、次いでサイドチャネル予測をサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから1つまたは複数の残差チャネルを決定するステップと、少なくとも1つのプロセッサを用いて、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネル、ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、サイド情報は、予測ゲインおよび無相関ゲインを含む、ステップと、少なくとも1つのプロセッサを用いて、ビットストリームをデコーダに送るステップとを含む。
一実施形態では、本方法は、少なくとも1つのプロセッサを用いて、入力オーディオ信号に基づいて入力共分散を計算するステップと、少なくとも1つのプロセッサを用いて、入力共分散を使用して全体的な予測誤差を決定するステップとをさらに含む。
一実施形態では、ダウンミックススケーリングゲインの計算は、少なくとも1つのプロセッサを用いて、デコーダに送信されたサイド情報の関数としてアップミックススケーリングゲインを決定するステップと、少なくとも1つのプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるようにアップミックススケーリングゲインを一次ダウンミックスチャネルに適用することによって、一次ダウンミックスチャネルおよびゼロ個以上の残差チャネルから入力オーディオシーンの表現を生成するステップと、少なくとも1つのプロセッサを用いて、入力オーディオシーンのエネルギーを保存するために多項式の閉形式解を解くことによってダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、再構成された入力オーディオシーンのエネルギーを入力オーディオシーンのエネルギーと一致させるときに決定される、ステップとをさらに含む。
一実施形態では、一次ダウンミックスチャネルおよびゼロ個以上の残差チャネルから入力オーディオシーンの表現を再構成するためのアップミックススケーリングゲインは、一次入力オーディオ信号の再構成された表現が一次ダウンミックスチャネルと同相になるように、サイド情報中でデコーダに送信される予測ゲインおよび無相関ゲインの関数であり、多項式は2次多項式である。
一実施形態では、一次ダウンミックスチャネルから入力オーディオシーンの表現を再構成するためのアップミックススケーリングゲインは、2次多項式を解くことによって得られるダウンミックススケーリングゲインが、指定された量子化範囲内で予測ゲインおよび無相関ゲインをスケーリングするように、デコーダに送信される予測ゲインおよび無相関ゲインの関数である。
一実施形態では、前述の方法は、エンコーダにおいて、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインとダウンミックススケーリングゲインとの組み合わせを計算するステップであって、入力ダウンミックスゲインは、入力オーディオ信号の入力共分散の関数として計算される、ステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて一次ダウンミックスチャネルを生成するステップと、エンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインを生成するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインを使用して、サイドチャネル予測を生成し、次いでサイドチャネル予測を入力オーディオ信号におけるサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内にあるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインと、無相関ゲインとを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップと、少なくとも1つのエンコーダプロセッサを用いて、ビットストリームをデコーダに送るステップと、デコーダにおいて、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも1つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインおよび無相関ゲインの関数として設定するステップと、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号(decorrelated signal)を生成するステップと、少なくとも1つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用するステップとをさらに含む。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、関数の分子が、一次入力オーディオチャネルとサイドチャネルとの間の共分散に第1の定数を乗じたものであり、関数の分母が、一次入力オーディオチャネルの分散および入力オーディオ信号のサイドチャネルの分散の和に第2の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算され、少なくとも1つのエンコーダプロセッサを用いて、サイドチャネル予測についての予測誤差を最小化し、予測ゲインについて解くことによって、1次多項式を生成するステップ。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、一次ダウンミックスチャネルが一次入力オーディオ信号と同じであるかまたは一次入力オーディオ信号の遅延バージョンのいずれかであるように、パッシブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、予測ゲインの関数として計算される。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、少なくとも1つのプロセッサを用いて、一次オーディオ信号と入力オーディオ信号のサイドチャネルとの間の相関を決定するステップと、少なくとも1つのプロセッサを用いて、相関に基づいて入力ダウンミックスゲイン計算方式を選択するステップとを含む。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの計算は、エンコーダにおいて、少なくとも1つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいてパッシブ予測ゲインのセットを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、パッシブ予測ゲインのセットを第1のしきい値と比較するステップと、少なくとも1つのエンコーダプロセッサを用いて、パッシブ予測ゲインのセットが第1のしきい値以下であるかどうかを決定し、そうである場合、入力ダウンミックスゲインの第1のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインの第1のセットを生成するステップと、少なくとも1つのエンコーダプロセッサを用いて、予測ゲインの第1のセットが第2のしきい値よりも高いかどうかを決定し、そうである場合、入力ダウンミックスゲインの第2のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインの第2のセットを生成するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインの第2のセットを使用して、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、デコーダに伝送されていない残差チャネルのエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内であるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインの第2のセットと、無相関ゲインとを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップと、少なくとも1つのエンコーダプロセッサを用いて、ビットストリームをデコーダに送るステップと、デコーダにおいて、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも1つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインおよび無相関ゲインの関数として決定するステップと、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップと、少なくとも1つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用するステップとをさらに含む。
一実施形態では、入力ダウンミックスゲインの第1のセットはパッシブダウンミックスコーディング方式に対応する。
一実施形態では、入力ダウンミックスゲインの第1のセットはアクティブダウンミックス方式に対応し、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの第1のセットは、関数の分子が、一次入力オーディオチャネルとサイドチャネルとの共分散に第1の定数を乗じたものであり、関数の分母が、一次入力オーディオチャネルの分散およびサイドチャネルの分散の和に第2の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算される。
一実施形態では、入力ダウンミックスゲインの第2のセットは、アクティブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルは、入力ダウンミックスゲインの第2のセットを一次入力オーディオチャネルおよびサイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる。
一実施形態では、入力ダウンミックスゲインの第2のセットは、2次多項式の係数である。
一実施形態では、予測ゲインが比較されるしきい値は、予測ゲインが指定された量子化範囲内にあるように計算される。
一実施形態では、ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、一次入力オーディオ信号をスケーリングするためのスケーリング係数を計算するステップと、スケーリングされた一次入力オーディオ信号の共分散を計算するステップと、スケーリングされた一次入力オーディオ信号の共分散に対して固有分析(eigen analysis)を実行するステップと、一次ダウンミックスチャネルが一次入力オーディオチャネルと正に相関するように、最大固有値に対応する固有ベクトルを入力ダウンミックスゲインとして選択するステップと、入力オーディオシーンの全体的なエネルギーが保存されるように一次ダウンミックスチャネルおよびサイド情報をスケーリングするためのダウンミックススケーリングゲインを計算するステップとを含む。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、一次入力オーディオチャネルをスケーリングするためのスケーリング係数を計算するステップと、スケーリングされた一次入力オーディオチャネルの予測ゲインの関数として入力ダウンミックスゲインを設定することによって、スケーリングされた一次入力オーディオチャネルに基づいて入力ダウンミックスゲインを計算するステップと、入力オーディオシーンの全体的なエネルギーが保存されるように一次ダウンミックスチャネルおよびサイド情報をスケーリングするためのダウンミックススケーリングゲインを計算するステップとを含む。
一実施形態では、一次入力オーディオチャネルをスケーリングするためのスケーリング係数は、一次入力オーディオチャネルの分散とサイドチャネルの分散の和の平方根との比である。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの計算は、少なくとも1つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいて予測ゲインを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが入力オーディオシーンの再構成された表現において保存されるように、一次ダウンミックスチャネルおよびサイド情報をスケーリングするための第1のダウンミックススケーリングゲインを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、第1のダウンミックススケーリングゲインが第1のしきい値以下であるかどうかを決定し、その結果、入力ダウンミックスゲインの第1のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、第1のダウンミックススケーリングゲインが第2のしきい値よりも高いかどうかを決定し、その結果、入力ダウンミックスゲインの第2のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号と第1または第2の入力ダウンミックスゲインとに基づいて予測ゲインの第2のセットを生成するステップと、デコーダにおいて、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、スケーリングされた予測ゲインの第2のセットおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも1つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインの第2のセットおよび無相関ゲインの関数として決定するステップと、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップと、少なくとも1つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと無相関信号との組み合わせに適用するステップとをさらに含む。
一実施形態では、入力ダウンミックスゲインの第1のセットはパッシブダウンミックスコーディング方式に対応する。
一実施形態では、入力ダウンミックスゲインの第2のセットは、アクティブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルは、入力ダウンミックスゲインを一次入力オーディオチャネルおよびサイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる。
一実施形態では、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、上記で説明した説明のいずれかによる動作を実行させる命令を記憶する非一時的コンピュータ可読媒体とを備える。
一実施形態では、非一時的コンピュータ可読媒体は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、上記で説明した方法のいずれかによる動作を実行させる命令を記憶する。
本明細書で開示される他の実装形態は、システム、装置、おびコンピュータ可読媒体を対象とする。開示される実装形態の詳細は、添付の図面および以下の説明に記載される。他の特徴、目的および利点は、説明、図面および特許請求の範囲から明らかである。本明細書で開示される特定の実装形態は、以下の利点のうちの1つまたは複数を提供する。アクティブダウンミックス戦略は、4つのFoAチャネルなどの復号されたオーディオ信号の品質を向上させるためにIVASデコーダにおいて実装される。開示されるアクティブダウンミックス技法は、シングルまたはマルチチャネルのダウンミックスチャネル構成で使用可能である。パッシブダウンミックス方式と比較してアクティブダウンミックスコーディング方式は、デコーダにおいてWチャネルを再構成するための追加的なスケーリング項を提供し、これは、FoAチャネルの再構成に使用されるパラメータ(例えば、空間メタデータ)のより良好な推定を保証するために利用することができる。
追加的に、シングルおよびマルチチャネルダウンミックスの場合について潜在的な改善が開示される。一実施形態では、アクティブダウンミックスコーディング方式は適応的に動作され、1つの可能な動作点はパッシブダウンミックスコーディング方式である。
図面では、説明を容易にするために、デバイス、ユニット、命令ブロック、およびデータ要素を表すものなど、概略的な要素の特定の配置または順序が示されている。しかしながら、図面における概略的な要素の特定の順序または配置が、処理の特定の順序またはシーケンス、またはプロセスの分離が必要とされることを暗示することを意味するものではないことは当業者によって理解されるべきである。さらに、概略的な要素を図面に含めることは、そのような要素がすべての実施形態において必要とされること、またはそのような要素によって表される特徴が、いくつかの実装形態において他の要素に含まれないか、もしくは他の要素と組み合わされない可能性があることを暗示することを意味するものではない。
さらに、図面において、実線または破線または矢印などの接続要素が、2つ以上の他の概略的な要素の間の接続、関係、または関連付けを示すために使用される場合、そのような接続要素が存在しないことは、接続、関係、または関連付けが存在し得ないことを暗示することを意味するものではない。言い換えると、要素間のいくつかの接続、関係、または関連付けは、本開示を不明瞭にしないように、図面に示されていない。加えて、説明を容易にするために、単一の接続要素が要素間の複数の接続、関係、または関連付けを表すために使用される。例えば、接続要素が、信号、データ、または命令の通信を表す場合、そのような要素は、必要に応じて、通信に影響を与えるために、1つまたは複数の信号経路を表すことが当業者によって理解されるべきである。
一実施形態による、IVASコーデックのユースケースを示す。 一実施形態による、IVASビットストリームを符号化および復号するためのシステムのブロック図である。 一実施形態による、オーディオを符号化するプロセスのフロー図である。 一実施形態による、オーディオを符号化および復号するプロセスのフロー図である。 一実施形態による、オーディオを符号化および復号するプロセスのフロー図である。 一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAデコーダのブロック図である。 一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAエンコーダのブロック図である。 一実施形態による、例示的なデバイスアーキテクチャのブロック図である。
様々な図面において使用される同じ参照符号は、同様の要素を示す。
以下の詳細な説明では、説明される様々な実施形態の完全な理解を与えるために、多数の具体的な詳細が記載される。説明される様々な実装形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の事例では、周知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には説明されていない。それぞれ互いに独立して、または他の特徴の任意の組み合わせとともに使用することができるいくつかの特徴について以下で説明する。
名称
本明細書で使用される場合、「含む(includes)」という用語およびその変形は、「~を含むがこれらに限定されない(includes, but is not limited to)」ことを意味するオープンエンドの用語として読まれるべきである。「または(or)」という用語は、文脈が明らかにそうでないことを示さない限り、「および/または(and/or)」として読まれるべきである。「~に基づいて(based on)」という用語は、「~に少なくとも部分的に基づいて(based at least in part on)」として読まれるべきである。「1つの例示的な実装形態(one example implementation)」および「例示的な実装形態(an example implementation)」という用語は、「少なくとも1つの例示的な実装形態(at least one example implementation)」として読まれるべきである。「別の実装形態(another implementation)」という用語は、「少なくとも1つの他の実装形態(at least one other implementation)」として読まれるべきである。「決定された(determined)」、「決定する(determines)」、または「決定すること(determining)」という用語は、取得すること、受信すること、計算すること、算出すること、推定すること、予測すること、または導出することとして読まれるべきである。加えて、以下の説明および特許請求の範囲では、別様に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が属する分野の当業者によって一般に理解されるのと同じ意味を有する。
IVASユースケースの例
図1は、1つまたは複数の実装形態による、IVASコーデック100のためのユースケース100を示す。いくつかの実装形態では、様々なデバイスは、例えば、公衆交換電話網(PSTN)またはPSTN/他のPLMN104によって示される公衆陸上移動体通信網デバイス(PLMN)からオーディオ信号を受信するように構成されたコールサーバ102を介して通信する。ユースケース100は、拡張音声サービス(EVS)、マルチレート広帯域(AMR-WB)および適応マルチレート狭帯域(AMR-NB)をサポートするデバイスを含むがこれらに限定されない、オーディオをモノラルのみでレンダリングおよびキャプチャするレガシーデバイス106をサポートする。ユースケース100はまた、ステレオオーディオ信号をキャプチャおよびレンダリングするユーザ機器(UE)108、114、またはモノラル信号をキャプチャし、マルチチャネル信号へとバイノーラルレンダリングするUE110をサポートする。ユースケース100はまた、それぞれ、ビデオ会議室システム116、118によってキャプチャおよびレンダリングされる没入型およびステレオ信号をサポートする。ユースケース100はまた、ホームシアターシステム120のためのステレオオーディオ信号のステレオキャプチャおよび没入型レンダリングと、仮想現実(VR)ギア122および没入型コンテンツインジェスト124のためのオーディオ信号のモノラルキャプチャおよび没入型レンダリングのためのコンピュータ112とをサポートする。
例示的なIVASコーデック
図2は、一実施形態による、IVASビットストリームを符号化および復号するためのIVASコーデック200のブロック図である。IVASコーデック200は、エンコーダおよび遠端デコーダを含む。IVASエンコーダは、空間分析およびダウンミックスユニット202と、量子化およびエントロピーコーディングユニット203と、コア符号化ユニット206と、モード/ビットレート制御ユニット207とを含む。IVASデコーダは、量子化およびエントロピー復号ユニット204と、コア復号ユニット208と、空間合成/レンダリングユニット209と、デコリレータユニット211とを含む。
空間分析およびダウンミックスユニット202は、オーディオシーンを表すNチャネル入力オーディオ信号201を受信する。入力オーディオ信号201は、モノラル信号、ステレオ信号、バイノーラル信号、空間オーディオ信号(例えば、マルチチャネル空間オーディオオブジェクト)、FoA、高次アンビソニックス(HoA)、および任意の他のオーディオデータを含むがこれらに限定されない。Nチャネル入力オーディオ信号201は、空間分析およびダウンミックスユニット202によって、指定された数のダウンミックスチャネル(N_dmx)にダウンミックスされる。この例では、N_dmxは、N以下である。空間分析およびダウンミックスユニット202はまた、N_dmx個のダウンミックスチャネル、空間メタデータ、およびデコーダにおいて生成される無相関信号からNチャネル入力オーディオ信号201を合成するために遠端IVASデコーダが使用することができるサイド情報(例えば、空間メタデータ)を生成する。いくつかの実施形態では、空間分析およびダウンミックスユニット202は、ステレオ/FoAオーディオ信号を分析/ダウンミックスするためのCACPL(complex advanced coupling)および/またはFoAオーディオ信号を分析/ダウンミックスするためのSPAR(SPAtial reconstruction)を実装する。他の実施形態では、空間分析およびダウンミックスユニット202は、他のフォーマットを実装する。
N_dmx個のチャネルは、コア符号化ユニット206(例えば、EVSコア符号化ユニット)に含まれるモノラルまたは1つまたは複数のマルチチャネルコアコーデックのN_dmx個のインスタンスによってコーディングされ、サイド情報(例えば、空間メタデータ(MD))は、量子化およびエントロピーコーディングユニット203によって量子化およびコーディングされる。次いで、コーディングされたビットは、ビットストリーム(複数可)(例えば、IVASビットストリーム(複数可))に一緒にパックされ、IVASデコーダに送られる。この例示的な実施形態およびEVSコーデックに従う実施形態が説明され得るが、任意のモノラル、ステレオまたはマルチチャネルコーデックが、IVASコーデック200におけるコアコーデックとして使用され得る。
いくつかの実施形態では、量子化は、次第に粗くなるいくつかのレベルの量子化(例えば、精細量子化、中間量子化、粗量子化、および超粗量子化)を含むことができ、エントロピーコーディングは、ハフマンコーディングまたは算術コーディングを含むことができる。
いくつかの実施形態では、コア符号化ユニット206は、3GPP(登録商標) TS 26.445に準拠し、狭帯域(EVS-NB)および広帯域(EVS-WB)スピーチサービスのための拡張された品質およびコーディング効率、超広帯域(EVS-SWB)スピーチを使用する拡張された品質、会話アプリケーションにおける混合コンテンツおよび音楽のための拡張された品質、パケット損失および遅延ジッタに対するロバスト性、ならびにAMR-WBコーデックへの後方互換性など、広範囲の機能を提供する。
いくつかの実施形態では、コア符号化ユニット206は、モード/ビットレート制御ユニット207の出力に基づいて、指定されたビットレートで、オーディオ信号を符号化するための知覚コーダと、スピーチ信号を符号化するためのスピーチコーダとから選択する前処理およびモード/ビットレート制御ユニット207を含む。いくつかの実施形態では、スピーチエンコーダは、代数符号励振型形予測(ACELP:algebraic code-excited linear prediction)の改良型であり、異なるスピーチクラスのための特殊な線形予測(LP)ベースのモードで拡張されている。いくつかの実施形態では、知覚エンコーダは、低遅延/低ビットレートで向上した効率を有する修正離散コサイン変換(MDCT:modified discrete cosine transform)エンコーダであり、スピーチエンコーダとオーディオエンコーダとの間のシームレスで信頼できる切り替えを実行するよう設計される。
デコーダにおいて、N_dmx個のチャネルは、コア復号ユニット208に含まれるモノラルコーデックの対応するN_dmx個のインスタンスによって復号され、サイド情報は、量子化およびエントロピー復号ユニット204によって復号される。一次ダウンミックスチャネル(例えば、FoA信号フォーマットのWチャネル)は、N-N_dmx個の無相関チャネルを生成するデコリレータユニット211に供給される。N_dmx個のダウンミックスチャネル、N-N_dmx個の無相関チャネルおよびサイド情報は、空間合成/レンダリングユニット209に供給され、これは、これらの入力を使用して元のNチャネル入力オーディオ信号を合成または再生成する。一実施形態では、N_dmx個のチャネルは、EVSモノラルコーデック以外のモノラルコーデックによって復号される。他の実施形態では、N_dmx個のチャネルは、1つまたは複数のマルチチャネルコアコーディングユニットおよび1つまたは複数のシングルチャネルコアコーディングユニットの組み合わせによって復号される。
アクティブダウンミックス戦略によるIVASコーディング
1.0 導入部
以下の開示は、復号されたFoAチャネルの品質を向上させるためのアクティブダウンミックス戦略を説明する。提案されるアクティブダウンミックス技法は、シングルまたはマルチチャネルのダウンミックスチャネル構成で使用可能である。パッシブダウンミックス方式と比較してアクティブダウンミックスコーディング方式は、デコーダにおいてWチャネルを再構成するための追加的なスケーリング項を提供し、これは、FoAチャネルの再構成に使用されるパラメータ(例えば、空間メタデータ)のより良好な推定を保証するために利用することができる。
加えて、アクティブダウンミックスコーディング方式が調査され、シングルおよびマルチチャネルダウンミックスの場合について潜在的な改良が提案される。一実施形態では、アクティブダウンミックス方式は、適応的に実行され得、1つの可能な動作点はパッシブダウンミックスコーディング方式である。
2.0 用語および問題提起
2.1. FoA入力を用いたSPARによるパッシブダウンミックスの例示的な実装形態
SPARエンコーダは、FoA入力で動作するとき、オーディオシーンを表すFoA入力オーディオ信号を、SPARデコーダにおいて入力信号を再生成するために使用されるダウンミックスチャネルおよび空間パラメータのセットに変換する。ダウンミックス信号は、1チャネルから4チャネルまで変化することができ、パラメータは、予測パラメータP、相互予測パラメータCおよび無相関パラメータdを含む。これらのパラメータは、指定された数の周波数帯域(例えば、12個の周波数帯域)における窓掛けされた入力オーディオ信号の入力共分散行列から計算される。
SPARパラメータ抽出の例示的な表現は、以下の通りである:
1.式[1]を使用して一次オーディオ信号Wからすべてのサイド信号(Y,Z,X)を予測する:
Figure 2023551732000002
ここで、一例として、予測チャネルY’の予測係数は、式[2]に示すように計算される:
Figure 2023551732000003
ここで、normscaleは、正規化スケーリング係数で、0から1の間の定数であり、RYW=cov(Y,W)は、チャネルYおよびWに対応する入力共分散行列の要素である。同様に、Z’およびX’残差チャネルは、対応するパラメータprおよびprを有する。Pは、いくつかの実施形態では、[p,p,pとも呼ばれる予測パラメータP=[pr,pr,prのベクトルである。上述したダウンミックスは、Wがダウンミックスプロセス中に全く変更されないか、単に遅延されるかのいずれかであるパッシブWダウンミックスとも呼ばれる。
2.Wチャネルおよび予測チャネル(Y’,Z’,X’)を音響的に関連性の高いものから低いものへとリミックスする。ここで、リミックスは、式[4]に示されるように、何らかの方法に基づいてチャネルを並べ替えたり再結合したりすることを含む:
Figure 2023551732000004
リミックスの一実施形態は、左右からのオーディオキューが前後からのキューよりも重要であり、最後に上下のキューが重要であるという仮定を考慮すると、入力チャネルをW、Y’、X’、Z’に並べ替えることであり得ることに留意されたい。
3.式[5]および[6]に示されるように、4チャネルポスト予測(post-prediction)およびリミックスダウンミックスの共分散を計算する:
Figure 2023551732000005
ここで、ddは、Wを超える余分なダウンミックスチャネル(例えば、第2から第N-dmxチャネル)を表し、uは、完全に再生成される必要があるチャネル(例えば、第(N_dmx+1)から4チャネル)を表す。
1~4ダウンミックスチャネルを有するWABCダウンミックスの例の場合、dおよびuは、以下のチャネルを表し、ここで、プレースホルダ変数A、B、Cは、FoAにおけるX、Y、Zチャネルの任意の組み合わせであり得る:
Figure 2023551732000006
4.これらの計算から、送信されている残差チャネルから完全パラメトリックチャネルの任意の残りの部分を交差予測することが可能であるかどうかを決定する。必要とされる余分なC係数は、次の通りである:
Figure 2023551732000007
したがって、Cは、3チャネルダウンミックスに対して(1×2)の形状を有し、2チャネルダウンミックスに対して(2×1)の形状を有する。空間ノイズ充填の一実装形態は、これらのCパラメータを必要とせず、これらのパラメータは、0に設定することができる。空間ノイズ充填の代替的な実装形態もまたCパラメータを含み得る。
5.デコリレータによって充填されなければならないパラメータ化されたチャネルにおける残りのエネルギーを計算する。アップミックスチャネルResuuにおける残差エネルギーは、実際のエネルギーRuu(ポスト予測)と再生成された交差予測エネルギーReguuとの間の差分である:
Figure 2023551732000008
ここで、scaleは、正規化スケーリング係数である。scaleは、広帯域値(例えば、scale=0.01)または周波数依存であり得、異なる周波数帯域では異なる値をとり得る(例えば、スペクトルが12個の帯域に分割される場合、scale=linspace(0.5,0.01,12))。式[11]のdにおけるパラメータは、予測解除およびミキシング解除の前にA、B、Cチャネルを再作成するために、Wの無相関化された成分がどれだけ使用されるかを決定する。
1チャネルパッシブダウンミックス構成では、Wチャネル、P(p,p,p)パラメータおよびd(d,d,d)パラメータのみがコーディングされ、デコーダに送られる。
パッシブダウンミックスコーディング方式では、サイドチャネルY、X、Zは、3つの予測パラメータPを使用して、送信されたダウンミックスWからデコーダにおいて予測される。サイドチャネル内の失われたエネルギーは、無相関パラメータdを使用して無相関化されたダウンミックスD(W)のスケーリングされたバージョンを加算することによって充填される。パッシブダウンミックスの場合、FoA入力の再構成は次のように行われる:
Figure 2023551732000009
ここで、p=[1 p、d=[0 dであり、D(W)は、デコリレータブロックへの入力としてWチャネルを有するデコリレータ出力を記述する。完全なデコリレータを仮定し、予測およびデコリレータパラメータの量子化がないと仮定すると、この方式は、入力共分散行列に関して完全な再構成を達成することに留意されたい。
パッシブダウンミックスは、多くの場合、デコリレータが不完全であり、予測パラメータおよびデコリレータパラメータのために利用可能な量子化範囲が限られていることにより、より低いダウンミックスチャネル構成をもつデコーダ出力において入力シーンを再構成することができない。したがって、アクティブダウンミックス方式は、所望の量子化範囲内にあるより良好な予測係数推定値を生成することによって全体的な予測誤差を低減することが望まれる。
2.2 既存のアクティブダウンミックスコーディング方式
アクティブダウンミックスを行うための既存のソリューションが、付録Aの見出し「1. Active Predictor used in IVAS(1.IVASで使用されるアクティブ予測器)」および「2. A solution based on rule 3B(2.規則3Bに基づくソリューション)」で記載されている。このソリューションは、W、X、Y、Z入力チャネルをスケーリングおよび加算することによって、支配的な固有信号の表現を生成することを目的とする。予測行列またはダウンミックス行列は、付録Aの式(6)で以下のように与えられる:
Figure 2023551732000010
ダウンミックスチャネルW’は、次のように計算される:
Figure 2023551732000011
ここで、Uは、以下のように与えられる入力FoA信号である:
Figure 2023551732000012
デコーダは、以下のように与えられるアップミックス行列をW’に適用する:
Figure 2023551732000013
ここで、dは、無相関パラメータ(d,d,d)であり、再構成されたFoA信号は、以下のように与えられる:
Figure 2023551732000014
ここで、D1(W’)、D2(W’)、D3(W’)はデコリレータブロックの3つの出力である。
このソリューションは一般に、パッシブダウンミックス方式よりも良好な予測パラメータの推定値を提供し、予測パラメータを所望の量子化範囲内にし、全体的な予測誤差を低減する。しかしながら、このソリューションは、ダウンミックスW’からWチャネルを再構成するためにデコリレータ出力に依存するので、オーディオアーチファクトにつながる可能性がある。また、入力ダウンミックスゲイン
Figure 2023551732000015
が予測パラメータに対して正比例することを考慮すると、このソリューションでは、所望されるよりも高い予測パラメータの推定値を提供し、再構成されたFoA出力に空間歪みをもたらし得ることが観察されている。
2.3 提案される適応ダウンミックスコーディング方式の例示的な実施形態
2.3.1 適応ダウンミックスコーディング方式
以下で説明される適応ダウンミックス戦略(本明細書では適応アクティブダウンミックス戦略とも呼ばれる)の目標は、様々な方法によって、[13]で与えられる入力ダウンミックスゲイン(本明細書ではアクティブダウンミックス係数とも呼ばれる)
Figure 2023551732000016
を計算することによって予測パラメータpのより良好な推定値を提供することである。
いくつかの実施形態では、入力ダウンミックスゲインは、総二乗予測誤差が最小化されるように計算され、予測波形誤差は、以下のように与えられる:
Figure 2023551732000017
そして、平均二乗予測誤差(信号あたりの予測誤差)(4×1)は、以下のように与えられる:
Figure 2023551732000018
ここで、総二乗予測誤差は、以下のように与えられる:
Figure 2023551732000019
ここで、pは、逆予測行列である。
いくつかの実施形態では、入力ダウンミックスゲインは、付録Aの式(10)の
Figure 2023551732000020
によって与えられるポスト予測共分散が最小化されるように計算される。
いくつかの実施形態では、入力ダウンミックスゲインは、予測パラメータが所望の量子化範囲内であるように計算される。
低ダウンミックスチャネル構成について、SPARコーディングによるオーディオ品質は、現在のパッシブダウンミックスコーディング方式よりも、開示されるアクティブダウンミックスコーディング方式を用いたが良好であることが観察されている。しかしながら、いくつかのオーディオコンテンツについては、パッシブダウンミックス方式の方がより品質が良く、アクティブダウンミックスコーディング方式の適応動作を示唆している。
上記で説明した観察に基づいて、信号特性に応じて入力ダウンミックスゲインを計算する適応ダウンミックス方式が以下に開示される。入力ダウンミックスゲインのこの信号依存計算は、処理された周波数帯域およびオーディオフレームごとに、またはオーディオフレームごとにすべての周波数帯域について組み込まれ得る、
2.3.1.1 最小誤差に基づく入力ダウンミックスゲインの選択
一実施形態では、[13]で与えられる入力ダウンミックスゲイン
Figure 2023551732000021
の係数「f」の選択は、可能性のある各fについて総予測誤差(式[20])を計算し、最小の総予測誤差を有するものを選択することから導出される。入力共分散Rが利用可能になると、総予測誤差を共分散領域において効率的に計算することができることに留意されたい。
2.3.1.2 音声アクティビティに基づく適応ダウンミックス方式
音声信号の場合、fの値が高いと、データ送信中の空間快適ノイズの性能が損なわれる可能性があることが観測されている。スピーチ信号中の背景ノイズは一般に拡散しており、アグレッシブなアクティブW方式では、Wダウンミックスチャネルが残差X、YおよびZチャネルから所望よりも多くのエネルギーを取る結果になる可能性がある。完全パラメトリックコーディングでは、快適ノイズソリューションデコーダは、アクティブWダウンミックスチャネルと同じスペクトル形状を有する4つの無相関快適ノイズチャネルを生成する。次いで、これらの無相関チャネルは、SPARパラメータを使用して整形される。きわめて低いビットレート、SPARパラメータの粗量子化、および不連続送信モード(DTX)フレーム中の完全パラメトリック再構成を考慮すると、現在のパラメトリック再構成の場合、アクティブWチャネル中の追加のエネルギーは決して除去されず、出力Wチャネルは、空間的に崩壊した高エネルギーの快適ノイズである。
また、デコーダにおける再構成された背景ノイズは、音声アクティビティ検出(VAD)アクティブフレームおよびVAD非アクティブフレーム中に連続して聞こえることが望ましい。一実施形態では、VAD非アクティブフレーム中のパッシブダウンミックス方式およびVADアクティブフレーム中のアクティブ方式は、IVASコーデックの全体的な性能を損なう可能性がある。しかしながら、主観的評価では、fの値が低減されると(例えば、0.25)、概して、非アクティブフレームに対して良好に機能し、fの値が高いと(例えば、0.5)が、アクティブフレームに対して良好に機能することが観察された。fのこの条件付き適用はまた、アクティブフレームと非アクティブフレームとの間の遷移を滑らかに保つのに役立つ。
一実施形態では、アクティブW構成におけるSPARは、VAD決定に基づいて異なるfの値を動的に選択し、VADは、FoA信号を入力とする。VADがアクティブの場合にはfの高い値を選択することができ、VADが非アクティブの場合にはfの低い値を選択することができる。
2.3.1.3 予測パラメータの所望の範囲に基づく適応ダウンミックスコーディング方式
適応ダウンミックス戦略の以下の実施形態は、付録A(Analysis of ActiveW Method)を参照して説明される。付録A中の式への参照は、角括弧内に配置される付録Aにない式と区別するために丸括弧内に配置される。
IVAS法の第1の変形(付録Aの規則3Bに基づく)
一実施形態では、f=0の場合、復号は、上記で説明したパッシブダウンミックス方式に戻り、その結果、予測パラメータ「g」が制限されない可能性があるという問題が生じる。fをより大きい値(例えば、f=0.5)に設定することで、式[17]の正の実数値「g」の範囲を
Figure 2023551732000022
に制約することができる。fを小さく保ち、gが大きくなりすぎるのを防ぐために必要があるときにのみfのより大きい値を使用することによってアクティブダウンミックス戦略の安定性が向上し得るという証拠がいくつか存在する。
一実施形態では、アクティブダウンミックス戦略の潜在的な変形は、g<g’(g’は予測パラメータの所望の範囲である)を維持する限り、可能ならいつでもf=0に設定することであり、そうでなければ、g=g’になるようにfを選択する。これにより、gの値が過度に大きくなる場合(g>g’の場合)、式(17)においてg=g’に設定し、次に、g=g’に設定し、fの値を求めることによって、二次方程式Q(f)=(βg’)f+(2αg’-βg’)f+wg’-αを解いて、fを求める:
Figure 2023551732000023
二次方程式が常に少なくとも1つの実数解をもち、最大の実数解が範囲
Figure 2023551732000024
にあることを保証するためには、以下であることに留意されたい。
Figure 2023551732000025
g’についてのいくつかの例示的な値は、1.0(f[0 to 1])、1.414(f[0 to 0.5])、および2(f[0 to 0.25])である。上記の観察は、式[23]および[24]に示されるように要約される:
Figure 2023551732000026
上記の式[23]および[24]は、付録Aの規則1(fを一定に保つ)に違反し、したがって、追加のメタデータがデコーダにシグナリングされることを必要とし得ることに留意されたい。値「f」を示すための追加のメタデータを送ることは、セクション2.3.1.4で説明したスケーリング方法を使用することで回避することができる。
IVAS法の第2の変形(付録Aの規則3Bに基づく)
gが小さい場合には小さいfの値が望ましく、gが大きい場合にはより大きいfの値がより良好な結果を与え得ることが観察される。fとgとの間には、すべての場合で最適な結果を与えるために利用することができる何らかの線形関係が存在し得る。例えば、f=kg(kは1.0以下の定数(典型的には0.5))である場合、
Figure 2023551732000027
であり、この関数は次の場合に良好に振る舞う:
Figure 2023551732000028
したがって、0とk-1/3との間には少なくとも1つの根が存在する。この関数の導関数は、以下である:
Figure 2023551732000029

Figure 2023551732000030
2.3.1.4 スケーリングを伴うアクティブダウンミックスコーディング
IVAS法の変形(付録Aの規則3Bに基づく)
付録Aの式(8)の元の逆予測行列は、以下のように与えられる:
Figure 2023551732000031
この逆予測行列を用いて、W’、Y’、X’およびZ’から一次チャネルWを再構成することができ、ここで、W’、Y’、X’およびZ’は、予測後のダウンミックスチャネルである。しかしながら、パラメトリック再構成の場合、Ndmx個のダウンミックスチャネルのみが存在し、Ndmxは4未満である。その場合、欠けているダウンミックスチャネルは、ダウンミックスされたチャネルの帯域化された(banded)エネルギー推定値および無相関化されたW’信号を使用してパラメトリックに再構成される。パラメトリック再構成では、[30]で与えられる逆予測行列は、W’からWを再構成することができないことがあり、Wをさらに破損することがある。
一実施形態では、この問題を解決する方法を1チャネルダウンミックスについて以下に示す。
新しい逆予測行列は以下のように与えられる:
Figure 2023551732000032
ここで、g’はg/rであり、rは、逆予測のWチャネル出力が、定数である予測行列fへのWチャネル入力とエネルギー整合するようにW’に適用されるスケーリング係数である。
一実施形態では、式[31]によって与えられる逆予測行列における「f」の値は、入力ダウンミックスゲインを計算する間にエンコーダにおいて使用される係数「f」の値に依存しない定数値である。この実施形態では、入力ダウンミックスゲインは、追加のメタデータをデコーダに送ることなく計算することができる。
新しい予測行列は以下のように与えられる:
Figure 2023551732000033
ポスト予測行列およびポスト逆予測行列(出力共分散行列とも呼ばれる)は、以下のように計算することができる:
Figure 2023551732000034
ここで、「Pred」は、式[32]で与えられる予測行列であり、incovは、入力チャネルの共分散行列である。出力共分散行列は、以下によって与えられる:
Figure 2023551732000035
ここで、「InvPred」は、式[31]で与えられる逆予測行列である。
r=1のとき、w=incov(1,1)(すなわち、入力Wチャネルの分散)とし、m=postpredcov(1,1)(すなわち、ポスト予測されたWチャネルの分散)とする。
式[32]の「Pred」および式[31]の「InvPred」を式[33]および式[34]に代入すると、次のようになる:
Figure 2023551732000036
分散outcov(1,1)=wを一致させるために、
Figure 2023551732000037
これを、rについて解くと次のようになる:
Figure 2023551732000038
予測の後、ダウンミックスチャネルX’、Y’およびZ’は、W’から予測され得ない信号を含む残差チャネルを示す。パラメトリックアップミックスの場合、1つまたは複数の残差チャネルは、デコーダに送られなくてもよい。むしろ、それらのエネルギーレベルの表現(Pdまたは無相関パラメータとも呼ばれる)がコーディングされてデコーダに送られる。デコーダは、W’、デコリレータブロック、およびPdパラメータを使用して、失われた残差チャネルをパラメトリックに再生成する。
dパラメータは、以下のように計算することができる:
Figure 2023551732000039
ここで、「scale」パラメータは正規化スケール係数である。一実施形態では、scaleは、広帯域値(例えば、scale=0.01)または周波数依存であり得、異なる周波数帯域では異なる値をとり得る(例えば、スペクトルが12個の帯域に分割される場合、scale=linspace(0.5,0.01,12))。式[33]のようにRWW=mr=postpredcov(1,1)であり、Resuuは、デコーダにおいてパラメトリックにアップミックスされるべき残差チャネルの共分散行列である。1チャネルダウンミックスの場合、Resuuは、Resuu=postpredcov(2:4,2:4)によって与えられる3×3の共分散行列である。
いくつかの実装形態では、ダウンミックススケール係数「r」は、予測パラメータと無相関パラメータの両方の関数であり得、1チャネルダウンミックスについての無相関パラメータは、式[39]において定義される。改善されたスケーリングを有する1チャネルダウンミックスの場合、逆予測行列は以下のようになる:
Figure 2023551732000040
ここで、fおよびf は定数であり、例えば、f=f’=0.5、d’=d/r、g’=g/rであり、ここで、r=f(g,d)、d=sqrt(sum(diag(Pd)))であり、Pdは、式[39]にしたがって計算される。
式[33]および[34]を使用してrの値を求める、
Figure 2023551732000041
最終的な復号/アップミックスされた出力は以下のように与えられる:
Figure 2023551732000042
W’は、ポスト予測され、スケーリングされたダウンミックスチャネルであり、D1(W’)、D2(W’)、およびD3(W’)は、W’の無相関化された出力であり、W’’、Y’’、X’’、Z’’は、復号されたFoAチャネルである。
2.3.1.5 スケーリングを伴うパッシブダウンミックスコーディング
パッシブダウンミックス方法では、「g」、例えば予測パラメータのベクトルが制限されない可能性があるという問題がある。これは、パラメトリックアップミックス構成で空間歪みをもたらす。低ビットレートでは、ダウンミックスチャネルの数は4未満とすることができ、残りのチャネルはデコーダにおいてパラメトリックにアップミックスされる。量子化により、「g」が制限され、予測推定が不完全になり、アップミックスは、Y、XまたはZチャネルをパラメトリックに再生成するためにより多くのデコリレータエネルギーに依拠する。この問題は、ダウンミックスプロセス中にWチャネルに動的スケーリングを適用する、以下で説明する修正されたパッシブ方式によって対処される。スケーリングは、「g」が決して制限から出ないように計算され、パラメトリックアップミックスの間、より多くのエネルギーが、無相関信号の代わりにWチャネルの利用可能な表現から導出される。
以下は、1チャネルダウンミックスによるスケーリングされたパッシブダウンミックスコーディング方式の例示的な実装形態である。
FoA入力は、U=[W X Y Z]によって与えられる。入力信号(4×4)共分散行列はR=UUである。デフォルトのパッシブ方式では、予測パラメータは、
Figure 2023551732000043
として計算され、ここでp=[1 pである。ダウンミックス予測行列は、以下のように与えられる:
Figure 2023551732000044
スケーリングにより、ダウンミックス予測行列は以下のように変更される:
Figure 2023551732000045
これらの値を式[33]および[34]に入れ、outcov(1,1)=Wを等式化すると、次のようになる:
Figure 2023551732000046
ここで、rの値を求めると、次のようになる:
Figure 2023551732000047
スケーリングされたパッシブダウンミックス方式では、デコーダに送信される予測パラメータが量子化されてp1/r、p2/r、p3/rとなる。スケーリング係数「r」は予測パラメータの関数であるので、予測パラメータが所望の範囲内であることを保証するのに十分なだけWのエネルギーをブーストする。スケーリング係数「r」は、帯域化されるか、または広帯域値であり得る。
いくつかの実装形態では、スケーリング係数「r」は、式[41]に示すように、予測パラメータと無相関パラメータの両方の関数であり得る。パッシブダウンミックスの場合、このスケーリング係数は次ようになる:
Figure 2023551732000048
2.3.1.6 スケーリングを伴う適応ダウンミックスコーディング
スケーリングされたアクティブWダウンミックスコーディング方法は、WチャネルとX、Y、Zチャネルとの間に高い相関があるという条件で最良に機能し、スケーリングされたパッシブWダウンミックスコーディング方法は、相関が低いときに最良に機能することが観察される。したがって、いくつかの実装形態では、スケーリングされたパッシブWコーディング方式とスケーリングされアクティブWコーディング方式との間で適切に切り替えることによって、よりロバストなソリューションが導出され得る。
一実施形態では、アクティブWダウンミックスコーディング方法は、セクション2.3.1.2に記述されたソリューションに基づくか、または付録Aに記述されるアクティブWダウンミックスコーディング方法に従うかのいずれかであることができる。アクティブWダウンミックスコーディング方法のスケーリングは、セクション2.3.1.4に記述されたソリューションにしたがって実行されることができ、パッシブWダウンミックスコーディング方法のスケーリングは、セクション2.3.1.5に記述されたソリューションにしたがって実行されることができる。スケーリングを伴う適応ダウンミックスの例示的な実装形態について以下で説明する。
FoA入力は、U=[W X Y Z]によって与えられる。入力信号(4×4)共分散行列はR=UUである。パッシブ予測係数ファクタgpredを計算し、ここで、
Figure 2023551732000049
であり、p、p、pエリアは以下のように計算される:
Figure 2023551732000050
pred≧threshである場合、セクション2.3.1.4の式[31]から式[41]に従って、アクティブW予測パラメータ
Figure 2023551732000051
、スケーリング係数「r」、予測行列、逆予測行列、ダウンミックスおよびアップミックス行列を計算する。
pred<threshである場合、セクション2.3.1.5の式[44]から式[50]に従って、パッシブW予測パラメータ
Figure 2023551732000052
、スケーリング係数「r」、予測行列、逆予測行列、ダウンミックスおよびアップミックス行列を計算する。
デコーダ側の逆予測行列は、式[31]および式[47]で与えられるように、スケーリングされたパッシブWダウンミックスコーディング方法およびスケーリングされたアクティブWダウンミックスコーディング方法について同じであるので、ダウンミックスが、スケーリングされたアクティブWダウンミックスコーディング方法でコーディングされるかスケーリングされたパッシブWダウンミックスコーディング方法でコーディングされかをシグナリングするための追加のサイド情報は必要とされない。別の手法は、セクション2.3.1.7で説明されるように、最大スケール係数rに基づく。
2.3.1.7 スケーリングされたパッシブダウンミックスとスケーリングされたアクティブダウンミックスとの間のソフト切り替え
この実施形態では、W信号のスケーリングされたバージョン(例えば、Y、X、Z信号からの寄与なし)は、必要とされるスケーリング係数rが上限を超えない限り、アクティブダウンミックスコーディング方法におけるダウンミックスとして使用される。適応スケーリングは、予測およびデコリレータパラメータを量子化に良好な範囲に押し上げ、Y、X、Z信号の寄与をダウンミックスに混合しないことで、いくつかのタイプの信号についてはアーチファクトを回避することができる。一方、ダウンミックススケール係数rの大きな変動もアーチファクトにつながる可能性がある。したがって、周波数帯域ごとの最大スケール係数が上限(例えば、典型的には2.5)を超える場合、以下で説明される例示的な反復プロセスを使用して、スケーリング係数rが最大限界内であるように、Y、X、Z信号からの寄与をもつダウンミックス係数を決定することができる。元のアクティブWアルゴリズムと比較して、追加のスケール係数rは、最適な予測係数を可能にする。
上記で参照された例示的な反復プロセスは、以下のように説明される:
Figure 2023551732000053
2.3.1.8 固有信号に基づくアクティブダウンミックスコーディング方式
この実施形態では、用語を以下のように定義する:エンコーダへの入力信号=[W X Y Z]、EVSエンコーダに渡されるべきエンコーダ信号=[W’ X’ Y’ Z’](一部のチャネルは、EVS符号化の前に破棄され得る)、デコーダにおける予測セットの前のEVSデコーダ出力=[W’’ X’’ Y’’ Z’’](エンコーダが一部のチャネルを廃棄した場合、このベクトルのサブセットのみが存在することになる)、デコーダからの出力=[Woutoutoutout]T。
IVAS「コアコーダ」が、チャネルX’、Y’、Z’を廃棄し、W’チャネルをEVSコーディングすることによって機能すると仮定すると、以下のようになる。
Figure 2023551732000054
Wから出力信号を生成するためにデコーダにおいて使用されるパラメータに完全な自由度がある場合、一実施形態では、Kanade-Lucas-Tomasi(KLT)タイプのE1コーダを実装することによって、最小二乗最適解が求められる。代替的な実施形態では、アクティブW予測システムの目標は、KLT法にいくつかの制約を追加して、しばしば発生する不連続性の問題を低減し、KLT法によって達成される最適性能にできるだけ近くなるように制約を最小限に保つ、というものである。
予測方法(パッシブおよびアクティブの両方)は、一般に、ダウンミックス信号(W’)が、元のW信号に対して適度に大きい正の相関を有するべきであるという考えに基づく。これを達成するための潜在的な方法は、KLT法を、ブーストされたWチャネルセット(例えば、Wチャネルがスケール係数hによって増幅されている4チャネルのセット)に適用することであり、以下「ブーストKLT」法と呼ぶ。ベクトルTがこのブーストされたW信号を表すものとする:

Figure 2023551732000055
そして、T×Tの最大固有ベクトルをQとする:
Figure 2023551732000056
候補のセットから固有ベクトルを選択する必要があるという事実は、Qが固有ベクトルである場合、λQも同様であり、ここで、λは、大きさが1の(unity-magnitude)複素スケール係数であり、選択は、qを非負の実数にするλの値を選択することで行われるという事実から生じることに留意されたい。λを選択する動作は、コーデックの挙動の不連続性の原因であり得、この不規則な挙動は、qがゼロに近くないことを保証し、ブースト係数hを大きくして、ブーストされたhW信号がE1信号の有意な成分を形成するのに十分な大きさになるようにすることによって回避することができる。
E1は次のように形成される:
Figure 2023551732000057
デコーダでは、Tの最小二乗最良推定値が固有ベクトルQを使用して再構成され、次いで、ブーストゲインhを元に戻すことによって出力が形成され得る:
Figure 2023551732000058
しかしながら、式[56]は、送信された予測パラメータ(p,p,p)および定数fを使用して、スケール係数r(このスケール係数はエンコーダにおいて適用される)をE1に適用することによって実装することができる:
Figure 2023551732000059
式[56]の所望の「ブーストされたKLT」挙動は、rが以下にしたがって選択される場合、式[57]の方法によって達成することができる:
Figure 2023551732000060
次いで、以下を計算する:
Figure 2023551732000061
上記で説明した実施形態を要約すると、以下のようになる。
Figure 2023551732000062
2.3.1.9 Wチャネルのプリスケーリングに基づくスケーリングされたアクティブダウンミックスコーディング方式
アクティブ予測(すなわち、X、Y、およびZからの成分をWに混合)を用いて支配的な固有信号の表現を作成する一方で、課題の1つは、周波数スペクトルにわたって、および時間領域におけるフレーム境界にわたって、支配的な固有信号の滑らかな/連続的な表現を得ることである。先に説明したアクティブ予測手法はこの問題を解決しようとするが、X、YおよびZチャネルからWへの回転(または混合)の量が過度にアグレッシブであり、不連続性(または他のオーディオアーチファクト)を生じさせるか、または全く回転せず(パッシブ予測)、最適な予測を与えることができず、予測されないエネルギーを充填するためにデコリレータにより依存するかのいずれかの場合が依然としてある。したがって、上記で説明した手法は、過度にアグレッシブであるか過度に弱すぎる予測を提供し得る。一実施形態では、Wは、アクティブ予測を実行する前にスケーリングされる。この実施形態の背後にある考えは、Wチャネルをプリスケーリングすることで、ポストアクティブ予測Wチャネル(または支配的な固有信号の表現)が元のWの大部分を含むことになることが保証されることである。これは、Wと混合されるべきX、YおよびZの量が低減されることを意味しており、したがって、付録Aに記載されたソリューションと比較してそれ程アグレッシブでないアクティブ予測となるが、それでも上記で説明したパッシブ(またはスケーリングされたパッシブ)手法と比較するとより強い予測が得られる。プリスケーリングの量は、アクティブ予測を行う前にWが支配的なエネルギー信号に近くなるように、WおよびX、Y、Zチャネルの分散の関数として決定される。
以下は、1チャネルダウンミックスを用いたプリスケーリングされたWアクティブ予測ダウンミックスコーディング方式の例示的な実装形態である。FoA入力がU=[W X Y Z]として与えられ、入力信号(4×4)共分散行列が、以下のように与えられるとする:
Figure 2023551732000063
ここで、
Figure 2023551732000064
は3×1単位ベクトルであり、RはX、YおよびZチャネルの3×3共分散行列であり、wはWチャネルの分散である。
ここで、アクティブ予測を行う前にWチャネルをプリスケーリングする。プリスケーリング係数「h」は、X、Y、ZおよびWの分散の関数であり、以下のように計算される:
Figure 2023551732000065
ここで、hはプリスケーリング係数であり、Hmaxはプリスケーリングに上限を設ける定数(例えば、4)である。
プリスケーリング行列は、以下のように与えられる:
Figure 2023551732000066
次に、以下で与えられるスケーリングされた共分散行列scale_cov[4x4]=Hscale*in_cov*Hscale’に基づいてアクティブ予測パラメータを計算し、以下のようにcubic(g)のスケーリングされた入力共分散結果に基づいて「g」の値を求める(付録Aの式(17)を参照):
Figure 2023551732000067
代替的に、付録Aの式(24)を参照して、以下のようにgおよびfの値を求めることができる:
Figure 2023551732000068
α>g’whのとき4βg’h(α-g’wh)>0であるので、fは次のように書くことができる:
Figure 2023551732000069
ここで、Cは、正の定数であり、(β-2αhg’)+abs(β-2αhg’)、は0であるか、またはhが増加するにつれて常に減少するかのいずれかであることに留意されたい。
また、α<g’w(2h+δ)の場合、hが増加すると4βg’h(α-g’wh)が減少し、4βg’h(α-g’wh)が減少するとCが減少することも知られており、ここでδはhの値の増分である。
したがって、「f」の全体的な値は、入力共分散が高すぎない限り、「h」の値の増加とともに減少するはずであり、その場合、X、Y、ZをWに混合するように制御することは、いずれにしても必要とされない場合がある。
ここで、プリ予測スケーリング「h」およびポスト予測スケーリング「r」を用いて、予測行列が以下のように計算される:
Figure 2023551732000070
この結果、ポスト予測W信号は次のようになる:
Figure 2023551732000071
ここで、
Figure 2023551732000072
(または[p,p,p]は、予測パラメータrを表す3×1ベクトルであり、rは、アップミックスされたWのエネルギーが入力Wと同じになるように、ポスト予測されたWをスケーリングするためのスケーリング係数である。
ポスト予測スケーリング係数「r」の計算は、セクション2.3.1.4の式[37]で与えられるものと同じである:
Figure 2023551732000073
そして、gは、付録Aの式(17)を解くことによって計算される。
ここで、スケーリングされた予測パラメータは、次のように計算される:
Figure 2023551732000074
無相関パラメータ
一実施形態では、ダウンミックスされた(またはポスト予測された)Wチャネル分散は、次によって与えられる:
Figure 2023551732000075
無相関パラメータは、ポスト予測されたWチャネルに関してY、XおよびZチャネルにおける正規化された無相関(または予測不可能な)エネルギーとして計算される。例示的な実装形態では、プリスケーリングされたWアクティブダウンミックスコーディング方式を用いた無相関パラメータ(Pdパラメータ)は、式[62]に従ってスケーリングされたスケーリングされた共分散と、次式のように与えられるアクティブダウンミックス行列とから計算されることができる:
Figure 2023551732000076
ここで、式[77]は、符号化されてデコーダに送られるべき無相関パラメータ(3×1 Pd行列またはd1、d2およびd3パラメータ)を与える。また、「m」は式[72]で与えられる分散であり、scaleは0から1の間の定数である。
デコーダ
一実施形態では、デコーダは、コーディングされたW’ PCMチャネル(式[69]によって与えられる)と、コーディングされた予測パラメータ(式[71]によって与えられる)と、コーディングされた無相関パラメータ(式[77]によって与えられる)とを受け取る。モノラルチャネルデコーダ(例えば、EVS)は、W’チャネルを復号し(例えば、復号されたチャネルをW’’とし)、次いで、SPARデコーダは、逆予測行列をW’’チャネルに適用して、W’’チャネルから予測可能なX、YおよびZの要素および元のWチャネルの表現を再構成する。
一実施形態では、逆予測行列は、以下のように与えられる(付録Aの式(8)を参照)。
Figure 2023551732000077
SPARは、逆予測行列および無相関パラメータを適用して、元のFoA信号の表現を再構成し、FoA信号の再構成は、以下のように与えられる:
Figure 2023551732000078
ここで、d、d、dは無相関パラメータであり、D(W’’)、D(W’’)、D(W’’)は、W’’チャネルに関する3つの無相関チャネルである。
2.3.1.10 正規化された共分散に基づくスケーリングされたアクティブダウンミックス方式
支配的な固有信号の表現を作成する別の実施形態は、WX、WY、およびWZチャネルの正規化された共分散の関数としてFoA入力を回転させることによるものである。この実施形態は、X、YおよびZチャネルにおける相関された成分のみがWチャネルに混合されることを保証し、それによって、特に、デコーダ側でX、Y、ZのWへの不完全な混合を元に戻す方法がないのでパラメトリックアップミックスを扱うときに、先に説明した方法によるアグレッシブな回転(または混合)に起因して生じ得るアーチファクトを低減する。この手法の別の利点は「g」(アクティブ予測係数因子)の計算が簡略化され、「g」の一次方程式が得られることである。
以下は、入力FoA信号に対して(正規化された共分散係数の関数である)回転を実行することによって支配的な固有信号の表現が形成される、1チャネルダウンミックスを用いたアクティブ予測ダウンミックスコーディングの例示的な実装形態である。
FoA入力がU=[W X Y Z]として与えられ、入力信号(4×4)の共分散行列を以下とする:
Figure 2023551732000079
ここで、
Figure 2023551732000080
は、3×1単位ベクトル、RはX、YおよびZチャネル間の3×3の共分散行列、wはWチャネルの分散である。
「F」を、支配的な固有信号の表現を形成するためにX、Y、ZからWチャネルへと行われるべき混合の量を与える正規化された「α」の関数とする。アクティブ予測行列は、以下のように与えられる(付録Aの式(6)を参照):
Figure 2023551732000081
一実施形態では、「F」の計算における正規化項は、WにおけるエネルギーがX、Y、およびZチャネルと比較して低すぎるまたは高すぎるコーナーケースであっても、X、Y、ZのWへの混合が最適となるように選択される。
式[83]において、「f」および「m」は、f<=1およびm>=1のような定数(例えば、f=0.5およびm=3)であり、W分散がX、Y、およびZチャネル分散と比較してすでに高いとき、より低い値のFを有することが望まれ得、したがって、係数「m」は、そのような場合に所望の正規化を達成するのに役立つ。
一実施形態では、式[83]において予測行列を入力に適用した後のポスト予測行列は、以下のように与えられる。
Figure 2023551732000082
回転がない(すなわち、F=0)場合、g=α/wであり、これは、パッシブ予測係数因子と同じである。
WとX、Y、Zチャネルとの間の相関が非常に低く、
Figure 2023551732000083
これは、X、Y、ZからWに行われるべき混合量がゼロ(または0に近い)ことを意味する。逆に、WとX、Y、Zチャネルとの間に高い相関があり、Wの分散がX、Y、およびZチャネルよりも低いとき、それは、所望されるようなFの高い値をもたらすことになる。アクティブ予測の後、アップミックスされたWの分散が入力Wと同じであることを保証するために、また、予測パラメータが所望の範囲内であることを保証するために、ポスト予測されたWに対してスケーリングを行うことが依然として望まれ得る。
一実施形態では、スケーリング後の1チャネルダウンミックスについての実際の予測行列は、以下のように与えられる:
Figure 2023551732000084
ここで、rは、ポスト予測スケーリング係数である。
この結果、ポスト予測W’信号が得られる:
Figure 2023551732000085
ここで、Fは、式[83]で与えられ、(u1,u2,u3)は式[82]の
Figure 2023551732000086
によって与えられる単位ベクトルである。
ポスト予測スケーリング係数「r」の計算は、式[31]で与えられる逆予測行列および式[86]で与えられる予測行列を使用し、それらを式[33]および式[34]に代入することによって、セクション2.3.1.4の式(37)で与えられるものと同じである。
Figure 2023551732000087
ここで、mは、式[33]に従ってr=1としたポスト予測されたW分散である。
スケーリングされた予測パラメータは、以下によって与えられる:
Figure 2023551732000088
無相関パラメータ
式[82]および[86]から、ダウンミックスされた(またはポスト予測された)Wチャネル分散は、以下によって与えられる:
Figure 2023551732000089
一実施形態では、無相関パラメータは、ポスト予測されたWチャネルに関するY、XおよびZチャネルにおける正規化された無相関の(または予測不可能な)エネルギーとして計算される。
一実施形態では、無相関パラメータ(Pdパラメータ)は、式[84]で計算されたPost_prediction[4x4]から計算することができる:
Figure 2023551732000090
ここで、式[93]は、符号化されてデコーダに送られるべき無相関パラメータ(3×1 Pd行列またはd1、d2およびd3パラメータ)を与える。また、「m’」は式[90]で与えられる分散であり、「scale」は0から1の間の定数である。
デコーダ
一実施形態では、デコーダは、コーディングされたW’ PCMチャネル(式[87]によって与えられる)と、コーディングされた予測パラメータ(式[89]によって与えられる)と、コーディングされた無相関パラメータ(式[93]によって与えられる)とを受け取る。
一実施形態では、モノラルチャネルデコーダ(例えば、EVS)は、W’チャネルを復号し(復号されたチャネルをW’’とすし)、次いで、SPARデコーダは、逆予測行列をW’’チャネルに適用して、W’’チャネルから予測可能なX、YおよびZの要素および元のWチャネルの表現を再構成する。
逆予測行列は、式[31]と同じである:
Figure 2023551732000091
一実施形態では、SPARは、逆予測行列および無相関パラメータを適用して、元のFoA信号の表現を再構成し、FoA信号の再構成は、以下のように与えられる:
Figure 2023551732000092
ここで、d1、d2、d3は無相関パラメータであり、D(W’’)、D(W’’)、D(W’’)は、W’’チャネルに関する3つの無相関チャネルである。
2.3.2 パッシブダウンミックスコーディング方式
パッシブダウンミックスコーディング方式では、N個(例えばN=3)の予測パラメータおよびM個(例えばM=3)のデコリレータパラメータを使用してFoA信号の可能性のある最良の再構成を可能にする任意のダウンミックスが送信のために選択され得る。元のWは、パッシブダウンミックスコーディング方式のために送信され、例えば、ダウンミックス動作は実行されない。この手法の利点は、ダウンミックス信号が、信号適応ダウンミックスによってもたらされ得る可能性のある不安定性の問題が生じにくいことである。欠点は、FoA信号X、Y、Zの再構成(予測)が準最適であることである。したがって、Wを送信することと比較してFoA信号の波形再構成誤差を低減する異なるダウンミックス戦略が以下で説明される。すべての場合において、FoA信号X、Y、Zは、それぞれ単一の予測パラメータによって予測され、ダウンミックスはWを表す。ダウンミックスは、ダウンミックスのエネルギーがWのエネルギーと一致するようにスケーリングされる。アクティブダウンミックスコーディング方式においても、以下に説明するダウンミックス戦略を適用することが可能である。
2.3.2.1 適応ダウンミックス戦略の提案
2.3.2.1.1 平滑化
すべての適応ダウンミックス戦略について、ダウンミックス係数またはスケーリング係数が急速に(時間的に)または周波数帯域にわたって変化するとき、時間的な不安定性(アーチファクト)が生じるリスクがある。さらに、ダウンミックスがダウンサンプリングされたフィルタバンク領域で実行される場合、信号を過度に大幅に修正すると、合成におけるエイリアシング歪みが増加する可能性がある。したがって、係数は、時間および周波数にわたって比較的滑らかに変化する必要がある。一次IIRフィルタまたはFIRフィルタによって時間にわたってダウンミックス係数を滑らかにすることが提案される。周波数帯域にわたって滑らかにすることは、遅延の少ない移動平均FIRフィルタを用いて行われ得る。
代替的に、適応ダウンミックスはブロードバンドダウンミックスであってもよく、例えば、時間フレーム適応ダウンミックス係数はすべての周波数帯域について同一であるが、予測およびデコリレータパラメータは周波数帯域依存である。
2.3.2.1.2 安定化された固有信号
一実施形態では、入力共分散Rに基づいて最も高い固有値を有する固有ベクトルから導出される支配的な固有信号がデコーダに送信される。これに伴う問題は、固有信号が時間的に不安定であり得ることである。この問題は、スケーリング係数rを維持する追加のエネルギー(W)で(A=[hq)]となるように、セクション2.3.1.7の式[55]にしたがって、Wが強制的に支配的にされた(固有ベクトルを導出する前にブーストされた)「ブーストされた」固有信号を送信することによって緩和され得る。
2.3.2.1.3 アドホックヒューリスティックダウンミックス規則
この手法は、ダウンミックスが予測すべき信号とある程度相関している必要があるという観察に基づく。これは、ターゲット信号エネルギーが大きく、したがって知覚的に重要である場合に特に当てはまる。負の値の予測パラメータを許容しているので、ダウンミックス信号X、Y、ZをWにコヒーレントに(例えば、正しい符号で)加算するように注意する必要がある。
これらの考察から、以下のダウンミックス規則(Matlab表記)が導かれる:
Figure 2023551732000093
これは、式[87]にしたがったエネルギースケーリングを伴う。実験では、このダウンミックス戦略による総予測誤差は、標準的なパッシブダウンミックスの場合よりも著しく小さい。
2.3.2.1.4 静的ダウンミックス係数
固定された初期係数を有する経験的に導出されたダウンミックスは、不安定性アーチファクトを受けにくい。1つの可能なダウンミックスは、次の通りである:
Figure 2023551732000094
係数が固定されていても、Wのエネルギーに関してスケーリングするとき、ダウンミックスは適応的になることに留意されたい。
2.3.2.1.5 反復調整
この戦略は、反復ごとに測定される式[86]にしたがって最大予測誤差を生成する信号の寄与をWに加算することによって、総予測誤差を反復的に低減する。総予測誤差を計算するとき、予測パラメータの量子化制限を考慮することができる。一実施形態では、以下の反復処理が適用される:
Figure 2023551732000095
図3は、デコーダにおいて適用される復号ダウンミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化プロセス300のフロー図である。プロセス300は、例えば、図7を参照して説明されるシステム700によって実施することができる。
プロセス300は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む入力オーディオ信号を取得するステップ(301)と、入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップ(302)と、ダウンミックスコーディング方式のタイプに基づいて、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき1つまたは複数の入力ダウンミックスゲインを計算するステップであって、入力ダウンミックスゲインは、サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップ(303)と、一次ダウンミックスチャネルをスケーリングするための1つまたは複数のダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、一次ダウンミックスチャネルからの入力オーディオシーンの再構成された表現と入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップ(304)と、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップ(305)と、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、次いでこのサイドチャネル予測をサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから1つまたは複数の残差チャネルを決定するステップ(306)と、ゼロ個以上の残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップ(307)と、一次ダウンミックスチャネル、ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、サイド情報は、予測ゲインおよび無相関ゲインを含む、ステップ(308)と、ビットストリームをデコーダに送るステップ(309)とを含む。これらのステップのそれぞれは、前のセクションで詳細に説明されている。
図4Aおよび図4Bは、一実施形態による、オーディオを符号化および復号するためのプロセス400のフロー図である。プロセス400は、例えば、図7を参照して説明したシステム700によって実施することができる。
図4Aを参照すると、エンコーダにおいて、プロセス400は、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインとダウンミックススケーリングゲインとの組み合わせを計算するステップであって、入力ダウンミックスゲインは、入力オーディオ信号の入力共分散の関数として計算される、ステップ(401)と、入力オーディオ信号および入力ダウンミックスゲインに基づいて一次ダウンミックスチャネルを生成するステップ(402)と、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインを生成するステップ(403)と、一次ダウンミックスチャネルおよび予測ゲインを使用して、サイドチャネル予測を生成し、次いでこのサイドチャネル予測を入力オーディオ信号におけるサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップ(406)と、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップ(407)と、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内にあるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインと、無相関ゲインとを決定するステップ(408)と、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップ(409)と、ビットストリームをデコーダに送るステップ(410)とを含む。
図4Bを参照すると、デコーダにおいて、プロセス400は、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップ(411)と、アップミックススケーリングゲインをスケーリングされた予測ゲインおよびスケーリングされた無相関ゲインの関数として設定するステップ(412)と、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップ(413)と、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用する(414)ステップとが続く。
図5は、一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAデコーダのブロック図である。SPARデコーダ500は、入力としてSPARビットストリームを受け取り、デコーダ出力において入力FoA信号の表現を再構成し、FoA入力信号は、一次チャネルWと、サイドチャネルY、Z、およびXとを含み、復号された出力は、W’’、Y’’、Z’’、およびX’’チャネルによって与えられる。SPARビットストリームは、コアコーディングビットおよびサイド情報ビットにアンパックされる。コアコーディングビットは、一次ダウンミックスチャネルW’を再構成するコア復号ユニット501に送られる。サイド情報ビットは、サイド情報ビットを復号および逆量子化するサイド情報復号ユニット502に送られ、これは、予測ゲイン(p,p,p)および無相関ゲイン(d,d,d)を含む。
一次ダウンミックスチャネルW’は、W’に関して無相関化された3つの出力を生成するデコリレータユニット503に供給される。Y、ZおよびXチャネル予測は、予測ゲイン(p,p,p)を用いてW’チャネルをスケーリングすることによって計算され、Y、ZおよびXチャネルの残りの無相関信号成分は、無相関ゲイン(d,d,d)を用いてユニット503の無相関出力をスケーリングすることによって計算される。予測成分および無相関成分は、合算されて、デコーダ500の出力において出力チャネルY’’、Z’’およびX’’が得られる。
ユニット501の一次チャネルダウンミックスW’出力およびユニット502の復号されたサイド情報出力は、W’’チャネルのエネルギーがエンコーダ入力Wチャネルのエネルギーと同じになるようにW’’チャネルを得るためにW’チャネルをスケーリングするためのアップミックススケーリングゲインを計算するスケール計算ユニット504に供給される。一実施形態では、デコーダにおけるFoA信号の再構成は、次式で与えられる:
Figure 2023551732000096
ここで、fは定数(例えば、f=0.5)であり、D1(W’)、D2(W’)、D3(W’)はデコリレータユニット503の出力である。例示的な実施形態では、コア復号ユニット501はEVSデコーダであり、コアコーディングビットはEVSビットストリームを構成する。他の実施形態では、コア復号ユニット501は、任意のモノラルチャネルコーデックであり得る。
図6は、一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAエンコーダ600のブロック図である。SPARエンコーダ600は、入力としてFoA信号を受け取り、図5で説明されたSPARデコーダ500が復号可能なコーディングされたビットストリームを生成し、FoA入力は、W、Y、Z、およびXチャネルによって与えられる。FoA入力は、FoA入力を分析し、入力共分散推定値を生成し、共分散推定値に基づいて入力ダウンミックスゲイン(s,s,s,s)およびダウンミックススケーリングゲイン(r)を計算する空間分析/サイド情報生成および量子化ユニット601に供給される。一実施形態では、入力ダウンミックスゲインsは1に等しい。
空間分析/サイド情報生成および量子化ユニット601は、予測ゲインおよび無相関ゲインが指定された量子化範囲内にあるように、入力共分散推定値と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインおよび無相関ゲインを計算し、次いでそれらを量子化する。次いで、予測ゲインおよび無相関ゲインを含む量子化されたサイド情報が、サイド情報コーディングユニット603に送られ、サイド情報がビットストリームにコーディングされる。FoA入力、入力ダウンミックスゲインおよびダウンミックススケーリングゲインは、入力ダウンミックスゲインおよびダウンミックススケーリングゲインをFoA入力に適用することによって1チャネルダウンミックスW’(一次ダウンミックスチャネルまたは支配的な固有信号の表現と呼ばれることもある)を生成するダウンミックスユニット602に供給される。次いで、ダウンミックスユニット602のW’出力は、W’チャネルをコアコーディングビットストリームにコーディングするコアコーディングユニット604に供給される。コアコーディングユニット604およびサイド情報コーディングユニット603の出力は、ビットパッキングユニット605によってSPARビットストリームにパックされる。
一実施形態では、空間分析/サイド情報生成および量子化ユニット601は、デコーダ500のデコーダ出力W’’のエネルギー推定値を計算し、それをエンコーダ600のエンコーダ入力Wのエネルギー推定値に等しくする一方で、ダウンミックススケーリングゲイン、予測ゲインおよび無相関ゲインを計算し、それによってエネルギーを保存する。例示的な実施形態では、コアコーディングユニット604はEVSエンコーダであり、コアコーディングビットはEVSビットストリームを構成する。他の実施形態では、コアコーディングユニット604は、任意のモノラルチャネルコーデックであり得る。
例示的なシステムアーキテクチャ
図7は、本開示の例示的な実施形態を実装するのに適した例示的なシステム700のブロック図を示す。システム700は、コールサーバ102、レガシーデバイス106、ユーザ機器108、114、会議室システム116、118、ホームシアターシステム、VRギア122、および没入型コンテンツインジェスト124などの、図1に示されるデバイスのいずれかを含むがこれらに限定されない、1つまたは複数のサーバコンピュータまたは任意のクライアントデバイスを含む。システム700は、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなどを含むがこれらに限定されない任意の消費者デバイスを含む。
図示のように、システム700は、例えば、読取り専用メモリ(ROM)702に記憶されたプログラムまたは例えば、ストレージユニット708からランダムアクセスメモリ(RAM)703にロードされたプログラムにしたがって様々なプロセスを遂行することが可能な中央処理ユニット(CPU)701を含む。RAM703では、CPU701が様々なプロセスを実行する際に必要とされるデータも適宜記憶される。CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
以下の構成要素、すなわち、キーボード、マウスなどを含み得る入力ユニット706と、液晶ディスプレイ(LCD)などのディスプレイおよび1つまたは複数のスピーカを含み得る出力ユニット707と、ハードディスクまたは別の適切なストレージデバイスを含むストレージユニット708と、ネットワークカード(例えば、ワイヤードまたはワイヤレス)などのネットワークインターフェースカードを含む通信ユニット709とがI/Oインターフェース705に接続される。
いくつかの実装形態では、入力ユニット706は、様々なフォーマット(例えば、モノラル、ステレオ、空間、没入型、および他の適切なフォーマット)でのオーディオ信号のキャプチャを可能にする、(ホストデバイスに応じて)異なる位置にある1つまたは複数のマイクロフォンを含む。
いくつかの実装形態では、出力ユニット707は、様々な数のスピーカを有するシステムを含む。図1に示すように、出力ユニット707は(ホストデバイスの能力に応じて)、様々なフォーマット(例えば、モノラル、ステレオ、没入型、バイノーラル、および他の適切なフォーマット)でオーディオ信号をレンダリングすることができる。
通信ユニット709は、(例えば、ネットワークを介して)他のデバイスと通信するように構成される。I/Oインターフェース705にはまた、必要に応じてドライブ710が接続される。ドライブ710には、磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブ、または他の適切なリムーバブル媒体などのリムーバブル媒体711が取り付けられ、そこから読み出されたコンピュータプログラムが必要に応じてストレージユニット708にインストールされる。当業者であれば、システム700が上述の構成要素を含むものとして説明されているが、実際の適用では、これらの構成要素のいくつかを追加、除去、および/または置換することが可能であり、すべてのこれらの修正または変更がすべて本開示の範囲内に入ることを理解するであろう。
本開示の例示的な実施形態によれば、上記で説明したプロセスは、コンピュータソフトウェアプログラムとして、またはコンピュータ可読記憶媒体上に実装され得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、図7に示すように、通信ユニット709を介してネットワークからダウンロードされ、マウントされ、および/またはリムーバブル媒体711からインストールされ得る。
概して、本開示の様々な例示的な実施形態は、ハードウェアまたは専用回路(例えば、制御回路)、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装され得る。例えば、上記で説明したユニットは、制御回路(例えば、図7の他の構成要素と組み合わせたCPU)によって実行され得、したがって、制御回路は、本開示で説明するアクションを実行していることがある。一部の態様はハードウェアで実装され得るが、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイス(例えば、制御回路)によって実行され得るファームウェアまたはソフトウェアで実装され得る。本開示の例示的な実施形態の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図的表現を使用して例示および説明されるが、本明細書で説明されるブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラもしくは他のコンピューティングデバイス、またはそれらの何らかの組み合わせで実装され得ることが理解されよう。
追加的に、フローチャートに示される様々なブロックは、方法ステップとして、および/またはコンピュータプログラムコードの動作から生じる動作として、および/または関連機能(複数可)を実行するように構築される複数の結合された論理回路要素と見なされ得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、上記で説明した方法を実行するように構成されたプログラムコードを含む。
本開示の文脈では、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを含むかまたは記憶し得る任意の有形媒であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、非一時的であり得、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または上記の任意の適切な組み合わせを含み得るがこれらに限定されない。機械可読記憶媒体のより具体的な例には、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせが含まれるであろう。
本開示の方法を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、または制御回路を有する他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、プログラムコードは、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図で指定されたコンピュータプログラム/動作を実施させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上および部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で、または1つまたは複数の遠隔コンピュータおよび/もしくはサーバを経由して分散されて、実行され得る。
本書には多くの具体的な実装形態の詳細が記載されているが、これらは特許請求され得る範囲を制限するものとして解釈されるべきではなく、むしろ特定の実施形態に特有であり得る特徴を説明するものとして解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態において別々に、または任意の適切なサブコンビネーションで実施することもできる。さらに、特徴は、特定の組み合わせで作用するものとして上記で説明され、当初はそのように請求されることさえあるが、請求される組み合わせからの1つまたは複数の特徴は、場合によっては、その組み合わせから削除され得、請求される組み合わせは、部分組み合わせまたは部分組み合わせの変形形態を対象とし得る。図に描かれた論理フローは、望ましい結果を得るために、示された特定の順序、または連続した順序を必要としない。加えて、他のステップが提供され得るか、またはステップが、説明されるフローから削除され得、他の構成要素が、説明されるシステムに追加されてもよく、またはそこから除去されてもよい。したがって、他の実装形態は、以下の特許請求の範囲内にある。
[関連出願への相互参照]
本出願は、2021年8月3日に出願された米国仮特許出願第63/228,732号、2021年4月6日に出願された米国仮特許出願第63/171,404号、および2020年12月2日に出願された米国仮特許出願第63/120,365号に対する優先権の利益を主張するものであり、これらのすべては参照により本明細書に組み込まれる。
[技術分野]
本開示は、一般に、オーディオビットストリーム符号化および復号に関する。
音声およびオーディオエンコーダ/デコーダ(「コーデック」)規格の開発は、最近、没入型音声およびオーディオサービス(IVAS:immersive voice and audio services)用のコーデックの開発に焦点を当てている。IVASは、モノラルからステレオへのアップミックス、ならびに完全没入型オーディオ符号化、復号、およびレンダリングを含むがこれらに限定されない、ある範囲のオーディオサービス能力をサポートすることが期待される。IVASは、携帯電話およびスマートフォン、電子タブレット、パーソナルコンピュータ、会議電話、会議室、仮想現実(VR)および拡張現実(AR)デバイス、ホームシアターデバイス、および他の適切なデバイスを含むがこれらに限定されない広範囲のデバイス、エンドポイント、およびネットワークノードによってサポートされることが意図されている。
IVASコーデックは、アンビソニックス入力を含むNチャネルのマルチチャネル入力を、この入力をN_dmx個のチャネル(N_dmx≦N)にダウンミックスし、サイド情報(空間メタデータ)を生成することによって効率的にコーディングし、次いで、これらのN_dmx個のチャネルは、コアコーデックの1つまたは複数のインスタンスによってコーディングされる。次いで、コアコーデックビットはコーディングされたサイド情報とともにIVASデコーダに送信される。IVASデコーダは、コアコーデックの1つまたは複数のインスタンスを使用してN_dmx個のダウンミックスチャネルを復号し、次いで、送信されたサイド情報およびデコリレータの1つまたは複数のインスタンスを使用してN_dmx個のチャネルからマルチチャネル入力を再構成する。
様々なビットレートでは、異なる数のN_dmxがコーディングされ得、例えば、32kbpsでは、1つのダウンミックスチャネルのみがコーディングされ得る。N_dmx個のダウンミックスチャネルのうちの1つは、N個のチャネル入力の支配的な固有信号(W’)(以下、「一次ダウンミックスチャネル」と呼ばれることもある)の表現であり、残りのダウンミックスチャネルは、W’およびマルチチャネル入力の関数として導出され得る。IVASでは、パッシブダウンミックス方式およびアクティブダウンミックス方式という2つのダウンミックス方式が利用可能である。パッシブダウンミックス方式では、支配的な固有信号(W’)は、中央チャネルまたは一次入力チャネル(アンビソニックス入力の場合のWチャネル)の遅延バージョンである。アクティブダウンミックス方式では、Nチャネル入力中の1つまたは複数のチャネルをスケーリングし、加算することによって固有信号(W’)が得られる。例えば、一次アンビソニックス(FoA)入力の場合、W’=sW+sY+sX+sZであり、ここで、s0~3は入力ダウンミックスゲインである。したがって、パッシブダウンミックス方式は、s=1、s=0、s=0およびs=0であるアクティブダウンミックス方式の特殊なケースと見なされ得る。
適応ダウンミックス戦略によるIVASコーディングのための実装形態が開示され、適応ダウンミックスは、パッシブダウンミックス、アクティブダウンミックス、またはパッシブダウンミックスとアクティブダウンミックスとの組み合わせのいずれかである。一実施形態では、デコーダにおいて適用される復号リミックス/アップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化方法は、少なくとも1つのプロセッサを用いて、入力オーディオ信号を取得するステップであって、入力オーディオ信号は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む、ステップと、少なくとも1つのプロセッサを用いて、入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップと、ダウンミックスコーディング方式のタイプに基づいて、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき1つまたは複数の入力ダウンミックスゲインを計算するステップであって、入力ダウンミックスゲインは、サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップと、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルをスケーリングするための1つまたは複数のダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、一次ダウンミックスチャネルからの入力オーディオシーンの再構成された表現と入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップと、少なくとも1つのプロセッサを用いて、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、次いでサイドチャネル予測をサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから1つまたは複数の残差チャネルを決定するステップと、少なくとも1つのプロセッサを用いて、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネル、ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、サイド情報は、予測ゲインおよび無相関ゲインを含む、ステップと、少なくとも1つのプロセッサを用いて、ビットストリームをデコーダに送るステップとを含む。
一実施形態では、本方法は、少なくとも1つのプロセッサを用いて、入力オーディオ信号に基づいて入力共分散を計算するステップと、少なくとも1つのプロセッサを用いて、入力共分散を使用して全体的な予測誤差を決定するステップとをさらに含む。
一実施形態では、ダウンミックススケーリングゲインの計算は、少なくとも1つのプロセッサを用いて、デコーダに送信されたサイド情報の関数としてアップミックススケーリングゲインを決定するステップと、少なくとも1つのプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるようにアップミックススケーリングゲインを一次ダウンミックスチャネルに適用することによって、一次ダウンミックスチャネルおよびゼロ個以上の残差チャネルから入力オーディオシーンの表現を生成するステップと、少なくとも1つのプロセッサを用いて、入力オーディオシーンのエネルギーを保存するために多項式の閉形式解を解くことによってダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、再構成された入力オーディオシーンのエネルギーを入力オーディオシーンのエネルギーと一致させるときに決定される、ステップとをさらに含む。
一実施形態では、一次ダウンミックスチャネルおよびゼロ個以上の残差チャネルから入力オーディオシーンの表現を再構成するためのアップミックススケーリングゲインは、一次入力オーディオ信号の再構成された表現が一次ダウンミックスチャネルと同相になるように、サイド情報中でデコーダに送信される予測ゲインおよび無相関ゲインの関数であり、多項式は2次多項式である。
一実施形態では、一次ダウンミックスチャネルから入力オーディオシーンの表現を再構成するためのアップミックススケーリングゲインは、2次多項式を解くことによって得られるダウンミックススケーリングゲインが、指定された量子化範囲内で予測ゲインおよび無相関ゲインをスケーリングするように、デコーダに送信される予測ゲインおよび無相関ゲインの関数である。
一実施形態では、前述の方法は、エンコーダにおいて、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインとダウンミックススケーリングゲインとの組み合わせを計算するステップであって、入力ダウンミックスゲインは、入力オーディオ信号の入力共分散の関数として計算される、ステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて一次ダウンミックスチャネルを生成するステップと、エンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインを生成するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインを使用して、サイドチャネル予測を生成し、次いでサイドチャネル予測を入力オーディオ信号におけるサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内にあるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインと、無相関ゲインとを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップと、少なくとも1つのエンコーダプロセッサを用いて、ビットストリームをデコーダに送るステップと、デコーダにおいて、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも1つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインおよび無相関ゲインの関数として設定するステップと、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号(decorrelated signal)を生成するステップと、少なくとも1つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用するステップとをさらに含む。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、関数の分子が、一次入力オーディオチャネルとサイドチャネルとの間の共分散に第1の定数を乗じたものであり、関数の分母が、一次入力オーディオチャネルの分散および入力オーディオ信号のサイドチャネルの分散の和に第2の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算され、少なくとも1つのエンコーダプロセッサを用いて、サイドチャネル予測についての予測誤差を最小化し、予測ゲインについて解くことによって、1次多項式を生成するステップ。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、一次ダウンミックスチャネルが一次入力オーディオ信号と同じであるかまたは一次入力オーディオ信号の遅延バージョンのいずれかであるように、パッシブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、予測ゲインの関数として計算される。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、少なくとも1つのプロセッサを用いて、一次オーディオ信号と入力オーディオ信号のサイドチャネルとの間の相関を決定するステップと、少なくとも1つのプロセッサを用いて、相関に基づいて入力ダウンミックスゲイン計算方式を選択するステップとを含む。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの計算は、エンコーダにおいて、少なくとも1つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいてパッシブ予測ゲインのセットを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、パッシブ予測ゲインのセットを第1のしきい値と比較するステップと、少なくとも1つのエンコーダプロセッサを用いて、パッシブ予測ゲインのセットが第1のしきい値以下であるかどうかを決定し、そうである場合、入力ダウンミックスゲインの第1のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインの第1のセットを生成するステップと、少なくとも1つのエンコーダプロセッサを用いて、予測ゲインの第1のセットが第2のしきい値よりも高いかどうかを決定し、そうである場合、入力ダウンミックスゲインの第2のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインの第2のセットを生成するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインの第2のセットを使用して、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、デコーダに伝送されていない残差チャネルのエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内であるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインの第2のセットと、無相関ゲインとを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップと、少なくとも1つのエンコーダプロセッサを用いて、ビットストリームをデコーダに送るステップと、デコーダにおいて、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも1つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインおよび無相関ゲインの関数として決定するステップと、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップと、少なくとも1つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用するステップとをさらに含む。
一実施形態では、入力ダウンミックスゲインの第1のセットはパッシブダウンミックスコーディング方式に対応する。
一実施形態では、入力ダウンミックスゲインの第1のセットはアクティブダウンミックス方式に対応し、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの第1のセットは、関数の分子が、一次入力オーディオチャネルとサイドチャネルとの共分散に第1の定数を乗じたものであり、関数の分母が、一次入力オーディオチャネルの分散およびサイドチャネルの分散の和に第2の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算される。
一実施形態では、入力ダウンミックスゲインの第2のセットは、アクティブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルは、入力ダウンミックスゲインの第2のセットを一次入力オーディオチャネルおよびサイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる。
一実施形態では、入力ダウンミックスゲインの第2のセットは、2次多項式の係数である。
一実施形態では、予測ゲインが比較されるしきい値は、予測ゲインが指定された量子化範囲内にあるように計算される。
一実施形態では、ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、一次入力オーディオ信号をスケーリングするためのスケーリング係数を計算するステップと、スケーリングされた一次入力オーディオ信号の共分散を計算するステップと、スケーリングされた一次入力オーディオ信号の共分散に対して固有分析(eigen analysis)を実行するステップと、一次ダウンミックスチャネルが一次入力オーディオチャネルと正に相関するように、最大固有値に対応する固有ベクトルを入力ダウンミックスゲインとして選択するステップと、入力オーディオシーンの全体的なエネルギーが保存されるように一次ダウンミックスチャネルおよびサイド情報をスケーリングするためのダウンミックススケーリングゲインを計算するステップとを含む。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、一次入力オーディオチャネルをスケーリングするためのスケーリング係数を計算するステップと、スケーリングされた一次入力オーディオチャネルの予測ゲインの関数として入力ダウンミックスゲインを設定することによって、スケーリングされた一次入力オーディオチャネルに基づいて入力ダウンミックスゲインを計算するステップと、入力オーディオシーンの全体的なエネルギーが保存されるように一次ダウンミックスチャネルおよびサイド情報をスケーリングするためのダウンミックススケーリングゲインを計算するステップとを含む。
一実施形態では、一次入力オーディオチャネルをスケーリングするためのスケーリング係数は、一次入力オーディオチャネルの分散とサイドチャネルの分散の和の平方根との比である。
一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの計算は、少なくとも1つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいて予測ゲインを決定するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが入力オーディオシーンの再構成された表現において保存されるように、一次ダウンミックスチャネルおよびサイド情報をスケーリングするための第1のダウンミックススケーリングゲインを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、第1のダウンミックススケーリングゲインが第1のしきい値以下であるかどうかを決定し、その結果、入力ダウンミックスゲインの第1のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、第1のダウンミックススケーリングゲインが第2のしきい値よりも高いかどうかを決定し、その結果、入力ダウンミックスゲインの第2のセットを計算するステップと、少なくとも1つのエンコーダプロセッサを用いて、入力オーディオ信号と第1または第2の入力ダウンミックスゲインとに基づいて予測ゲインの第2のセットを生成するステップと、デコーダにおいて、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、スケーリングされた予測ゲインの第2のセットおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも1つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインの第2のセットおよび無相関ゲインの関数として決定するステップと、少なくとも1つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップと、少なくとも1つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと無相関信号との組み合わせに適用するステップとをさらに含む。
一実施形態では、入力ダウンミックスゲインの第1のセットはパッシブダウンミックスコーディング方式に対応する。
一実施形態では、入力ダウンミックスゲインの第2のセットは、アクティブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルは、入力ダウンミックスゲインを一次入力オーディオチャネルおよびサイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる。
一実施形態では、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、上記で説明した説明のいずれかによる動作を実行させる命令を記憶する非一時的コンピュータ可読媒体とを備える。
一実施形態では、非一時的コンピュータ可読媒体は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、上記で説明した方法のいずれかによる動作を実行させる命令を記憶する。
本明細書で開示される他の実装形態は、システム、装置、おびコンピュータ可読媒体を対象とする。開示される実装形態の詳細は、添付の図面および以下の説明に記載される。他の特徴、目的および利点は、説明、図面および特許請求の範囲から明らかである。本明細書で開示される特定の実装形態は、以下の利点のうちの1つまたは複数を提供する。アクティブダウンミックス戦略は、4つのFoAチャネルなどの復号されたオーディオ信号の品質を向上させるためにIVASデコーダにおいて実装される。開示されるアクティブダウンミックス技法は、シングルまたはマルチチャネルのダウンミックスチャネル構成で使用可能である。パッシブダウンミックス方式と比較してアクティブダウンミックスコーディング方式は、デコーダにおいてWチャネルを再構成するための追加的なスケーリング項を提供し、これは、FoAチャネルの再構成に使用されるパラメータ(例えば、空間メタデータ)のより良好な推定を保証するために利用することができる。
追加的に、シングルおよびマルチチャネルダウンミックスの場合について潜在的な改善が開示される。一実施形態では、アクティブダウンミックスコーディング方式は適応的に動作され、1つの可能な動作点はパッシブダウンミックスコーディング方式である。
図面では、説明を容易にするために、デバイス、ユニット、命令ブロック、およびデータ要素を表すものなど、概略的な要素の特定の配置または順序が示されている。しかしながら、図面における概略的な要素の特定の順序または配置が、処理の特定の順序またはシーケンス、またはプロセスの分離が必要とされることを暗示することを意味するものではないことは当業者によって理解されるべきである。さらに、概略的な要素を図面に含めることは、そのような要素がすべての実施形態において必要とされること、またはそのような要素によって表される特徴が、いくつかの実装形態において他の要素に含まれないか、もしくは他の要素と組み合わされない可能性があることを暗示することを意味するものではない。
さらに、図面において、実線または破線または矢印などの接続要素が、2つ以上の他の概略的な要素の間の接続、関係、または関連付けを示すために使用される場合、そのような接続要素が存在しないことは、接続、関係、または関連付けが存在し得ないことを暗示することを意味するものではない。言い換えると、要素間のいくつかの接続、関係、または関連付けは、本開示を不明瞭にしないように、図面に示されていない。加えて、説明を容易にするために、単一の接続要素が要素間の複数の接続、関係、または関連付けを表すために使用される。例えば、接続要素が、信号、データ、または命令の通信を表す場合、そのような要素は、必要に応じて、通信に影響を与えるために、1つまたは複数の信号経路を表すことが当業者によって理解されるべきである。
一実施形態による、IVASコーデックのユースケースを示す。 一実施形態による、IVASビットストリームを符号化および復号するためのシステムのブロック図である。 一実施形態による、オーディオを符号化するプロセスのフロー図である。 一実施形態による、オーディオを符号化および復号するプロセスのフロー図である。 一実施形態による、オーディオを符号化および復号するプロセスのフロー図である。 一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAデコーダのブロック図である。 一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAエンコーダのブロック図である。 一実施形態による、例示的なデバイスアーキテクチャのブロック図である。
様々な図面において使用される同じ参照符号は、同様の要素を示す。
以下の詳細な説明では、説明される様々な実施形態の完全な理解を与えるために、多数の具体的な詳細が記載される。説明される様々な実装形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の事例では、周知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には説明されていない。それぞれ互いに独立して、または他の特徴の任意の組み合わせとともに使用することができるいくつかの特徴について以下で説明する。
名称
本明細書で使用される場合、「含む(includes)」という用語およびその変形は、「~を含むがこれらに限定されない(includes, but is not limited to)」ことを意味するオープンエンドの用語として読まれるべきである。「または(or)」という用語は、文脈が明らかにそうでないことを示さない限り、「および/または(and/or)」として読まれるべきである。「~に基づいて(based on)」という用語は、「~に少なくとも部分的に基づいて(based at least in part on)」として読まれるべきである。「1つの例示的な実装形態(one example implementation)」および「例示的な実装形態(an example implementation)」という用語は、「少なくとも1つの例示的な実装形態(at least one example implementation)」として読まれるべきである。「別の実装形態(another implementation)」という用語は、「少なくとも1つの他の実装形態(at least one other implementation)」として読まれるべきである。「決定された(determined)」、「決定する(determines)」、または「決定すること(determining)」という用語は、取得すること、受信すること、計算すること、算出すること、推定すること、予測すること、または導出することとして読まれるべきである。加えて、以下の説明および特許請求の範囲では、別様に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が属する分野の当業者によって一般に理解されるのと同じ意味を有する。
IVASユースケースの例
図1は、1つまたは複数の実装形態による、IVASコーデック100のためのユースケース100を示す。いくつかの実装形態では、様々なデバイスは、例えば、公衆交換電話網(PSTN)またはPSTN/他のPLMN104によって示される公衆陸上移動体通信網デバイス(PLMN)からオーディオ信号を受信するように構成されたコールサーバ102を介して通信する。ユースケース100は、拡張音声サービス(EVS)、マルチレート広帯域(AMR-WB)および適応マルチレート狭帯域(AMR-NB)をサポートするデバイスを含むがこれらに限定されない、オーディオをモノラルのみでレンダリングおよびキャプチャするレガシーデバイス106をサポートする。ユースケース100はまた、ステレオオーディオ信号をキャプチャおよびレンダリングするユーザ機器(UE)108、114、またはモノラル信号をキャプチャし、マルチチャネル信号へとバイノーラルレンダリングするUE110をサポートする。ユースケース100はまた、それぞれ、ビデオ会議室システム116、118によってキャプチャおよびレンダリングされる没入型およびステレオ信号をサポートする。ユースケース100はまた、ホームシアターシステム120のためのステレオオーディオ信号のステレオキャプチャおよび没入型レンダリングと、仮想現実(VR)ギア122および没入型コンテンツインジェスト124のためのオーディオ信号のモノラルキャプチャおよび没入型レンダリングのためのコンピュータ112とをサポートする。
例示的なIVASコーデック
図2は、一実施形態による、IVASビットストリームを符号化および復号するためのIVASコーデック200のブロック図である。IVASコーデック200は、エンコーダおよび遠端デコーダを含む。IVASエンコーダは、空間分析およびダウンミックスユニット202と、量子化およびエントロピーコーディングユニット203と、コア符号化ユニット206と、モード/ビットレート制御ユニット207とを含む。IVASデコーダは、量子化およびエントロピー復号ユニット204と、コア復号ユニット208と、空間合成/レンダリングユニット209と、デコリレータユニット211とを含む。
空間分析およびダウンミックスユニット202は、オーディオシーンを表すNチャネル入力オーディオ信号201を受信する。入力オーディオ信号201は、モノラル信号、ステレオ信号、バイノーラル信号、空間オーディオ信号(例えば、マルチチャネル空間オーディオオブジェクト)、FoA、高次アンビソニックス(HoA)、および任意の他のオーディオデータを含むがこれらに限定されない。Nチャネル入力オーディオ信号201は、空間分析およびダウンミックスユニット202によって、指定された数のダウンミックスチャネル(N_dmx)にダウンミックスされる。この例では、N_dmxは、N以下である。空間分析およびダウンミックスユニット202はまた、N_dmx個のダウンミックスチャネル、空間メタデータ、およびデコーダにおいて生成される無相関信号からNチャネル入力オーディオ信号201を合成するために遠端IVASデコーダが使用することができるサイド情報(例えば、空間メタデータ)を生成する。いくつかの実施形態では、空間分析およびダウンミックスユニット202は、ステレオ/FoAオーディオ信号を分析/ダウンミックスするためのCACPL(complex advanced coupling)および/またはFoAオーディオ信号を分析/ダウンミックスするためのSPAR(SPAtial reconstruction)を実装する。他の実施形態では、空間分析およびダウンミックスユニット202は、他のフォーマットを実装する。
N_dmx個のチャネルは、コア符号化ユニット206(例えば、EVSコア符号化ユニット)に含まれるモノラルまたは1つまたは複数のマルチチャネルコアコーデックのN_dmx個のインスタンスによってコーディングされ、サイド情報(例えば、空間メタデータ(MD))は、量子化およびエントロピーコーディングユニット203によって量子化およびコーディングされる。次いで、コーディングされたビットは、ビットストリーム(複数可)(例えば、IVASビットストリーム(複数可))に一緒にパックされ、IVASデコーダに送られる。この例示的な実施形態およびEVSコーデックに従う実施形態が説明され得るが、任意のモノラル、ステレオまたはマルチチャネルコーデックが、IVASコーデック200におけるコアコーデックとして使用され得る。
いくつかの実施形態では、量子化は、次第に粗くなるいくつかのレベルの量子化(例えば、精細量子化、中間量子化、粗量子化、および超粗量子化)を含むことができ、エントロピーコーディングは、ハフマンコーディングまたは算術コーディングを含むことができる。
いくつかの実施形態では、コア符号化ユニット206は、3GPP TS 26.445に準拠し、狭帯域(EVS-NB)および広帯域(EVS-WB)スピーチサービスのための拡張された品質およびコーディング効率、超広帯域(EVS-SWB)スピーチを使用する拡張された品質、会話アプリケーションにおける混合コンテンツおよび音楽のための拡張された品質、パケット損失および遅延ジッタに対するロバスト性、ならびにAMR-WBコーデックへの後方互換性など、広範囲の機能を提供する。
いくつかの実施形態では、コア符号化ユニット206は、モード/ビットレート制御ユニット207の出力に基づいて、指定されたビットレートで、オーディオ信号を符号化するための知覚コーダと、スピーチ信号を符号化するためのスピーチコーダとから選択する前処理およびモード/ビットレート制御ユニット207を含む。いくつかの実施形態では、スピーチエンコーダは、代数符号励振型形予測(ACELP:algebraic code-excited linear prediction)の改良型であり、異なるスピーチクラスのための特殊な線形予測(LP)ベースのモードで拡張されている。いくつかの実施形態では、知覚エンコーダは、低遅延/低ビットレートで向上した効率を有する修正離散コサイン変換(MDCT:modified discrete cosine transform)エンコーダであり、スピーチエンコーダとオーディオエンコーダとの間のシームレスで信頼できる切り替えを実行するよう設計される。
デコーダにおいて、N_dmx個のチャネルは、コア復号ユニット208に含まれるモノラルコーデックの対応するN_dmx個のインスタンスによって復号され、サイド情報は、量子化およびエントロピー復号ユニット204によって復号される。一次ダウンミックスチャネル(例えば、FoA信号フォーマットのWチャネル)は、N-N_dmx個の無相関チャネルを生成するデコリレータユニット211に供給される。N_dmx個のダウンミックスチャネル、N-N_dmx個の無相関チャネルおよびサイド情報は、空間合成/レンダリングユニット209に供給され、これは、これらの入力を使用して元のNチャネル入力オーディオ信号を合成または再生成する。一実施形態では、N_dmx個のチャネルは、EVSモノラルコーデック以外のモノラルコーデックによって復号される。他の実施形態では、N_dmx個のチャネルは、1つまたは複数のマルチチャネルコアコーディングユニットおよび1つまたは複数のシングルチャネルコアコーディングユニットの組み合わせによって復号される。
アクティブダウンミックス戦略によるIVASコーディング
1.0 導入部
以下の開示は、復号されたFoAチャネルの品質を向上させるためのアクティブダウンミックス戦略を説明する。提案されるアクティブダウンミックス技法は、シングルまたはマルチチャネルのダウンミックスチャネル構成で使用可能である。パッシブダウンミックス方式と比較してアクティブダウンミックスコーディング方式は、デコーダにおいてWチャネルを再構成するための追加的なスケーリング項を提供し、これは、FoAチャネルの再構成に使用されるパラメータ(例えば、空間メタデータ)のより良好な推定を保証するために利用することができる。
加えて、アクティブダウンミックスコーディング方式が調査され、シングルおよびマルチチャネルダウンミックスの場合について潜在的な改良が提案される。一実施形態では、アクティブダウンミックス方式は、適応的に実行され得、1つの可能な動作点はパッシブダウンミックスコーディング方式である。
2.0 用語および問題提起
2.1. FoA入力を用いたSPARによるパッシブダウンミックスの例示的な実装形態
SPARエンコーダは、FoA入力で動作するとき、オーディオシーンを表すFoA入力オーディオ信号を、SPARデコーダにおいて入力信号を再生成するために使用されるダウンミックスチャネルおよび空間パラメータのセットに変換する。ダウンミックス信号は、1チャネルから4チャネルまで変化することができ、パラメータは、予測パラメータP、相互予測パラメータCおよび無相関パラメータdを含む。これらのパラメータは、指定された数の周波数帯域(例えば、12個の周波数帯域)における窓掛けされた入力オーディオ信号の入力共分散行列から計算される。
SPARパラメータ抽出の例示的な表現は、以下の通りである:
1.式[1]を使用して一次オーディオ信号Wからすべてのサイド信号(Y,Z,X)を予測する:
Figure 2023551732000105
ここで、一例として、予測チャネルY’の予測係数は、式[2]に示すように計算される:
Figure 2023551732000106
ここで、normscaleは、正規化スケーリング係数で、0から1の間の定数であり、RYW=cov(Y,W)は、チャネルYおよびWに対応する入力共分散行列の要素である。同様に、Z’およびX’残差チャネルは、対応するパラメータprおよびprを有する。Pは、いくつかの実施形態では、[p,p,pとも呼ばれる予測パラメータP=[pr,pr,prのベクトルである。上述したダウンミックスは、Wがダウンミックスプロセス中に全く変更されないか、単に遅延されるかのいずれかであるパッシブWダウンミックスとも呼ばれる。
2.Wチャネルおよび予測チャネル(Y’,Z’,X’)を音響的に関連性の高いものから低いものへとリミックスする。ここで、リミックスは、式[4]に示されるように、何らかの方法に基づいてチャネルを並べ替えたり再結合したりすることを含む:
Figure 2023551732000107
リミックスの一実施形態は、左右からのオーディオキューが前後からのキューよりも重要であり、最後に上下のキューが重要であるという仮定を考慮すると、入力チャネルをW、Y’、X’、Z’に並べ替えることであり得ることに留意されたい。
3.式[5]および[6]に示されるように、4チャネルポスト予測(post-prediction)およびリミックスダウンミックスの共分散を計算する:
Figure 2023551732000108
ここで、ddは、Wを超える余分なダウンミックスチャネル(例えば、第2から第N-dmxチャネル)を表し、uは、完全に再生成される必要があるチャネル(例えば、第(N_dmx+1)から4チャネル)を表す。
1~4ダウンミックスチャネルを有するWABCダウンミックスの例の場合、dおよびuは、以下のチャネルを表し、ここで、プレースホルダ変数A、B、Cは、FoAにおけるX、Y、Zチャネルの任意の組み合わせであり得る:
Figure 2023551732000109
4.これらの計算から、送信されている残差チャネルから完全パラメトリックチャネルの任意の残りの部分を交差予測することが可能であるかどうかを決定する。必要とされる余分なC係数は、次の通りである:
Figure 2023551732000110
したがって、Cは、3チャネルダウンミックスに対して(1×2)の形状を有し、2チャネルダウンミックスに対して(2×1)の形状を有する。空間ノイズ充填の一実装形態は、これらのCパラメータを必要とせず、これらのパラメータは、0に設定することができる。空間ノイズ充填の代替的な実装形態もまたCパラメータを含み得る。
5.デコリレータによって充填されなければならないパラメータ化されたチャネルにおける残りのエネルギーを計算する。アップミックスチャネルResuuにおける残差エネルギーは、実際のエネルギーRuu(ポスト予測)と再生成された交差予測エネルギーReguuとの間の差分である:
Figure 2023551732000111
ここで、scaleは、正規化スケーリング係数である。scaleは、広帯域値(例えば、scale=0.01)または周波数依存であり得、異なる周波数帯域では異なる値をとり得る(例えば、スペクトルが12個の帯域に分割される場合、scale=linspace(0.5,0.01,12))。式[11]のdにおけるパラメータは、予測解除およびミキシング解除の前にA、B、Cチャネルを再作成するために、Wの無相関化された成分がどれだけ使用されるかを決定する。
1チャネルパッシブダウンミックス構成では、Wチャネル、P(p,p,p)パラメータおよびd(d,d,d)パラメータのみがコーディングされ、デコーダに送られる。
パッシブダウンミックスコーディング方式では、サイドチャネルY、X、Zは、3つの予測パラメータPを使用して、送信されたダウンミックスWからデコーダにおいて予測される。サイドチャネル内の失われたエネルギーは、無相関パラメータdを使用して無相関化されたダウンミックスD(W)のスケーリングされたバージョンを加算することによって充填される。パッシブダウンミックスの場合、FoA入力の再構成は次のように行われる:
Figure 2023551732000112
ここで、p=[1 p、d=[0 dであり、D(W)は、デコリレータブロックへの入力としてWチャネルを有するデコリレータ出力を記述する。完全なデコリレータを仮定し、予測およびデコリレータパラメータの量子化がないと仮定すると、この方式は、入力共分散行列に関して完全な再構成を達成することに留意されたい。
パッシブダウンミックスは、多くの場合、デコリレータが不完全であり、予測パラメータおよびデコリレータパラメータのために利用可能な量子化範囲が限られていることにより、より低いダウンミックスチャネル構成をもつデコーダ出力において入力シーンを再構成することができない。したがって、アクティブダウンミックス方式は、所望の量子化範囲内にあるより良好な予測係数推定値を生成することによって全体的な予測誤差を低減することが望まれる。
2.2 クティブダウンミックスコーディング方式
アクティブダウンミックスを行うためのソリューションが、以下に記載されている。このソリューションは、W、X、Y、Z入力チャネルをスケーリングおよび加算することによって、支配的な固有信号の表現を生成することを目的とする。予測行列またはダウンミックス行列は、式13)で以下のように与えられる:
Figure 2023551732000113
ダウンミックスチャネルW’は、次のように計算される:
Figure 2023551732000114
ここで、Uは、以下のように与えられる入力FoA信号である:
Figure 2023551732000115
デコーダは、以下のように与えられるアップミックス行列をW’に適用する:
Figure 2023551732000116
ここで、dは、無相関パラメータ(d,d,d)であり、再構成されたFoA信号は、以下のように与えられる:
Figure 2023551732000117
ここで、D1(W’)、D2(W’)、D3(W’)はデコリレータブロックの3つの出力である。
このソリューションは一般に、パッシブダウンミックス方式よりも良好な予測パラメータの推定値を提供し、予測パラメータを所望の量子化範囲内にし、全体的な予測誤差を低減する。しかしながら、このソリューションは、ダウンミックスW’からWチャネルを再構成するためにデコリレータ出力に依存するので、オーディオアーチファクトにつながる可能性がある。また、入力ダウンミックスゲイン
Figure 2023551732000118
が予測パラメータに対して正比例することを考慮すると、このソリューションでは、所望されるよりも高い予測パラメータの推定値を提供し、再構成されたFoA出力に空間歪みをもたらし得ることが観察されている。
2.3 提案される適応ダウンミックスコーディング方式の例示的な実施形態
2.3.1 適応ダウンミックスコーディング方式
以下で説明される適応ダウンミックス戦略(本明細書では適応アクティブダウンミックス戦略とも呼ばれる)の目標は、様々な方法によって、[13]で与えられる入力ダウンミックスゲイン(本明細書ではアクティブダウンミックス係数とも呼ばれる)
Figure 2023551732000119
を計算することによって予測パラメータpのより良好な推定値を提供することである。
いくつかの実施形態では、入力ダウンミックスゲインは、総二乗予測誤差が最小化されるように計算され、予測波形誤差は、以下のように与えられる:
Figure 2023551732000120
そして、平均二乗予測誤差(信号あたりの予測誤差)(4×1)は、以下のように与えられる:
Figure 2023551732000121
ここで、総二乗予測誤差は、以下のように与えられる:
Figure 2023551732000122
ここで、pは、逆予測行列である。
いくつかの実施形態では、入力ダウンミックスゲインは、ポスト予測共分散が最小化されるように計算される。
いくつかの実施形態では、入力ダウンミックスゲインは、予測パラメータが所望の量子化範囲内であるように計算される。
低ダウンミックスチャネル構成について、SPARコーディングによるオーディオ品質は、現在のパッシブダウンミックスコーディング方式よりも、開示されるアクティブダウンミックスコーディング方式を用いたが良好であることが観察されている。しかしながら、いくつかのオーディオコンテンツについては、パッシブダウンミックス方式の方がより品質が良く、アクティブダウンミックスコーディング方式の適応動作を示唆している。
上記で説明した観察に基づいて、信号特性に応じて入力ダウンミックスゲインを計算する適応ダウンミックス方式が以下に開示される。入力ダウンミックスゲインのこの信号依存計算は、処理された周波数帯域およびオーディオフレームごとに、またはオーディオフレームごとにすべての周波数帯域について組み込まれ得る、
2.3.1.1 最小誤差に基づく入力ダウンミックスゲインの選択
一実施形態では、[13]で与えられる入力ダウンミックスゲイン
Figure 2023551732000123
の係数「f」の選択は、可能性のある各fについて総予測誤差(式[20])を計算し、最小の総予測誤差を有するものを選択することから導出される。入力共分散Rが利用可能になると、総予測誤差を共分散領域において効率的に計算することができることに留意されたい。
2.3.1.2 音声アクティビティに基づく適応ダウンミックス方式
音声信号の場合、fの値が高いと、データ送信中の空間快適ノイズの性能が損なわれる可能性があることが観測されている。スピーチ信号中の背景ノイズは一般に拡散しており、アグレッシブなアクティブW方式では、Wダウンミックスチャネルが残差X、YおよびZチャネルから所望よりも多くのエネルギーを取る結果になる可能性がある。完全パラメトリックコーディングでは、快適ノイズソリューションデコーダは、アクティブWダウンミックスチャネルと同じスペクトル形状を有する4つの無相関快適ノイズチャネルを生成する。次いで、これらの無相関チャネルは、SPARパラメータを使用して整形される。きわめて低いビットレート、SPARパラメータの粗量子化、および不連続送信モード(DTX)フレーム中の完全パラメトリック再構成を考慮すると、現在のパラメトリック再構成の場合、アクティブWチャネル中の追加のエネルギーは決して除去されず、出力Wチャネルは、空間的に崩壊した高エネルギーの快適ノイズである。
また、デコーダにおける再構成された背景ノイズは、音声アクティビティ検出(VAD)アクティブフレームおよびVAD非アクティブフレーム中に連続して聞こえることが望ましい。一実施形態では、VAD非アクティブフレーム中のパッシブダウンミックス方式およびVADアクティブフレーム中のアクティブ方式は、IVASコーデックの全体的な性能を損なう可能性がある。しかしながら、主観的評価では、fの値が低減されると(例えば、0.25)、概して、非アクティブフレームに対して良好に機能し、fの値が高いと(例えば、0.5)が、アクティブフレームに対して良好に機能することが観察された。fのこの条件付き適用はまた、アクティブフレームと非アクティブフレームとの間の遷移を滑らかに保つのに役立つ。
一実施形態では、アクティブW構成におけるSPARは、VAD決定に基づいて異なるfの値を動的に選択し、VADは、FoA信号を入力とする。VADがアクティブの場合にはfの高い値を選択することができ、VADが非アクティブの場合にはfの低い値を選択することができる。
2.3.1.3 予測パラメータの所望の範囲に基づく適応ダウンミックスコーディング方式

IVAS法の第1の変形
一実施形態では、f=0の場合、復号は、上記で説明したパッシブダウンミックス方式に戻り、その結果、予測パラメータ「g」が制限されない可能性があるという問題が生じる。fをより大きい値(例えば、f=0.5)に設定することで、式[17]の正の実数値「g」の範囲を
Figure 2023551732000124
に制約することができる。fを小さく保ち、gが大きくなりすぎるのを防ぐために必要があるときにのみfのより大きい値を使用することによってアクティブダウンミックス戦略の安定性が向上し得るという証拠がいくつか存在する。
一実施形態では、アクティブダウンミックス戦略の潜在的な変形は、g<g’(g’は予測パラメータの所望の範囲である)を維持する限り、可能ならいつでもf=0に設定することであり、そうでなければ、g=g’になるようにfを選択する。これにより、gの値が過度に大きくなる場合(g>g’の場合)、式(17)においてg=g’に設定し、次に、g=g’に設定し、fの値を求めることによって、二次方程式Q(f)=(βg’)f+(2αg’-βg’)f+wg’-αを解いて、fを求める:
Figure 2023551732000125
二次方程式が常に少なくとも1つの実数解をもち、最大の実数解が範囲
Figure 2023551732000126
にあることを保証するためには、以下であることに留意されたい。
Figure 2023551732000127
g’についてのいくつかの例示的な値は、1.0(f[0 to 1])、1.414(f[0 to 0.5])、および2(f[0 to 0.25])である。上記の観察は、式[23]および[24]に示されるように要約される:
Figure 2023551732000128
上記の式[23]および[24]は、追加のメタデータがデコーダにシグナリングされることを必要とし得ることに留意されたい。値「f」を示すための追加のメタデータを送ることは、セクション2.3.1.4で説明したスケーリング方法を使用することで回避することができる。
IVAS法の第2の変形
gが小さい場合には小さいfの値が望ましく、gが大きい場合にはより大きいfの値がより良好な結果を与え得ることが観察される。fとgとの間には、すべての場合で最適な結果を与えるために利用することができる何らかの線形関係が存在し得る。例えば、f=kg(kは1.0以下の定数(典型的には0.5))である場合、
Figure 2023551732000129
であり、この関数は次の場合に良好に振る舞う:
Figure 2023551732000130
したがって、0とk-1/3との間には少なくとも1つの根が存在する。この関数の導関数は、以下である:
Figure 2023551732000131

Figure 2023551732000132
2.3.1.4 スケーリングを伴うアクティブダウンミックスコーディング
IVAS法の変形
測は、以下のように与えられる:
Figure 2023551732000133
この逆予測行列を用いて、W’、Y’、X’およびZ’から一次チャネルWを再構成することができ、ここで、W’、Y’、X’およびZ’は、予測後のダウンミックスチャネルである。しかしながら、パラメトリック再構成の場合、Ndmx個のダウンミックスチャネルのみが存在し、Ndmxは4未満である。その場合、欠けているダウンミックスチャネルは、ダウンミックスされたチャネルの帯域化された(banded)エネルギー推定値および無相関化されたW’信号を使用してパラメトリックに再構成される。パラメトリック再構成では、[30]で与えられる逆予測行列は、W’からWを再構成することができないことがあり、Wをさらに破損することがある。
一実施形態では、この問題を解決する方法を1チャネルダウンミックスについて以下に示す。
予測行列は以下のように与えられる:
Figure 2023551732000134
ここで、g’はg/rであり、rは、逆予測のWチャネル出力が、定数である予測行列fへのWチャネル入力とエネルギー整合するようにW’に適用されるスケーリング係数である。
一実施形態では、式[31]によって与えられる逆予測行列における「f」の値は、入力ダウンミックスゲインを計算する間にエンコーダにおいて使用される係数「f」の値に依存しない定数値である。この実施形態では、入力ダウンミックスゲインは、追加のメタデータをデコーダに送ることなく計算することができる。
新しい予測行列は以下のように与えられる:
Figure 2023551732000135
ポスト予測行列およびポスト逆予測行列(出力共分散行列とも呼ばれる)は、以下のように計算することができる:
Figure 2023551732000136
ここで、「Pred」は、式[32]で与えられる予測行列であり、incovは、入力チャネルの共分散行列である。出力共分散行列は、以下によって与えられる:
Figure 2023551732000137
ここで、「InvPred」は、式[31]で与えられる逆予測行列である。
r=1のとき、w=incov(1,1)(すなわち、入力Wチャネルの分散)とし、m=postpredcov(1,1)(すなわち、ポスト予測されたWチャネルの分散)とする。
式[32]の「Pred」および式[31]の「InvPred」を式[33]および式[34]に代入すると、次のようになる:
Figure 2023551732000138
分散outcov(1,1)=wを一致させるために、
Figure 2023551732000139
これを、rについて解くと次のようになる:
Figure 2023551732000140
予測の後、ダウンミックスチャネルX’、Y’およびZ’は、W’から予測され得ない信号を含む残差チャネルを示す。パラメトリックアップミックスの場合、1つまたは複数の残差チャネルは、デコーダに送られなくてもよい。むしろ、それらのエネルギーレベルの表現(Pdまたは無相関パラメータとも呼ばれる)がコーディングされてデコーダに送られる。デコーダは、W’、デコリレータブロック、およびPdパラメータを使用して、失われた残差チャネルをパラメトリックに再生成する。
dパラメータは、以下のように計算することができる:
Figure 2023551732000141
ここで、「scale」パラメータは正規化スケール係数である。一実施形態では、scaleは、広帯域値(例えば、scale=0.01)または周波数依存であり得、異なる周波数帯域では異なる値をとり得る(例えば、スペクトルが12個の帯域に分割される場合、scale=linspace(0.5,0.01,12))。式[33]のようにRWW=mr=postpredcov(1,1)であり、Resuuは、デコーダにおいてパラメトリックにアップミックスされるべき残差チャネルの共分散行列である。1チャネルダウンミックスの場合、Resuuは、Resuu=postpredcov(2:4,2:4)によって与えられる3×3の共分散行列である。
いくつかの実装形態では、ダウンミックススケール係数「r」は、予測パラメータと無相関パラメータの両方の関数であり得、1チャネルダウンミックスについての無相関パラメータは、式[39]において定義される。改善されたスケーリングを有する1チャネルダウンミックスの場合、逆予測行列は以下のようになる:
Figure 2023551732000142
ここで、fおよびf は定数であり、例えば、f=f’=0.5、d’=d/r、g’=g/rであり、ここで、r=f(g,d)、d=sqrt(sum(diag(Pd)))であり、Pdは、式[39]にしたがって計算される。
式[33]および[34]を使用してrの値を求める、
Figure 2023551732000143
最終的な復号/アップミックスされた出力は以下のように与えられる:
Figure 2023551732000144
W’は、ポスト予測され、スケーリングされたダウンミックスチャネルであり、D1(W’)、D2(W’)、およびD3(W’)は、W’の無相関化された出力であり、W’’、Y’’、X’’、Z’’は、復号されたFoAチャネルである。
2.3.1.5 スケーリングを伴うパッシブダウンミックスコーディング
パッシブダウンミックス方法では、「g」、例えば予測パラメータのベクトルが制限されない可能性があるという問題がある。これは、パラメトリックアップミックス構成で空間歪みをもたらす。低ビットレートでは、ダウンミックスチャネルの数は4未満とすることができ、残りのチャネルはデコーダにおいてパラメトリックにアップミックスされる。量子化により、「g」が制限され、予測推定が不完全になり、アップミックスは、Y、XまたはZチャネルをパラメトリックに再生成するためにより多くのデコリレータエネルギーに依拠する。この問題は、ダウンミックスプロセス中にWチャネルに動的スケーリングを適用する、以下で説明する修正されたパッシブ方式によって対処される。スケーリングは、「g」が決して制限から出ないように計算され、パラメトリックアップミックスの間、より多くのエネルギーが、無相関信号の代わりにWチャネルの利用可能な表現から導出される。
以下は、1チャネルダウンミックスによるスケーリングされたパッシブダウンミックスコーディング方式の例示的な実装形態である。
FoA入力は、U=[W X Y Z]によって与えられる。入力信号(4×4)共分散行列はR=UUである。デフォルトのパッシブ方式では、予測パラメータは、
Figure 2023551732000145
として計算され、ここでp=[1 pである。ダウンミックス予測行列は、以下のように与えられる:
Figure 2023551732000146
スケーリングにより、ダウンミックス予測行列は以下のように変更される:
Figure 2023551732000147
これらの値を式[33]および[34]に入れ、outcov(1,1)=Wを等式化すると、次のようになる:
Figure 2023551732000148
ここで、rの値を求めると、次のようになる:
Figure 2023551732000149
スケーリングされたパッシブダウンミックス方式では、デコーダに送信される予測パラメータが量子化されてp1/r、p2/r、p3/rとなる。スケーリング係数「r」は予測パラメータの関数であるので、予測パラメータが所望の範囲内であることを保証するのに十分なだけWのエネルギーをブーストする。スケーリング係数「r」は、帯域化されるか、または広帯域値であり得る。
いくつかの実装形態では、スケーリング係数「r」は、式[41]に示すように、予測パラメータと無相関パラメータの両方の関数であり得る。パッシブダウンミックスの場合、このスケーリング係数は次ようになる:
Figure 2023551732000150
2.3.1.6 スケーリングを伴う適応ダウンミックスコーディング
スケーリングされたアクティブWダウンミックスコーディング方法は、WチャネルとX、Y、Zチャネルとの間に高い相関があるという条件で最良に機能し、スケーリングされたパッシブWダウンミックスコーディング方法は、相関が低いときに最良に機能することが観察される。したがって、いくつかの実装形態では、スケーリングされたパッシブWコーディング方式とスケーリングされアクティブWコーディング方式との間で適切に切り替えることによって、よりロバストなソリューションが導出され得る。
一実施形態では、アクティブWダウンミックスコーディング方法は、セクション2.3.1.2に記述されたソリューションに基づくことができる。アクティブWダウンミックスコーディング方法のスケーリングは、セクション2.3.1.4に記述されたソリューションにしたがって実行されることができ、パッシブWダウンミックスコーディング方法のスケーリングは、セクション2.3.1.5に記述されたソリューションにしたがって実行されることができる。スケーリングを伴う適応ダウンミックスの例示的な実装形態について以下で説明する。
FoA入力は、U=[W X Y Z]によって与えられる。入力信号(4×4)共分散行列はR=UUである。パッシブ予測係数ファクタgpredを計算し、ここで、
Figure 2023551732000151
であり、p、p、pエリアは以下のように計算される:
Figure 2023551732000152
pred≧threshである場合、セクション2.3.1.4の式[31]から式[41]に従って、アクティブW予測パラメータ
Figure 2023551732000153
、スケーリング係数「r」、予測行列、逆予測行列、ダウンミックスおよびアップミックス行列を計算する。
pred<threshである場合、セクション2.3.1.5の式[44]から式[50]に従って、パッシブW予測パラメータ
Figure 2023551732000154
、スケーリング係数「r」、予測行列、逆予測行列、ダウンミックスおよびアップミックス行列を計算する。
デコーダ側の逆予測行列は、式[31]および式[47]で与えられるように、スケーリングされたパッシブWダウンミックスコーディング方法およびスケーリングされたアクティブWダウンミックスコーディング方法について同じであるので、ダウンミックスが、スケーリングされたアクティブWダウンミックスコーディング方法でコーディングされるかスケーリングされたパッシブWダウンミックスコーディング方法でコーディングされかをシグナリングするための追加のサイド情報は必要とされない。別の手法は、セクション2.3.1.7で説明されるように、最大スケール係数rに基づく。
2.3.1.7 スケーリングされたパッシブダウンミックスとスケーリングされたアクティブダウンミックスとの間のソフト切り替え
この実施形態では、W信号のスケーリングされたバージョン(例えば、Y、X、Z信号からの寄与なし)は、必要とされるスケーリング係数rが上限を超えない限り、アクティブダウンミックスコーディング方法におけるダウンミックスとして使用される。適応スケーリングは、予測およびデコリレータパラメータを量子化に良好な範囲に押し上げ、Y、X、Z信号の寄与をダウンミックスに混合しないことで、いくつかのタイプの信号についてはアーチファクトを回避することができる。一方、ダウンミックススケール係数rの大きな変動もアーチファクトにつながる可能性がある。したがって、周波数帯域ごとの最大スケール係数が上限(例えば、典型的には2.5)を超える場合、以下で説明される例示的な反復プロセスを使用して、スケーリング係数rが最大限界内であるように、Y、X、Z信号からの寄与をもつダウンミックス係数を決定することができる。元のアクティブWアルゴリズムと比較して、追加のスケール係数rは、最適な予測係数を可能にする。
上記で参照された例示的な反復プロセスは、以下のように説明される:
Figure 2023551732000155
2.3.1.8 固有信号に基づくアクティブダウンミックスコーディング方式
この実施形態では、用語を以下のように定義する:エンコーダへの入力信号=[W X Y Z]、EVSエンコーダに渡されるべきエンコーダ信号=[W’ X’ Y’ Z’](一部のチャネルは、EVS符号化の前に破棄され得る)、デコーダにおける予測セットの前のEVSデコーダ出力=[W’’ X’’ Y’’ Z’’](エンコーダが一部のチャネルを廃棄した場合、このベクトルのサブセットのみが存在することになる)、デコーダからの出力=[Woutoutoutout]T。
IVAS「コアコーダ」が、チャネルX’、Y’、Z’を廃棄し、W’チャネルをEVSコーディングすることによって機能すると仮定すると、以下のようになる。
Figure 2023551732000156
Wから出力信号を生成するためにデコーダにおいて使用されるパラメータに完全な自由度がある場合、一実施形態では、Kanade-Lucas-Tomasi(KLT)タイプのE1コーダを実装することによって、最小二乗最適解が求められる。代替的な実施形態では、アクティブW予測システムの目標は、KLT法にいくつかの制約を追加して、しばしば発生する不連続性の問題を低減し、KLT法によって達成される最適性能にできるだけ近くなるように制約を最小限に保つ、というものである。
予測方法(パッシブおよびアクティブの両方)は、一般に、ダウンミックス信号(W’)が、元のW信号に対して適度に大きい正の相関を有するべきであるという考えに基づく。これを達成するための潜在的な方法は、KLT法を、ブーストされたWチャネルセット(例えば、Wチャネルがスケール係数hによって増幅されている4チャネルのセット)に適用することであり、以下「ブーストKLT」法と呼ぶ。ベクトルTがこのブーストされたW信号を表すものとする:

Figure 2023551732000157
そして、T×Tの最大固有ベクトルをQとする:
Figure 2023551732000158
候補のセットから固有ベクトルを選択する必要があるという事実は、Qが固有ベクトルである場合、λQも同様であり、ここで、λは、大きさが1の(unity-magnitude)複素スケール係数であり、選択は、qを非負の実数にするλの値を選択することで行われるという事実から生じることに留意されたい。λを選択する動作は、コーデックの挙動の不連続性の原因であり得、この不規則な挙動は、qがゼロに近くないことを保証し、ブースト係数hを大きくして、ブーストされたhW信号がE1信号の有意な成分を形成するのに十分な大きさになるようにすることによって回避することができる。
E1は次のように形成される:
Figure 2023551732000159
デコーダでは、Tの最小二乗最良推定値が固有ベクトルQを使用して再構成され、次いで、ブーストゲインhを元に戻すことによって出力が形成され得る:
Figure 2023551732000160
しかしながら、式[56]は、送信された予測パラメータ(p,p,p)および定数fを使用して、スケール係数r(このスケール係数はエンコーダにおいて適用される)をE1に適用することによって実装することができる:
Figure 2023551732000161
式[56]の所望の「ブーストされたKLT」挙動は、rが以下にしたがって選択される場合、式[57]の方法によって達成することができる:
Figure 2023551732000162
次いで、以下を計算する:
Figure 2023551732000163
上記で説明した実施形態を要約すると、以下のようになる。
Figure 2023551732000164
2.3.1.9 Wチャネルのプリスケーリングに基づくスケーリングされたアクティブダウンミックスコーディング方式
アクティブ予測(すなわち、X、Y、およびZからの成分をWに混合)を用いて支配的な固有信号の表現を作成する一方で、課題の1つは、周波数スペクトルにわたって、および時間領域におけるフレーム境界にわたって、支配的な固有信号の滑らかな/連続的な表現を得ることである。先に説明したアクティブ予測手法はこの問題を解決しようとするが、X、YおよびZチャネルからWへの回転(または混合)の量が過度にアグレッシブであり、不連続性(または他のオーディオアーチファクト)を生じさせるか、または全く回転せず(パッシブ予測)、最適な予測を与えることができず、予測されないエネルギーを充填するためにデコリレータにより依存するかのいずれかの場合が依然としてある。したがって、上記で説明した手法は、過度にアグレッシブであるか過度に弱すぎる予測を提供し得る。一実施形態では、Wは、アクティブ予測を実行する前にスケーリングされる。この実施形態の背後にある考えは、Wチャネルをプリスケーリングすることで、ポストアクティブ予測Wチャネル(または支配的な固有信号の表現)が元のWの大部分を含むことになることが保証されることである。これは、Wと混合されるべきX、YおよびZの量が低減されることを意味しており、したがって、それ程アグレッシブでないアクティブ予測となるが、それでも上記で説明したパッシブ(またはスケーリングされたパッシブ)手法と比較するとより強い予測が得られる。プリスケーリングの量は、アクティブ予測を行う前にWが支配的なエネルギー信号に近くなるように、WおよびX、Y、Zチャネルの分散の関数として決定される。
以下は、1チャネルダウンミックスを用いたプリスケーリングされたWアクティブ予測ダウンミックスコーディング方式の例示的な実装形態である。FoA入力がU=[W X Y Z]として与えられ、入力信号(4×4)共分散行列が、以下のように与えられるとする:
Figure 2023551732000165
ここで、
Figure 2023551732000166
は3×1単位ベクトルであり、RはX、YおよびZチャネルの3×3共分散行列であり、wはWチャネルの分散である。
ここで、アクティブ予測を行う前にWチャネルをプリスケーリングする。プリスケーリング係数「h」は、X、Y、ZおよびWの分散の関数であり、以下のように計算される:
Figure 2023551732000167
ここで、hはプリスケーリング係数であり、Hmaxはプリスケーリングに上限を設ける定数(例えば、4)である。
プリスケーリング行列は、以下のように与えられる:
Figure 2023551732000168
次に、以下で与えられるスケーリングされた共分散行列scale_cov[4x4]=Hscale*in_cov*Hscale’に基づいてアクティブ予測パラメータを計算し、以下のようにcubic(g)のスケーリングされた入力共分散結果に基づいて「g」の値を求める:
Figure 2023551732000169
代替的に、以下のようにgおよびfの値を求めることができる:
Figure 2023551732000170
α>g’whのとき4βg’h(α-g’wh)>0であるので、fは次のように書くことができる:
Figure 2023551732000171
ここで、Cは、正の定数であり、(β-2αhg’)+abs(β-2αhg’)、は0であるか、またはhが増加するにつれて常に減少するかのいずれかであることに留意されたい。
また、α<g’w(2h+δ)の場合、hが増加すると4βg’h(α-g’wh)が減少し、4βg’h(α-g’wh)が減少するとCが減少することも知られており、ここでδはhの値の増分である。
したがって、「f」の全体的な値は、入力共分散が高すぎない限り、「h」の値の増加とともに減少するはずであり、その場合、X、Y、ZをWに混合するように制御することは、いずれにしても必要とされない場合がある。
ここで、プリ予測スケーリング「h」およびポスト予測スケーリング「r」を用いて、予測行列が以下のように計算される:
Figure 2023551732000172
この結果、ポスト予測W信号は次のようになる:
Figure 2023551732000173
ここで、
Figure 2023551732000174
(または[p,p,p]は、予測パラメータrを表す3×1ベクトルであり、rは、アップミックスされたWのエネルギーが入力Wと同じになるように、ポスト予測されたWをスケーリングするためのスケーリング係数である。
ポスト予測スケーリング係数「r」の計算は、セクション2.3.1.4の式[37]で与えられるものと同じである:
Figure 2023551732000175
そして、gは、上記実施形態で開示された任意の方法を使用して計算される。
ここで、スケーリングされた予測パラメータは、次のように計算される:
Figure 2023551732000176
無相関パラメータ
一実施形態では、ダウンミックスされた(またはポスト予測された)Wチャネル分散は、次によって与えられる:
Figure 2023551732000177
無相関パラメータは、ポスト予測されたWチャネルに関してY、XおよびZチャネルにおける正規化された無相関(または予測不可能な)エネルギーとして計算される。例示的な実装形態では、プリスケーリングされたWアクティブダウンミックスコーディング方式を用いた無相関パラメータ(Pdパラメータ)は、式[62]に従ってスケーリングされたスケーリングされた共分散と、次式のように与えられるアクティブダウンミックス行列とから計算されることができる:
Figure 2023551732000178
ここで、式[77]は、符号化されてデコーダに送られるべき無相関パラメータ(3×1 Pd行列またはd1、d2およびd3パラメータ)を与える。また、「m」は式[72]で与えられる分散であり、scaleは0から1の間の定数である。
デコーダ
一実施形態では、デコーダは、コーディングされたW’ PCMチャネル(式[69]によって与えられる)と、コーディングされた予測パラメータ(式[71]によって与えられる)と、コーディングされた無相関パラメータ(式[77]によって与えられる)とを受け取る。モノラルチャネルデコーダ(例えば、EVS)は、W’チャネルを復号し(例えば、復号されたチャネルをW’’とし)、次いで、SPARデコーダは、逆予測行列をW’’チャネルに適用して、W’’チャネルから予測可能なX、YおよびZの要素および元のWチャネルの表現を再構成する。
一実施形態では、逆予測行列は、以下のように与えられる。
Figure 2023551732000179
SPARは、逆予測行列および無相関パラメータを適用して、元のFoA信号の表現を再構成し、FoA信号の再構成は、以下のように与えられる:
Figure 2023551732000180
ここで、d、d、dは無相関パラメータであり、D(W’’)、D(W’’)、D(W’’)は、W’’チャネルに関する3つの無相関チャネルである。
2.3.1.10 正規化された共分散に基づくスケーリングされたアクティブダウンミックス方式
支配的な固有信号の表現を作成する別の実施形態は、WX、WY、およびWZチャネルの正規化された共分散の関数としてFoA入力を回転させることによるものである。この実施形態は、X、YおよびZチャネルにおける相関された成分のみがWチャネルに混合されることを保証し、それによって、特に、デコーダ側でX、Y、ZのWへの不完全な混合を元に戻す方法がないのでパラメトリックアップミックスを扱うときに、先に説明した方法によるアグレッシブな回転(または混合)に起因して生じ得るアーチファクトを低減する。この手法の別の利点は「g」(アクティブ予測係数因子)の計算が簡略化され、「g」の一次方程式が得られることである。
以下は、入力FoA信号に対して(正規化された共分散係数の関数である)回転を実行することによって支配的な固有信号の表現が形成される、1チャネルダウンミックスを用いたアクティブ予測ダウンミックスコーディングの例示的な実装形態である。
FoA入力がU=[W X Y Z]として与えられ、入力信号(4×4)の共分散行列を以下とする:
Figure 2023551732000181
ここで、
Figure 2023551732000182
は、3×1単位ベクトル、RはX、YおよびZチャネル間の3×3の共分散行列、wはWチャネルの分散である。
「F」を、支配的な固有信号の表現を形成するためにX、Y、ZからWチャネルへと行われるべき混合の量を与える正規化された「α」の関数とする。アクティブ予測行列は、以下のように与えられる:
Figure 2023551732000183
一実施形態では、「F」の計算における正規化項は、WにおけるエネルギーがX、Y、およびZチャネルと比較して低すぎるまたは高すぎるコーナーケースであっても、X、Y、ZのWへの混合が最適となるように選択される。
式[83]において、「f」および「m」は、f<=1およびm>=1のような定数(例えば、f=0.5およびm=3)であり、W分散がX、Y、およびZチャネル分散と比較してすでに高いとき、より低い値のFを有することが望まれ得、したがって、係数「m」は、そのような場合に所望の正規化を達成するのに役立つ。
一実施形態では、式[83]において予測行列を入力に適用した後のポスト予測行列は、以下のように与えられる。
Figure 2023551732000184
回転がない(すなわち、F=0)場合、g=α/wであり、これは、パッシブ予測係数因子と同じである。
WとX、Y、Zチャネルとの間の相関が非常に低く、
Figure 2023551732000185
これは、X、Y、ZからWに行われるべき混合量がゼロ(または0に近い)ことを意味する。逆に、WとX、Y、Zチャネルとの間に高い相関があり、Wの分散がX、Y、およびZチャネルよりも低いとき、それは、所望されるようなFの高い値をもたらすことになる。アクティブ予測の後、アップミックスされたWの分散が入力Wと同じであることを保証するために、また、予測パラメータが所望の範囲内であることを保証するために、ポスト予測されたWに対してスケーリングを行うことが依然として望まれ得る。
一実施形態では、スケーリング後の1チャネルダウンミックスについての実際の予測行列は、以下のように与えられる:
Figure 2023551732000186
ここで、rは、ポスト予測スケーリング係数である。
この結果、ポスト予測W’信号が得られる:
Figure 2023551732000187
ここで、Fは、式[83]で与えられ、(u1,u2,u3)は式[82]の
Figure 2023551732000188
によって与えられる単位ベクトルである。
ポスト予測スケーリング係数「r」の計算は、式[31]で与えられる逆予測行列および式[86]で与えられる予測行列を使用し、それらを式[33]および式[34]に代入することによって、セクション2.3.1.4の式(37)で与えられるものと同じである。
Figure 2023551732000189
ここで、mは、式[33]に従ってr=1としたポスト予測されたW分散である。
スケーリングされた予測パラメータは、以下によって与えられる:
Figure 2023551732000190

無相関パラメータ
式[82]および[86]から、ダウンミックスされた(またはポスト予測された)Wチャネル分散は、以下によって与えられる:
Figure 2023551732000191
一実施形態では、無相関パラメータは、ポスト予測されたWチャネルに関するY、XおよびZチャネルにおける正規化された無相関の(または予測不可能な)エネルギーとして計算される。
一実施形態では、無相関パラメータ(Pdパラメータ)は、式[84]で計算されたPost_prediction[4x4]から計算することができる:
Figure 2023551732000192
ここで、式[93]は、符号化されてデコーダに送られるべき無相関パラメータ(3×1 Pd行列またはd1、d2およびd3パラメータ)を与える。また、「m’」は式[90]で与えられる分散であり、「scale」は0から1の間の定数である。
デコーダ
一実施形態では、デコーダは、コーディングされたW’ PCMチャネル(式[87]によって与えられる)と、コーディングされた予測パラメータ(式[89]によって与えられる)と、コーディングされた無相関パラメータ(式[93]によって与えられる)とを受け取る。
一実施形態では、モノラルチャネルデコーダ(例えば、EVS)は、W’チャネルを復号し(復号されたチャネルをW’’とすし)、次いで、SPARデコーダは、逆予測行列をW’’チャネルに適用して、W’’チャネルから予測可能なX、YおよびZの要素および元のWチャネルの表現を再構成する。
逆予測行列は、式[31]と同じである:
Figure 2023551732000193
一実施形態では、SPARは、逆予測行列および無相関パラメータを適用して、元のFoA信号の表現を再構成し、FoA信号の再構成は、以下のように与えられる:
Figure 2023551732000194
ここで、d1、d2、d3は無相関パラメータであり、D(W’’)、D(W’’)、D(W’’)は、W’’チャネルに関する3つの無相関チャネルである。
2.3.2 パッシブダウンミックスコーディング方式
パッシブダウンミックスコーディング方式では、N個(例えばN=3)の予測パラメータおよびM個(例えばM=3)のデコリレータパラメータを使用してFoA信号の可能性のある最良の再構成を可能にする任意のダウンミックスが送信のために選択され得る。元のWは、パッシブダウンミックスコーディング方式のために送信され、例えば、ダウンミックス動作は実行されない。この手法の利点は、ダウンミックス信号が、信号適応ダウンミックスによってもたらされ得る可能性のある不安定性の問題が生じにくいことである。欠点は、FoA信号X、Y、Zの再構成(予測)が準最適であることである。したがって、Wを送信することと比較してFoA信号の波形再構成誤差を低減する異なるダウンミックス戦略が以下で説明される。すべての場合において、FoA信号X、Y、Zは、それぞれ単一の予測パラメータによって予測され、ダウンミックスはWを表す。ダウンミックスは、ダウンミックスのエネルギーがWのエネルギーと一致するようにスケーリングされる。アクティブダウンミックスコーディング方式においても、以下に説明するダウンミックス戦略を適用することが可能である。
2.3.2.1 適応ダウンミックス戦略の提案
2.3.2.1.1 平滑化
すべての適応ダウンミックス戦略について、ダウンミックス係数またはスケーリング係数が急速に(時間的に)または周波数帯域にわたって変化するとき、時間的な不安定性(アーチファクト)が生じるリスクがある。さらに、ダウンミックスがダウンサンプリングされたフィルタバンク領域で実行される場合、信号を過度に大幅に修正すると、合成におけるエイリアシング歪みが増加する可能性がある。したがって、係数は、時間および周波数にわたって比較的滑らかに変化する必要がある。一次IIRフィルタまたはFIRフィルタによって時間にわたってダウンミックス係数を滑らかにすることが提案される。周波数帯域にわたって滑らかにすることは、遅延の少ない移動平均FIRフィルタを用いて行われ得る。
代替的に、適応ダウンミックスはブロードバンドダウンミックスであってもよく、例えば、時間フレーム適応ダウンミックス係数はすべての周波数帯域について同一であるが、予測およびデコリレータパラメータは周波数帯域依存である。
2.3.2.1.2 安定化された固有信号
一実施形態では、入力共分散Rに基づいて最も高い固有値を有する固有ベクトルから導出される支配的な固有信号がデコーダに送信される。これに伴う問題は、固有信号が時間的に不安定であり得ることである。この問題は、スケーリング係数rを維持する追加のエネルギー(W)で(A=[hq)]となるように、セクション2.3.1.7の式[55]にしたがって、Wが強制的に支配的にされた(固有ベクトルを導出する前にブーストされた)「ブーストされた」固有信号を送信することによって緩和され得る。
2.3.2.1.3 アドホックヒューリスティックダウンミックス規則
この手法は、ダウンミックスが予測すべき信号とある程度相関している必要があるという観察に基づく。これは、ターゲット信号エネルギーが大きく、したがって知覚的に重要である場合に特に当てはまる。負の値の予測パラメータを許容しているので、ダウンミックス信号X、Y、ZをWにコヒーレントに(例えば、正しい符号で)加算するように注意する必要がある。
これらの考察から、以下のダウンミックス規則(Matlab表記)が導かれる:
Figure 2023551732000195
これは、式[87]にしたがったエネルギースケーリングを伴う。実験では、このダウンミックス戦略による総予測誤差は、標準的なパッシブダウンミックスの場合よりも著しく小さい。
2.3.2.1.4 静的ダウンミックス係数
固定された初期係数を有する経験的に導出されたダウンミックスは、不安定性アーチファクトを受けにくい。1つの可能なダウンミックスは、次の通りである:
Figure 2023551732000196
係数が固定されていても、Wのエネルギーに関してスケーリングするとき、ダウンミックスは適応的になることに留意されたい。
2.3.2.1.5 反復調整
この戦略は、反復ごとに測定される式[86]にしたがって最大予測誤差を生成する信号の寄与をWに加算することによって、総予測誤差を反復的に低減する。総予測誤差を計算するとき、予測パラメータの量子化制限を考慮することができる。一実施形態では、以下の反復処理が適用される:
Figure 2023551732000197
図3は、デコーダにおいて適用される復号ダウンミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化プロセス300のフロー図である。プロセス300は、例えば、図7を参照して説明されるシステム700によって実施することができる。
プロセス300は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む入力オーディオ信号を取得するステップ(301)と、入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップ(302)と、ダウンミックスコーディング方式のタイプに基づいて、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき1つまたは複数の入力ダウンミックスゲインを計算するステップであって、入力ダウンミックスゲインは、サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップ(303)と、一次ダウンミックスチャネルをスケーリングするための1つまたは複数のダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、一次ダウンミックスチャネルからの入力オーディオシーンの再構成された表現と入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップ(304)と、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップ(305)と、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、次いでこのサイドチャネル予測をサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから1つまたは複数の残差チャネルを決定するステップ(306)と、ゼロ個以上の残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップ(307)と、一次ダウンミックスチャネル、ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、サイド情報は、予測ゲインおよび無相関ゲインを含む、ステップ(308)と、ビットストリームをデコーダに送るステップ(309)とを含む。これらのステップのそれぞれは、前のセクションで詳細に説明されている。
図4Aおよび図4Bは、一実施形態による、オーディオを符号化および復号するためのプロセス400のフロー図である。プロセス400は、例えば、図7を参照して説明したシステム700によって実施することができる。
図4Aを参照すると、エンコーダにおいて、プロセス400は、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインとダウンミックススケーリングゲインとの組み合わせを計算するステップであって、入力ダウンミックスゲインは、入力オーディオ信号の入力共分散の関数として計算される、ステップ(401)と、入力オーディオ信号および入力ダウンミックスゲインに基づいて一次ダウンミックスチャネルを生成するステップ(402)と、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインを生成するステップ(403)と、一次ダウンミックスチャネルおよび予測ゲインを使用して、サイドチャネル予測を生成し、次いでこのサイドチャネル予測を入力オーディオ信号におけるサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップ(406)と、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップ(407)と、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内にあるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインと、無相関ゲインとを決定するステップ(408)と、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップ(409)と、ビットストリームをデコーダに送るステップ(410)とを含む。
図4Bを参照すると、デコーダにおいて、プロセス400は、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップ(411)と、アップミックススケーリングゲインをスケーリングされた予測ゲインおよびスケーリングされた無相関ゲインの関数として設定するステップ(412)と、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップ(413)と、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用する(414)ステップとが続く。
図5は、一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAデコーダのブロック図である。SPARデコーダ500は、入力としてSPARビットストリームを受け取り、デコーダ出力において入力FoA信号の表現を再構成し、FoA入力信号は、一次チャネルWと、サイドチャネルY、Z、およびXとを含み、復号された出力は、W’’、Y’’、Z’’、およびX’’チャネルによって与えられる。SPARビットストリームは、コアコーディングビットおよびサイド情報ビットにアンパックされる。コアコーディングビットは、一次ダウンミックスチャネルW’を再構成するコア復号ユニット501に送られる。サイド情報ビットは、サイド情報ビットを復号および逆量子化するサイド情報復号ユニット502に送られ、これは、予測ゲイン(p,p,p)および無相関ゲイン(d,d,d)を含む。
一次ダウンミックスチャネルW’は、W’に関して無相関化された3つの出力を生成するデコリレータユニット503に供給される。Y、ZおよびXチャネル予測は、予測ゲイン(p,p,p)を用いてW’チャネルをスケーリングすることによって計算され、Y、ZおよびXチャネルの残りの無相関信号成分は、無相関ゲイン(d,d,d)を用いてユニット503の無相関出力をスケーリングすることによって計算される。予測成分および無相関成分は、合算されて、デコーダ500の出力において出力チャネルY’’、Z’’およびX’’が得られる。
ユニット501の一次チャネルダウンミックスW’出力およびユニット502の復号されたサイド情報出力は、W’’チャネルのエネルギーがエンコーダ入力Wチャネルのエネルギーと同じになるようにW’’チャネルを得るためにW’チャネルをスケーリングするためのアップミックススケーリングゲインを計算するスケール計算ユニット504に供給される。一実施形態では、デコーダにおけるFoA信号の再構成は、次式で与えられる:
Figure 2023551732000198
ここで、fは定数(例えば、f=0.5)であり、D1(W’)、D2(W’)、D3(W’)はデコリレータユニット503の出力である。例示的な実施形態では、コア復号ユニット501はEVSデコーダであり、コアコーディングビットはEVSビットストリームを構成する。他の実施形態では、コア復号ユニット501は、任意のモノラルチャネルコーデックであり得る。
図6は、一実施形態による、適応ダウンミックス方式を用いて1チャネルダウンミックスモードで動作するSPAR FOAエンコーダ600のブロック図である。SPARエンコーダ600は、入力としてFoA信号を受け取り、図5で説明されたSPARデコーダ500が復号可能なコーディングされたビットストリームを生成し、FoA入力は、W、Y、Z、およびXチャネルによって与えられる。FoA入力は、FoA入力を分析し、入力共分散推定値を生成し、共分散推定値に基づいて入力ダウンミックスゲイン(s,s,s,s)およびダウンミックススケーリングゲイン(r)を計算する空間分析/サイド情報生成および量子化ユニット601に供給される。一実施形態では、入力ダウンミックスゲインsは1に等しい。
空間分析/サイド情報生成および量子化ユニット601は、予測ゲインおよび無相関ゲインが指定された量子化範囲内にあるように、入力共分散推定値と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインおよび無相関ゲインを計算し、次いでそれらを量子化する。次いで、予測ゲインおよび無相関ゲインを含む量子化されたサイド情報が、サイド情報コーディングユニット603に送られ、サイド情報がビットストリームにコーディングされる。FoA入力、入力ダウンミックスゲインおよびダウンミックススケーリングゲインは、入力ダウンミックスゲインおよびダウンミックススケーリングゲインをFoA入力に適用することによって1チャネルダウンミックスW’(一次ダウンミックスチャネルまたは支配的な固有信号の表現と呼ばれることもある)を生成するダウンミックスユニット602に供給される。次いで、ダウンミックスユニット602のW’出力は、W’チャネルをコアコーディングビットストリームにコーディングするコアコーディングユニット604に供給される。コアコーディングユニット604およびサイド情報コーディングユニット603の出力は、ビットパッキングユニット605によってSPARビットストリームにパックされる。
一実施形態では、空間分析/サイド情報生成および量子化ユニット601は、デコーダ500のデコーダ出力W’’のエネルギー推定値を計算し、それをエンコーダ600のエンコーダ入力Wのエネルギー推定値に等しくする一方で、ダウンミックススケーリングゲイン、予測ゲインおよび無相関ゲインを計算し、それによってエネルギーを保存する。例示的な実施形態では、コアコーディングユニット604はEVSエンコーダであり、コアコーディングビットはEVSビットストリームを構成する。他の実施形態では、コアコーディングユニット604は、任意のモノラルチャネルコーデックであり得る。
例示的なシステムアーキテクチャ
図7は、本開示の例示的な実施形態を実装するのに適した例示的なシステム700のブロック図を示す。システム700は、コールサーバ102、レガシーデバイス106、ユーザ機器108、114、会議室システム116、118、ホームシアターシステム、VRギア122、および没入型コンテンツインジェスト124などの、図1に示されるデバイスのいずれかを含むがこれらに限定されない、1つまたは複数のサーバコンピュータまたは任意のクライアントデバイスを含む。システム700は、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなどを含むがこれらに限定されない任意の消費者デバイスを含む。
図示のように、システム700は、例えば、読取り専用メモリ(ROM)702に記憶されたプログラムまたは例えば、ストレージユニット708からランダムアクセスメモリ(RAM)703にロードされたプログラムにしたがって様々なプロセスを遂行することが可能な中央処理ユニット(CPU)701を含む。RAM703では、CPU701が様々なプロセスを実行する際に必要とされるデータも適宜記憶される。CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
以下の構成要素、すなわち、キーボード、マウスなどを含み得る入力ユニット706と、液晶ディスプレイ(LCD)などのディスプレイおよび1つまたは複数のスピーカを含み得る出力ユニット707と、ハードディスクまたは別の適切なストレージデバイスを含むストレージユニット708と、ネットワークカード(例えば、ワイヤードまたはワイヤレス)などのネットワークインターフェースカードを含む通信ユニット709とがI/Oインターフェース705に接続される。
いくつかの実装形態では、入力ユニット706は、様々なフォーマット(例えば、モノラル、ステレオ、空間、没入型、および他の適切なフォーマット)でのオーディオ信号のキャプチャを可能にする、(ホストデバイスに応じて)異なる位置にある1つまたは複数のマイクロフォンを含む。
いくつかの実装形態では、出力ユニット707は、様々な数のスピーカを有するシステムを含む。図1に示すように、出力ユニット707は(ホストデバイスの能力に応じて)、様々なフォーマット(例えば、モノラル、ステレオ、没入型、バイノーラル、および他の適切なフォーマット)でオーディオ信号をレンダリングすることができる。
通信ユニット709は、(例えば、ネットワークを介して)他のデバイスと通信するように構成される。I/Oインターフェース705にはまた、必要に応じてドライブ710が接続される。ドライブ710には、磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブ、または他の適切なリムーバブル媒体などのリムーバブル媒体711が取り付けられ、そこから読み出されたコンピュータプログラムが必要に応じてストレージユニット708にインストールされる。当業者であれば、システム700が上述の構成要素を含むものとして説明されているが、実際の適用では、これらの構成要素のいくつかを追加、除去、および/または置換することが可能であり、すべてのこれらの修正または変更がすべて本開示の範囲内に入ることを理解するであろう。
本開示の例示的な実施形態によれば、上記で説明したプロセスは、コンピュータソフトウェアプログラムとして、またはコンピュータ可読記憶媒体上に実装され得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、図7に示すように、通信ユニット709を介してネットワークからダウンロードされ、マウントされ、および/またはリムーバブル媒体711からインストールされ得る。
概して、本開示の様々な例示的な実施形態は、ハードウェアまたは専用回路(例えば、制御回路)、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装され得る。例えば、上記で説明したユニットは、制御回路(例えば、図7の他の構成要素と組み合わせたCPU)によって実行され得、したがって、制御回路は、本開示で説明するアクションを実行していることがある。一部の態様はハードウェアで実装され得るが、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイス(例えば、制御回路)によって実行され得るファームウェアまたはソフトウェアで実装され得る。本開示の例示的な実施形態の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図的表現を使用して例示および説明されるが、本明細書で説明されるブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラもしくは他のコンピューティングデバイス、またはそれらの何らかの組み合わせで実装され得ることが理解されよう。
追加的に、フローチャートに示される様々なブロックは、方法ステップとして、および/またはコンピュータプログラムコードの動作から生じる動作として、および/または関連機能(複数可)を実行するように構築される複数の結合された論理回路要素と見なされ得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、上記で説明した方法を実行するように構成されたプログラムコードを含む。
本開示の文脈では、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを含むかまたは記憶し得る任意の有形媒であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、非一時的であり得、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または上記の任意の適切な組み合わせを含み得るがこれらに限定されない。機械可読記憶媒体のより具体的な例には、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせが含まれるであろう。
本開示の方法を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、または制御回路を有する他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、プログラムコードは、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図で指定されたコンピュータプログラム/動作を実施させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上および部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で、または1つまたは複数の遠隔コンピュータおよび/もしくはサーバを経由して分散されて、実行され得る。
本書には多くの具体的な実装形態の詳細が記載されているが、これらは特許請求され得る範囲を制限するものとして解釈されるべきではなく、むしろ特定の実施形態に特有であり得る特徴を説明するものとして解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態において別々に、または任意の適切なサブコンビネーションで実施することもできる。さらに、特徴は、特定の組み合わせで作用するものとして上記で説明され、当初はそのように請求されることさえあるが、請求される組み合わせからの1つまたは複数の特徴は、場合によっては、その組み合わせから削除され得、請求される組み合わせは、部分組み合わせまたは部分組み合わせの変形形態を対象とし得る。図に描かれた論理フローは、望ましい結果を得るために、示された特定の順序、または連続した順序を必要としない。加えて、他のステップが提供され得るか、またはステップが、説明されるフローから削除され得、他の構成要素が、説明されるシステムに追加されてもよく、またはそこから除去されてもよい。したがって、他の実装形態は、以下の特許請求の範囲内にある。

Claims (24)

  1. デコーダにおいて適用される復号リミックスまたはアップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化方法であって、
    少なくとも1つのプロセッサを用いて、入力オーディオ信号を取得するステップであって、前記入力オーディオ信号は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む、ステップと、
    前記少なくとも1つのプロセッサを用いて、前記入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップと、
    前記ダウンミックスコーディング方式のタイプに基づいて、
    前記少なくとも1つのプロセッサを用いて、一次ダウンミックスチャネルを構築するために前記入力オーディオ信号に適用されるべき1つまたは複数の入力ダウンミックスゲインを計算するステップであって、前記入力ダウンミックスゲインは、前記サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップと、
    前記少なくとも1つのプロセッサを用いて、前記一次ダウンミックスチャネルをスケーリングするための1つまたは複数のダウンミックススケーリングゲインを決定するステップであって、前記ダウンミックススケーリングゲインは、前記一次ダウンミックスチャネルからの前記入力オーディオシーンの再構成された表現と前記入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップと、
    前記少なくとも1つのプロセッサを用いて、前記入力オーディオ信号と、前記入力ダウンミックスゲインと、前記ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、
    前記少なくとも1つのプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインを使用してサイドチャネル予測を生成し、次いで前記サイドチャネル予測を前記サイドチャネルから減算することによって、前記入力オーディオ信号における前記サイドチャネルから1つまたは複数の残差チャネルを決定するステップと、
    前記少なくとも1つのプロセッサを用いて、前記残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、
    前記少なくとも1つのプロセッサを用いて、前記一次ダウンミックスチャネル、前記ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、前記サイド情報は、前記1つまたは複数の残差チャネルに対応する前記無相関ゲインおよび前記予測ゲインを含む、ステップと、
    前記少なくとも1つのプロセッサを用いて、前記ビットストリームをデコーダに送るステップと
    を含む方法。
  2. 前記少なくとも1つのプロセッサを用いて、前記入力オーディオ信号に基づいて入力共分散を計算するステップと、
    前記少なくとも1つのプロセッサを用いて、前記入力共分散を使用して前記全体的な予測誤差を決定するステップと
    をさらに含む、請求項1に記載の方法。
  3. 前記ダウンミックススケーリングゲインの前記計算は、
    前記少なくとも1つのプロセッサを用いて、前記デコーダに送信された前記サイド情報の関数としてアップミックススケーリングゲインを決定するステップと、
    前記少なくとも1つのプロセッサを用いて、前記入力オーディオシーンの前記全体的なエネルギーが保存されるように前記アップミックススケーリングゲインを前記一次ダウンミックスチャネルに適用することによって、前記一次ダウンミックスチャネルおよび前記ゼロ個以上の残差チャネルから前記入力オーディオシーンの前記表現を生成するステップと、
    前記少なくとも1つのプロセッサを用いて、前記入力オーディオシーンのエネルギーを保存するために多項式の閉形式解を解くことによって前記ダウンミックススケーリングゲインを決定するステップであって、前記ダウンミックススケーリングゲインは、前記再構成された入力オーディオシーンのエネルギーを前記入力オーディオシーンの前記エネルギーと一致させるときに決定される、ステップと
    をさらに含む、請求項2に記載の方法。
  4. 前記一次ダウンミックスチャネルおよび前記ゼロ個以上の残差チャネルから前記入力オーディオシーンの前記表現を再構成するための前記アップミックススケーリングゲインは、前記一次入力オーディオ信号の前記再構成された表現が前記一次ダウンミックスチャネルと同相になるように、前記サイド情報中で前記デコーダに送信される前記予測ゲインおよび前記無相関ゲインの関数であり、前記多項式は2次多項式である、請求項3に記載の方法。
  5. 前記一次ダウンミックスチャネルから前記入力オーディオシーンの前記表現を再構成するための前記アップミックススケーリングゲインは、前記2次多項式を解くことによって得られる前記ダウンミックススケーリングゲインが、指定された量子化範囲内で前記予測ゲインおよび前記無相関ゲインをスケーリングするように、前記デコーダに送信される前記予測ゲインおよび前記無相関ゲインの関数である、請求項4に記載の方法。
  6. 前記エンコーダにおいて、
    少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインと前記ダウンミックススケーリングゲインとの組み合わせを計算するステップであって、前記入力ダウンミックスゲインは、入力オーディオ信号の前記入力共分散の関数として計算される、ステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記入力オーディオ信号および前記入力ダウンミックスゲインに基づいて前記一次ダウンミックスチャネルを生成するステップと、
    前記エンコーダプロセッサを用いて、前記入力オーディオ信号および入力ダウンミックスゲインに基づいて前記予測ゲインを生成するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインを使用して、前記サイドチャネル予測を生成し、次いで前記サイドチャネル予測を前記入力オーディオ信号における前記サイドチャネルから減算することによって、前記入力オーディオ信号における前記サイドチャネルから前記残差チャネルを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記残差チャネルにおける前記エネルギーに基づいて前記無相関ゲインを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記予測ゲインまたは前記無相関ゲインまたは両方が前記指定された量子化範囲内にあるように、前記一次ダウンミックスチャネルをスケーリングするための前記ダウンミックススケーリングゲインと、前記予測ゲインと、前記無相関ゲインとを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを前記ビットストリームに符号化するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記ビットストリームを前記デコーダに送るステップと、
    前記デコーダにおいて、
    少なくとも1つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを復号するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記アップミックススケーリングゲインを、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインの関数として設定するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルに関して無相関化された前記無相関信号を生成するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記入力オーディオシーンの全体的なエネルギーが保存されるように、前記入力オーディオシーンの前記表現を再構成するために、前記アップミックススケーリングゲインを、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記無相関信号との組み合わせに適用するステップと
    をさらに含む、請求項5に記載の方法。
  7. 前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインは、関数の分子が、前記一次入力オーディオチャネルと前記サイドチャネルとの間の共分散に第1の定数を乗じたものであり、前記関数の分母が、前記一次入力オーディオチャネルの前記分散および前記入力オーディオ信号の前記サイドチャネルの分散の和に第2の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算され、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記サイドチャネル予測についての予測誤差を最小化し、前記予測ゲインについて解くことによって、1次多項式を生成するステップ
    請求項6に記載の方法。
  8. 前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインは、前記一次ダウンミックスチャネルが前記一次入力オーディオ信号と同じであるかまたは前記一次入力オーディオ信号の遅延バージョンのいずれかであるように、パッシブダウンミックスコーディング方式に対応する、請求項6または7に記載の方法。
  9. 前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインは、前記予測ゲインの関数として計算される、請求項6から8のいずれか一項に記載の方法。
  10. 前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインを計算するステップは、
    前記少なくとも1つのプロセッサを用いて、前記一次オーディオ信号と前記入力オーディオ信号の前記サイドチャネルとの間の相関を決定するステップと、
    前記少なくとも1つのプロセッサを用いて、前記相関に基づいて入力ダウンミックスゲイン計算方式を選択するステップと
    を含む、請求項6から9のいずれか一項に記載の方法。
  11. 前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインの前記計算は、
    前記エンコーダにおいて、
    前記少なくとも1つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいてパッシブ予測ゲインのセットを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記パッシブ予測ゲインのセットを第1のしきい値と比較するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記パッシブ予測ゲインのセットが前記第1のしきい値以下であるかどうかを決定し、そうである場合、前記入力ダウンミックスゲインの第1のセットを計算するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記入力オーディオ信号および前記入力ダウンミックスゲインに基づいて予測ゲインの第1のセットを生成するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記予測ゲインの第1のセットが第2のしきい値よりも高いかどうかを決定し、そうである場合、入力ダウンミックスゲインの第2のセットを計算するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記入力オーディオ信号および前記入力ダウンミックスゲインに基づいて予測ゲインの第2のセットを生成するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインの第2のセットを使用して、前記入力オーディオ信号における前記サイドチャネルから前記残差チャネルを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記デコーダに伝送されていない前記残差チャネルのエネルギーに基づいて前記無相関ゲインを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記予測ゲインまたは前記無相関ゲインまたは両方が前記指定された量子化範囲内であるように、前記一次ダウンミックスチャネルをスケーリングするための前記ダウンミックススケーリングゲインと、前記予測ゲインの第2のセットと、前記無相関ゲインとを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを前記ビットストリームに符号化するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記ビットストリームを前記デコーダに送るステップと、
    前記デコーダにおいて、
    前記少なくとも1つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを復号するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記アップミックススケーリングゲインを、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインの関数として決定するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルに関して無相関化された前記無相関信号を生成するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記入力オーディオシーンの全体的なエネルギーが保存されるように、前記入力オーディオシーンの前記表現を再構成するために、前記アップミックススケーリングゲインを、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記無相関信号との組み合わせに適用するステップと
    をさらに含む、請求項6から10のいずれか一項に記載の方法。
  12. 前記入力ダウンミックスゲインはパッシブダウンミックスコーディング方式に対応する、請求項6から11のいずれか一項に記載の方法。
  13. 入力ダウンミックスゲインの第1のセットはアクティブダウンミックス方式に対応し、前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインの第1のセットは、関数の分子が、前記一次入力オーディオチャネルと前記サイドチャネルとの共分散に第1の定数を乗じたものであり、前記関数の分母が、前記一次入力オーディオチャネルの分散および前記サイドチャネルの分散の和に第2の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算される、請求項7または11に記載の方法。
  14. 入力ダウンミックスゲインの第2のセットは、アクティブダウンミックスコーディング方式に対応し、前記一次ダウンミックスチャネルは、前記入力ダウンミックスゲインの第2のセットを前記一次入力オーディオチャネルおよび前記サイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる、請求項11に記載の方法。
  15. 前記入力ダウンミックスゲインの第2のセットは、2次多項式の係数である、請求項9および14に記載の方法。
  16. 前記予測ゲインが比較される前記しきい値は、前記予測ゲインが前記指定された量子化範囲内にあるように計算される、請求項11に記載の方法。
  17. 前記ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインを計算するステップは、
    前記一次入力オーディオ信号をスケーリングするためのスケーリング係数を計算するステップと、
    前記スケーリングされた一次入力オーディオ信号の共分散を計算するステップと、
    前記スケーリングされた一次入力オーディオ信号の前記共分散に対して固有分析を実行するステップと、
    前記一次ダウンミックスチャネルが前記一次入力オーディオチャネルと正に相関するように、最大固有値に対応する固有ベクトルを前記入力ダウンミックスゲインとして選択するステップと、
    前記入力オーディオシーンの前記全体的なエネルギーが保存されるように前記一次ダウンミックスチャネルおよび前記サイド情報をスケーリングするための前記ダウンミックススケーリングゲインを計算するステップと
    を含む、請求項6に記載の方法。
  18. 前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインを計算するステップは、
    前記一次入力オーディオチャネルをスケーリングするためのスケーリング係数を計算するステップと、
    前記スケーリングされた一次入力オーディオチャネルの前記予測ゲインの関数として前記入力ダウンミックスゲインを設定することによって、前記スケーリングされた一次入力オーディオチャネルに基づいて前記入力ダウンミックスゲインを計算するステップと、
    前記入力オーディオシーンの全体的なエネルギーが保存されるように前記一次ダウンミックスチャネルおよびサイド情報をスケーリングするための前記ダウンミックススケーリングゲインを計算するステップと
    を含む、請求項6に記載の方法。
  19. 前記一次入力オーディオチャネルをスケーリングするための前記スケーリング係数は、前記一次入力オーディオチャネルの分散と前記サイドチャネルの分散の和の平方根との比である、請求項17または18に記載の方法。
  20. 一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき入力ダウンミックスゲインの前記計算は、
    前記少なくとも1つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいて前記予測ゲインを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記入力オーディオシーンの前記全体的なエネルギーが入力オーディオシーンの前記再構成された表現において保存されるように、前記一次ダウンミックスチャネルおよびサイド情報をスケーリングするための第1のダウンミックススケーリングゲインを計算するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記第1のダウンミックススケーリングゲインが第1のしきい値以下であるかどうかを決定し、その結果、入力ダウンミックスゲインの第1のセットを計算するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記第1のダウンミックススケーリングゲインが第2のしきい値よりも高いかどうかを決定し、その結果、入力ダウンミックスゲインの第2のセットを計算するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記入力オーディオ信号と前記第1または第2の入力ダウンミックスゲインとに基づいて予測ゲインの第2のセットを生成するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインの第2のセットを使用して、前記入力オーディオ信号における前記サイドチャネルから前記残差チャネルを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記デコーダに伝送されていない前記残差チャネルのエネルギーに基づいて前記無相関ゲインを決定するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記予測ゲインの第2のセットおよび前記無相関ゲインを含む前記サイド情報とを前記ビットストリームに符号化するステップと、
    前記少なくとも1つのエンコーダプロセッサを用いて、前記ビットストリームを前記デコーダに送るステップと、
    前記デコーダにおいて、
    前記少なくとも1つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、前記予測ゲインの第2のセットおよび前記無相関ゲインを含む前記サイド情報とを復号するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記アップミックススケーリングゲインを、前記予測ゲインの第2のセットおよび前記無相関ゲインの関数として決定するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルに関して無相関化された前記無相関信号を生成するステップと、
    前記少なくとも1つのデコーダプロセッサを用いて、前記入力オーディオシーンの全体的なエネルギーが保存されるように、前記入力オーディオシーンの前記表現を再構成するために、前記アップミックススケーリングゲインを、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記無相関信号との組み合わせに適用するステップと
    をさらに含む、請求項11に記載の方法。
  21. 前記入力ダウンミックスゲインの第1のセットはパッシブダウンミックスコーディング方式に対応する、請求項8または20に記載の方法。
  22. 前記入力ダウンミックスゲインの第2のセットは、アクティブダウンミックスコーディング方式に対応し、前記一次ダウンミックスチャネルは、前記入力ダウンミックスゲインを前記一次入力オーディオチャネルおよび前記サイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる、請求項14から16または20のいずれか一項に記載の方法。
  23. システムであって、
    1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、請求項1から22のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ可読媒体と
    を備えるシステム。
  24. 1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、請求項1から22のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ可読媒体。
JP2023533783A 2020-12-02 2021-12-02 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas) Pending JP2023551732A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063120365P 2020-12-02 2020-12-02
US63/120,365 2020-12-02
US202163171404P 2021-04-06 2021-04-06
US63/171,404 2021-04-06
US202163228732P 2021-08-03 2021-08-03
US63/228,732 2021-08-03
PCT/US2021/061671 WO2022120093A1 (en) 2020-12-02 2021-12-02 Immersive voice and audio services (ivas) with adaptive downmix strategies

Publications (1)

Publication Number Publication Date
JP2023551732A true JP2023551732A (ja) 2023-12-12

Family

ID=79259444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023533783A Pending JP2023551732A (ja) 2020-12-02 2021-12-02 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas)

Country Status (9)

Country Link
EP (1) EP4256555A1 (ja)
JP (1) JP2023551732A (ja)
KR (1) KR20230116895A (ja)
AU (1) AU2021393468A1 (ja)
CA (1) CA3203960A1 (ja)
CL (1) CL2023001573A1 (ja)
IL (1) IL303377A (ja)
MX (1) MX2023006501A (ja)
WO (1) WO2022120093A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023118138A1 (en) 2021-12-20 2023-06-29 Dolby International Ab Ivas spar filter bank in qmf domain
WO2023141034A1 (en) * 2022-01-20 2023-07-27 Dolby Laboratories Licensing Corporation Spatial coding of higher order ambisonics for a low latency immersive audio codec
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102160254B1 (ko) * 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
US10972851B2 (en) * 2017-10-05 2021-04-06 Qualcomm Incorporated Spatial relation coding of higher order ambisonic coefficients

Also Published As

Publication number Publication date
CL2023001573A1 (es) 2023-11-03
IL303377A (en) 2023-08-01
WO2022120093A1 (en) 2022-06-09
MX2023006501A (es) 2023-06-21
CA3203960A1 (en) 2022-06-09
EP4256555A1 (en) 2023-10-11
KR20230116895A (ko) 2023-08-04
AU2021393468A1 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
US8249883B2 (en) Channel extension coding for multi-channel source
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
US9830918B2 (en) Enhanced soundfield coding using parametric component generation
JP2023551732A (ja) 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas)
JP5758902B2 (ja) ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
US20220406318A1 (en) Bitrate distribution in immersive voice and audio services
CN107077861B (zh) 音频编码器和解码器
JP2022543083A (ja) Ivasビットストリームの符号化および復号化
US20240135937A1 (en) Immersive voice and audio services (ivas) with adaptive downmix strategies
US20220293112A1 (en) Low-latency, low-frequency effects codec
US20240105192A1 (en) Spatial noise filling in multi-channel codec
CN116830192A (zh) 利用自适应下混策略的沉浸式语音和音频服务(ivas)
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
CN116547748A (zh) 多通道编解码器中的空间噪声填充
TW202410024A (zh) 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
BR122023022314A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
BR122023022316A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006