JP2023536156A - オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム - Google Patents

オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム Download PDF

Info

Publication number
JP2023536156A
JP2023536156A JP2023506177A JP2023506177A JP2023536156A JP 2023536156 A JP2023536156 A JP 2023536156A JP 2023506177 A JP2023506177 A JP 2023506177A JP 2023506177 A JP2023506177 A JP 2023506177A JP 2023536156 A JP2023536156 A JP 2023536156A
Authority
JP
Japan
Prior art keywords
frame
sound field
audio signal
signal
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023506177A
Other languages
English (en)
Inventor
フッハス,ギローム
タマラプ,アーキト
アイヒェンシアー,アンドレア
コルセ,スリカンス
ドーラ,ステファン
ムルトラス,マーカス
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2023536156A publication Critical patent/JP2023536156A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

符号化オーディオシーンを生成する装置、及び符号化オーディオシーンを復号化及び/又は処理する装置、並びに関連する方法、及びプロセッサによって実行されると、プロセッサに関連する方法を実行させる命令を記憶する非一時的記憶ユニットが開示される。符号化オーディオシーン304を処理する装置200は、第1のフレーム346において、第1の音場パラメーター表現316と符号化オーディオ信号346とを含むことができ、第2のフレーム348が、非アクティブフレームであり、該装置は、第2のフレーム348が非アクティブフレームであることを検出する区間検出器2200と、第2のフレーム308についてのパラメトリック記述348を使用して、第2のフレーム308についての合成オーディオ信号228を合成する合成信号シンセサイザー210と、第1のフレーム306についての符号化オーディオ信号346を復号化するオーディオデコーダー230と、第1の音場パラメーター表現316を使用し、かつ第2のフレーム308についての合成オーディオ信号228を使用して、第1のフレーム306についてのオーディオ信号202を空間的にレンダリングする空間レンダラー240、又は第1のフレーム306についてのオーディオ信号346と、第1のフレーム306についての第1の音場パラメーター表現316と、第2のフレーム308についての合成オーディオ信号228と、第2のフレーム308についての第2の音場パラメーター表現318とを含むメタデータ支援出力フォーマットを生成するトランスコーダーとを備える。【選択図】図2

Description

本明細書は、特に、符号化オーディオシーンを生成する装置、並びに符号化オーディオシーンを復号化及び/又は処理する装置に関する。
本明細書はまた、関連する方法と、プロセッサによって実行されたときにプロセッサに関連する方法を実行させる命令を記憶する非一時的記憶ユニットとに関する。
本明細書は、空間像が指向性オーディオ符号化(DirAC:directional audio coding)パラダイムによってパラメトリックに符号化された、又はメタデータ支援空間オーディオ(MASA:Metadata-Assisted Spatial Audio)フォーマットで伝送されたオーディオシーンの不連続伝送モード(DTX)及びコンフォートノイズ生成(CNG:comfort noise generation)に関する方法を説明する。
実施形態は、DirAC及びMASAのDTXモード等のパラメトリック符号化空間オーディオの不連続伝送に関する。
本発明の実施形態は、例えば音場マイクロホンでキャプチャされた会話音声を効率的に伝送し、レンダリングすることに関する。このようにしてキャプチャされたオーディオ信号は、サウンドイベントを3次元空間内で定位させることができ、没入感が強化され、理解度及びユーザー体験の両方が向上するため、概して3次元(3D)オーディオと称されている。
例えば3次元的にオーディオシーンを伝送するためには、通常、伝送すべき大量のデータを生じる複数のチャネルを処理することが必要となる。例えば、指向性オーディオ符号化(DirAC)技術[1]を使用して、元の大きなデータレートを低減することができる。DirACは、オーディオシーンを分析し、それをパラメトリックに表すための効率的な手法と見なされている。DirACは、知覚的に動機付けられ、周波数帯域ごとに測定された到来方向(DOA:direction of arrival)及び拡散性を用いて音場を表すものである。これは、或る瞬間の1つの臨界帯域に対して、聴覚系の空間分解能が、方向に対する1つのキューと両耳間のコヒーレンスに対する別のキューとを復号化することに限定されるという仮定に基づいて構築される。そして、空間音は、2つのストリーム、すなわち、無指向性拡散ストリーム及び指向性非拡散ストリームをクロスフェードすることによって周波数領域で再生される。
さらに、一般的な会話では、各話者は、約60%の時間、沈黙している。音声を含むオーディオ信号のフレーム(「アクティブフレーム」)と、バックグラウンドノイズ又は無音のみを含むフレーム(「非アクティブフレーム」)とを区別することによって、音声コーダーはデータレートを大幅に節約することができる。非アクティブフレームは通常、ほとんど又は全く情報を搬送しないものとして認識され、音声コーダーは通常、かかるフレームについてのそれらのビットレートを低減するように、又は更には情報を伝送しないように構成される。かかる場合、コーダーは、いわゆる不連続伝送(DTX)モードで動作し、これは、発話入力がない場合に通信コーデックの伝送レートを大幅に低減するための効率的な方法である。このモードでは、バックグラウンドノイズのみからなると判定された大部分のフレームは、伝送から外され、デコーダーにおいて何らかのコンフォートノイズ生成(CNG)に置き換えられる。これらのフレームでは、信号の非常に低レートのパラメーター表現が、フレームごとではなく定期的に送信される無音挿入記述子(SID:Silence Insertion Descriptor)フレームによって伝達される。これにより、デコーダーにおけるCNGは、実際のバックグラウンドノイズに似た人工的なノイズを生成することができる。
本発明の実施形態は、DTXシステムに関するものであり、特に、例えば音場マイクロホンによってキャプチャされ、DirACパラダイム等に基づくコーディング方式によってパラメトリックにコーディングされ得る3DオーディオシーンのためのSID及びCNGに関する。本発明は、会話型没入型音声を伝送するためのビットレート要求の大幅な低減を可能にする。
V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajamaki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan 3GPP(登録商標) TS 26.194; Voice Activity Detector (VAD); - 3GPP(登録商標) technical specification Retrieved on 2009-06-17 3GPP(登録商標) TS 26.449, "Codec for Enhanced Voice Services (EVS); Comfort Noise Generation (CNG) Aspects" 3GPP(登録商標) TS 26.450, "Codec for Enhanced Voice Services (EVS); Discontinuous Transmission (DTX)" A. Lombard, S. Wilde, E. Ravelli, S. Dohla, G. Fuchs and M. Dietz, "Frequency-domain Comfort Noise Generation for Discontinuous Transmission in EVS," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5893-5897, doi: 10.1109/ICASSP.2015.7179102 V. Pulkki, "Virtual source positioning using vector base amplitude panning", J. Audio Eng. Soc., 45(6):456-466, June 1997 J. Ahonen and V. Pulkki, "Diffuseness estimation using temporal variation of intensity vectors", in Workshop on Applications of Signal Processing to Audio and Acoustics WASPAA, Mohonk Mountain House, New Paltz, 2009 T. Hirvonen, J. Ahonen, and V. Pulkki, "Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference", AES 126th Convention 2009, May 7-10, Munich, Germany Vilkamo, Juha & Backstrom, Tom & Kuntz, Achim. (2013). Optimized Covariance Domain Framework for Time--Frequency Processing of Spatial Audio. Journal of the Audio Engineering Society. 61 M. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64, doi: 10.1109/ICASSP.2011.5946328
一態様によれば、第1のフレーム及び第2のフレームを有するオーディオ信号から符号化オーディオシーンを生成する装置であって、
前記第1のフレームにおける前記オーディオ信号から前記第1のフレームについての第1の音場パラメーター表現を決定し、前記第2のフレームにおける前記オーディオ信号から前記第2のフレームについての第2の音場パラメーター表現を決定する音場パラメーター生成器と、
前記オーディオ信号を分析して、前記オーディオ信号に応じて、前記第1のフレームがアクティブフレームであり、前記第2のフレームが非アクティブフレームであると判定する区間検出器と、
前記アクティブフレームである前記第1のフレームについての符号化オーディオ信号を生成し、前記非アクティブフレームである前記第2のフレームについてのパラメトリック記述を生成するオーディオ信号エンコーダーと、
前記第1のフレームについての前記第1の音場パラメーター表現と、前記第2のフレームについての前記第2の音場パラメーター表現と、前記第1のフレームについての前記符号化オーディオ信号と、前記第2のフレームについての前記パラメトリック記述とを一緒にすることによって、前記符号化オーディオシーンを構成する符号化信号形成器と、
を備える、装置が提供される。
前記音場パラメーター生成器は、前記第1の音場パラメーター表現又は前記第2の音場パラメーター表現が聴取者位置に対する前記オーディオ信号の特性を示すパラメーターを含むように、前記第1の音場パラメーター表現又は前記第2の音場パラメーター表現を生成するように構成することができる。
前記第1の音場パラメーター表現又は前記第2の音場パラメーター表現は、前記第1のフレームにおける聴取者位置に対する音の方向を示す1つ以上の方向パラメーター、又は前記第1のフレームにおける直接音に対する拡散音の部分を示す1つ以上の拡散性パラメーター、又は前記第1のフレームにおける直接音と拡散音とのエネルギー比を示す1つ以上のエネルギー比パラメーター、又は前記第1のフレームにおけるチャネル間/サラウンドコヒーレンスパラメーターを含むことができる。
前記音場パラメーター生成器は、前記オーディオ信号の前記第1のフレーム又は前記第2のフレームから、複数の個別の音源を決定し、音源ごとに、パラメトリック記述を決定するように構成することができる。
前記音場生成器は、前記第1のフレーム又は前記第2のフレームを、各周波数ビンが個別の音源を表す複数の周波数ビンに分解し、各周波数ビンについて、少なくとも1つの音場パラメーターを決定するように構成することができ、前記音場パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、エネルギー比パラメーター、又は聴取者位置に対する前記オーディオ信号の前記第1のフレームによって表される前記音場の特性を表す任意のパラメーターを例示的に含む。
前記第1のフレーム及び前記第2のフレームについての前記オーディオ信号は、聴取者に対する音場を表す複数の成分を有する入力フォーマットを含むことができ、
前記音場パラメーター生成器は、例えば前記複数の成分のダウンミックスを使用して、前記第1のフレーム及び前記第2のフレームについての1つ以上のトランスポートチャネルを算出し、前記入力フォーマットを分析して前記1つ以上のトランスポートチャネルに関連する前記第1のパラメーター表現を決定するように構成され、又は
前記音場パラメーター生成器は、例えば前記複数の成分のダウンミックスを使用して、1つ以上のトランスポートチャネルを算出するように構成され、
前記区間検出器は、前記第2のフレームにおける前記オーディオ信号から導出された前記1つ以上のトランスポートチャネルを分析するように構成される。
前記第1のフレーム又は前記第2のフレームについての前記オーディオ信号は、前記第1のフレーム及び前記第2のフレームの各フレームについて、1つ以上のトランスポートチャネルと、各フレームに関連付けられたメタデータとを有する入力フォーマットを含むことができ、
前記音場パラメーター生成器は、前記第1のフレーム及び前記第2のフレームから前記メタデータを読み取り、前記第1のフレームについての前記メタデータを前記第1の音場パラメーター表現として使用又は処理し、前記第2のフレームの前記メタデータを処理して前記第2の音場パラメーター表現を取得するように構成され、前記第2の音場パラメーター表現を取得する前記処理は、前記第2のフレームについての前記メタデータの前記伝送に必要な情報単位の量が、前記処理の前に必要な量に対して低減されるようなものである。
前記音場パラメーター生成器は、前記第2のフレームについての前記メタデータを処理して、前記メタデータにおける情報項目の数を低減するか、又は前記メタデータにおける前記情報項目を時間分解能若しくは周波数分解能等の低分解能に再サンプリングするか、又は前記第2のフレームについての前記メタデータの前記情報単位を再量子化前の状況に対してより粗い表現に再量子化するように構成することができる。
前記オーディオ信号エンコーダーは、前記非アクティブフレームについての無音情報記述を前記パラメトリック記述として決定するように構成することができ、
前記無音情報記述は、前記第2のフレームについてのエネルギー、パワー、又はラウドネス等の振幅関連情報と、スペクトル整形情報等の整形情報、又はエネルギー、パワー、若しくはラウドネス等の前記第2のフレームについての振幅関連情報と、前記第2のフレームについての線形予測符号化(LPC)パラメーター、又は異なるスケールパラメーターが異なる幅を有する周波数帯域を指すように変化する関連する周波数分解能を有する前記第2のフレームについてのスケールパラメーターとを例示的に含む。
前記オーディオ信号エンコーダーは、前記第1のフレームについて、時間領域又は周波数領域符号化モードを使用して前記オーディオ信号を符号化するように構成することができ、前記符号化オーディオ信号は、例えば、符号化された時間領域サンプルと、符号化されたスペクトル領域サンプルと、符号化されたLPC領域サンプルと、前記オーディオ信号の成分から取得された、又は例えばダウンミキシング動作によって前記オーディオ信号の前記成分から導出された1つ以上のトランスポートチャネルから取得されたサイド情報とを含む。
前記オーディオ信号は、1次アンビソニックスフォーマット、高次アンビソニックスフォーマット、5.1若しくは7.1若しくは7.1+4等の所与のラウドスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された1つ又は複数の異なるオーディオオブジェクトを表す1つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを含むことができ、
前記音場パラメーター生成器は、前記パラメーターが定義された聴取者位置に対する音場を表すように、前記第1の音場パラメーター表現及び前記第2の音場表現を決定するように構成され、又は
前記オーディオ信号は、現実のマイクロホン若しくは仮想マイクロホンによってピックアップされたマイクロホン信号、又は、例えば1次アンビソニックスフォーマット若しくは高次アンビソニックスフォーマットである合成的に生成されたマイクロホン信号を含む。
前記区間検出器は、前記第2のフレーム及び前記第2のフレームに続く1つ以上のフレームにわたって非アクティブフェーズを検出するように構成することができ、
前記オーディオ信号エンコーダーは、フレームの時間シーケンスに関して、前記第2のフレームから少なくとも1つのフレームだけ分離された更なる第3のフレームについてのみ、非アクティブフレームについての更なるパラメトリック記述を生成するように構成され、
前記音場パラメーター生成器は、前記オーディオ信号エンコーダーがパラメトリック記述を決定したフレームについてのみ、更なる音場パラメーター表現を決定するように構成され、又は
前記区間検出器は、前記第2のフレーム及び前記第2のフレームに続く8つのフレームを含む非アクティブフェーズを決定するように構成され、前記オーディオ信号エンコーダーは、8番目のフレームごとにのみ非アクティブフレームについてのパラメトリック記述を生成するように構成され、前記音場パラメーター生成器は、8番目の非アクティブフレームごとに音場パラメーター表現を生成するように構成され、又は
前記音場パラメーター生成器は、前記オーディオ信号エンコーダーが非アクティブフレームについてのパラメトリック記述を生成しない場合であっても、各非アクティブフレームについての音場パラメーター表現を生成するように構成され、又は
前記音場パラメーター生成器は、前記オーディオ信号エンコーダーが1つ以上の非アクティブフレームについて前記パラメトリック記述を生成するよりも高いフレームレートを有するパラメーター表現を決定するように構成される。
前記音場パラメーター生成器は、前記第2のフレームについての前記第2の音場パラメーター表現を決定するために、
周波数帯域における1つ以上の方向についての空間パラメーターと、総エネルギーに対する1つの指向性成分の比に対応する周波数帯域における関連するエネルギー比とを使用すること、又は
拡散音若しくは直接音の比を示す拡散性パラメーターを決定すること、又は
前記第1のフレームにおける量子化と比較してより粗い量子化方式を使用して方向情報を決定すること、又は
より粗い時間又は周波数分解能を取得するために、時間又は周波数にわたって方向の平均化を使用すること、又は
アクティブフレームについての前記第1の音場パラメーター表現と同じ周波数分解能を有し、前記非アクティブフレームについての前記音場パラメーター表現における方向情報に関してアクティブフレームについての時間発生よりも低い前記時間発生を有する、1つ以上の非アクティブフレームについての音場パラメーター表現を決定すること、又は
拡散性パラメーターを有する前記第2の音場パラメーター表現を決定することであって、該拡散性パラメーターは、アクティブフレームの場合と同じ時間又は周波数分解能であるが、より粗い量子化で伝送されること、又は
第1の数のビットを用いて前記第2の音場表現のための拡散性パラメーターを量子化することであって、各量子化インデックスの第2の数のビットのみが伝送され、前記第2の数のビットは、前記第1の数のビットよりも小さいこと、又は
前記第2の音場パラメーター表現について、前記オーディオ信号が空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間コヒーレンスを決定し、若しくは前記オーディオ信号が前記空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間レベル差を決定すること、又は
前記オーディオ信号によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定すること、
を行うように構成することができる。
一態様によれば、第1のフレームにおいて第1の音場パラメーター表現と符号化オーディオ信号とを含む符号化オーディオシーンを処理する装置であって、第2のフレームが、非アクティブフレームであり、前記装置は、
前記第2のフレームが前記非アクティブフレームであることを検出する区間検出器と、
前記第2のフレームについての前記パラメトリック記述を使用して、前記第2のフレームについての合成オーディオ信号を合成する合成信号シンセサイザーと、
前記第1のフレームについての前記符号化オーディオ信号を復号化するオーディオデコーダーと、
前記第1の音場パラメーター表現を使用し、かつ前記第2のフレームについての前記合成オーディオ信号を使用して、前記第1のフレームについての前記オーディオ信号を空間的にレンダリングする空間レンダラー、又は前記第1のフレームについての前記オーディオ信号と、前記第1のフレームについての前記第1の音場パラメーター表現と、前記第2のフレームについての前記合成オーディオ信号と、前記第2のフレームについての第2の音場パラメーター表現とを含むメタデータ支援出力フォーマットを生成するトランスコーダーと、
を備える、装置が提供される。
前記符号化オーディオシーンは、前記第2のフレームについて、第2の音場パラメーター記述を含むことができ、前記装置は、前記第2の音場パラメーター表現から1つ以上の音場パラメーターを導出する音場パラメータープロセッサを備え、前記空間レンダラーは、前記第2のフレームについての前記合成オーディオ信号の前記レンダリングのために、前記第2のフレームについての前記1つ以上の音場パラメーターを使用するように構成される。
前記装置は、前記第2のフレームについての1つ以上の音場パラメーターを導出するパラメータープロセッサを備えることができ、
前記パラメータープロセッサは、前記第1のフレームについての前記音場パラメーター表現を記憶し、前記第1のフレームについての前記記憶された第1の音場パラメーター表現を使用して前記第2のフレームについての1つ以上の音場パラメーターを合成するように構成され、前記第2のフレームは、前記第1のフレームに時間的に後続し、又は
前記パラメータープロセッサは、前記第2のフレームの前の時間に発生するか、又は前記第2のフレームの後の時間に発生する複数のフレームについての1つ以上の音場パラメーター表現を記憶して、複数のフレームについての前記1つ以上の音場パラメーター表現のうちの前記少なくとも2つの音場パラメーター表現を使用して外挿又は内挿することにより、前記第2のフレームについての前記1つ以上の音場パラメーターを決定するように構成され、
前記空間レンダラーは、前記第2のフレームについての前記合成オーディオ信号の前記レンダリングのために、前記第2のフレームについての前記1つ以上の音場パラメーターを使用するように構成される。
前記パラメータープロセッサは、前記第2のフレームについての前記1つ以上の音場パラメーターを決定するために外挿又は内挿する場合、前記第2のフレームの前又は後の時間に発生する前記少なくとも2つの音場パラメーター表現に含まれる方向を用いてディザリングを実行するように構成することができる。
前記符号化オーディオシーンは、前記第1のフレームについての1つ以上のトランスポートチャネルを含むことができ、
前記合成信号生成器は、前記合成オーディオ信号として前記第2のフレームについての1つ以上のトランスポートチャネルを生成するように構成され、
前記空間レンダラーは、前記第2のフレームについての前記1つ以上のトランスポートチャネルを空間的にレンダリングするように構成される。
前記合成信号生成器は、前記第2のフレームについて、前記空間レンダラーのオーディオ出力フォーマットに関連する個別の成分に対する複数の合成成分オーディオ信号を前記合成オーディオ信号として生成するように構成することができる。
前記合成信号生成器は、前記オーディオ出力フォーマットに関連する少なくとも2つの個別の成分のサブセットのうちの少なくとも各1つについて、個別の合成成分オーディオ信号を生成するように構成することができ、
第1の個別の合成成分オーディオ信号が、第2の個別の合成成分オーディオ信号から非相関化され、
前記空間レンダラーは、前記第1の個別の合成成分オーディオ信号と前記第2の個別の合成成分オーディオ信号との組み合わせを使用して前記オーディオ出力フォーマットの成分をレンダリングするように構成される。
前記空間レンダラーは、共分散法を適用するように構成することができる。
前記空間レンダラーは、いかなる非相関器処理も使用しないように、又は、前記共分散法によって示される非相関器処理によって生成された非相関信号の量のみが、前記オーディオ出力フォーマットの成分を生成する際に使用されるように前記非相関器処理を制御するように構成することができる。
前記合成信号生成器は、コンフォートノイズ生成器である。
前記合成信号生成器は、ノイズ生成器を含むことができ、前記第1の個別の合成成分オーディオ信号は、前記ノイズ生成器の第1のサンプリングによって生成され、前記第2の個別の合成成分オーディオ信号は、前記ノイズ生成器の第2のサンプリングによって生成され、前記第2のサンプリングは、前記第1のサンプリングとは異なる。
前記ノイズ生成器は、ノイズテーブルを含むことができ、前記第1の個別の合成成分オーディオ信号は、前記ノイズテーブルの第1の部分を取得することによって生成され、前記第2の個別の合成成分オーディオ信号は、前記ノイズテーブルの第2の部分を取得することによって生成され、前記ノイズテーブルの前記第2の部分は、前記ノイズテーブルの前記第1の部分とは異なり、又は
前記ノイズ生成器は、擬似ノイズ生成器を含み、前記第1の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第1のシードを用いて生成され、前記第2の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第2のシードを用いて生成される。
前記符号化オーディオシーンは、前記第1のフレームについて、2つ以上のトランスポートチャネルを含むことができ、
前記合成信号生成器は、ノイズ生成器を含み、前記第2のフレームについての前記パラメトリック記述を使用して、前記ノイズ生成器をサンプリングすることによって第1のトランスポートチャネルを生成し、前記ノイズ生成器をサンプリングすることによって第2のトランスポートチャネルを生成するように構成され、前記ノイズ生成器をサンプリングすることによって決定される前記第1のトランスポートチャネル及び前記第2のトランスポートチャネルは、前記第2のフレームについての同じパラメトリック記述を使用して重み付けされる。
前記空間レンダラーは、
直接信号と、前記第1の音場パラメーター表現の制御下で前記直接信号から非相関器によって生成された拡散信号とのミキシングを使用して、前記第1のフレームに対して第1のモードで動作し、
第1の合成成分信号と前記第2の合成成分信号とのミキシングを使用して、前記第2のフレームに対して第2のモードで動作するように構成することができ、前記第1の合成成分信号及び前記第2の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって前記合成信号シンセサイザーによって生成される。
前記空間レンダラーは、パラメータープロセッサによって前記第2のフレームについて導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、前記第2のモードで前記ミキシングを制御するように構成することができる。
前記合成信号生成器は、前記第2のフレームについての前記パラメトリック記述を使用して前記第1のフレームについての合成オーディオ信号を生成するように構成することができ、
前記空間レンダラーは、前記空間レンダリングの前又は後に、前記第1のフレームについての前記オーディオ信号と前記第1のフレームについての前記合成オーディオ信号との重み付き合成を実行するように構成され、前記重み付き合成において、前記第1のフレームについての前記合成オーディオ信号の強度は、前記第2のフレームについての前記合成オーディオ信号の強度に対して低減される。
パラメータープロセッサは、前記第2の非アクティブフレームについて、前記第2のフレームによって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定するように構成することができ、前記空間レンダラーは、前記サウンドコヒーレンスに基づいて前記第2のフレームにおける直接信号と拡散信号との間でエネルギーを再分配するように構成され、サウンドサラウンドコヒーレント成分のエネルギーが、前記拡散エネルギーから除去されて指向性成分に再分配され、前記指向性成分は、再生空間内でパンされる。
前記装置は、前記空間レンダラーによって生成されたオーディオ出力フォーマットを、トランスコードされた出力フォーマット、例えば、予め定義された位置に配置されるラウドスピーカー専用の複数の出力チャネルを含む出力フォーマット、又はFOA若しくはHOAデータを含むトランスコードされた出力フォーマットに変換する出力インターフェイスを備えることができ、又は
前記空間レンダラーの代わりに、前記トランスコーダーは、前記第1のフレームについての前記オーディオ信号と、前記第1のフレームについての前記第1の音場パラメーターと、前記第2のフレームについての前記合成オーディオ信号と、前記第2のフレームについての第2の音場パラメーター表現とを含む前記メタデータ支援出力フォーマットを生成するために提供される。
前記区間検出器は、前記第2のフレームが前記非アクティブフレームであることを検出するように構成することができる。
一態様によれば、第1のフレーム及び第2のフレームを有するオーディオ信号から符号化オーディオシーンを生成する方法であって、
前記第1のフレームにおける前記オーディオ信号から前記第1のフレームについての第1の音場パラメーター表現を決定し、前記第2のフレームにおける前記オーディオ信号から前記第2のフレームについての第2の音場パラメーター表現を決定することと、
前記オーディオ信号を分析して、前記オーディオ信号に応じて、前記第1のフレームがアクティブフレームであり、前記第2のフレームが非アクティブフレームであると判定することと、
前記アクティブフレームである前記第1のフレームについての符号化オーディオ信号を生成し、前記非アクティブフレームである前記第2のフレームについてのパラメトリック記述を生成することと、
前記第1のフレームについての前記第1の音場パラメーター表現と、前記第2のフレームについての前記第2の音場パラメーター表現と、前記第1のフレームについての前記符号化オーディオ信号と、前記第2のフレームについての前記パラメトリック記述とを一緒にすることによって、前記符号化オーディオシーンを構成することと、
を含む、方法が提供される。
一態様によれば、第1のフレームにおいて、第1の音場パラメーター表現と符号化オーディオ信号とを含む符号化オーディオシーンを処理する方法であって、第2のフレームが、非アクティブフレームであり、前記方法は、
前記第2のフレームが前記非アクティブフレームであることを検出し、前記第2のフレームについてのパラメトリック記述を提供することと、
前記第2のフレームについての前記パラメトリック記述を使用して、前記第2のフレームについての合成オーディオ信号を合成することと、
前記第1のフレームについての前記符号化オーディオ信号を復号化することと、
前記第1の音場パラメーター表現を使用し、かつ前記第2のフレームについての前記合成オーディオ信号を使用して、前記第1のフレームについての前記オーディオ信号を空間的にレンダリングすること、又は前記第1のフレームについての前記オーディオ信号、前記第1のフレームについての前記第1の音場パラメーター表現、前記第2のフレームについての前記合成オーディオ信号、及び前記第2のフレームについての第2の音場パラメーター表現を含むメタデータ支援出力フォーマットを生成することと、
を含む、方法が提供される。
前記方法は、前記第2のフレームについてのパラメトリック記述を提供することを含むことができる。
一態様によれば、符号化オーディオシーンであって、
第1のフレームについての第1の音場パラメーター表現と、
第2のフレームについての第2の音場パラメーター表現と、
前記第1のフレームについての符号化オーディオ信号と、
前記第2のフレームについてのパラメトリック記述と、
を含む、符号化オーディオシーンが提供される。
一態様によれば、コンピューター又はプロセッサ上で実行されるときに、上記又は以下の方法を実行するコンピュータープログラムが提供される。
例による合成のために使用され得る従来技術による一例を示す図である。 例による分析のために使用され得る従来技術による一例を示す図である。 例によるデコーダー及びエンコーダーの一例を示す図である。 一例によるエンコーダーの一例を示す図である。 構成要素の一例を示す図である。 一例による構成要素の一例を示す図である。 デコーダーの一例を示す図である。 デコーダーの一例を示す図である。 デコーダーの一例を示す図である。 デコーダーの一例を示す図である。 デコーダーの一例を示す図である。 デコーダーの一例を示す図である。
最初に、既知のパラダイム(DTX、DirAC、MASA等)の一部の説明を、そのうちの一部が、少なくともいくつかの場合では、本発明の例において実装され得る技術の説明とともに提供する。
DTX
コンフォートノイズ生成器は、通常、音声の不連続伝送(DTX)に使用される。かかるモードでは、音声は、最初に発話区間検出器(VAD:Voice Activity Detector)によってアクティブフレームと非アクティブフレームとに分類される。VADの一例は、[2]に記載されている。VAD結果に基づいて、アクティブ音声フレームのみが符号化され、公称ビットレートで伝送される。バックグラウンドノイズのみが存在する長い休止時間には、ビットレートを下げるか又はゼロにし、バックグラウンドノイズは偶発的(episodically)かつパラメトリックに符号化される。これにより、平均ビットレートが大幅に低減される。ノイズは、コンフォートノイズ生成器(CNG)によってデコーダー側で非アクティブフレーム中に生成される。例えば、音声コーダーAMR-WB[2]及び3GPP(登録商標) EVS[3,4]は両方とも、DTXモードで動作させることができる。効率的なCNGの一例は、[5]に記載されている。
本発明の実施形態は、この原理を、サウンドイベントの空間的定位を有する没入型会話音声に同じ原理を適用するように拡張する。
DirAC
DirACは、知覚的に動機付けられた空間音の再生である。或る瞬間の1つの臨界帯域に対して、聴覚系の空間分解能は、方向に対する1つのキューと両耳間のコヒーレンスに対する別のキューとを復号化することに限定されると仮定する。
これらの仮定に基づいて、DirACは、2つのストリーム、すなわち無指向性拡散ストリーム及び指向性非拡散ストリームをクロスフェードすることによって、1つの周波数帯域における空間音を表す。DirAC処理は、図1に示すように、分析と合成の2つのフェーズで実行される(図1aは合成を示し、図1bは分析を示す)。
DirAC分析段階では、Bフォーマットの1次同時受音マイクロホンが入力とみなされ、音の拡散性及び到来方向が周波数領域で分析される。
DirAC合成段階では、音は2つのストリーム、すなわち非拡散ストリーム及び拡散ストリームに分割される。非拡散ストリームは、振幅パニングを使用して点音源として再生され、該振幅パニングは、ベクトルベース振幅パニング(VBAP)[6]を使用することによって行うことができる。拡散ストリームは、概して、音に包まれた感じ(envelopment)の感覚に関与するものであり、相互に非相関化された信号をラウドスピーカーに伝達することによって生成される。
以降で空間メタデータ又はDirACメタデータとも称されるDirACパラメーターは、拡散性及び方向のタプルからなる。方向は、方位角及び仰角の2つの角度によって球面座標で表すことができ、一方、拡散性は、0と1との間のスカラー因子であり得る。
DirACパラダイムを空間オーディオコーディング及び遠隔会議シナリオにおいて使用可能とするために、メタデータのサイズを低減するための研究が行われている[8]。
発明者らの知る限りでは、パラメトリック空間オーディオコーデックを中心としたDTXシステムはこれまで構築又は提案されておらず、DirACパラダイムに基づくものは更に少なかった。これが本発明の実施形態の主題である。
MASA
メタデータ支援空間オーディオ(MASA)は、DirACの原理から導出された空間オーディオフォーマットであり、これは、生のマイクロホン信号から直接計算され、アンビソニックスのような中間フォーマットを通過する必要なしにオーディオコーデックに伝達することができる。オーディオコーデック又はレンダラーのための空間メタデータとして、例えば周波数帯域における方向パラメーター及び/又は例えば周波数帯域におけるエネルギー比パラメーター(例えば、指向性である音エネルギーの割合を示す)からなり得るパラメーターセットも利用することができる。これらのパラメーターは、マイクロホンアレイでキャプチャされたオーディオ信号から推定することができ、例えば、モノラル信号又はステレオ信号は、空間メタデータとともに伝達されるマイクロホンアレイ信号から生成することができる。モノラル信号又はステレオ信号は、例えば、3GPP(登録商標) EVSのようなコアコーダー又はその派生物を用いて符号化することができる。デコーダーは、オーディオ信号を(伝送された空間メタデータを使用して)周波数帯域に復号化して処理して、空間出力を取得することができる。ここで該空間出力は、バイノーラル出力、ラウドスピーカーマルチチャネル信号、又はアンビソニックスフォーマットのマルチチャネル信号であり得る。
動機付け
没入型音声通信は、新しい研究領域であり、存在するシステムは非常に少数であり、さらに、かかる用途のために設計されたDTXシステムは存在していない。
しかしながら、既存の解決策を組み合わせることは容易であり得る。例えば、各個別のマルチチャネル信号に対して独立してDTXを適用することができる。この単純な手法は、複数の問題に直面している。この場合、各個別のチャネルを離散的に伝送する必要があるが、これは、低ビットレート通信制約と互換性がなく、したがって低ビットレート通信の場合のために設計されたDTXとほとんど互換性がない。さらに、VADの判定をチャネル間で同期させて、特異性及びアンマスキング効果を回避し、DTXシステムのビットレート低減を完全に利用することも必要となる。実際に、伝送を中断し、それから利益を得るためには、発話区間判定が全チャネルで同期していることを確認する必要がある。
コンフォートノイズ生成器(複数の場合もある)によって非アクティブフレーム中に欠落したバックグラウンドノイズを生成する際、受信機側で別の問題が生じる。没入型通信の場合、特にDTXを個別のチャネルに直接適用する場合、チャネルごとに1つの生成器が必要となる。ランダムノイズを一般的にサンプリングするこれらの生成器を独立して使用した場合、チャネル間のコヒーレンスは0になるか、又は0に近くなり、元の音場から知覚的に逸脱する可能性がある。一方で、1つの生成器のみを使用し、結果として生じるコンフォートノイズが全ての出力チャネルにコピーされた場合、コヒーレンスは非常に高くなり、没入感は大幅に減少する。
これらの問題は、DTXをシステムの入力又は出力チャネルに直接適用するのではなく、代わりに、DirACのようなパラメトリック空間オーディオ符号化方式の後に、通常は元のマルチチャネル信号のダウンミキシング又は低減されたバージョンであるトランスポートチャネルに適用することによって、部分的に解決することができる。この場合、非アクティブフレームがどのようにパラメーター化され、次いでDTXシステムによって空間化されるかを定義する必要がある。これは些細なことではなく、本発明の実施形態の主題である。空間像は、アクティブフレームと非アクティブフレームとの間で一貫していなければならず、元のバックグラウンドノイズに対して知覚的に可能な限り忠実でなければならない。
図3は、一例によるエンコーダー300を示している。エンコーダー300は、オーディオ信号302から符号化オーディオシーン304を生成することができる。
オーディオ信号304(ビットストリーム)又はオーディオシーン304(及び以下に開示される他のオーディオ信号)は、フレームに分割され得る(例えば、フレームのシーケンスであってもよい)。フレームは、互いに続いて定義され得るタイムスロットに関連付けることができる(いくつかの例では、前の態様は後続のフレームと重複してもよい)。各フレームについて、時間領域(TD)又は周波数領域(FD)における値がビットストリーム304に書き込まれ得る。TDでは、サンプルごとに値が提供され得る(各フレームは、例えば、サンプルの離散的シーケンスを有する)。FDでは、周波数ビンごとに値が提供され得る。後述するように、各フレームは、アクティブフレーム306(例えば、非ボイドフレーム)又は非アクティブフレーム308(例えば、ボイドフレーム、又は無音フレーム、又はノイズのみのフレーム)のいずれかとして(例えば、区間検出器によって)分類され得る。異なるパラメーター(例えば、アクティブ空間パラメーター316又は非アクティブ空間パラメーター318)もまた、アクティブフレーム306及び非アクティブフレーム308に関連して提供され得る(データなしの場合、参照番号319は、データが提供されないことを示す)。
オーディオ信号302は、例えば、(例えば、2つ以上のチャネルを有する)マルチチャネルオーディオ信号であってもよい。オーディオ信号302は、例えば、ステレオオーディオ信号であってもよい。オーディオ信号302は、例えば、Aフォーマット又はBフォーマットのアンビソニックス信号であってもよい。オーディオ信号302は、例えば、MASA(メタデータ支援空間オーディオ)フォーマットを有していてもよい。オーディオ信号302は、1次アンビソニックスフォーマット、高次アンビソニックスフォーマット、5.1若しくは7.1若しくは7.1+4等の所与のスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された1つ又は複数の異なるオーディオオブジェクトを表す1つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを有していてもよい。オーディオ信号302は、現実のマイクロホン又は仮想マイクロホンによってピックアップされるマイクロホン信号を含み得る。オーディオ信号302は、合成的に生成されたマイクロホン信号(例えば、1次アンビソニックスフォーマット、又は高次アンビソニックスフォーマットである)を含み得る。
オーディオシーン304は、
第1のフレーム306についての第1の音場パラメーター表現(例えば、アクティブ空間パラメーター)316、
第2のフレーム308についての第2の音場パラメーター表現(例えば、非アクティブ空間パラメーター)318、
第1のフレーム306についての符号化オーディオ信号346、及び
第2のフレーム308についてのパラメトリック記述348(いくつかの例では、非アクティブ空間パラメーター318はパラメトリック記述348に含まれ得るが、パラメトリック記述348はまた、空間パラメーターではない他のパラメーターを含み得る)のうちの少なくとも1つ又は組み合わせを含み得る。
アクティブフレーム306(第1のフレーム)は、音声を(又は、いくつかの例では、純粋なノイズとは異なる他のオーディオ音も)含むフレームであり得る。非アクティブフレーム308(第2のフレーム)は、音声を(又は、いくつかの例では、純粋なノイズとは異なる他のオーディオ音も)含まないフレームであると理解される場合があり、一意にノイズを含むと理解される場合がある。
オーディオシーン分析器(音場パラメーター生成器)310は、例えば、オーディオ信号302のトランスポートチャネルバージョン324(326と328との間で細分される)を生成するために提供されてもよい。ここで、各第1のフレーム306のトランスポートチャネル326(複数の場合もある)及び/又は各第2のフレーム308のトランスポートチャネル328(複数の場合もある)を参照することができる(トランスポートチャネル328(複数の場合もある)は、例えば、無音又はノイズのパラメトリック記述を与えるものとして理解されてもよい)。トランスポートチャネル(複数の場合もある)324(326、328)は、入力フォーマット302のダウンミックスバージョンであり得る。概して言えば、トランスポートチャネル326、328のそれぞれは、例えば、入力オーディオ信号302がステレオチャネルである場合、単一のチャネルであってもよい。入力オーディオ信号302が3つ以上のチャネルを有する場合、入力オーディオ信号302のダウンミックスバージョン324は、入力オーディオ信号302よりも少ないチャネルを有し得るが、いくつかの例では、依然として2つ以上のチャネルを有し得る(例えば、入力オーディオ信号302が4つのチャネルを有する場合、ダウンミックスバージョン324は、1つ、2つ、又は3つのチャネルを有していてもよい)。
オーディオ信号分析器310は、加えて又は代替として、314で示される音場パラメーター(空間パラメーター)を提供し得る。特に、音場パラメーター314は、第1のフレーム306に関連付けられたアクティブ空間パラメーター(第1の空間パラメーター又は第1の空間パラメーター表現)316と、第2のフレーム308に関連付けられた非アクティブ空間パラメーター(第2の空間パラメーター又は第2の空間パラメーター表現)318とを含み得る。各アクティブ空間パラメーター314(316、318)は、例えば聴取者位置に対するオーディオ信号(302)の空間特性を示すパラメーターを含み得る(例えば、そのパラメーターであってもよい)。いくつかの他の例では、アクティブ空間パラメーター314(316、318)は、ラウドスピーカーの位置に対するオーディオ信号302の特性を示すパラメーターを少なくとも部分的に含み得る(例えば、そのパラメーターであってもよい)。いくつかの例では、アクティブ空間パラメーター314(316、318)は、信号源から取得されたオーディオ信号の特性を少なくとも部分的に含み得る(例えば、その特性であってもよい。)。
例えば、空間パラメーター314(316、318)は、拡散性パラメーター、例えば、第1のフレーム306及び/又は第2のフレーム308における音に関する拡散対信号比を示す1つ以上の拡散性パラメーター、又は第1のフレーム306及び/又は第2のフレーム308における直接音及び拡散音のエネルギー比を示す1つ以上のエネルギー比パラメーター、又は第1のフレーム306及び/又は第2のフレーム308におけるチャネル間/サラウンドコヒーレンスパラメーター(複数の場合もある)、又は第1のフレーム306及び/又は第2のフレーム308におけるコヒーレント対拡散パワー(Coherent-to-Diffuse Power)比(複数の場合もある)、又は第1のフレーム306及び/又は第2のフレーム308における信号対拡散比(複数の場合もある)を含んでもよい。
例では、アクティブ空間パラメーター(複数の場合もある)(第1の音場パラメーター表現)316及び/又は非アクティブ空間パラメーター(複数の場合もある)318(第2の音場パラメーター表現)は、そのフルチャネルバージョンの入力信号302、又は高次アンビソニックス入力信号の1次成分のようにそのサブセットから取得することができる。
装置300は、区間検出器320を含み得る。区間検出器320は、入力オーディオ信号(その入力バージョン302又はそのダウンミックスバージョン324のいずれか)を分析して、オーディオ信号(302又は324)に応じて、フレームがアクティブフレーム306であるか非アクティブフレーム308であるかを判定し、それにより、フレームに対して分類を実行することができる。図3から分かるように、区間検出器320は、第1の偏差器322及び第2の偏差器322aを(例えば、制御部321を介して)制御するものと仮定することができる。第1の偏差器322は、アクティブ空間パラメーター316(第1の音場パラメーター表現)と非アクティブ空間パラメーター318(第2の音場パラメーター表現)との間で選択を行うことができる。したがって、区間検出器320は、アクティブ空間パラメーター316又は非アクティブ空間パラメーター318のいずれが出力されるか(例えば、ビットストリーム304においてシグナリングされるか)を判定することができる。同じ制御部321は、第2の偏差器322aを制御することができ、該第2の偏差器322aは、トランスポートチャネル324における第1のフレーム326(306)を出力すること、又はトランスポートチャネル326における第2のフレーム328(308)(例えば、パラメトリック記述)を出力することの間で選択を行うことができる。第1の偏差器322及び第2の偏差器322aの区間は互いに調整され、アクティブ空間パラメーター316が出力されると、第1のフレーム306のトランスポートチャネル326も出力され、非アクティブ空間パラメーター318が出力されると、第1のフレーム306のトランスポートチャネルのうちのトランスポートチャネル328が出力される。これは、アクティブ空間パラメーター316(第1の音場パラメーター表現)が第1のフレーム306の空間特性を記述し、一方、非アクティブ空間パラメーター318(第2の音場パラメーター表現)が第2のフレーム308の空間特性を記述するためである。
したがって、区間検出器320は、基本的に、第1のフレーム306(326、346)及びその関連するパラメーター(316)と、第2のフレーム308(328、348)及びその関連するパラメーター(318)とのうちのいずれが出力されるかを判定することができる。区間検出器320はまた、フレームがアクティブであるか非アクティブであるかをシグナリングするビットストリーム中の一部のシグナリングの符号化を制御することができる(他の技術が使用され得る)。
区間検出器320は、(例えば、オーディオ信号の特定のフレームの全ての周波数ビン、又は少なくとも複数の周波数ビンにおいて、例えば、フレーム中のエネルギーを測定することによって)入力オーディオ信号302の各フレーム306/308に対して処理を実行することができ、特定のフレームを第1のフレーム306又は第2のフレーム308であるものとして分類することができる。概して言えば、区間検出器320は、同じフレームの異なる周波数ビンと異なるサンプルとを区別することなく、1つの単一のフレーム全体について1つの単一の分類結果を判定することができる。例えば、1つの分類結果は、「音声」(アクティブ空間パラメーター316によって空間的に記述される第1のフレーム306、326、346に相当する)又は「無音」(非アクティブ空間パラメーター318によって空間的に記述される第2のフレーム308、328、348に相当する)であり得る。したがって、区間検出器320によって行われる分類に従って、偏差器322及び322aはそれらの切り替えを実行することができ、その結果は、分類されたフレームの全ての周波数ビン(及びサンプル)に対して原理的に有効である。
装置300は、オーディオ信号エンコーダー330を含み得る。オーディオ信号エンコーダー330は、符号化オーディオ信号344を生成することができる。オーディオ信号エンコーダー330は、特に、例えば、オーディオ信号エンコーダー330の一部であり得るトランスポートチャネルエンコーダー340によって生成された、第1のフレーム(306、326)についての符号化オーディオ信号346を提供することができる。符号化オーディオ信号344は、無音のパラメトリック記述348(例えばノイズのパラメトリック記述)であってもよく、又はそれを含んでいてもよく、オーディオ信号エンコーダー330の一部であり得るトランスポートチャネルSI記述子350によって生成されてもよい。生成された第2のフレーム348は、元のオーディオ入力信号302の少なくとも1つの第2のフレーム308及びダウンミックス信号324の少なくとも1つの第2のフレーム328に対応してもよく、非アクティブ空間パラメーター318(第2の音場パラメーター表現)によって空間的に記述されてもよい。特に、符号化オーディオ信号344(346であるか348であるかにかかわらず)もまた、トランスポートチャネル内にあり得る(したがって、ダウンミックス信号324であり得る)。符号化オーディオ信号344(346又は348)は、そのサイズを低減するために圧縮され得る。
装置300は、符号化信号形成器370を含み得る。符号化信号形成器370は、少なくとも符号化オーディオシーン304の符号化されたバージョンを書き込むことができる。符号化信号形成器370は、第1のフレーム306についての第1の(アクティブな)音場パラメーター表現316と、第2のフレーム308についての第2の(非アクティブな)音場パラメーター表現318と、第1のフレーム306についての符号化オーディオ信号346と、第2のフレーム308についてのパラメトリック記述348とを一緒にすることによって動作し得る。したがって、オーディオシーン304はビットストリームであってもよく、ビットストリームは、伝送されるか又は記憶され(又はその両方)、出力されるオーディオ信号を生成するために汎用デコーダーによって使用されてもよく、ここで該オーディオ信号は元の入力信号302のコピーである。したがって、オーディオシーン(ビットストリーム)304では、入力信号306の再生を可能にするために、「第1のフレーム」/「第2のフレーム」のシーケンスが取得され得る。
図2は、エンコーダー300及びデコーダー200の一例を示している。エンコーダー300は、いくつかの例では、図3のものと同じ(又はその変形)であり得る(いくつかの他の例では、それらは異なる実施形態であり得る)。エンコーダー300は、(例えば、Bフォーマットであり得る)オーディオ信号302を入力中に有することができ、(例えば、アクティブフレームであり得る)第1のフレーム306と、(例えば、非アクティブフレームであり得る)第2のフレーム308とを有し得る。オーディオ信号302は、信号324として(例えば、第1のフレームについての符号化オーディオ信号326及び第2のフレームについての符号化オーディオ信号328、又はパラメトリック表現として)、(偏差器322及び322aに関連付けられたオーディオを含み得る)セレクター320の内部での選択の後にオーディオ信号エンコーダー330に提供され得る。特に、ブロック320は、入力信号302(306、308)からトランスポートチャネル324(326、328)へのダウンミックスを形成する能力も有することができる。基本的に、ブロック320(ビーム形成/信号選択ブロック)は、図3の区間検出器320の機能を含むものとして理解され得るが、図3においてブロック310によって実行されるいくつかの他の機能(空間パラメーター316及び318の生成等)は、図2の「DirAC分析ブロック」310によって実行され得る。したがって、チャネル信号324(326、328)は、元の信号302のダウンミキシングされたバージョンであり得る。しかしながら、場合によっては、ダウンミキシングが信号302に対して実行されず、信号324が単に第1のフレームと第2のフレームとの間の選択であることも可能であり得る。オーディオ信号エンコーダー330は、上述したように、ブロック340及び350の少なくとも1つを含み得る。オーディオ信号エンコーダー330は、第1のフレーム346又は第2のフレーム348のいずれかについての符号化されたオーディオ信号344を出力し得る。図2は、符号化信号形成器370を示していないが、該符号化信号形成器370が存在していてもよい。
図示のように、ブロック310は、DirAC分析ブロック(又はより一般的には、音場パラメーター生成器310)を含み得る。ブロック310(音場パラメーター生成器)は、フィルターバンク分析390を含み得る。フィルターバンク分析390は、入力信号302の各フレームを、フィルターバンク分析390の出力391であり得る複数の周波数ビンに細分することができる。拡散性推定ブロック392aは、例えば、フィルターバンク分析390によって出力された複数の周波数ビン391の各周波数ビンについて、拡散性パラメーター314a(これは、アクティブフレーム306に対するアクティブ空間パラメーター(複数の場合もある)316の1つの拡散性パラメーターであっても、非アクティブフレーム308に対する非アクティブ空間パラメーター(複数の場合もある)318の1つの拡散性パラメーターであってもよい)を提供してもよい。音場パラメーター生成器310は、方向推定ブロック392bを含むことができ、その出力314bは、例えば、フィルターバンク分析390によって出力された複数の周波数ビン391の各周波数ビンに対する方向パラメーターであってもよい(アクティブフレーム306に対するアクティブ空間パラメーター(複数の場合もある)316の1つの方向パラメーター、又は非アクティブフレーム308に対する非アクティブ空間パラメーター(複数の場合もある)318の1つの方向パラメーターであってもよい)。
図4は、ブロック310(音場パラメーター生成器)の一例を示している。図3のブロック310は入力信号302のダウンミックスを実行することもできるが、図4の音場パラメーター生成器310には示されていない(又は実装されていない)という事実にもかかわらず、音場パラメーター生成器310は、図2の音場パラメーター生成器と同じであってもよく、及び/又は図3のブロック310の機能と同じであってもよく、又は少なくともその機能を実装してもよい。
図4の音場パラメーター生成器310は、(図2のフィルターバンク分析ブロック390と同じであり得る)フィルターバンク分析ブロック390を含み得る。フィルターバンク分析ブロック390は、各フレーム及び各ビン(周波数タイル)についての周波数領域情報391を提供することができる。周波数領域情報391は、拡散性分析ブロック392a及び/又は方向分析ブロック392bに提供されてもよく、それらは図3に示されるものであってもよい。拡散性分析ブロック392a及び/又は方向分析ブロック392bは、拡散性情報314a及び/又は方向情報314bを提供することができる。これらは、各第1のフレーム306(346)及び各第2のフレーム308(348)に対して提供することができる。複合的に、ブロック392a及び392bによって提供される情報は、第1の音場パラメーター316(アクティブ空間パラメーター)と第2の音場パラメーター318(非アクティブ空間パラメーター)との両方を包含する音場パラメーター314と見なされる。アクティブ空間パラメーター316は、アクティブ空間メタデータエンコーダー396に提供されてもよく、非アクティブ空間パラメーター318は、非アクティブ空間メタデータエンコーダー398に提供されてもよい。結果は、第1の音場パラメーター表現316及び第2の音場パラメーター表現318(複合的に314で示される)であり、ビットストリーム304中で(例えば、エンコーダー信号形成器370を通して)符号化され、その後デコーダーによって再生されるために記憶され得る。アクティブ空間メタデータエンコーダー396又は非アクティブ空間パラメーター318のどちらがフレームを符号化すべきかは、図3の制御部321のような制御部(偏差器322は図2には示されていない)によって、例えば区間検出器によって動作される分類を通じて制御されてもよい。(エンコーダー396、398はまた、いくつかの例では、量子化を実行し得ることに留意されたい)。
図5は、可能な音場パラメーター生成器310の別の例を示しており、これは、図4の音場パラメーター生成器の代替であってもよく、図2及び図3の例においても実装され得る。この例では、入力オーディオ信号302は、既にMASAフォーマットとすることができ、空間パラメーターは、例えば複数の周波数ビンの各周波数ビンについて、(例えば空間メタデータとして)既に入力オーディオ信号302の一部である。したがって、拡散性分析ブロック及び/又は指向性ブロックを有する必要はないが、それらはMASAリーダー390Mによって置き換えることができる。MASAリーダー390Mは、オーディオ信号302中の特定のデータフィールドを読み取ることができ、これには、(信号302のフレームが第1のフレーム306であるか第2のフレーム308であるかの事実に従って)アクティブ空間パラメーター(複数の場合もある)316及び非アクティブ空間パラメーター(複数の場合もある)318等の情報が既に含まれている。信号302において符号化され得る(及びMASAリーダー390Mによって読み取られ得る)パラメーターの例は、方向、エネルギー比、サラウンドコヒーレンス、スプレッドコヒーレンス等のうちの少なくとも1つを含み得る。MASAリーダー390Mの下流には、(例えば、図4のものと同様の)アクティブ空間メタデータエンコーダー396及び(例えば、図4のものと同様の)非アクティブ空間メタデータエンコーダー398が設けられ、それぞれ第1の音場パラメーター表現316及び第2の音場パラメーター表現318を出力することができる。入力オーディオ信号302がMASA信号である場合、区間検出器320は、入力MASA信号302中の決定されたデータフィールドを読み取る要素として、かつ、データフィールド中で符号化された値に基づいてアクティブフレーム306又は非アクティブフレーム308として分類する要素として実装することができる。図5の例は、アクティブ空間パラメーター316又は非アクティブ空間パラメーター318として符号化され得る空間情報を既に符号化したオーディオ信号302に対して一般化することができる。
本発明の実施形態は、空間オーディオ符号化システムに適用され、例えば図2には、DirACベースの空間オーディオエンコーダー及びデコーダーが示されている。以下、これについて説明する。
エンコーダー300は、通常、Bフォーマットで空間オーディオシーンを分析することができる。代替として、DirAC分析は、オーディオオブジェクト又はマルチチャネル信号又は任意の空間オーディオフォーマットの組み合わせのような異なるオーディオフォーマットを分析するように調整することができる。
DirAC分析(例えば、段階392a、392bのいずれかで実行されるような)は、入力オーディオシーン302(入力信号)からパラメトリック表現を抽出することができる。時間-周波数単位ごとに測定された到来方向(DOA)314b及び/又は拡散性314aにより、パラメーター(複数の場合もある)316、318が形成される。(例えば段階392a、392bのいずれかで実行されるような)DirAC分析の後に、空間メタデータエンコーダー(例えば、396及び/又は398)が続いてもよく、該空間メタデータエンコーダーは、DirACパラメーターを量子化及び/又は符号化して、低ビットレートのパラメトリック表現を取得してもよい(図では、低ビットレートのパラメトリック表現316、318は、空間メタデータエンコーダー396及び/又は398の上流のパラメトリック表現と同じ参照番号で示されている)。
パラメーター316及び/又は318とともに、異なるソース(複数の場合もある)(例えば、異なるマイクロホン)又はオーディオ入力信号(複数の場合もある)(例えば、マルチチャネル信号の異なる成分)302から導出されたダウンミックス信号324(326)は、従来のオーディオコアコーダーによって(例えば、伝送及び/又は記憶のために)符号化することができる。好ましい実施形態では、EVSオーディオコーダー(例えば、図2の330)が、ダウンミックス信号324(326、328)を符号化するために好ましい場合があるが、本発明の実施形態は、このコアコーダーに限定されず、任意のオーディオコアコーダーに適用することができる。ダウンミックス信号324(326、328)は、例えば、トランスポートチャネルとも称される異なるチャネルからなってもよく、信号324は、例えば、目標ビットレートに応じてBフォーマット信号、ステレオペア、又はモノラルダウンミックスを構成する4つの係数信号であるか、又はそれらを含み得る。符号化された空間パラメーター328及び符号化されたオーディオビットストリーム326は、通信チャネルを介して伝送(又は記憶)される前に多重化することができる。
デコーダー(以下を参照)において、トランスポートチャネル344は、コアデコーダーによって復号化され、DirACメタデータ(例えば、空間パラメーター316、318)は、復号化されたトランスポートチャネルとともにDirAC合成に伝達される前に、最初に復号化することができる。DirAC合成は、直接音ストリームの再生及び拡散音ストリームとの混合を制御するために、復号化されたメタデータを使用する。再生音場は、任意のラウドスピーカーレイアウトで再生することができ、又は任意の次数を有するアンビソニックスフォーマット(HOA/FOA)で生成することができる。
DirACパラメーター推定
ここで、空間パラメーター316、318(例えば、拡散性314a、方向314b)を推定するための非限定的な技術を説明する。Bフォーマットの例が提供される。
(例えば、フィルターバンク分析390から取得されるような)各周波数帯域では、音の拡散性314bとともに音の到来方向314aが推定され得る。入力Bフォーマット成分w(n)、x(n)、y(n)、z(n)の時間-周波数分析から、圧力及び速度ベクトルを以下のように決定することができる。
(n,k)=W(n,k)
(n,k)=X(n,k)e+Y(n,k)e+Z(n,k)e
式中、iは入力302のインデックスであり、k及びnは時間-周波数タイルの時間インデックス及び周波数インデックスであり、e、e、eはデカルト単位ベクトルを表す。P(n,k)及びU(n,k)は、いくつかの例では、DirACパラメーター316、318、すなわちDOA314a及び拡散性314aを計算するために必要であり得る。
Figure 2023536156000002
式中、
Figure 2023536156000003
は、複素共役を示す。結合された音場の拡散性は、
Ψ(k,n)=1-||E{I(k,n)}||/cE{E(k,n)}
によって与えられる。式中、E{.}は、時間平均演算子を示し、cは、音速を示し、E(k,n)は、
E(n,k)=ρ/4||U(n,k)||+1/(ρ)|P(n,k)|
によって与えられる音場エネルギーを示す。
音場の拡散性は、0と1との間の値を有する音強度とエネルギー密度との間の比として定義される。
到来方向(DOA)は、
direction(n,k)=-(I(n,k))/||I(n,k)||
のように定義される単位ベクトルdirection(n,k)によって表される。
到来方向314bは、Bフォーマット入力信号302の(例えば、392bにおける)エネルギー分析によって決定することができ、強度ベクトルの反対方向として定義することができる。方向は、デカルト座標で定義されるが、例えば、単位半径、方位角及び仰角によって定義される球面座標に容易に変換することができる。
伝送の場合、パラメーター314a、314b(316、318)は、ビットストリーム(例えば、304)を介して受信機側(例えば、デコーダー側)に伝送される必要がある。限られた容量を有するネットワーク上でのよりロバストな伝送のためには、低ビットレートのビットストリームが好ましく、又は必要でさえあり、これは、DirACパラメーター314a、314b(316、318)についての効率的な符号化方式を設計することによって達成することができる。これには、例えば、異なる周波数帯域及び/又は時間単位にわたってパラメーターを平均化することによる周波数帯域グループ化、予測、量子化及びエントロピー符号化等の技術を用いることができる。デコーダーにおいて、伝送されたパラメーターは、ネットワークにおいてエラーが発生しなかった場合に、各時間/周波数単位(k,n)に対して復号化することができる。しかしながら、ネットワーク状態が適切なパケット伝送を保証するのに十分に良好でない場合、パケットは伝送中に失われることがある。本発明の実施形態は、後者の場合の解決策を提供することを目的とする。
デコーダー
図6は、デコーダー装置200の一例を示している。該デコーダー装置200は、第1のフレーム346において、第1の音場パラメーター表現316と符号化オーディオ信号346とを含む符号化オーディオシーン304を処理する装置であってもよく、第2のフレーム348は非アクティブフレームである。デコーダー装置200は、
第2のフレーム348が非アクティブフレームであることを検出し、第2のフレーム308についてのパラメトリック記述328を提供する区間検出器2200、
第2のフレーム308についてのパラメトリック記述348を使用して、第2のフレーム308についての合成オーディオ信号228を合成する合成信号シンセサイザー210、
第1のフレーム306についての符号化オーディオ信号346を復号化するオーディオデコーダー230、及び
第1の音場パラメーター表現316を使用し、かつ第2のフレーム308についての合成オーディオ信号228を使用して、第1のフレーム306についてのオーディオ信号202を空間的にレンダリングする空間レンダラー240、
のうちの少なくとも1つを備え得る。
特に、区間検出器2200は、入力フレームがアクティブフレーム346として分類されるか、又は非アクティブフレーム348として分類されるかを判定し得るコマンド221’を行使することができる。区間検出器2200は、例えば、シグナリングされるか、又は取得されたフレームの長さから決定される情報221から、入力フレームの分類を決定することができる。
合成信号シンセサイザー210は、例えば、パラメーター表現348から取得された情報(例えば、パラメーター情報)を使用して、ノイズ228を生成してもよい。空間レンダラー220は、(符号化されたフレーム348から取得された)非アクティブフレーム228が非アクティブ空間パラメーター(複数の場合もある)318を通じて処理されて、人間の聴取者がノイズの起源の3D空間印象を有することを得るように、出力信号202を生成することができる。
図6において、数字314、316、318、344、346、348は、ビットストリーム304から取得されるものとして対応するので、図3の数字と同じであることに留意されたい。それにもかかわらず、(例えば、量子化による)一部のわずかな差が存在する場合がある。
図6はまた、偏向器224’を制御し得る制御器221’を示しており、信号226(合成信号シンセサイザー210によって出力される)又はオーディオ信号228(オーディオデコーダー230によって出力される)は、例えば、区間検出器220によって動作される分類を通じて選択されてもよい。特に、信号224(226又は228のいずれか)は、依然としてダウンミックス信号であってもよく、該ダウンミックス信号は、空間レンダラーがアクティブ又は非アクティブ空間パラメーター314(316、318)を通じて出力信号202を生成するように、空間レンダラー220に提供されてもよい。いくつかの例では、信号224(226又は228のいずれか)は、それにもかかわらず、信号224のチャネルの数が符号化されたバージョン344(346、348)に対して増加するようにアップミキシングされ得る。いくつかの例では、アップミキシングされているにもかかわらず、信号224のチャネルの数は、出力信号202のチャネルの数よりも少ないことがある。
以降では、デコーダー装置200の他の例が提供される。図7~図10は、デコーダー装置200を具現化し得るデコーダー装置700、800、900、1000の例を示している。
図7~図10では、いくつかの要素が空間レンダラー220の内部にあるものとして示されているが、いくつかの例では、空間レンダラー220の外部にあってもよい。例えば、合成シンセサイザー210は、部分的に又は完全に空間レンダラー220の外部にあってもよい。
それらの例では、(空間レンダラー220の内部又は外部のいずれかであり得る)パラメータープロセッサ275が含まれ得る。パラメータープロセッサ275は、図示されていないが、図6のデコーダーに存在すると見なすことができる。
図7~図10のいずれかのパラメータープロセッサ275は、例えば、(例えば、ビットストリーム304中のシグナリングから取得された)パラメーター318であり得る非アクティブフレームを与える非アクティブ空間パラメーターデコーダー278、及び/又はビットストリーム304中で読み取られないが、例えば外挿によって取得される(例えば、復元、再構成、外挿、推論される等)か又は合成的に生成される非アクティブ空間パラメーターを与えるブロック279(「非伝送フレーム中の空間パラメーターを復元するデコーダー」)を含んでもよい。
したがって、第2の音場パラメーター表現はまた、ビットストリーム304中に存在しなかった生成されたパラメーター219であり得る。後述するように、復元(再構成、外挿、推論等)された空間パラメーター219は、例えば、「保持戦略」を通して、「方向の外挿戦略」に対して、及び/又は「方向のディザリング」(以下を参照)を通して取得され得る。したがって、パラメータープロセッサ275は、前のフレームから空間パラメーター219を外挿するか、又はいずれにしても取得することができる。図6~図9に見られるように、スイッチ275’は、ビットストリーム304中でシグナリングされた非アクティブ空間パラメーター318と復元された空間パラメーター219との間で選択を行うことができる。上述したように、無音フレーム348(SID)(及び非アクティブ空間パラメーター318)の符号化は、第1のフレーム346の符号化よりも低いビットレートで更新され、非アクティブ空間パラメーター318は、アクティブ空間パラメーター316に対してより低い頻度で更新され、伝送されていない非アクティブなフレームについてのシグナリングされていない空間パラメーター219を復元するために、いくつかの戦略がパラメータープロセッサ275(1075)によって実行される。したがって、スイッチ275’は、シグナリングされた非アクティブ空間パラメーター318と、シグナリングされていない(しかし、復元されたか、又は別様で再構成された)非アクティブ空間パラメーター219との間で選択を行うことができる。場合によっては、パラメータープロセッサ275’は、第2のフレームについての音場パラメーター219を外挿(又は内挿)するために、第2のフレームの前に発生するか又は第2のフレームの後の時間に発生する複数のフレームについての1つ以上の音場パラメーター表現318を記憶することができる。概して言えば、空間レンダラー220は、第2のフレーム308のための合成オーディオ信号202のレンダリングのために、第2のフレーム219についての1つ以上の音場パラメーター318を使用することができる。加えて又は代替として、パラメータープロセッサ275は、(図10に示される)アクティブ空間パラメーターのための音場パラメーター表現316を記憶し、復元された空間パラメーター319を生成するために、記憶された第1の音場パラメーター表現316(アクティブフレーム)を使用して第2のフレーム(非アクティブフレーム)についての音場パラメーター219を合成することができる。図10に示すように(ただし、図6~図9のいずれにも実装可能である)、アクティブ空間パラメーター316をビットストリーム304から取得可能なアクティブ空間パラメーターデコーダー276を含むことも可能である。これは、第2のフレーム308についての1つ以上の音場パラメーターを決定するために外挿又は内挿する場合、第2のフレーム308の前又は後の時間に発生する少なくとも2つの音場パラメーター表現に含まれる方向を用いてディザリングを実行することができる。
合成信号シンセサイザー210は、空間レンダラー220の内部にあってもよく、又は外部にあってもよく、又は場合によっては、内部部分と外部部分とを有してもよい。合成シンセサイザー210は、(出力チャネルよりも少ない)トランスポートチャネル228のダウンミックスチャネル上で動作することができる(ここで、Mはダウンミックスチャネルの数であり、Nは出力チャネルの数であることに留意されたい)。合成信号生成器210(合成信号シンセサイザーの別名)は、第2のフレームについて、空間レンダラーの外部フォーマットに関係する個別の成分のための複数の合成成分オーディオ信号を(トランスポート信号のチャネルのうちの少なくとも1つにおいて、又は出力オーディオフォーマットの少なくとも1つの個別の成分において)合成オーディオ信号として生成することができる。場合によっては、これは、ダウンミックス信号228のチャネル内にあってもよく、場合によっては、空間レンダリングの内部チャネルの1つ内にあってもよい。
図7は、(例えば、フィルターバンク分析720の下流のそのバージョン228bにおいて)合成オーディオ信号228から取得された少なくともK個のチャネル228aが非相関化され得る一例を示している。これは、例えば、合成シンセサイザー210が合成オーディオ信号228のM個のチャネルのうちの少なくとも1つにおいて合成オーディオ信号228を生成する場合に取得される。この相関処理730は、フィルターバンク分析ブロック720の下流で信号228b(又はその成分の少なくとも1つ又はいくつか)に適用されてもよく、その結果、少なくともK個のチャネル(K≧M及び/又はK≦N、Nは出力チャネルの数)を取得することができる。その後、信号228bのK個の非相関化されたチャネル228a及び/又はM個のチャネルは、空間パラメーター218、219(上記参照)を通じてミキシング信号742を提供し得るミキシング利得/行列を生成するブロック740に提供され得る。ミキシング信号742は、N個の出力チャネル202において出力信号を取得するために、フィルターバンク合成ブロック746に供されてもよい。基本的に、図7の参照番号228aは、個別の合成成分オーディオ信号228bから非相関化された個別の合成成分オーディオ信号とすることができ、その結果、空間レンダラー(及びブロック740)は、成分228aと成分228bとの組み合わせを利用する。図8は、全チャネル228をK個のチャネルで生成する一例を示している。
さらに、図7において、非相関器730は、フィルターバンク分析ブロック720の下流のK個の非相関化されたチャネル228bに適用される。これは、例えば、拡散フィールドに対して実行されてもよい。場合によっては、フィードバック分析ブロック720の下流にある信号228bのM個のチャネルは、ミキシング利得/行列を生成するブロック744に提供されてもよい。共分散法は、例えば、異なるチャネル間の共分散に相補的な値に関連付けられた値によってチャネル228bをスケーリングすることによって、非相関器730の問題を低減するために使用されてもよい。
図8は、周波数領域にある合成信号シンセサイザー210の一例を示している。図8の合成シンセサイザー210(810)には、共分散法を用いることができる。特に、合成オーディオシンセサイザー210(810)は、その出力228cをK個のチャネル(K≧M)で提供し、一方、トランスポートチャネル228はM個のチャネルである。
図9は、図8のデコーダー800と図7のデコーダー700とのハイブリッド技術を利用するものとして理解され得るデコーダー900(デコーダー200の実施形態)の一例を示している。ここで分かるように、合成信号シンセサイザー210は、ダウンミックス信号228のM個のチャネルにおいて合成オーディオ信号228を生成する第1の部分210(710)を含む。信号228は、複数のフィルター帯域が互いに区別される出力228bを提供し得るフィルターバンク分析ブロック730に入力され得る。このとき、チャネル228bを非相関化して、K個のチャネルにおいて非相関化された信号228aを取得することができる。一方、M個のチャネルにおけるフィルターバンク分析の出力228bは、ミキシング信号742のミキシングバージョンを提供し得るミキシング利得行列を生成するブロック740に提供される。ミキシング信号742は、非アクティブ空間パラメーター318及び/又は非アクティブフレーム219についての復元された(再構成された)空間パラメーターを考慮に入れることができる。非相関器730の出力228aは、加算器920において、K個のチャネルの合成信号228dを提供する合成信号シンセサイザー210の第2の部分810の出力228dにも加算され得ることに留意されたい。信号228dは、加算ブロック920において、非相関化信号228aに加算され、加算された信号228eをミキシングブロック740に提供することができる。したがって、非相関化された成分228a及び生成された成分228dの両方を考慮に入れる成分228b及び成分228eの組み合わせを使用することによって、最終出力信号202をレンダリングすることが可能となる。図8及び図7の成分228b、228a、228d、228e(存在する)は、例えば、合成信号228の拡散成分及び非拡散成分として理解され得る。特に、図9のデコーダー900を参照すると、基本的に、信号228eの低周波数帯域は、トランスポートチャネル710から取得することができ(かつ、228aから取得される)、信号228eの高周波数帯域は、シンセサイザー810で生成することができ(かつ、チャネル228d内にある)、加算器920でのそれらの加算により、信号228e内に両方を有することが可能となる。
特に、上記の図7~図10では、アクティブフレーム用のトランスポートチャネルデコーダーは示されていない。
図10は、デコーダー1000(デコーダー200の実施形態)の一例を示しており、オーディオデコーダー230(復号化されたチャネル226を提供する)及び合成信号シンセサイザー210(ここでは、第1の外部部分710と第2の内部部分810との間で分割されると見なされる)の両方が示されている。スイッチ224’が示されており、これは図6のものと類似していてもよい(例えば、区間検出器220によって提供される制御又はコマンド221’によって制御される)。基本的に、復号化オーディオシーン226が空間レンダラー220に提供されるモードと、合成オーディオ信号228が提供される別のモードとの間で選択を行うことが可能である。ダウンミックス信号224(226、228)は、概して出力信号202のN個の出力チャネルよりも少ないM個のチャネルに存在する。
信号224(226、228)は、フィルターバンク分析ブロック720に入力することができる。(複数の周波数ビンにおける)フィルターバンク分析720の出力228bは、アップミックス加算ブロック750に入力することができ、それはまた、合成信号シンセサイザー210の第2の部分810によって提供される信号228dによって入力され得る。アップミックス加算ブロック750の出力228fは、相関器処理730に入力され得る。非相関器処理730の出力228aは、アップミックス加算ブロック750の出力228fとともに、ミキシング利得及び行列を生成するブロック740に提供され得る。アップミックス加算ブロック750は、例えば、チャネルの数をMからKに増加させてもよく(場合によっては、例えば一定の係数による乗算によってそれらをスケーリングすることができる)、K個のチャネルを、合成信号シンセサイザー210によって生成されたK個のチャネル228d(例えば第2の内部部分810)に追加してもよい。第1の(アクティブな)フレームをレンダリングするために、ミキシングブロック740は、ビットストリーム304において提供されるアクティブ空間パラメーター316、外挿されるか、又は別様で取得された復元された(再構成された)空間パラメーター210のうちの少なくとも1つを考慮することができる(上記参照)。
いくつかの例では、フィルターバンク分析ブロック720の出力はM個のチャネルに存在してもよいが、異なる周波数帯域を考慮に入れてもよい。第1のフレーム(及び図10のように位置するスイッチ224’及びスイッチ222’)については、(少なくとも2つのチャネルにおける)復号化された信号226がフィルターバンク分析720に与えられてもよく、それにより、K個のノイズチャネル228d(合成信号チャネル)を通じてアップミックス加算ブロック750において重み付けされ、K個のチャネルにおける信号228fを取得することができる。K≧Mであり、例えば、拡散チャネル及び指向性チャネルを含み得ることを想起されたい。特に、非相関器730によって拡散チャネルを非相関化して、非相関化された信号228aを取得することができる。したがって、復号化オーディオ信号224は、アクティブフレームと非アクティブフレーム(第1のフレームと第2のフレーム)との間の遷移をマスキングし得る合成オーディオ信号228dを用いて(例えば、ブロック750において)重み付けすることができる。次に、合成信号シンセサイザー210の第2の部分810は、アクティブフレームだけでなく非アクティブフレームにも使用される。
図11は、第1のフレーム346において第1の音場パラメーター表現316及び符号化オーディオ信号346を含み得るデコーダー200の別の例を示しており、第2のフレーム348は、非アクティブフレームであり、装置は、第2のフレーム348が非アクティブフレームであることを検出し、第2のフレーム308についてのパラメトリック記述328を提供する区間検出器220と、第2のフレーム308についてのパラメトリック記述348を使用して、第2のフレーム308についての合成オーディオ信号228を合成する合成信号シンセサイザー210と、第1のフレーム306についての符号化オーディオ信号346を復号化するオーディオデコーダー230と、第1の音場パラメーター表現316を使用し、かつ第2のフレーム308についての合成オーディオ信号228を使用して、第1のフレーム306についてのオーディオ信号202を空間的にレンダリングする空間レンダラー240、又は第1のフレーム306についてのオーディオ信号346と、第1のフレーム306についての第1の音場パラメーター表現316と、第2のフレーム308についての合成オーディオ信号228と、第2のフレーム308についての第2の音場パラメーター表現318とを含むメタデータ支援出力フォーマットを生成するトランスコーダーとを備える。
上記の例における合成信号シンセサイザー210を参照すると、上述したように、それは、ノイズ生成器(例えば、コンフォートノイズ生成器)を備え得る(又は、それらであってもよい)。例では、合成信号生成器210は、ノイズ生成器を備えてもよく、第1の個別の合成成分オーディオ信号は、ノイズ生成器の第1のサンプリングによって生成され、第2の個別の合成成分オーディオ信号は、ノイズ生成器の第2のサンプリングによって生成され、第2のサンプリングは、第1のサンプリングとは異なる。
加えて又は代替として、ノイズ生成器は、ノイズテーブルを含み、第1の個別の合成成分オーディオ信号は、ノイズテーブルの第1の部分を取得することによって生成され、第2の個別の合成成分オーディオ信号は、ノイズテーブルの第2の部分を取得することによって生成され、ノイズテーブルの第2の部分は、ノイズテーブルの第1の部分とは異なる。
例では、ノイズ生成器は、擬似ノイズ生成器を含み、第1の個別の合成成分オーディオ信号は、擬似ノイズ生成器の第1のシードを用いて生成され、第2の個別の合成成分オーディオ信号は、擬似ノイズ生成器の第2のシードを用いて生成される。
概して言えば、空間レンダラー220は、図6、図7、図9、図10、及び図11の例では、直接信号と、第1の音場パラメーター表現316の制御下で直接信号から非相関器730によって生成された拡散信号とのミキシングを使用して、第1のフレーム306に対して第1のモードで動作し、第1の合成成分信号と第2の合成成分信号とのミキシングを使用して、第2のフレーム308に対して第2のモードで動作し得、第1の合成成分信号及び第2の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって合成信号シンセサイザー210によって生成される。
上述したように、空間レンダラー220は、パラメータープロセッサによって第2のフレーム308について導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、第2のモードでミキシング740を制御するように構成され得る。
上記の例はまた、第1のフレーム306及び第2のフレーム308を有するオーディオ信号から符号化オーディオシーンを生成する方法に関し、第1のフレーム306におけるオーディオ信号から第1のフレーム306についての第1の音場パラメーター表現316を決定し、第2のフレーム308におけるオーディオ信号から第2のフレーム308についての第2の音場パラメーター表現318を決定することと、オーディオ信号を分析して、オーディオ信号に応じて、第1のフレーム306がアクティブフレームであり、第2のフレーム308が非アクティブフレームであると判定することと、アクティブフレームである第1のフレーム306についての符号化オーディオ信号を生成し、非アクティブフレームである第2のフレーム308についてのパラメトリック記述348を生成することと、第1のフレーム306についての第1の音場パラメーター表現316と、第2のフレーム308についての第2の音場パラメーター表現318と、第1のフレーム306についての符号化オーディオ信号と、第2のフレーム308についてのパラメトリック記述348とを一緒にすることによって、符号化オーディオシーンを構成することとを含む。
上記の例はまた、第1のフレーム306において、第1の音場パラメーター表現316と符号化オーディオ信号とを含む符号化オーディオシーンを処理する方法であって、第2のフレーム308が、非アクティブフレームであり、方法は、第2のフレーム308が非アクティブフレームであることを検出し、第2のフレーム308についてのパラメトリック記述348を提供することと、第2のフレーム308についてのパラメトリック記述348を使用して、第2のフレーム308についての合成オーディオ信号228を合成することと、第1のフレーム306についての符号化オーディオ信号を復号化することと、第1の音場パラメーター表現316を使用し、かつ第2のフレーム308についての合成オーディオ信号228を使用して、第1のフレーム306についてのオーディオ信号を空間的にレンダリングすること、又は第1のフレーム306についてのオーディオ信号、第1のフレーム306についての第1の音場パラメーター表現316、第2のフレーム308についての合成オーディオ信号228、及び第2のフレーム308についての第2の音場パラメーター表現318を含むメタデータ支援出力フォーマットを生成することとを含む。
第1のフレーム306についての第1の音場パラメーター表現316と、第2のフレーム308についての第2の音場パラメーター表現318と、第1のフレーム306についての符号化オーディオ信号と、第2のフレーム308についてのパラメトリック記述348とを含む符号化オーディオシーン304も提供される。
上記の例では、空間パラメーター316及び/又は318は、各周波数帯域(サブバンド)について伝送されてもよい。
いくつかの例によれば、この無音パラメトリック記述348は、したがってSID348の一部であり得るこの部分的パラメーター318を含み得る。
非アクティブフレームについての空間パラメーター318は、各周波数サブバンド(又は帯域又は周波数)について有効であり得る。
アクティブフェーズ346中及びSID348において伝送又は符号化された上述の空間パラメーター316及び/又は318は、異なる周波数分解能を有することができ、加えて又は代替として、アクティブフェーズ346中及びSID348において伝送又は符号化された上述の空間パラメーター316及び/又は318は、異なる時間分解能を有することができ、加えて又は代替として、アクティブフェーズ346中及びSID348において伝送又は符号化された上述の空間パラメーター316及び/又は318は、異なる量子化分解能を有することができる。
復号化デバイス及び符号化デバイスは、CELP又はDCX又は帯域幅拡張モジュールのようなデバイスであり得ることに留意されたい。
MDCTベースの符号化方式(修正離散コサイン変換)を使用することも可能である。
デコーダー装置200のこの例では(その実施形態のいずれか、例えば図6~図11の実施形態では)、オーディオデコーダー230及び空間レンダラー240を、第1のフレームについてのオーディオ信号、第1のフレームについての第1の音場パラメーター表現、第2のフレームについての合成オーディオ信号、及び第2のフレームについての第2の音場パラメーター表現を含むメタデータ支援出力フォーマットを生成するトランスコーダーに置き換えることが可能である。
考察
本発明の実施形態は、DTXをパラメトリック空間オーディオ符号化に拡張する方法を提案する。したがって、従来のDTX/CNGをダウンミックス/トランスポートチャネル(例えば324、224)に適用し、デコーダー側で、それを空間パラメーター(以下、空間SIDと称する)、例えば、316、318及び非アクティブフレーム(例えば、308、328、348、228)についての空間レンダリングを用いて拡張することが提案されている。非アクティブフレーム(例えば、308、328、348、228)の空間像を復元するために、トランスポートチャネルSID326、226は、没入型バックグラウンドノイズのために特別に設計され関連する一部の空間パラメーター(空間SID)319(又は219)を用いて修正される。本発明の実施形態(以降及び/又は上記で説明される)は、少なくとも2つの態様を網羅している。
・空間レンダリングのためにトランスポートチャネルSIDを拡張する。このために、記述子は、例えばDirACパラダイム又はMASAフォーマットから導出された空間パラメーター318で修正される。拡散性314a、及び/又は到来方向(複数の場合もある)314b、及び/又はチャネル間/サラウンドコヒーレンス(複数の場合もある)、及び/又はエネルギー比のようなパラメーター318のうちの少なくとも1つは、トランスポートチャネルSID328(348)とともに伝送され得る。特定の場合及び特定の仮定の下では、パラメーター318の一部を破棄することができる。例えば、バックグラウンドノイズが完全に拡散されていると仮定すると、無意味な方向314bの伝送を破棄することができる。
・受信機側で、空間内にトランスポートチャネルCNGをレンダリングすることによって非アクティブフレームを空間化する。DirAC合成原理又はその派生の1つは、バックグラウンドノイズの空間SID記述子における最終的に伝送される空間パラメーター318によって誘導されて使用され得る。少なくとも2つの選択肢が存在し、これらを組み合わせることも可能である。トランスポートチャネルコンフォートノイズ生成は、トランスポートチャネル228に対してのみ生成することができ(これは図7の場合であり、コンフォートノイズ228が合成信号シンセサイザー710によって生成される)、又は、トランスポートチャネルCNGは、トランスポートチャネルに対して、かつアップミキシングのためにレンダラーで使用される追加のチャネルに対しても生成することができる(これは図9の場合であり、何らかのコンフォートノイズ228が合成信号シンセサイザーの第1の部分710によって生成されるが、何らかの他のコンフォートノイズ228dが合成信号シンセサイザーの第2の部分810によって生成される)。後者の場合では、CNGの第2の部分710(例えば、異なるシードを有するランダムノイズ228dをサンプリングする)は、生成されたチャネル228dを自動的に非相関化し、典型的なアーティファクトのソースであり得る非相関器730の使用を最小化することができる。さらに、CNGは、(図10に示すように)アクティブフレームにおいても使用され得るが、いくつかの例では、アクティブフェーズと非アクティブフェーズ(フレーム)との間の遷移を平滑化するために、また、トランスポートチャネルコーダー及びパラメトリックDirACパラダイムからの最終的なアーティファクトをマスキングするために、強度が低減される。
図3は、エンコーダー装置300の実施形態の概要を示している。エンコーダー側では、DirAC分析によって信号を分析することができる。DirACは、Bフォーマット又は1次アンビソニックス(FOA)のような信号を分析することができる。しかしながら、この原理を高次アンビソニックス(HOA)に拡張することも可能であり、[10]で提案されているように、5.1又は7.1又は7.1+4のような所与のラウドスピーカーセットアップに関連付けられたマルチチャネル信号に拡張することさえも可能である。入力フォーマット302はまた、関連付けられたメタデータに含まれる情報によって空間内で定位された1つ又は複数の異なるオーディオオブジェクトを表す個別のオーディオチャネルであり得る。代替として、入力フォーマット302は、メタデータ関連空間オーディオ(MASA)であり得る。この場合、空間パラメーター及びトランスポートチャネルは、エンコーダー装置300に直接伝達される。オーディオシーン分析(例えば、図5に示されるような)は、スキップすることができ、最終的な空間パラメーター(再)量子化及び再サンプリングのみが、空間パラメーターの非アクティブなセット318に対して、又は空間パラメーターのアクティブなセット316及び非アクティブなセット318の両方に対して実行される必要がある。
オーディオシーン分析は、アクティブフレーム306と非アクティブフレーム308の両方に対して行われ、2組の空間パラメーター316、318を生成することができる。第1のセット316はアクティブフレーム308の場合であり、別のセット318は非アクティブフレーム308の場合である。非アクティブ空間パラメーターを有さないことも可能であるが、本発明の好ましい実施形態では、非アクティブ空間パラメーター318は、アクティブ空間パラメーター316よりも少なく、及び/又はより粗く量子化される。その後、空間パラメーターの2つのバージョン(DirACメタデータとも称される)が利用可能となり得る。重要なことに、本発明の実施形態は、主に、聴取者の視点からのオーディオシーンの空間表現を対象とすることができる。したがって、最終的な拡散率又はエネルギー比(複数の場合もある)とともに1つ又は複数の方向を含むDirACパラメーター318、316のような空間パラメーターが考慮される。チャネル間パラメーターとは異なり、聴取者の視点からのこれらの空間パラメーターは、サウンドキャプチャ及び再生システムに依存しないという大きな利点を有する。このパラメーター化は、任意の特定のマイクロホンアレイ又はラウドスピーカーレイアウトに固有ではない。
次いで、発話区間検出器(又はより概しては区間検出器)320が、オーディオシーン分析器によって生成された入力信号302及び/又はトランスポートチャネル326に適用され得る。トランスポートチャネルは、入力チャネルの数よりも少なく、通常、モノラルダウンミックス、ステレオダウンミックス、Aフォーマット、又は1次アンビソニックス信号である。VADの判定に基づいて、処理中の現在のフレームは、アクティブ(306、326)又は非アクティブ(308、328)として定義される。アクティブフレーム306、326の場合、トランスポートチャネルの従来の音声又はオーディオ符号化が実行される。得られたコードデータは、次に、アクティブ空間パラメーター316と結合される。非アクティブフレーム308、328の場合、トランスポートチャネル324の無音情報記述328は、非アクティブフェーズ中に通常は規則的なフレーム間隔で、例えば8つのアクティブフレーム306、326、346ごとに、偶発的に生成される。次いで、トランスポートチャネルSID328、348は、マルチプレクサ(符号化信号形成器)370において、非アクティブ空間パラメーターを用いて修正され得る。非アクティブ空間パラメーター318がヌルである場合、トランスポートチャネルSID348のみが伝送される。SID全体は、通常、例えば2.4kbps又は4.25kbpsといった非常に低いビットレート記述とすることができる。非アクティブフェーズでは、ほとんどの時間、伝送が行われず、データが送信されないので、平均ビットレートは更に低下する。
本発明の好ましい実施形態では、トランスポートチャネルSID348は2.4kbpsのサイズを有し、空間パラメーターを含むSID全体は4.25kbpsのサイズを有する。非アクティブ空間パラメーターの計算は、高次アンビソニックス(HOA)から直接導出され得るFOAのようなマルチチャネル信号を入力として有するDirACについては図4に、MASA入力フォーマットについては図5に記載されている。前述したように、非アクティブ空間パラメーター318は、アクティブ空間パラメーター316と並行して導出することができ、既に符号化されたアクティブ空間パラメーター318を平均化及び/又は再量子化する。入力フォーマット302としてのFOAのようなマルチチャネル信号の場合、マルチチャネル信号302のフィルターバンク分析は、各時間及び周波数タイルについて、空間パラメーター、方向及び拡散性を計算する前に実行されてもよい。メタデータエンコーダー396、398は、量子化器及び量子化されたパラメーターの符号化を適用する前に、異なる周波数帯域及び/又はタイムスロットにわたってパラメーター316、318を平均化することができる。さらに、非アクティブ空間メタデータエンコーダーは、アクティブ空間メタデータエンコーダーにおいて導出された量子化されたパラメーターの一部から継承して、それらを非アクティブ空間パラメーターにおいて直接使用するか、又はそれらを再量子化することができる。MASAフォーマット(例えば図5)の場合、まず入力メタデータが読み取られ、所与の時間-周波数及びビット深度分解能でメタデータエンコーダー396、398に提供され得る。次いで、メタデータエンコーダー(複数の場合もある)396、398は、最終的に一部のパラメーターを変換し、その分解能を適合させ(すなわち、分解能を低下させ、例えばそれらを平均化する)、例えばエントロピー符号化方式によって符号化する前にそれらを再量子化することによって更に処理する。
例えば図6に示すように、デコーダー側では、伝送されたパケット(例えばフレーム)のサイズを検出することによって、又はパケットの非伝送を検出することによって、VAD情報221(例えばフレームがアクティブ又は非アクティブとして分類されるかどうか)が最初に復元される。アクティブフレーム346では、デコーダーはアクティブモードで動作し、トランスポートチャネルコーダーペイロードはアクティブ空間パラメーターと同様に復号化される。空間レンダラー220(DirAC合成)は、次いで、出力空間フォーマットの復号化された空間パラメーター316、318を使用して、復号化されたトランスポートチャネルをアップミキシング/空間化する。非アクティブフレームでは、(例えば、図10中の)トランスポートチャネルCNG部分810によって、コンフォートノイズがトランスポートチャネル中で生成され得る。CNGは、通常はエネルギー及びスペクトル形状を(例えば、周波数領域で適用されるスケールファクター又は時間領域合成フィルターを通して適用される線形予測符号化係数を通して)調整するために、トランスポートチャネルSIDに導かれる。コンフォートノイズ(複数の場合もある)228d、228a等は、次いで、今度は非アクティブ空間パラメーター318によって誘導されて、空間レンダラー(DirAC合成)740においてレンダリング/空間化される。出力空間フォーマット202は、バイノーラル信号(2チャネル)、所与のラウドスピーカーレイアウトのためのマルチチャネル、又はアンビソニックフォーマットのマルチチャネル信号であり得る。代替的な実施形態では、出力フォーマットは、メタデータ支援空間オーディオ(MASA)とすることができ、これは、復号化されたトランスポートチャネル又はトランスポートチャネルコンフォートノイズが、外部デバイスによるレンダリングのために、それぞれアクティブ空間パラメーター又は非アクティブ空間パラメーターとともに直接出力されることを意味する。
非アクティブ空間パラメーターの符号化及び復号化
非アクティブ空間パラメーター318は、周波数帯域における複数の方向のうちの1つと、総エネルギーに対する1つの指向性成分の比に対応する周波数帯域における関連するエネルギー比とからなり得る。1つの方向の場合、好ましい実施形態のように、エネルギー比は、エネルギーの比に対して相補的である拡散性に置き換え、次いで、パラメーターの元のDirACセットに従うことができる。指向性成分(複数の場合もある)は概して、非アクティブフレームでは拡散部分よりも関連性が低いと予想されるので、アクティブフレーム等ではより粗い量子化方式を使用して、及び/又はより粗い時間分解能及び/又は周波数分解能を得るために時間又は周波数にわたって方向を平均化することによって、より少ないビットで伝送することもできる。好ましい実施形態では、方向は、アクティブフレームについて5msの代わりに20msごとに送信されてもよいが、5つの非一様帯域の同じ周波数分解能が用いられる。
好ましい実施形態では、拡散性314aは、アクティブフレームと同じ時間/周波数で伝送され得るが、より少ないビットで伝送され、最小の量子化インデックスを強制する。例えば、拡散性314aがアクティブフレームにおいて4ビットで量子化される場合、2ビットのみで伝送され、0~3の元のインデックスの伝送は回避される。復号化されたインデックスは、次に+4のオフセットで加算される。
いくつかの例では、方向314bを送信することを完全に回避すること、又は代替として、拡散性314aを送信することを回避し、デコーダーにおいてデフォルト値又は推定値によってそれを置き換えることも可能である。
さらに、入力チャネルが空間領域に位置するチャネルに対応する場合、チャネル間コヒーレンスを伝送することを考慮することができる。チャネル間レベル差も、方向の代替となる。
より適切なのは、音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを送信することである。これは、例えば、直接信号と拡散信号との間でエネルギーを再分配することによって、空間レンダラー(DirAC合成)において利用することができる。サラウンドコヒーレント成分のエネルギーは、指向性成分に再分配される拡散エネルギーから除去され、指向性成分は、次いで、空間内でより均一にパンされる。
当然ながら、非アクティブ空間パラメーターについては、先に列挙したパラメーターの任意の組み合わせを考慮することができる。ビットを節約するために、非アクティブフェーズではパラメーターを送信しないことも考えられる。
非アクティブ空間メタデータエンコーダーの例示的な擬似コードを以下に示す。
bistream = inactive_spatial_metadata_encoder (
azimuth, /* i: アクティブ空間メタデータエンコーダーからの方位角値 */
elevation, /* i: アクティブ空間メタデータエンコーダーからの仰角値 */
diffuseness_index, /* i/o: アクティブ空間メタデータエンコーダーからの拡散性指数 */
metadata_sid_bits /* 非アクティブ空間メタデータに割り振られたiビット(空間SID) */
)
{
/* シグナリング2D*/
not_in_2D = 0;
for ( b = start_band; b < nbands; b++ )
{
for ( m = 0; m < nblocks; m++ )
{
not_in_2D += elevation[b][m];
}
}
write_next_indice( bistream, (not_in_2D > 0 ), 1 ); /*2Dフラグ*/

//*必要なビット数を数える*/
bits_dir = 0;
bits_diff = 0;
for ( b = start_band; b < nbands; b++ )
{
diffuseness_index[b] = max( diffuseness_index[b], 4 );
bits_diff += get_bits_diffuseness(diffuseness_index[b] - 4, DIRAC_DIFFUSE_LEVELS - 4);
if ( not_in_2D == 0 )
{
bits_dir += get_bits_azimuth(diffuseness_index[b]);
}
else
{
bits_dir += get_bits_spherical(diffuseness_index[b]);
}
}

/* 拡散性指数を増加させることによってビット要求を減少させる*/
bits_delta = metadata_sid_bits - 1 - bits_diff - bits_dir;
while ( ( bits_delta < 0 ) && (not_in_2D > 0 ) )
{
for ( b = nbands - 1; b >= start_band && ( bits_delta < 0 ); b-- )
{
if ( diffuseness_index[b] < ( DIRAC_DIFFUSE_LEVELS - 1 ) )
{
bits_delta += get_bits_spherical(diffuseness_index[b]);
diffuseness_index[b]++;
bits_delta -= get_bits_spherical(diffuseness_index[b]);
}
}
}

/*拡散性指数を書き込む*/
for ( b = start_band; b < nbands; b++ )
{
Write_diffuseness(bitstream, diffuseness_index[b]- 4, DIRAC_DIFFUSE_LEVELS - 4);
}

/* 帯域毎の平均方向を計算し、量子化する*/
for ( b = start_band; b < nbands; b++ )
{
set_zero( avg_direction_vector, 3 );
for ( m = 0; m < nblocks; m++ )
{
/*平均方向を計算する*/
azimuth_elevation_to_direction_vector(azimuth[b][m], elevation[b][m], direction_vector );
v_add( avg_direction_vector, direction_vector, avg_direction_vector, 3 );
}
direction_vector_to_azimuth_elevation( avg_direction_vector, &avg_azimuth[b], &avg_elevation[b] );

/* 平均方向を量子化する*/
if ( not_in_2D > 0 )
{
Code_and_write_spherical_angles(bitsream, avg_elevation[b], avg_azimuth[b], get_bits_spherical(diffuseness_index[b]));
}
else
{
Code_and_write_azimuth (bitsream, avg_azimuth[b], get_bits_azimuth(diffuseness_index[b]));
}
}

For(i=0; i<delta_bits; i++)
{
Write_next_bit ( bitstream, 0); /*値0でビットを埋める*/
}
}
非アクティブ空間メタデータデコーダーの例示的な擬似コードを以下に示す。
[diffuseness, azimuth, elevation] = inactive_spatial_metadata_decoder(bitstream)

/*2Dシグナリングを読み取る*/
not_in_2D = read_next_bit(bitstream);

/*拡散性を復号化する*/
for ( b = start_band; b < nbands; b++ )
{
diffuseness_index[b] = read_diffuseness_index( bitstream, DIFFUSE_LEVELS - 4 ) + 4;
diffuseness_avg = diffuseness_reconstructions[diffuseness_index[b]];
for ( m = 0; m < nblocks; m++ )
diffuseness[b][m] = diffusenessavg;
}


/*デコーダーDOA*/
if (not_in_2D > 0)
{
for ( b = start_band; b < nbands; b++ )
{
bits_spherical = get_bits_spherial(diffuseness_index[b]);
spherical_index = Read_spherical_index( bitstream, bits_spherical);
azimuth_avg = decode_azimuth(spherical_index, bits_spherical);
elevation_avg = decode_elevation(spherical_index, bits_spherical);
for ( m = 0; m < nblocks; m++ )
{
elevation[b][m] *= 0.9f;
elevation[b][m] += 0.1f * elevation_avg;
azimuth[b][m] *= 0.9f;
azimuth[b][m] += 0.1f * azimuth_avg;
}
}
}
else
{
for ( b = start_band; b < nbands; b++ )
{
bits_azimuth = get_bits_azimuth(diffuseness_index[b]);
azimuth_index = Read_azimuth_index( bitstream, bits_azimuth);
azimuth_avg = decode_azimuth(diffuseness_index,_ bits_azimuth);
for ( m = 0; m < nblocks; m++ )
{
elevation[b][m] *= 0.9f;
azimuth[b][m] *= 0.9f;
azimuth[b][m] += 0.1f * azimuth_avg;
}
}
}
デコーダー側での非伝送の場合の空間パラメーターの復元
非アクティブフェーズ中のSIDの場合、空間パラメーターは、完全に又は部分的に復号化され、次いで、後続のDirAC合成のために使用され得る。
データ伝送がない場合、又は空間パラメーター318が当該トランスポートチャネル348とともに伝送されない場合、空間パラメーター219を復元する必要があり得る。これは、過去に受信されたパラメーター(例えば、316及び7又は318)を考慮することによって、欠落パラメーター219(例えば、図7~図10)を合成的に生成することによって達成することができる。不安定な空間像は、特に安定していて急速に変化しないと見なされるバックグラウンドノイズに関して、不快であると認識される可能性がある。一方、厳密に一定の空間像は不自然に認識される可能性がある。異なる戦略を適用することができる。
保持戦略:
一般に、空間像が経時的に比較的安定する必要があることを考慮することが安全であり、これは、DOA及び拡散性に関して、DirACパラメーター、すなわちフレーム間であまり変化しないことに置き換えることができる。このため、単純であるが効果的な手法は、復元された空間パラメーター219として、最後に受信された空間パラメーター316及び/又は318を保持することである。これは、少なくとも長期特性を有する拡散性に対して非常にロバストな手法である。しかしながら、方向については、以下に列挙するような異なる戦略を想定することができる。
方向の外挿:
代替として又は加えて、オーディオシーンにおけるサウンドイベントの軌跡を推定し、次いで、推定された軌跡を外挿することを試みることが想定され得る。これは、サウンドイベントが点音源として空間内で良好に定位される場合に特に関連し、これは、DirACモデルにおいて低い拡散性によって反映される。推定された軌道は、過去の方向の観察及びこれらの点の間の曲線のフィッティングから計算することができ、これは内挿又は平滑化のいずれかを発展させることができる。回帰分析を用いることもできる。パラメーター219の外挿は、次いで、(例えば、以前のパラメーター316及び/又は318を含む)観察されたデータの範囲を超えてフィッティングされた曲線を評価することによって行われてもよい。しかしながら、この手法は、バックグラウンドノイズが無用であり、大部分が拡散されることが予想される非アクティブフレーム348にはあまり関連しない結果となり得る。
方向のディザリング:
特にバックグラウンドノイズの場合のように、サウンドイベントがより拡散している場合、方向はあまり意味を持たず、確率過程の実測値とみなすことができる。ディザリングは、非伝送フレームに使用する前に、ランダムノイズを以前の方向に注入することによって、レンダリングされた音場をより自然に、より快適にするのに役立ち得る。注入されたノイズ及びその分散は、拡散性の関数であり得る。例えば、方位角及び仰角における注入されたノイズの分散σazi及びσeleは、以下のような拡散性Ψの単純なモデル関数に従うことができる。
σazi=65Ψ3.5+σele
σele=33.25Ψ+1.25
コンフォートノイズ生成及び空間化(デコーダー側)
次に、上記で提供されたいくつかの例について説明する。
第1の実施形態では、コンフォートノイズ生成器210(710)は、図7に示すようにコアデコーダー内で実行される。得られたコンフォートノイズは、トランスポートチャネルに注入され、次いで、伝送された非アクティブ空間パラメーター318の助けを借りて、又は非伝送の場合には、前述したように推定された空間パラメーター219を使用して、DirAC合成において空間化される。次いで、空間化は、前述した方法で、例えば、復号化されたトランスポートチャネルから導出され、非アクティブフレームの場合にはトランスポートチャネルコンフォートノイズから導出される2つのストリーム、すなわち指向性及び無指向性を生成することによって、実現することができる。2つのストリームは、その後、ブロック740において、空間パラメーター318に依存して、アップミキシングされ、ミキシングされる。
あるいは、コンフォートノイズ又はその一部は、フィルターバンク領域におけるDirAC合成内で直接生成されてもよい。実際に、DirACは、トランスポートチャネル224、空間パラメーター318、316、319、及び一部の非相関器(例えば730)の助けを借りて、復元されたシーンのコヒーレンスを制御することができる。非相関器730は、合成された音場のコヒーレンスを低減することができる。空間像は、ヘッドホン再生の場合には、より広い幅、深度、拡散、残響又は外在化で認識される。しかし、非相関器は、典型的な可聴アーティファクトを生じやすいことが多く、その使用を減らすことが望ましい。これは、例えば、トランスポートチャネルの既存の非コヒーレント成分を利用することによる、いわゆる共分散合成法[5]によって達成することができる。しかし、この手法は、特にモノラルトランスポートチャネルの場合に制限を有する場合がある。
ランダムノイズによって生成されるコンフォートノイズの場合、各出力チャネル又は少なくともそれらのサブセットに対して、専用のコンフォートノイズを生成することが有利である。より具体的には、コンフォートノイズ生成を、トランスポートチャネルだけでなく、空間レンダラー(DirAC合成)220において(及びミキシングブロック740において)使用される中間オーディオチャネルにも適用することが有利である。拡散場の非相関は、非相関器730を使用するのではなく、異なるノイズ生成器を使用することによって直接与えられ、これは、アーティファクトの量だけでなく、全体的な複雑性も低減することができる。実際に、ランダムノイズの異なる実測値は、定義上、非相関である。図8及び図9は、空間レンダラー220内で完全に又は部分的にコンフォートノイズを生成することによって、これを達成する2つの方法を示している。図8において、CNは、[5]に記載されているように周波数領域において行われ、フィルターバンク分析720及び非相関器730の両方を回避して、空間レンダラーのフィルターバンク領域を用いて直接生成することができる。ここで、コンフォートノイズが生成されるチャネルの数Kは、トランスポートチャネルの数M以上であり、出力チャネルの数N以下である。最も簡単な場合には、K=Nである。
図9は、レンダラーにコンフォートノイズ生成810を含めるための別の代替例を示している。コンフォートノイズ生成は、空間レンダラー220の内部710と外部810との間で分割される。レンダラー220におけるコンフォートノイズ228dは、最終的な非相関器出力228aに(加算器920で)加算される。例えば、低帯域は、必要なメモリを容易に更新できるようにするために、コアコーダーと同じ領域の外部で生成してもよい。一方、コンフォートノイズの生成は、高周波数用のレンダラーにおいて直接実行することができる。
さらに、コンフォートノイズ生成は、アクティブフレーム346の間にも適用され得る。アクティブフレーム346の間にコンフォートノイズ生成を完全にオフにする代わりに、その強度を低減することによって、コンフォートノイズ生成をアクティブに保つことができる。これは、アクティブフレームと非アクティブフレームとの間の遷移をマスキングし、また、コアコーダーとパラメトリック空間オーディオモデルとの両方のアーティファクト及び不完全性をマスキングする役割を果たす。これは、モノラル音声符号化用に[11]で提案されたものである。同じ原理を空間音声符号化に拡張することができる。図10は、実施態様を示している。このとき、空間レンダラー220におけるコンフォートノイズ生成は、アクティブフェーズ及び非アクティブフェーズの両方で切り替えられる。非アクティブフェーズ348において、これは、トランスポートチャネルにおいて実行されるコンフォートノイズ生成に対して相補的である。レンダラーにおいて、コンフォートノイズは、非相関器の使用を低減することを目的として、M個のトランスポートチャネル以上のK個のチャネル上で行われる。空間レンダラー220におけるコンフォートノイズ生成は、トランスポートチャネルのアップミキシングされたバージョン228fに追加され、これは、M個のチャネルのK個のチャネルへの単純なコピーによって達成することができる。
態様
エンコーダーについて:
1.オーディオシーンを記述するメタデータを用いて、複数のチャネル又は1つ若しくは複数のオーディオチャネルを有する空間オーディオフォーマットを符号化するオーディオエンコーダー装置(300)であって、
a.空間オーディオ入力信号(302)のシーンオーディオ分析器(310)であって、1つ又は複数のトランスポートチャネルを含む入力信号(202)の空間像及びダウンミキシングされたバージョン(326)を記述する空間パラメーターの第1のセット又は第1のセット(318)及び第2のセット(319)を生成するように構成され、トランスポートチャネルの数は、入力チャネルの数よりも少ない、シーンオーディオ分析器(310)、
b.アクティブフェーズ(306)においてトランスポートチャネルを含むダウンミキシングされた信号(326)を符号化することによって符号化データ(346)を生成するように構成されたトランスポートチャネルエンコーダーデバイス(340)、
c.非アクティブフェーズ(308)におけるトランスポートチャネル(328)のバックグラウンドノイズの無音挿入記述(348)を生成するトランスポートチャネル無音挿入記述子(350)、
d.アクティブフェーズ(306)の間、空間パラメーターの第1のセット(318)と符号化されたデータ(344)とを組み合わせてビットストリーム(304)にし、非アクティブフェーズ(308)の間、データを送信しないか、又は無音挿入記述(348)を送信するか、又は無音挿入記述(348)と空間パラメーターの第2のセット(318)とを組み合わせて送信する、マルチプレクサ(370)、
のうちの少なくとも1つを備える、オーディオエンコーダー装置。
2.シーンオーディオ分析器(310)は、指向性オーディオ符号化(DirAC)原理に従う、1に記載のオーディオエンコーダー。
3.シーンオーディオ分析器(310)は、1つ又は複数のトランスポートチャネル(348)とともに入力メタデータを解釈する、1に記載のオーディオエンコーダー。
4.シーンオーディオ分析器(310)は、入力メタデータから1つ又は2つのセットのパラメーター(316、318)を導出し、1つ又は複数の入力オーディオチャネルからトランスポートチャネルを導出した、1に記載のオーディオエンコーダー。
5.空間パラメーターは、1つ若しくは複数の到来方向(DOA)(314b)、又は拡散性(314a)、又は1つ若しくは複数のコヒーレンスのいずれかである、1に記載のオーディオエンコーダー。
6.空間パラメーターは、異なる周波数サブバンドについて導出される、1に記載のオーディオエンコーダー。
7.トランスポートチャネルエンコーダーデバイスは、CELP原理に従うか、又はMDCTベースの符号化方式であるか、又は2つの方式の切り替えられた組み合わせである、1に記載のオーディオエンコーダー。
8.アクティブフェーズ(306)及び非アクティブフェーズ(308)は、トランスポートチャネル上で実行される発話区間検出器(320)によって決定される、1に記載のオーディオエンコーダー。
9.空間パラメーターの第1のセット(316)及び第2のセット(318)は、時間分解能若しくは周波数分解能、又は量子化分解能、又はパラメーターの性質が異なる、1に記載のオーディオエンコーダー。
10.空間オーディオ入力フォーマット(202)は、アンビソニックフォーマット、又はBフォーマット、又は所与のラウドスピーカーセットアップに関連付けられたマルチチャネル信号、又はマイクロホンアレイから導出されたマルチチャネル信号、又はメタデータを伴う個別のオーディオチャネルのセット、又はメタデータ支援空間オーディオ(MASA)である、1に記載のオーディオエンコーダー。
11.空間オーディオ入力フォーマットは、3つ以上のオーディオチャネルからなる、1に記載のオーディオエンコーダー。
12.トランスポートチャネルの数は、1、2又は4である(他の数が選択されてもよい)、1に記載のオーディオエンコーダー。
デコーダーについて:
1.空間オーディオ出力信号(202)を生成するためにビットストリーム(304)を復号化するオーディオデコーダー装置(200)であって、ビットストリーム(304)は、少なくとも1つのアクティブフェーズ(306)と、それに続く少なくとも1つの非アクティブフェーズ(308)とを含み、ビットストリームは、トランスポート/ダウンミックスチャネル(228)及び/又は空間像情報のバックグラウンドノイズ特性を記述する少なくとも1つの無音挿入記述子フレームSlD(348)をその中に符号化しており、オーディオデコーダー装置(200)は、
a.無音SlD(348)を復号化してトランスポート/ダウンミックスチャネル(228)におけるバックグラウンドノイズを再構成するように構成された無音挿入記述子デコーダー(210)、
b.アクティブフェーズ(306)中にビットストリーム(304)からトランスポート/ダウンミックスチャネル(226)を再構成するように構成された復号化デバイス(230)、
c.アクティブフェーズ(306)中に復号化されたトランスポート/ダウンミックスチャネル(224)及び伝送された空間パラメーター(316)から、及び非アクティブフェーズ(308)中にトランスポート/ダウンミックスチャネル(228)における再構成されたバックグラウンドノイズから、空間出力信号(202)を再構成する(740)ように構成された空間レンダリングデバイス(220)、
のうちの少なくとも1つを備える、オーディオデコーダー装置。
2.アクティブフェーズにおいて伝送される空間パラメーター(316)は、拡散性、又は到来方向、又はコヒーレンスからなる、1に記載のオーディオデコーダー。
3.空間パラメーター(316、318)は、周波数サブバンドによって伝送される、1に記載のオーディオデコーダー。
4.無音挿入記述(348)は、トランスポート/ダウンミックスチャネル(228)のバックグラウンドノイズ特性に加えて空間パラメーター(318)を含む、1に記載のオーディオデコーダー。
5.SID(348)で伝送されるパラメーター(318)は、拡散性、又は到来方向、又はコヒーレンスからなり得る、4に記載のオーディオデコーダー。
6.SID(348)で伝送される空間パラメーター(318)は、周波数サブバンドによって伝送される、4に記載のオーディオデコーダー。
7.アクティブフェーズ(346)中及びSID(348)において伝送又は符号化される空間パラメーター(316、318)は、異なる周波数分解能、又は時間分解能、又は量子化分解能のいずれかを有する、4に記載のオーディオデコーダー。
8.空間レンダラー(220)は、
a.復号化されたトランスポート/ダウンミックスチャネル(複数の場合もある)(226)及び/又は再構成されたバックグラウンドノイズ(228)の非相関化されたバージョン(228b)を得る非相関器(730)、
b.復号化されたトランスポート/ダウンミックスチャネル(複数の場合もある)(226)又は再構成されたバックグラウンドノイズ(228)及びそれらの非相関化されたバージョン(228b)から、並びに空間パラメーター(348)から出力信号を導出するアップミキサー、
からなり得る、1に記載のオーディオデコーダー。
9.空間レンダラーのアップミキサーは、
a.無音記述子(448)に記述された特性及び/又はアクティブフェーズ(346)で適用されるノイズ推定によって与えられる特性を有する少なくとも2つの非相関バックグラウンドノイズ(228、228a、228d)を生成する少なくとも2つのノイズ生成器(710、810)を含む、8に記載のオーディオデコーダー。
10.アップミキサーにおいて生成された非相関バックグラウンドノイズは、アクティブフェーズにおいて伝送された空間パラメーター及び/又はSIDに含まれる空間パラメーターを考慮して、復号化されたトランスポートチャネル又はトランスポートチャネルにおいて再構成されたバックグラウンドノイズとミキシングされる、9に記載のオーディオデコーダー。
11.復号化デバイスは、CELPのような音声コーダー、又はTCX若しくは帯域幅拡張モジュールのような一般的なオーディオコーダーを備える、前述の態様のうちの1つに記載のオーディオデコーダー。
図面の更なる特徴付け
図1:[1]からのDirAC分析及び合成
図2:低ビットレート3DオーディオコーダーにおけるDirAC分析及び合成の詳細なブロック図
図3:デコーダーのブロック図
図4:DirACモードにおけるオーディオシーン分析器のブロック図
図5:MASA入力フォーマットのためのオーディオシーン分析器のブロック図
図6:デコーダーのブロック図
図7:トランスポートチャネルにおけるCNGがレンダラーの外部にある空間レンダラー(DirAC合成)のブロック図
図8:K個のチャネル(K≧M個のトランスポートチャネル)についてのレンダラーのフィルターバンク領域において直接実行されるCNGを有する空間レンダラー(DirAC合成)のブロック図。
図9:空間レンダラーの外側と内側の両方で実行されるCNGを有する空間レンダラー(DirAC合成)のブロック図。
図10:空間レンダラー(DirAC合成)のブロック図であり、CNGは、空間レンダラーの外側と内側の両方で実行され、アクティブフレームと非アクティブフレームの両方に対してスイッチオンされる。
利点
本発明の実施形態は、効率的な方法でDTXをパラメトリック空間オーディオ符号化に拡張することを可能にする。これは、通信帯域幅の節約のために伝送を中断することができる非アクティブフレームについても、高い知覚忠実度でバックグラウンドノイズを復元することができる。
このために、トランスポートチャネルのSIDは、バックグラウンドノイズの空間像を記述するための関連する非アクティブ空間パラメーターによって拡張される。生成されたコンフォートノイズは、レンダラーによって空間化される(DirAC合成)前に、トランスポートチャネルに適用される。代替として、品質の改善のために、CNGは、レンダリングにおけるトランスポートチャネルよりも多くのチャネルに適用され得る。これにより、複雑性を軽減し、非相関器アーティファクトの不快感を低減することができる。
他の態様
ここで言及すべきは、前述の全ての代替形態又は態様、及び以下の態様における独立した態様によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的、又は独立した態様以外の任意の他の代替形態又は目的を伴わずに使用され得ることである。しかし、他の実施形態では、代替形態又は態様又は独立した態様のうちの2つ以上を互いに組み合わせることができ、他の実施形態では、全ての態様、又は代替形態及び全ての独立した態様を互いに組み合わせることができる。
本発明の符号化信号は、デジタル記憶媒体又は非一時的記憶媒体に記憶することができ、又は無線伝送媒体若しくはインターネット等の有線伝送媒体等の伝送媒体上で伝送することができる。
いくつかの態様を装置の文脈で説明してきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロック又はデバイスは方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロック又は項目又は特徴の説明を表す。
特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実施態様は、それぞれの方法が実行されるようにプログラム可能なコンピューターシステムと協働する(又は協働することができる)電子的に可読制御信号が記憶されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリを使用して実行することができる。
本発明によるいくつかの実施形態は、電子的に可読制御信号を有するデータキャリアを含み、制御信号は、本明細書で説明される方法のうちの1つが実行されるように、プログラム可能なコンピューターシステムと協働することが可能である。
概して、本発明の実施形態は、プログラムコードを有するコンピュータープログラム製品として実装することができ、プログラムコードは、コンピュータープログラム製品がコンピューター上で実行されるときに方法のうちの1つを実行するように動作可能である。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
他の実施形態は、機械可読キャリア又は非一時的記憶媒体に記憶された、本明細書に記載の方法のうちの1つを実行するコンピュータープログラムを含む。
換言すれば、本発明の方法の実施形態は、したがって、コンピュータープログラムがコンピューター上で実行されるときに、本明細書で説明される方法のうちの1つを実行するプログラムコードを有するコンピュータープログラムである。
したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するコンピュータープログラムを記録したデータキャリア(又はデジタル記憶媒体、又はコンピューター可読媒体)である。
したがって、本発明の方法の更なる実施形態は、本明細書に記載された方法の1つを実行するコンピュータープログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。
更なる実施形態は、本明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えばコンピューター又はプログラム可能な論理デバイスを含む。
更なる実施形態は、本明細書に記載の方法のうちの1つを実行するコンピュータープログラムがインストールされたコンピューターを含む。
いくつかの実施形態では、プログラム可能論理デバイス(例えば、フィールドプログラマブルゲートアレイ)が、本明細書に説明される方法の機能性の一部又は全部を行うために使用されてもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に説明される方法のうちの1つを行うために、マイクロプロセッサと協働してもよい。概して、本方法は、任意のハードウェア装置によって実行されることが好ましい。
上述の実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成及び詳細の変更及び変形が他の当業者に明らかであることが理解される。したがって、本明細書の実施形態の記述及び説明によって提示される特定の詳細によってではなく、下記の特許態様の範囲によってのみ限定されることが意図される。
実施形態の第1のセット及び実施形態の第2のセットについて後に定義される態様は、実施形態の一方のセットの特定の特徴が実施形態の他方のセットに含まれ得るように組み合わせることができる。

Claims (37)

  1. 第1のフレーム(306)及び第2のフレーム(308)を有するオーディオ信号(302)から符号化オーディオシーン(304)を生成する装置(300)であって、
    前記第1のフレーム(306)における前記オーディオ信号(302)から前記第1のフレーム(306)についての第1の音場パラメーター表現(316)を決定し、前記第2のフレーム(308)における前記オーディオ信号(302)から前記第2のフレーム(308)についての第2の音場パラメーター表現(318)を決定する音場パラメーター生成器(310)と、
    前記オーディオ信号(302)を分析して、前記オーディオ信号(302)に応じて、前記第1のフレームがアクティブフレーム(304)であり、前記第2のフレームが非アクティブフレーム(306)であると判定する区間検出器(320)と、
    前記アクティブフレーム(306)である前記第1のフレームについての符号化オーディオ信号(346)を生成し、前記非アクティブフレーム(308)である前記第2のフレームについてのパラメトリック記述(348)を生成するオーディオ信号エンコーダー(330)と、
    前記第1のフレーム(306)についての前記第1の音場パラメーター表現(316)と、前記第2のフレーム(308)についての前記第2の音場パラメーター表現(318)と、前記第1のフレーム(306)についての前記符号化オーディオ信号(346)と、前記第2のフレーム(308)についての前記パラメトリック記述(348)とを一緒にすることによって、前記符号化オーディオシーン(304)を構成する符号化信号形成器(370)と、
    を備える、装置。
  2. 前記音場パラメーター生成器(310)は、前記第1の音場パラメーター表現(316)又は前記第2の音場パラメーター表現(318)が聴取者位置に対する前記オーディオ信号(302)の特性を示すパラメーターを含むように、前記第1の音場パラメーター表現(316)又は前記第2の音場パラメーター表現(318)を生成するように構成される、請求項1に記載の装置。
  3. 前記第1の音場パラメーター表現又は前記第2の音場パラメーター表現(316)は、前記第1のフレーム(306)における聴取者位置に対する音の方向を示す1つ以上の方向パラメーター、又は前記第1のフレーム(306)における直接音に対する拡散音の部分を示す1つ以上の拡散性パラメーター、又は前記第1のフレーム(306)における直接音と拡散音とのエネルギー比を示す1つ以上のエネルギー比パラメーター、又は前記第1のフレーム(306)におけるチャネル間/サラウンドコヒーレンスパラメーターを含む、請求項1又は2に記載の装置。
  4. 前記音場パラメーター生成器(310)は、前記オーディオ信号の前記第1のフレーム(306)又は前記第2のフレーム(308)から、複数の個別の音源を決定し、音源ごとに、パラメトリック記述(348)を決定するように構成される、請求項1~3のいずれか一項に記載の装置。
  5. 前記音場生成器(310)は、前記第1のフレーム(306)又は前記第2のフレーム(308)を、各周波数ビンが個別の音源を表す複数の周波数ビンに分解し、各周波数ビンについて、少なくとも1つの音場パラメーターを決定するように構成され、前記音場パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、エネルギー比パラメーター、又は聴取者位置に対する前記オーディオ信号の前記第1のフレーム(306)によって表される前記音場の特性を表す任意のパラメーターを例示的に含む、請求項4に記載の装置。
  6. 前記第1のフレーム(306)及び前記第2のフレーム(308)についての前記オーディオ信号は、聴取者に対する音場を表す複数の成分を有する入力フォーマットを含み、
    前記音場パラメーター生成器(310)は、例えば前記複数の成分のダウンミックスを使用して、前記第1のフレーム(306)及び前記第2のフレーム(308)についての1つ以上のトランスポートチャネルを算出し、前記入力フォーマットを分析して前記1つ以上のトランスポートチャネルに関連する前記第1のパラメーター表現を決定するように構成され、又は
    前記音場パラメーター生成器(310)は、例えば前記複数の成分のダウンミックスを使用して、1つ以上のトランスポートチャネルを算出するように構成され、
    前記区間検出器(320)は、前記第2のフレーム(308)における前記オーディオ信号から導出された前記1つ以上のトランスポートチャネルを分析するように構成される、請求項1~5のいずれか一項に記載の装置。
  7. 前記第1のフレーム(306)又は前記第2のフレーム(308)についての前記オーディオ信号は、前記第1のフレーム及び前記第2のフレームの各フレームについて、1つ以上のトランスポートチャネルと、各フレームに関連付けられたメタデータとを有する入力フォーマットを含み、
    前記音場パラメーター生成器(310)は、前記第1のフレーム(306)及び前記第2のフレーム(308)から前記メタデータを読み取り、前記第1のフレーム(306)についての前記メタデータを前記第1の音場パラメーター表現(316)として使用又は処理し、前記第2のフレーム(308)の前記メタデータを処理して前記第2の音場パラメーター表現(318)を取得するように構成され、前記第2の音場パラメーター表現(318)を取得する前記処理は、前記第2のフレーム(308)についての前記メタデータの前記伝送に必要な情報単位の量が、前記処理の前に必要な量に対して低減されるようなものである、請求項1~5のいずれか一項に記載の装置。
  8. 前記音場パラメーター生成器(310)は、前記第2のフレーム(308)についての前記メタデータを処理して、前記メタデータにおける情報項目の数を低減するか、又は前記メタデータにおける前記情報項目を時間分解能若しくは周波数分解能等の低分解能に再サンプリングするか、又は前記第2のフレーム(308)についての前記メタデータの前記情報単位を再量子化前の状況に対してより粗い表現に再量子化するように構成される、請求項7に記載の装置。
  9. 前記オーディオ信号エンコーダー(330)は、前記非アクティブフレームについての無音情報記述を前記パラメトリック記述(348)として決定するように構成され、
    前記無音情報記述は、前記第2のフレーム(308)についてのエネルギー、パワー、又はラウドネス等の振幅関連情報と、スペクトル整形情報等の整形情報、又はエネルギー、パワー、若しくはラウドネス等の前記第2のフレーム(308)についての振幅関連情報と、前記第2のフレーム(308)についての線形予測符号化(LPC)パラメーター、又は異なるスケールパラメーターが異なる幅を有する周波数帯域を指すように変化する関連する周波数分解能を有する前記第2のフレーム(308)についてのスケールパラメーターとを例示的に含む、請求項1~8のいずれか一項に記載の装置。
  10. 前記オーディオ信号エンコーダー(330)は、前記第1のフレーム(306)について、時間領域又は周波数領域符号化モードを使用して前記オーディオ信号を符号化するように構成され、前記符号化オーディオ信号は、例えば、符号化された時間領域サンプルと、符号化されたスペクトル領域サンプルと、符号化されたLPC領域サンプルと、前記オーディオ信号の成分から取得された、又は例えばダウンミキシング動作によって前記オーディオ信号の前記成分から導出された1つ以上のトランスポートチャネルから取得されたサイド情報とを含む、請求項1~9のいずれか一項に記載の装置。
  11. 前記オーディオ信号(302)は、1次アンビソニックスフォーマット、高次アンビソニックスフォーマット、5.1若しくは7.1若しくは7.1+4等の所与のラウドスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された1つ又は複数の異なるオーディオオブジェクトを表す1つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを含み、
    前記音場パラメーター生成器(310)は、前記パラメーターが定義された聴取者位置に対する音場を表すように、前記第1の音場パラメーター表現(316)及び前記第2の音場表現を決定するように構成され、又は
    前記オーディオ信号は、現実のマイクロホン若しくは仮想マイクロホンによってピックアップされたマイクロホン信号、又は、例えば1次アンビソニックスフォーマット若しくは高次アンビソニックスフォーマットである合成的に生成されたマイクロホン信号を含む、請求項1~10のいずれか一項に記載の装置。
  12. 前記区間検出器(320)は、前記第2のフレーム(308)及び前記第2のフレーム(308)に続く1つ以上のフレームにわたって非アクティブフェーズを検出するように構成され、
    前記オーディオ信号エンコーダー(330)は、フレームの時間シーケンスに関して、前記第2のフレーム(308)から少なくとも1つのフレームだけ分離された更なる第3のフレームについてのみ、非アクティブフレームについての更なるパラメトリック記述(348)を生成するように構成され、
    前記音場パラメーター生成器(310)は、前記オーディオ信号エンコーダー(330)がパラメトリック記述を決定したフレームについてのみ、更なる音場パラメーター表現を決定するように構成され、又は
    前記区間検出器(320)は、前記第2のフレーム(308)及び前記第2のフレーム(308)に続く8つのフレームを含む非アクティブフェーズを決定するように構成され、前記オーディオ信号エンコーダー(330)は、8番目のフレームごとにのみ非アクティブフレームについてのパラメトリック記述を生成するように構成され、前記音場パラメーター生成器(310)は、8番目の非アクティブフレームごとに音場パラメーター表現を生成するように構成され、又は
    前記音場パラメーター生成器(310)は、前記オーディオ信号エンコーダー(330)が非アクティブフレームについてのパラメトリック記述を生成しない場合であっても、各非アクティブフレームについての音場パラメーター表現を生成するように構成され、又は
    前記音場パラメーター生成器(310)は、前記オーディオ信号エンコーダー(330)が1つ以上の非アクティブフレームについて前記パラメトリック記述を生成するよりも高いフレームレートを有するパラメーター表現を決定するように構成される、請求項1~11のいずれか一項に記載の装置。
  13. 前記音場パラメーター生成器(310)は、前記第2のフレーム(308)についての前記第2の音場パラメーター表現(318)を決定するために、
    周波数帯域における1つ以上の方向についての空間パラメーターと、総エネルギーに対する1つの指向性成分の比に対応する周波数帯域における関連するエネルギー比とを使用すること、又は
    拡散音若しくは直接音の比を示す拡散性パラメーターを決定すること、又は
    前記第1のフレーム(306)における量子化と比較してより粗い量子化方式を使用して方向情報を決定すること、又は
    より粗い時間又は周波数分解能を取得するために、時間又は周波数にわたって方向の平均化を使用すること、又は
    アクティブフレームについての前記第1の音場パラメーター表現(316)と同じ周波数分解能を有し、前記非アクティブフレームについての前記音場パラメーター表現における方向情報に関してアクティブフレームについての時間発生よりも低い前記時間発生を有する、1つ以上の非アクティブフレームについての音場パラメーター表現を決定すること、又は
    拡散性パラメーターを有する前記第2の音場パラメーター表現(318)を決定することであって、該拡散性パラメーターは、アクティブフレームの場合と同じ時間又は周波数分解能であるが、より粗い量子化で伝送されること、又は
    第1の数のビットを用いて前記第2の音場表現のための拡散性パラメーターを量子化することであって、各量子化インデックスの第2の数のビットのみが伝送され、前記第2の数のビットは、前記第1の数のビットよりも小さいこと、又は
    前記第2の音場パラメーター表現(318)について、前記オーディオ信号が空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間コヒーレンスを決定し、若しくは前記オーディオ信号が前記空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間レベル差を決定すること、又は
    前記オーディオ信号によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定すること、
    を行うように構成される、請求項1~12のいずれか一項に記載の装置。
  14. 第1のフレーム(346)において第1の音場パラメーター表現(316)と符号化オーディオ信号(346)とを含む符号化オーディオシーン(304)を処理する装置(200)であって、第2のフレーム(348)が、非アクティブフレームであり、前記装置は、
    前記第2のフレーム(348)が前記非アクティブフレームであることを検出する区間検出器(2200)と、
    前記第2のフレーム(308)についての前記パラメトリック記述(348)を使用して、前記第2のフレーム(308)についての合成オーディオ信号(228)を合成する合成信号シンセサイザー(210)と、
    前記第1のフレーム(306)についての前記符号化オーディオ信号(346)を復号化するオーディオデコーダー(230)と、
    前記第1の音場パラメーター表現(316)を使用し、かつ前記第2のフレーム(308)についての前記合成オーディオ信号(228)を使用して、前記第1のフレーム(306)についての前記オーディオ信号(202)を空間的にレンダリングする空間レンダラー(240)、又は
    前記第1のフレーム(306)についての前記オーディオ信号(346)と、前記第1のフレーム(306)についての前記第1の音場パラメーター表現(316)と、前記第2のフレーム(308)についての前記合成オーディオ信号(228)と、前記第2のフレーム(308)についての第2の音場パラメーター表現(318)とを含むメタデータ支援出力フォーマットを生成するトランスコーダーと、
    を備える、装置。
  15. 前記符号化オーディオシーン(304)は、前記第2のフレーム(308)について、第2の音場パラメーター記述(318)を含み、前記装置は、前記第2の音場パラメーター表現(318)から1つ以上の音場パラメーター(219、318)を導出する音場パラメータープロセッサ(275、1075)を備え、前記空間レンダラー(220)は、前記第2のフレーム(308)についての前記合成オーディオ信号(228)の前記レンダリングのために、前記第2のフレーム(308)についての前記1つ以上の音場パラメーターを使用するように構成される、請求項14に記載の装置。
  16. 前記第2のフレーム(308)についての1つ以上の音場パラメーター(219、318)を導出するパラメータープロセッサ(275、1075)を備え、
    前記パラメータープロセッサ(275、1075)は、前記第1のフレーム(306)についての前記音場パラメーター表現を記憶し、前記第1のフレーム(306)についての前記記憶された第1の音場パラメーター表現(316)を使用して前記第2のフレーム(308)についての1つ以上の音場パラメーターを合成するように構成され、前記第2のフレーム(308)は、前記第1のフレーム(306)に時間的に後続し、又は
    前記パラメータープロセッサ(275、1075)は、前記第2のフレーム(308)の前の時間に発生するか、又は前記第2のフレーム(308)の後の時間に発生する複数のフレームについての1つ以上の音場パラメーター表現(318)を記憶して、複数のフレームについての前記1つ以上の音場パラメーター表現のうちの前記少なくとも2つの音場パラメーター表現を使用して外挿又は内挿することにより、前記第2のフレーム(308)についての前記1つ以上の音場パラメーターを決定するように構成され、
    前記空間レンダラーは、前記第2のフレーム(308)についての前記合成オーディオ信号(228)の前記レンダリングのために、前記第2のフレーム(308)についての前記1つ以上の音場パラメーターを使用するように構成される、請求項14に記載の装置。
  17. 前記パラメータープロセッサ(275)は、前記第2のフレーム(308)についての前記1つ以上の音場パラメーターを決定するために外挿又は内挿する場合、前記第2のフレーム(308)の前又は後の時間に発生する前記少なくとも2つの音場パラメーター表現に含まれる方向を用いてディザリングを実行するように構成される、請求項16に記載の装置。
  18. 前記符号化オーディオシーン(304)は、前記第1のフレーム(306)についての1つ以上のトランスポートチャネル(326)を含み、
    前記合成信号生成器(210)は、前記合成オーディオ信号(228)として前記第2のフレーム(308)についての1つ以上のトランスポートチャネル(228)を生成するように構成され、
    前記空間レンダラー(220)は、前記第2のフレーム(308)についての前記1つ以上のトランスポートチャネル(228)を空間的にレンダリングするように構成される、請求項14~17のいずれか一項に記載の装置。
  19. 前記合成信号生成器(210)は、前記第2のフレーム(308)について、前記空間レンダラーのオーディオ出力フォーマットに関連する個別の成分に対する複数の合成成分オーディオ信号を前記合成オーディオ信号(228)として生成するように構成される、請求項14~18のいずれか一項に記載の装置。
  20. 前記合成信号生成器(210)は、前記オーディオ出力フォーマット(202)に関連する少なくとも2つの個別の成分(228a、228b)のサブセットのうちの少なくとも各1つについて、個別の合成成分オーディオ信号を生成するように構成され、
    第1の個別の合成成分オーディオ信号(228a)が、第2の個別の合成成分オーディオ信号(228b)から非相関化され、
    前記空間レンダラー(220)は、前記第1の個別の合成成分オーディオ信号(228a)と前記第2の個別の合成成分オーディオ信号(228b)との組み合わせを使用して前記オーディオ出力フォーマット(202)の成分をレンダリングするように構成される、請求項19に記載の装置。
  21. 前記空間レンダラー(220)は、共分散法を適用するように構成される、請求項20に記載の装置。
  22. 前記空間レンダラー(220)は、いかなる非相関器処理も使用しないように、又は、前記共分散法によって示される非相関器処理(730)によって生成された非相関信号(228a)の量のみが、前記オーディオ出力フォーマット(202)の成分を生成する際に使用されるように前記非相関器処理(730)を制御するように構成される、請求項21に記載の装置。
  23. 前記合成信号生成器(210、710、810)は、コンフォートノイズ生成器である、請求項14~22のいずれか一項に記載の装置。
  24. 前記合成信号生成器(210)は、ノイズ生成器を含み、前記第1の個別の合成成分オーディオ信号は、前記ノイズ生成器の第1のサンプリングによって生成され、前記第2の個別の合成成分オーディオ信号は、前記ノイズ生成器の第2のサンプリングによって生成され、前記第2のサンプリングは、前記第1のサンプリングとは異なる、請求項20~23のいずれか一項に記載の装置。
  25. 前記ノイズ生成器は、ノイズテーブルを含み、前記第1の個別の合成成分オーディオ信号は、前記ノイズテーブルの第1の部分を取得することによって生成され、前記第2の個別の合成成分オーディオ信号は、前記ノイズテーブルの第2の部分を取得することによって生成され、前記ノイズテーブルの前記第2の部分は、前記ノイズテーブルの前記第1の部分とは異なり、又は
    前記ノイズ生成器は、擬似ノイズ生成器を含み、前記第1の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第1のシードを用いて生成され、前記第2の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第2のシードを用いて生成される、請求項24に記載の装置。
  26. 前記符号化オーディオシーン(304)は、前記第1のフレーム(306)について、2つ以上のトランスポートチャネル(326)を含み、
    前記合成信号生成器(210、710、810)は、ノイズ生成器(810)を含み、前記第2のフレーム(308)についての前記パラメトリック記述(348)を使用して、前記ノイズ生成器(810)をサンプリングすることによって第1のトランスポートチャネルを生成し、前記ノイズ生成器(810)をサンプリングすることによって第2のトランスポートチャネルを生成するように構成され、前記ノイズ生成器(180)をサンプリングすることによって決定される前記第1のトランスポートチャネル及び前記第2のトランスポートチャネルは、前記第2のフレーム(308)についての同じパラメトリック記述(348)を使用して重み付けされる、請求項14~25のいずれか一項に記載の装置。
  27. 前記空間レンダラー(220)は、
    直接信号と、前記第1の音場パラメーター表現(316)の制御下で前記直接信号から非相関器(730)によって生成された拡散信号とのミキシングを使用して、前記第1のフレーム(306)に対して第1のモードで動作し、
    第1の合成成分信号と前記第2の合成成分信号とのミキシングを使用して、前記第2のフレーム(308)に対して第2のモードで動作するように構成され、前記第1の合成成分信号及び前記第2の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって前記合成信号シンセサイザー(210)によって生成される、請求項14~26のいずれか一項に記載の装置。
  28. 前記空間レンダラー(220)は、パラメータープロセッサによって前記第2のフレーム(308)について導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、前記第2のモードで前記ミキシング(740)を制御するように構成される、請求項27に記載の装置。
  29. 前記合成信号生成器(210)は、前記第2のフレーム(308)についての前記パラメトリック記述(348)を使用して前記第1のフレーム(306)についての合成オーディオ信号(228)を生成するように構成され、
    前記空間レンダラーは、前記空間レンダリングの前又は後に、前記第1のフレーム(306)についての前記オーディオ信号と前記第1のフレーム(306)についての前記合成オーディオ信号(228)との重み付き合成を実行するように構成され、前記重み付き合成において、前記第1のフレーム(306)についての前記合成オーディオ信号(228)の強度は、前記第2のフレーム(308)についての前記合成オーディオ信号(228)の強度に対して低減される、請求項14~28のいずれか一項に記載の装置。
  30. パラメータープロセッサ(275、1075)が、前記第2の非アクティブフレーム(308)について、前記第2のフレーム(308)によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定するように構成され、前記空間レンダラーは、前記サウンドコヒーレンスに基づいて前記第2のフレーム(308)における直接信号と拡散信号との間でエネルギーを再分配するように構成され、サウンドサラウンドコヒーレント成分のエネルギーが、前記拡散エネルギーから除去されて指向性成分に再分配され、前記指向性成分は、再生空間内でパンされる、請求項14~29のいずれか一項に記載の装置。
  31. 前記空間レンダラーによって生成されたオーディオ出力フォーマットを、トランスコードされた出力フォーマット、例えば、予め定義された位置に配置されるラウドスピーカー専用の複数の出力チャネルを含む出力フォーマット、又はFOA若しくはHOAデータを含むトランスコードされた出力フォーマットに変換する出力インターフェイスを更に備え、又は
    前記空間レンダラーの代わりに、前記トランスコーダーは、前記第1のフレーム(306)についての前記オーディオ信号と、前記第1のフレーム(306)についての前記第1の音場パラメーターと、前記第2のフレーム(308)についての前記合成オーディオ信号(228)と、前記第2のフレーム(308)についての第2の音場パラメーター表現(318)とを含む前記メタデータ支援出力フォーマットを生成するために提供される、請求項14~18のいずれか一項に記載の装置。
  32. 前記区間検出器(2200)は、前記第2のフレーム(348)が前記非アクティブフレームであることを検出するように構成される、請求項14~31のいずれか一項に記載の装置。
  33. 第1のフレーム(306)及び第2のフレーム(308)を有するオーディオ信号から符号化オーディオシーンを生成する方法であって、
    前記第1のフレーム(306)における前記オーディオ信号から前記第1のフレーム(306)についての第1の音場パラメーター表現(316)を決定し、前記第2のフレーム(308)における前記オーディオ信号から前記第2のフレーム(308)についての第2の音場パラメーター表現(318)を決定することと、
    前記オーディオ信号を分析して、前記オーディオ信号に応じて、前記第1のフレーム(306)がアクティブフレームであり、前記第2のフレーム(308)が非アクティブフレームであると判定することと、
    前記アクティブフレームである前記第1のフレーム(306)についての符号化オーディオ信号を生成し、前記非アクティブフレームである前記第2のフレーム(308)についてのパラメトリック記述(348)を生成することと、
    前記第1のフレーム(306)についての前記第1の音場パラメーター表現(316)と、前記第2のフレーム(308)についての前記第2の音場パラメーター表現(318)と、前記第1のフレーム(306)についての前記符号化オーディオ信号と、前記第2のフレーム(308)についての前記パラメトリック記述(348)とを一緒にすることによって、前記符号化オーディオシーンを構成することと、
    を含む、方法。
  34. 第1のフレーム(306)において、第1の音場パラメーター表現(316)と符号化オーディオ信号とを含む符号化オーディオシーンを処理する方法であって、第2のフレーム(308)が、非アクティブフレームであり、前記方法は、
    前記第2のフレーム(308)が前記非アクティブフレームであることを検出することと、
    前記第2のフレーム(308)についての前記パラメトリック記述(348)を使用して、前記第2のフレーム(308)についての合成オーディオ信号(228)を合成することと、
    前記第1のフレーム(306)についての前記符号化オーディオ信号を復号化することと、
    前記第1の音場パラメーター表現(316)を使用し、かつ前記第2のフレーム(308)についての前記合成オーディオ信号(228)を使用して、前記第1のフレーム(306)についての前記オーディオ信号を空間的にレンダリングすること、又は前記第1のフレーム(306)についての前記オーディオ信号、前記第1のフレーム(306)についての前記第1の音場パラメーター表現(316)、前記第2のフレーム(308)についての前記合成オーディオ信号(228)、及び前記第2のフレーム(308)についての第2の音場パラメーター表現(318)を含むメタデータ支援出力フォーマットを生成することと、
    を含む、方法。
  35. 前記第2のフレーム(308)についてのパラメトリック記述(348)を提供することを更に含む、請求項34に記載の方法。
  36. 符号化オーディオシーン(304)であって、
    第1のフレーム(306)についての第1の音場パラメーター表現(316)と、
    第2のフレーム(308)についての第2の音場パラメーター表現(318)と、
    前記第1のフレーム(306)についての符号化オーディオ信号と、
    前記第2のフレーム(308)についてのパラメトリック記述(348)と、
    を含む、符号化オーディオシーン。
  37. コンピューター又はプロセッサ上で実行されるときに、請求項33又は請求項34又は請求項35に記載の方法を実行するコンピュータープログラム。
JP2023506177A 2020-07-30 2021-05-31 オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム Pending JP2023536156A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20188707 2020-07-30
EP20188707.2 2020-07-30
PCT/EP2021/064576 WO2022022876A1 (en) 2020-07-30 2021-05-31 Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene

Publications (1)

Publication Number Publication Date
JP2023536156A true JP2023536156A (ja) 2023-08-23

Family

ID=71894727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023506177A Pending JP2023536156A (ja) 2020-07-30 2021-05-31 オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム

Country Status (12)

Country Link
US (1) US20230306975A1 (ja)
EP (1) EP4189674A1 (ja)
JP (1) JP2023536156A (ja)
KR (1) KR20230049660A (ja)
CN (1) CN116348951A (ja)
AU (2) AU2021317755B2 (ja)
BR (1) BR112023001616A2 (ja)
CA (1) CA3187342A1 (ja)
MX (1) MX2023001152A (ja)
TW (2) TWI794911B (ja)
WO (1) WO2022022876A1 (ja)
ZA (1) ZA202301024B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051954A1 (en) 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051955A1 (en) 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024056701A1 (en) * 2022-09-13 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive stereo parameter synthesis
CN116368460A (zh) * 2023-02-14 2023-06-30 北京小米移动软件有限公司 音频处理方法、装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
CN103180899B (zh) * 2010-11-17 2015-07-22 松下电器(美国)知识产权公司 立体声信号的编码装置、解码装置、编码方法及解码方法
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US9443526B2 (en) * 2012-09-11 2016-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
KR20240050436A (ko) * 2014-06-27 2024-04-18 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN108140393B (zh) * 2016-09-28 2023-10-20 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
BR112020026793A2 (pt) * 2018-06-28 2021-03-30 Telefonaktiebolaget Lm Ericsson (Publ) Determinação de parâmetro de ruído de conforto adaptativo
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置

Also Published As

Publication number Publication date
ZA202301024B (en) 2024-04-24
KR20230049660A (ko) 2023-04-13
AU2023286009A1 (en) 2024-01-25
TWI794911B (zh) 2023-03-01
CN116348951A (zh) 2023-06-27
AU2021317755A1 (en) 2023-03-02
CA3187342A1 (en) 2022-02-03
TW202230333A (zh) 2022-08-01
BR112023001616A2 (pt) 2023-02-23
EP4189674A1 (en) 2023-06-07
AU2021317755B2 (en) 2023-11-09
US20230306975A1 (en) 2023-09-28
MX2023001152A (es) 2023-04-05
TW202347316A (zh) 2023-12-01
WO2022022876A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
US10573327B2 (en) Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels
US8958566B2 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
TWI794911B (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
JP4875142B2 (ja) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
AU2014295216A1 (en) Apparatus and method for enhanced spatial audio object coding
BRPI0706285A2 (pt) métodos para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico e para transmitir dados digitais representando som a uma unidade móvel, decodificador envolvente paramétrico para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico, e, terminal móvel
CN112074902B (zh) 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
JP2022543083A (ja) Ivasビットストリームの符号化および復号化
KR20210102300A (ko) 낮은 차수, 중간 차수 및 높은 차수 컴포넌트 생성기를 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
JP2023546851A (ja) 複数の音声オブジェクトをエンコードする装置および方法、または2つ以上の関連する音声オブジェクトを使用してデコードする装置および方法
JP2023546850A (ja) ダウンミックス中に方向情報を使用して複数の音声オブジェクトをエンコードするための装置および方法、または最適化された共分散合成を使用してデコードするための装置および方法
RU2809587C1 (ru) Устройство, способ и компьютерная программа для кодирования звукового сигнала или для декодирования кодированной аудиосцены
JP2023548650A (ja) 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2023549038A (ja) パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
TW202341128A (zh) 轉換音訊串流之設備及方法
JP2023549033A (ja) パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240409