JP2023530409A - マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス - Google Patents

マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス Download PDF

Info

Publication number
JP2023530409A
JP2023530409A JP2022575887A JP2022575887A JP2023530409A JP 2023530409 A JP2023530409 A JP 2023530409A JP 2022575887 A JP2022575887 A JP 2022575887A JP 2022575887 A JP2022575887 A JP 2022575887A JP 2023530409 A JP2023530409 A JP 2023530409A
Authority
JP
Japan
Prior art keywords
frame
current frame
channel
inactive
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022575887A
Other languages
English (en)
Inventor
エッケルト,マイケル
ティアギ,リシャブ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023530409A publication Critical patent/JP2023530409A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Abstract

本明細書は、N個の異なるチャンネルを含むマルチチャンネル入力信号(101)を符号化するための方法(600)を記載する。方法(600)は、フレームのシーケンスのうちの現在のフレームに対して、信号および/またはボイスアクティビティ検出器を用いて、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ(601)と、マルチチャンネル入力信号(101)に基づいてN個以下のチャンネルを含むダウンミックス信号(103)を決定するステップ(602)とを含む。さらに、方法(600)は、ダウンミックス信号(103)に基づいてN個のチャンネルを含む再構成マルチチャンネル信号(111)を生成するためのパラメータセットを含むアップミックスメタデータ(105)を決定するステップ(603)を含む。アップミックスメタデータ(105)は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定される。方法(600)は、アップミックスメタデータ(105)をビットストリームに符号化(604)するステップをさらに含む。【選択図】図6a

Description

(関連出願への参照)
本願は、2021年5月27日付け出願の米国仮特許出願第63/193,946号および2020年6月11日付け出願の米国仮特許出願第63/037,650号に基づく優先権を主張するものであり、各出願の開示内容をすべて本願に援用する。
リスニング位置に位置するリスナーのリスニング環境内の音あるいは音場(soundfield)は、アンビソニックス(ambisonics)信号を用いて記述され得る。アンビソニックス信号は、マルチチャンネルオーディオ信号とみなすことができ、各チャンネルは、リスナーのリスニング位置における音場の特定の指向性パターンに対応する。アンビソニックス信号は、三次元(3D)デカルト座標系を用いて記述され得る。当該座標系の原点はリスニング位置に対応し、X軸は前方を、Y軸は左方を、Z軸は上方を向く。
マルチチャンネルオーディオ信号は、スピーチまたはオーディオがアクティブであるアクティブ部分と、スピーチまたはオーディオを含まない非アクティブ部分とを含み得る。非アクティブ部分は、典型的にはバックグラウンドノイズのみを含む。バックグラウンドノイズは、特定の方向から来る空調ノイズなどの空間特性を有し得る。
本明細書は、空間的なバックグラウンドノイズを効率的にモデル化すること、特にマルチチャンネルオーディオ信号のアクティブ部分と非アクティブ部分との間での知覚的に好ましい遷移を提供するための技術課題を扱う。この技術課題は、特許請求の範囲の独立請求項によって解決される。その従属請求項において、好適な実施例が記載される。
一態様によると、N個の異なるチャンネルを含むマルチチャンネル入力(オーディオ)信号を符号化するための方法(N>1、特にN>2)が記載される。当該方法は、信号および/またはボイスアクティビティ検出器を用いて、マルチチャンネル入力信号の現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップを含む。さらに、当該方法は、マルチチャンネル入力信号に基づいて、および/または、マルチチャンネル入力信号を符号化するための目標ビットレートに基づいて、N個以下のチャンネルを含むダウンミックス信号を決定するステップを含む。当該方法は、ダウンミックス信号に基づいて、N個のチャンネルを含む再構成マルチチャンネル信号を生成するための(空間)パラメータセットを含むアップミックスメタデータを決定するステップをさらに含む。アップミックスメタデータは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され得る。加えて、当該方法は、アップミックスメタデータをビットストリームに符号化するステップを含む。
さらなる態様によると、N個のチャンネルを含む再構成マルチチャンネル信号を示すビットストリームを復号するための方法が記載される(Nは1よりも大きな正の整数であり、好ましくはN>2)。当該方法は、ビットストリームに基づいて、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップを含む。加えて、当該方法は、N個以下のチャンネルを含む再構成ダウンミックス信号を決定するステップを含む。当該方法は、再構成ダウンミックス信号に基づいて、かつ、ビットストリーム内に含まれるアップミックスメタデータに基づいて、再構成マルチチャンネル信号を生成するステップをさらに含む。再構成マルチチャンネル信号は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成され得る。
さらなる態様によると、ソフトウェアプログラムが記載される。ソフトウェアプログラムは、プロセッサ上で実行されるように、かつ、プロセッサ上での実施時に本明細書において概説される方法ステップを行うように適合され得る。
別の態様によると、記憶媒体が記載される。記憶媒体は、プロセッサ上で実行されるように、かつ、プロセッサ上での実施時に本明細書において概説される方法ステップを行うように適合されたソフトウェアプログラムを含み得る。
さらなる態様によると、コンピュータプログラム製品が記載される。コンピュータプログラムは、コンピュータ上での実行時に本明細書において概説される方法ステップを行うための実行可能な命令を含み得る。
別の態様によると、N個の異なるチャンネルを含む再構成マルチチャンネル信号を符号化するための符号化部が記載される(Nは、1よりも大きな正の整数であり、好ましくは、N>2)。符号化部は、信号および/またはボイスアクティビティ検出器を用いて、入力信号の現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するように構成される。さらに、符号化部は、マルチチャンネル入力信号に基づいて、および/または、ビットレートに基づいて、ダウンミックス信号を決定するように構成される。ここで、ダウンミックス信号は、N個以下のチャンネルを含む。加えて、符号化部は、ダウンミックス信号に基づいて、N個のチャンネルを含む再構成マルチチャンネル信号を生成するためのパラメータセットを含むアップミックスメタデータを決定するように構成される。アップミックスメタデータは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され得る。符号化部は、アップミックスメタデータをビットストリームに符号化するようにさらに構成される。
別の態様によると、N個のチャンネルを含む再構成マルチチャンネル信号を示すビットストリームを復号するための復号部が記載される。再構成信号は、フレームのシーケンスを含む。復号部は、再構成ダウンミックス信号を決定するように構成される。ここで、再構成ダウンミックス信号は、N個以下のチャンネルを含む。復号部は、ビットストリームに基づいて、信号の現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するようにさらに構成される。加えて、復号部は、再構成ダウンミックス信号に基づいて、かつ、ビットストリーム内に含まれるアップミックスメタデータに基づいて、再構成マルチチャンネル信号を生成するように構成される。再構成マルチチャンネル信号は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成され得る。
なお、本願において概説される好適な実施形態を含む方法、デバイスおよびシステムは、単独で用いられてもよいし、本明細書に開示の他の方法、デバイスおよびシステムと組み合わせて用いられてもよい。さらに、本願において概説される方法、デバイスおよびシステムのすべての態様は、任意に組み合わせられてもよい。特に、特許請求の範囲の特徴は、任意に互いに組み合わされてもよい。
図面の簡単な説明
以下に、添付の図面を参照して、例として、本発明を説明する。
図1は、マルチチャンネル入力信号を符号化および復号するための符号化部および復号部の一例を示す。 図2は、空間合成(または再構成)モジュールの一例を示す。 図3は、マルチチャンネル信号をSPAR符号化およびSPAR復号するための符号化部および復号部の一例を示す。 図4aは、異なるダウンミックス状況に対する異なるダウンミックス状況に対するアンビソニックス信号のアクティブでないフレームの符号化を例示する。 図4bは、異なるダウンミックス状況に対する異なるダウンミックス状況に対するアンビソニックス信号のアクティブでないフレームの符号化を例示する。 図4cは、異なるダウンミックス状況に対する異なるダウンミックス状況に対するアンビソニックス信号のアクティブでないフレームの符号化を例示する。 図5は、デバイスアーキテクチャの一例を示す。 図6aは、マルチチャンネル信号を符号化するための方法の一例のフローチャートを示す。 図6bは、マルチチャンネル信号を復号するための方法の一例のフローチャートを示す。
詳細な説明
上記に概説したように、本明細書は、一次アンビソニックス(FOA)またはHOA(高次アンビソニックス)信号などの没入型オーディオ信号に対する空間コンフォート(comfort)ノイズの効率的な符号化に関する。特に、FOAまたはHOA信号は、本明細書において、より一般的に、音場表現(SR)信号と称される。SR信号は、比較的多数のチャンネルまたは波形を含み得る。ここで、異なるチャンネルは、異なるパンニング関数に、および/または、異なる指向性パターンに関係する。例として、L次3D FOAまたはHOA信号は、(L+1)個のチャンネルを含む。
図1は、マルチチャンネル入力信号101を符号化および復号するための符号化部100および復号部150を例示する。マルチチャンネル入力信号101は、SR信号を含み得る。特に、マルチチャンネル入力信号101は、1つ以上のモノ信号、1つ以上のステレオ信号、1つ以上のバイノーラル信号、1つ以上の(従来の)マルチチャンネル信号(5.1または7.1信号など)、1つ以上のオーディオオブジェクト、および/または1つ以上のSR信号(おそらくは、その組み合わせ)を含み得る。異なる信号成分は、マルチチャンネル入力信号101の個々のチャンネルであると考えられ得る。
符号化部100は、マルチチャンネル入力信号101をダウンミックスして、1つ以上のチャンネルを含むダウンミックス信号103にするように構成された空間分析およびダウンミックスモジュール120を備える。ダウンミックス信号103自体は、入力信号101がHOA信号を含む場合、SR信号、特に一次アンビソニックス(FOA)信号であり得る。ダウンミックスは、サブバンドドメインまたはQMFドメインにおいて(例えば、10個以上のサブバンドを用いて)行われ得る。
空間分析およびダウンミックスモジュール120は、SPAR(すなわち、空間オーディオ解像度再構成(Spatial Audio Resolution Reconstruction)または空間再構成(Spatial Reconstruction)メタデータ105を決定するようにさらに構成される。SPARメタデータ105は、ダウンミックス信号103からマルチチャンネル入力信号101を再構成するように構成される。空間分析およびダウンミックスモジュール120は、サブバンドドメインにおいてSPARメタデータ105を決定するように構成されてもよい。SPARメタデータ105は、本明細書においてアップミックスメタデータとも称される。
加えて、符号化部100は、符号化モジュール140を備え得る。符号化モジュール140は、ダウンミックス信号103の波形符号化(例えば、EVS符号化)を行うことによって、符号化オーディオデータ106を提供するように構成される。ダウンミックス信号103の各チャンネルは、モノ波形符号化器を用いて符号化されることによって、効率的な符号化を可能にし得る。さらに、符号化部100は、量子化モジュール141を備える。量子化モジュール141は、SPARメタデータ105を量子化し、そして(量子化)SPARメタデータ105のエントロピー符号化を行うことによって、符号化メタデータ107を提供するように構成される。符号化オーディオデータ106および符号化メタデータ107は、ビットストリームに挿入され得る。ダウンミックス信号103の、および/または、SPARメタデータ105の符号化は、典型的には、モードおよび/またはビットレート制御モジュール142を用いて制御される。
典型的には、空間分析および/またはダウンミックスモジュール120の動作は、目標ビットレートに依存する。特に、ダウンミックス信号103のチャンネル数は、目標ビットレートに依存し得る。ダウンミックスチャンネルの個数が大きくなると、典型的には、パラメトリック再構成よりも多く波形再構成を可能にするので、パフォーマンスを増大することが可能になる。他方、ダウンミックスチャンネルの個数が大きくなると、典型的には、オーディオ符号化モジュール140によって符号化する必要のあるチャンネル数が増大するので、ビットレートが増大する。
ビットレートが低い場合、単一のチャンネルダウンミックスのみを用いることが好ましいことがある。他方、ダウンミックスチャンネルの個数は、ビットレートが増大するにつれ、増大し得る。これは、本明細書に記載のDTX動作についても同様である。
図1の復号部150は、復号モジュール160を備える。復号モジュール160は、符号化オーディオデータ106から再構成ダウンミックス信号114を導出するように構成される。さらに、復号部150は、メタデータ復号モジュール161を備える。メタデータ復号モジュール161は、符号化メタデータ107からSPARメタデータ105を導出するように構成される。
加えて、復号部150は、再構成モジュール170を備える。再構成モジュール170は、SPARメタデータ105から、および、再構成ダウンミックス信号114から再構成マルチチャンネル信号111を導出するように構成される。再構成マルチチャンネル信号111は、再構成SR信号を含み得る。特に、再構成マルチチャンネル信号111は、マルチチャンネル入力信号101と同じタイプのチャンネルを含み得る。再構成マルチチャンネル信号111は、スピーカレンダリングのために、ヘッドホンレンダリングのために、および/またはSRレンダリングのために用いられ得る。
図2は、再構成モジュール170の一例を例示する。再構成モジュール170は、再構成ダウンミックス信号114の1つ以上のチャンネルを入力として受け取る。第1ミキサ211は、再構成ダウンミックス信号114の1つ以上のチャンネルをより多くの信号にアップミックスするように構成され得る。第1ミキサ211は、SPARメタデータ105に依存する。
再構成モジュール170は、1つ以上の相関解除器(decorrelator)201を備え得る。相関解除器201は、再構成ダウンミックス信号114のWチャンネルの表現物(representation)から信号を生成するように構成される。当該信号は、第2ミキサ212において処理され、より多くのチャンネルを生成する。第2ミキサ212は、SPARメタデータ105に依存する。第1ミキサ211の出力および第2ミキサ212の出力は、合わさって、再構成マルチチャンネル信号111を提供する。再構成マルチチャンネル信号111は、マルチチャンネル入力信号101と同じタイプであってもよい(特に、同数のチャンネルを含んでもよい)。
SPARメタデータ105は、第1ミキサ211によって、および/または、第2ミキサ212によって用いられるアップミックス行列の係数を表すデータから構成され得る。ミキサ211、212は、サブバンドドメインにおいて(特に、QMFドメインにおいて)動作し得る。この場合、SPARメタデータ105は、複数の異なるサブバンド(例えば、10個以上のサブバンド)に対して、第1ミキサ211によって、および、第2ミキサ212によって用いられるアップミックス行列の係数を表すデータを含む。
図2は、Wチャンネル(W′という)の表現物を含む1チャンネルダウンミックス信号114の例を例示する。第1ミキサ211は、W′に基づいて、X、Yおよび/またはZチャンネルの予測可能部分の再構成物を生成する(SPARメタデータ105からの予測係数を用いる)。第2ミキサ212は、非相関残留信号X′、Y′および/またはZ′の再構成物を生成する。言い換えると、第2ミキサ212は、SPARメタデータ105を用いて、元の残留信号X′、Y′および/またはZ′にしたがって、W′と非相関な信号をスペクトル形状化することによって、それぞれ残留信号X′、Y′および/またはZ′の表現物または再構成物を提供する。
符号化部100は、FOA入力信号101を、ダウンミックス信号103と、パラメータ群すなわちSPARメタデータ105とに変換するように構成され得る。ダウンミックス信号103およびパラメータ群は、復号部150で、入力信号101を再生成するために用いられる。ダウンミックス信号103のチャンネル数は、1~4チャンネルの間で変動し得る。パラメータ群は、予測パラメータPr、交差予測(cross-prediction)パラメータC、および/または相関解除パラメータPを含み得る。これらのパラメータは、ウィンドウ入力信号101の共分散行列から計算され得る。さらに、それらのパラメータは、特定数のサブバンドにおいて計算され得る。コンフォートノイズの場合、12個のサブバンドの代わりに、例えば、6個のサブバンドなどのより少ない個数のサブバンド(周波数バンドとも称する)が用いられてもよい。
以下は、SPARパラメータ抽出の表現物の一例であり得る(図3を参照)。
1.入力信号101のうちの主信号Wから入力信号101のすべての副信号(Y、Z、X)を予測する。
ここで、例として、予測チャンネルY′に対する予測係数は、以下のように計算され得る。
AB=cov(A,B)は、信号AおよびBに対応する入力共分散行列の要素である。同様に、Z′およびX′残留チャンネルは、対応するパラメータprおよびprを有する。prおよびprは、上記の式において文字「Y」を文字「Z」または「X」に置き換えることによって計算され得る。予測パラメータPr(PRとも称される)は、予測係数のベクトル[pr,pr,prであり得る。
予測パラメータは、図3に示す予測モジュール311内で決定されることによって、残留チャンネルY′、Z′およびX′301を提供し得る。
一実装例において、Wは、アクティブなチャンネル(または、言い換えると、アクティブな予測により、本明細書においてW′と称される)であり得る。一例として(限定しないが)、X、Y、ZチャンネルをWチャンネルにある種のミックスを行うことを可能にするアクティブなW′チャンネルは、以下のように定義され得る。
ここで、fは、ミックスファクタであり、時間および/または周波数に関して静的または動的であることが可能である。一実装例において、fは、アクティブなフレームとアクティブでないフレームとの間で変動し得る。言い換えると、ミックスファクタは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。さらに言い換えると、X、Yおよび/またはZチャンネルをWチャンネルにミックスすることは、アクティブなフレームに対して、および、アクティブでないフレームに対して異なり得る。したがって、Wチャンネルの表現物、すなわち、W′チャンネルは、初期Wチャンネルをその他のチャンネルのうちの1つ以上とミックスすることによって決定され得る。こうすることによって、知覚品質は、さらに向上し得る。
2.Wチャンネルおよび予測チャンネル(Y′、Z′、X′)(この順で音響的な関与が大きい)をリミックスする。リミックスは、所定の方法論に基づいて信号を並び替え、または、再組み合わせすることに相当し得る。リミックスのための方法論の一例は、左右からのオーディオキューが前後のオーディオキューよりも重要であり、前後のオーディオキューが上下のオーディオキューよりも重要であると仮定した場合の入力信号W、Y′、X′、Z′の並び替えであり得る。リミックス方法論は、対応する復号部150において既知であってもよく、その場合は、ビットストリーム内でパラメータが伝送される必要がない。リミックスは、図3のリミックスモジュール312内で行われることによって、リミックスチャンネル302を提供し得る。
3.4チャンネル予測後およびリミックスダウンミックス302の共分散を計算する。
ここで、ddは、Wを超える1つ以上の剰余のダウンミックスチャンネル(すなわち、2番目からn番目のチャンネル)を表し、uは、ダウンミックス信号103に含まれないので、完全に再生成される必要のある1つ以上のチャンネル(すなわち、(n+1)番目のチャンネルから4番目のチャンネル)を表す(ここで、nは、ダウンミックス信号103内のチャンネル数である)。
1~4チャンネルを用いたWABCリミックス302の例に対して、dおよびuは、以下のチャンネルを表す。
ここで、nは、ダウンミックス信号103内のチャンネル数である。SPARメタデータ105の計算において主に対象となるのは、Rdd、RudおよびRuu共分散である。SPARメタデータは、図3の計算モジュール313内で決定され得る。
4.これより、伝送中の残留チャンネル(すなわち、dチャンネル)から完全パラメトリックチャンネル(すなわち、uチャンネル)の残りの部分を交差予測することが可能かどうかを決定する。
交差予測係数Cは、以下のように計算され得る。
したがって、Cは、3チャンネルダウンミックスに対して(1×2)の形状、および2チャンネルダウンミックスに対して(2×1)の形状を有し得る。
5.相関解除器201によって充填されるべきパラメータ化チャンネルにおける残りのエネルギーを計算する。アップミックスチャンネルResuuにおける残留エネルギーは、実際のエネルギーRuu(予測後)と再生成交差予測エネルギーReguuとの差分である。
scaleパラメータは、定数であり、0≦scale≦1である。scaleパラメータは、周波数に依存し得る。特に、scaleパラメータの異なる値は、異なる周波数バンドに対して用いられ得る。相関解除パラメータ行列Pは、エルミート対称である共分散行列であり得る。したがって、相関解除行列の上部または下部三角形からの相関解除パラメータのみがSPARメタデータ105に含まれる必要があり得る。対角成分は、実数値である一方、非対角成分は、複素数値であり得る。P係数は、アンプリディクション(un-prediction)およびアンミックス(un-mixing)を行う前に、A、BおよびCチャンネルを再生成するためにWチャンネルの相関解除成分をどれくらい用いるかを示す。
いくつかの実装例において、Pの対角値のみが計算され、復号部150に送られる。これらの対角値は、以下のように計算され得る。
図3は、復号部150の再構成モジュール170のさらなる成分を例示する。特に、再構成モジュール170は、上記リミックス方法論にしたがってチャンネルをリミックスするように構成されたリミックスモジュール322を備え得る。さらに、予測パラメータをアンプリディクションモジュール321内で用いて、再構成残留チャンネルから再構成マルチチャンネル信号111のチャンネルを生成し得る。
本開示の技術課題は、ボイス通信システムにおけるバックグラウンドノイズの空間パラメータをモデリングして、復号部150がこれらの空間パラメータおよびマルチチャンネル励起信号を用いて高品質空間コンフォートノイズを生成できるようにすることである。マルチチャンネル励起信号は、すべてのチャンネルが異なるシード(seed)を用いて生成され、かつ、互いに非相関であるマルチチャンネルホワイトノイズ信号であり得る。
この目的のために、符号化部100は、周囲ノイズをサンプリングし、周囲ノイズを記述する1つ以上のパラメータを符号化するように構成され得る。ノイズの空間的側面(spatial aspect)に対する1つ以上のパラメータは、「ボイスアクティビティなし」の期間中に、推定、符号化、そして復号部150に伝送され得る。復号部150は、当該1つ以上のパラメータに基づいて、出力すべきノイズを再生成するように構成され得る。
言い換えると、上記1つ以上のパラメータを復号部150に伝送可能とするための、比較的小さな集団のパラメータを用いて空間バックグラウンドノイズを符号化する方法を記載する。上記1つ以上のパラメータを用いて、伝送システムの受信側において空間コンフォートノイズを生成し得る。用語「空間」は、ノイズが左/右、上/下および/または前/後に関係する環境(ambiance)を有することを意味する。ノイズは、ある方向において別の方向よりも強い周囲ノイズが存在し得るような異方性であり得る。空間ノイズは、スピーカから出力される場合に、復号部150においてヘッドトラッキングと併用されて出力されるように構成され得る。
空間コンフォートノイズを復号器において生成する一般方法論は、米国10,224,046に記載されている。この文献の開示内容をすべて本願に援用する。本開示の技術課題は、空間コンフォートノイズを符号化部100においてどのようにモデリングするかである。具体的には、本開示は、空間コンフォートノイズが復号部150において生成可能となるように、空間コンフォートノイズに対する1つ以上の空間パラメータを符号化部100においてモデリングおよび/または量子化するための手順を記載する。
本開示の方法は、周囲ノイズの周波数スペクトルを特徴付ける機構と異なり、周囲ノイズの空間特性を特徴付ける。具体的には、本開示は、モノコーデックコンフォートノイズ符号化器の利用時に1つ以上の空間コンフォートノイズパラメータを生成することを記載する。ここで、空間コンフォートノイズパラメータは、ノイズの空間成分を特徴付ける。空間およびスペクトル成分を復号部150において用いて、空間コンフォートノイズを生成し得る。
入力オーディオ信号101が符号化部100に与えられ得る。ここで、入力オーディオ信号101は、ひと続きのフレームを含む。例えば、フレームの時間長は、20msであり得る。ひと続きフレームは、1サブセットのオーディオまたはボイスフレームと、バックグラウンドノイズのみからなる1サブセットのフレームとを含み得る。オーディオフレームのシーケンスの一例は、以下のように考えられ得る。
A---A--S---S----S---S---S----S---S---S----S---S----S---S---S---S----S---S---S----S---S---S----S---A---A--A--A
ここで、「A」は、アクティブなスピーチおよび/またはオーディオフレームを示し、「S」は、サイレンスフレーム(本明細書において、アクティブでないフレームと称される)を示す。
ノイズシェーピングパラメータのみを伝送することによって、かつ、バックグラウンドノイズ特性は、アクティブなスピーチまたはオーディオフレームほどには頻繁に変化しないと仮定することによって、コーデックの実際のビットレートをアクティブでないフレームの期間において実質的に低減し得る不連続伝送(DTX)システムに対して、上記シーケンスは、符号化部100によって、以下のフレームのシーケンスに翻訳され得る。
AB-AB-SID-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-AB-AB-AB-AB
ここで、「AB」は、アクティブなフレームに対する符号化器ビットストリームを示し、「SID」は、コンフォートノイズ生成用のひと続きのビットを含むサイレンスインジケータフレームを示し、「ND」は、データフレームがないこと、すなわち、これらのフレームの期間において何も復号部150に伝送されないことを示す。
したがって、符号化部100は、入力信号101の異なるフレームをアクティブ(A)またはサイレント(S)なフレーム(アクティブでないフレームとも称される)に分類するように構成され得る。さらに、符号化部100は、「SID」フレーム(例えば、ひと続きのSフレームのうちの現在のSフレームに対応する)内のコンフォートノイズ生成用のデータを決定および符号化するように構成され得る。SIDフレームは、ひと続きのSフレームに対して、繰り返し、特に周期的に、送られ得る。例として、SIDフレームは、8フレーム(20msフレームを用いる場合、後のSIDフレーム間の時間間隔の160msに対応する)ごとに送られ得る。ひと続きのSフレームのうちの1つ以上の後続のSフレームの期間においては、データが伝送されなくてもよい。したがって、符号化部100は、DTX(不連続伝送)を行うか、または、DTXモードに切り換えるように構成され得る。
言い換えると、符号化部100は、アクティブなフレームごとにオーディオデータ106および符号化メタデータ107を復号部150に送るように構成され得る。他方、符号化部100は、アクティブでないフレームの一部に対して(すなわち、SIDフレームに対して)、符号化メタデータ107のみを送る(オーディオデータ106は、送らない)ように構成され得る。残りのアクティブでないフレーム(すなわち、NDフレーム)に対しては、データは、全く送られなくてもよい(符号化メタデータ107さえも送られなくてもよい)。SIDフレームに対して送られる符号化メタデータ107は、アクティブなフレームに対して送られる符号化メタデータ107に対して、低減および/または圧縮され得る。
符号化部100は、符号化器をDTXモードに切り換えるように構成されたボイスアクティビティ検出器を含み得る。DTXフラッグ(例えば、後述の組合せVADフラッグ)が設定されている場合、パケットが入力フレームに基づいて不連続モードで生成され得る。DTXフラッグが設定されていない場合、フレームは、スピーチおよび/またはオーディオのアクティブなフレームとして符号化され得る。
符号化部100は、モノダウンミックス信号103を決定するように構成され得る。モノダウンミックス信号103を用いて、モノダウンミックス信号103に対して信号アクティビティ検出器またはボイスアクティビティ検出器(SAD/VAD)を動作させることによって、アクティブでないフレームを検出し得る。音場Bフォーマット入力信号101の例について、SAD/VADは、Wチャンネル信号の表現物に対して動作し得る。別の例において、SAD/VADは、入力信号101の複数の(特に、すべての)チャンネル信号に対して動作し得る。次いで、個々のチャンネル信号に対する個々の結果は、単一組合せVADフラッグに組み入れされ得る。組合せVADフラッグが設定されている場合、フレームは、アクティブでないと考えられ得る。他方、組合せVADフラッグが設定されていない場合、フレームは、アクティブであると考えられ得る。
したがって、VADおよび/またはSADを用いて、フレームのシーケンスのうちのフレームをアクティブなフレームまたはアクティブでないフレームに分類し得る。コンフォートノイズの符号化および/または生成は、アクティブでないフレームに適用され得る。符号化部100内のコンフォートノイズの符号化(特に、ノイズシェーピングパラメータの符号化)は、復号部150が音場用の高品質コンフォートノイズを生成可能となるように行われ得る。復号部150によって生成されるコンフォートノイズは、好ましくは、入力信号101内のバックグラウンドノイズのスペクトルおよび/または空間特性に整合(match)する。これは、必ずしも入力バックグラウンドノイズの波形再構成を意味しない。ひと続きのアクティブでないフレームに対して音場復号部150によって生成されたコンフォートノイズは、好ましくは、直前のアクティブなフレーム内のノイズに対して連続であるように聴こえる。したがって、復号部150におけるアクティブなフレームとアクティブでないフレームとの間の遷移は、好ましくは、滑らかであり、かつ、急峻でない(non-abrupt)。
復号部150は、ランダムホワイトノイズを励起信号として生成するように構成され得る。励起信号は、複数チャンネルのホワイトノイズを含み得る。ここで、異なるチャンネルにおけるホワイトノイズは、典型的には、互いに非相関である。符号化部100からのビットストリームは、ノイズシェーピングパラメータ(符号化メタデータ107として)のみを含み得る。復号部150は、ビットストリーム内に与えられたノイズシェーピングパラメータを用いて、異なるチャンネル内のランダムホワイトノイズをシェーピング(スペクトル的および空間的に)するように構成され得る。こうすることによって、空間コンフォートノイズが効率的に生成され得る。
以下において、符号化部150において空間および/またはスペクトルコンフォートノイズパラメータを決定するための方法を説明する。上記のように、「アクティブなフレーム」は、ボイスおよび/またはオーディオ信号が検出されるフレームであり得る。「非アクティブまたはアクティブでないフレーム」は、ボイスもスピーチも検出されず、バックグラウンドノイズのみが存在するフレームであり得る。フレームは、ボイスおよび/またはスピーチ検出(VADおよび/またはSAD)アルゴリズムを用いて、アクティブなフレームおよびアクティブでないフレームに分類され得る。
WYZXは、Bフォーマット音場信号の4つのチャンネルであり得る。略語CNGは、コンフォートノイズ生成(Comfort Noise Generation)を指し得る。略語SPARは、空間再構成器(SPAtial Reconstructor)を指し得る。図3を参照して概説したように、SPARスキームは、N個のチャンネルを有する入力101(好ましくは、N=4のFOA入力)を受け取り、ダウンミックスチャンネル(dmx_ch)の個数nが1≦n≦Nとなるダウンミックス103、および空間メタデータ105(いわゆるSPARパラメータ)を生成するアルゴリズムであり得る。さらに、SPARスキームは、上記セットのSPARパラメータ105を用いて、n個のチャンネル103を有する(再構成された)ダウンミックス103、114からN個のチャンネルを有するマルチチャンネル信号111を再構成する。
FOA入力信号101に対するSPARパラメータ105は、PR(予測係数)、C(交差項)係数、およびP(相関解除器)係数を含み得る。YpredまたはY′は、Yチャンネル信号の、1つ以上の他のチャンネル信号(特に、Wチャンネル信号)からの線形予測後の残留であり得る。XpredまたはX′は、Xチャンネル信号の、1つ以上の他のチャンネル信号(特に、Wチャンネル信号)からの線形予測後の残留であり得る。ZpredまたはZ′は、Zチャンネル信号の、1つ以上の他のチャンネル信号(特に、Wチャンネル信号)からの線形予測後の残留であり得る。
なお、本明細書は、音場信号内の空間ノイズのモデリングに主に関するが、本明細書に記載の方法は、音場信号に限定されず、かつ、任意の複数次元のノイズフィールドに、および/または、任意の種類のマルチチャンネル信号に適用され得る。特に、本明細書に記載の方法は、1より大きく、好ましくは、2よりも大きい(すなわち、ステレオよりも大きい)次元(dimensionality)Nを有する入力信号101に対する符号化器に基づいて、チャンネルおよび音場に適用され得る。
空間コンフォートノイズを符号化するための方法は、モノダウンミックス信号103(例えば、音場信号に対するWチャンネル信号)の1フレームに対するVADおよび/またはSADを含み得る。当該フレームがアクティブでないフレームであると検出された場合、空間コンフォートノイズパラメータの符号化が行われ得る。
複数の異なる周波数バンドまたはサブバンドに対して、上記フレームの異なるチャンネル信号の共分散が決定され得る。しかし、より少ない数の周波数バンドに対して、共分散行列が上記概説のように決定されてもよい。共分散の平滑化、すなわち、共分散行列の平滑化は、複数の後のフレームにわたって行われ得る。したがって、共分散は、フィルタを用いて、複数フレームにわたって、(ローパス)フィルタ化され得る。異なる周波数バンドに対して異なるフィルタが用いられ得る。言い換えると、異なる平滑化関数および/または異なる忘却係数が異なる周波数バンドにおいて用いられ得る。したがって、共分散の時間平滑化が行われ得る。この結果、バックグラウンドノイズに対するパラメータを符号化するためのデータレートが低減され得る。さらに、空間コンフォートノイズの可聴不連続が回避され得る。時間共分散平滑化の一例が米国63.057.533に記載されている。この文献の開示内容をすべて本願に援用する。
コンフォートノイズ生成のための共分散推定Rdtxは、好ましくは、比較的広範囲な(extensive)共分散平滑化を利用する。コンフォートノイズモデリングのための忘却係数を大きくすることにより、ノイズの空間特性の知覚を安定化させることによって、非定常的に聴こえ、知覚的に不快であり得るノイズを回避し得る。したがって、フレームに対して平滑化された共分散Rdtxが決定され、そして平滑化共分散Rdtxに基づいてSPARメタデータ105が決定され得る。
アクティブなフレームと後のアクティブでないフレームとの間の平滑な遷移を可能にするために、共分散計算スキームは、SADおよび/またはVADがアクティブでないフレームを検出すると直ちに、ノーマルな共分散推定(アクティブなフレームに対して用いられる)からノイズ共分散推定に切り換えられ得る。
フレームは、比較的短いバーストまたはトランジェント(例えば、ボイスバーストまたはノック(knock))を含み得る。そのようなトランジェントは、比較的短く、例えば、200msであり得る。そのようなバーストは、1シーケンスのアクティブでないフレームを中断し得る。当該中断があれば、通常、共分散の計算のリセットを招く(なぜなら、アクティブなフレームの短いバーストは、平滑化を用いないか、または改変された平滑化スキームを用いて計算されるからである)。符号化部100は、共分散推定を決定するための平滑化スキームから、トランジェントまたは短いバーストを有するフレームを除外するように構成され得る。トランジェントまたはボイスバーストが一旦検出されると、バーストまたはトランジェントが終了するまで共分散推定が一定に保持され得る。バーストまたはトランジェントが比較的短い、例えば、200ms以下である場合、共分散平滑化は、当該トランジェントの後も継続し得る(バーストまたはトランジェントの前の記憶された共分散に基づく)。したがって、共分散平滑化は、バーストまたはトランジェントの直前のフレームに対する記憶された共分散を用いて継続され得る。言い換えると、トランジェントまたはバーストに対応する1つ以上のアクティブなフレームを除くことによって、共分散の重み付け平均化が継続され得る。
他方、バーストが比較的長時間続く場合は、共分散推定は、リセットされてもよいし、リセットの前の共分散推定は、平均化のために用いられなくてもよい。
こうすることによって、バックグラウンドノイズの空間的側面が時間的に比較的安定であることが考慮され得る。トランジェント、ノック、ガタゴト(bump)、チクタク(tick)などを平滑化共分散計算から除くことによって、バックグラウンドノイズの空間的側面の知覚可能な途切れ(disruption)が信頼性良く回避され得る。特に、気づきやすいアーチファクトを招き得る、比較的短いシーケンスのアクティブなフレームの検出による共分散のリセットが回避され得る。
SPARメタデータ105の計算は、予測係数(Pr)の計算、1<n<4の場合の交差項係数Cの計算、および/または相関解除器係数(P)の計算(上記に概説)を含み得る。ここで、nは、ダウンミックス信号103内のチャンネル数である。
上記のように、アクティブでないフレームに対しては、アクティブなフレームの場合よりも少ない数のバンド(例えば、12バンドの代わりに6バンド)に対して共分散が計算され得る。アクティブでないフレームに対してバンド数を低減する背後にある前提は、バックグラウンドノイズの広帯域性により、ノイズパラメータを得るために、典型的には、より低い周波数解像度が必要となることである。バンド数を低減することによって、データレート、すなわち、ビットレートが低減され得る。さらに、実数値の係数のみが符号化部100から復号部150に送られてもよい。したがって、より少ない周波数バンドを含む低減モデルがバックグラウンドノイズをモデリングするために用いられ得る。このモデルによって、広帯域ノイズの空間特性を効率的にモデリングすることが可能になる。
2チャンネルダウンミックス103(例えば、Wチャンネル信号およびYpredまたはY′チャンネル信号の表現物を含む)の場合、符号化部100から復号部150へのビットストリーム内に含まれるデータは、以下を含み得る(1フレームの入力信号101に対して)。
●符号化モジュール140によって符号化されたWチャンネル信号の表現物
●符号化モジュール140によって符号化されたYpredチャンネル信号。上記に概説したように、Ypredチャンネル信号は、Yチャンネル信号の非相関部分であり得る。当該非相関部分は、1つ以上の予測係数を用いてWチャンネル信号から予測することはできない
●Y、ZおよびXチャンネル信号に対する(実数値の)予測係数

●DTXの期間においては、アクティブでないフレームに対して、直接的な係数(交差予測係数またはC係数など)は、復号部150に送られなくてもよい
●XおよびZチャンネル信号を生成するために用いられる必要のある相関解除Wチャンネル信号のレベルを示す(実数値の)相関解除器係数P
2チャンネルダウンミックス信号103の場合に符号化部100によって行われ得る処理を図4bに例示する。
完全パラメトリックWダウンミックス103(ダウンミックス信号103としてWチャンネル信号のみを含む)の場合、符号化部100から復号部150へのビットストリーム内のデータは、以下を含み得る(1フレームの入力信号101に対して)。
●符号化モジュール140によって符号化されたWチャンネル信号の表現物
●Y、ZおよびXチャンネル信号に対する(実数値の)予測係数

●Y、XおよびZチャンネル信号を生成するために用いる必要のある相関解除Wチャンネル信号のレベルを示す(実数値の)相関解除器係数P
1チャンネルダウンミックス信号103の場合に符号化部100によって行われ得る処理を図4aに例示する。図4cは、3チャンネルダウンミックス信号103の場合を例示する。
単一モノチャンネルへのダウンミックス(例えば、3または4チャンネルを有するマルチチャンネル入力信号101が1チャンネルにダウンミックスされ、そして3または4チャンネルにアップミックスされることを示す3-1-3または4-1-4ダウンミックス)の場合、モノ(W′)チャンネルダウンミックス信号103(Wチャンネルの表現物であり得る)に関するオーディオデータ106のみがビットストリームに含められる。SPARメタデータ105を用いて再構成ダウンミックス信号114に基づいてFOA空間コンフォートノイズを生成し得る。符号化部100がアクティブでないフレームを検出した場合、本明細書に概説したように、SPARメタデータ105の計算が改変される。特に、アクティブなフレームの後の最初のアクティブでないフレームが符号化され、SIDフレームを与え得る。この目的のために、符号化SPARメタデータ107は、最初のアクティブでないフレームに対して、ビットストリーム内で与えられ得る。さらに、ひと続きのアクティブでないフレームの期間において、さらなるSIDフレームが繰り返し、特に、周期的に与えられ得る。
1チャンネルダウンミックス例に対して、復号部150は、オーディオデータ106に基づいて再構成ダウンミックス信号114を生成するように構成され得る。この再構成ダウンミックス信号114は、WCNGと称されることがある。再構成ダウンミックス信号114は、アクティブでないフレームの期間において、ホワイトノイズを励起信号として用い、かつ、モノオーディオコーデックによって符号化されたスペクトルシェーピングパラメータ(例えば、EVS)を用いた、ダウンミックスにおけるWチャンネルの非符号化表現物内に存在するバックグラウンドノイズのパラメトリック再構成物を含み得る。Y、XおよびZチャンネル信号を再構成するための3つの相関解除チャンネルは、相関解除器201(例えば、時間ドメインまたはフィルタバンクドメイン相関解除器)を用いてWCNGから生成され得る。あるいは、Y、XおよびZチャンネル信号を再構成するための3つの相関解除チャンネルは、異なるシードを有する非相関コンフォートノイズを生成し、そしてWCNGにしたがって非相関コンフォートノイズをスペクトルシェーピングすることによって生成され得る。SPARメタデータ105は、WCNGおよび相関解除チャンネルに適用され、元のバックグラウンドノイズのスペクトルおよび空間特性を有する、音場フォーマットのコンフォートノイズが生成され得る。
2チャンネルダウンミックス例(一次音場に対する4-2-4)に対して、モノダウンミックス(W′)チャンネルに対する、および、1つの予測チャンネルに対するコンフォートノイズパラメータが復号部150に与えられ得る。復号部150は、2チャンネルダウンミックス103から、および、SPARメタデータ105からFOA空間コンフォートノイズを生成するための方法を適用し得る。2つのダウンミックスチャンネルは、一方が元のWチャンネル表現物にしたがって成形されたスペクトルを有する非相関コンフォートノイズ信号であり、他方が元の残留チャンネルにしたがって成形されたスペクトルを有する非相関コンフォートノイズ信号であり得る。
SIDフレームについて、2つの独立した符号化器モジュール140インスタンス(instance)は、それぞれモノ(W′)チャンネルに関するスペクトル情報および残留チャンネルに関するスペクトル情報を符号化する。さらに、復号部150の2つの独立したインスタンスは、異なるシードを有する非相関コンフォートノイズ信号を生成し得る。非相関コンフォートノイズ信号は、それぞれ非符号化ダウンミックス内のWチャンネルおよび残留チャンネルの表現物に基づいてスペクトルシェーピングされ得る。再構成Wチャンネルは、WCNGと称されることがある。再構成残留チャンネルは、PCNGと称されることがある。
CNGは、典型的には、WCNGの相関解除および相関解除係数の適用(単一ダウンミックスチャンネルのみを利用する完全パラメトリックアプローチにおいて行われる)と比較して、元の非相関残留チャンネルのより良好な近似である。この結果として、バックグラウンドノイズの知覚品質は、典型的には、マルチチャンネルダウンミックス信号103をする場合に、より高くなる。
2つの相関解除チャンネルは、時間ドメインまたはフィルタバンクドメイン相関解除器を介したWCNGの伝送(run)によって、または、異なるシードを有する非相関コンフォートノイズの生成によって、かつ、WCNGにしたがった非相関コンフォートノイズチャンネルのスペクトルシェーピングによって作成され得る。次いで、WCNG、PCNGコンフォートノイズ信号および2つの相関解除信号は、SPARメタデータ105を用いて、FOA出力にアップミックスされ得る。
ダウンミックス信号103は、アクティブなフレームおよびアクティブでないフレームで同じダウンミックス構成を有して連続的に伝送されるので、バックグラウンドノイズは、典型的には、遷移フレームの期間においても滑らかなに聴こえる。さらに、復号部150は、SPAR符号化器120によって計算された予測係数および相関解除係数を用いているので、SPAR復号器150によって生成されたコンフォートノイズ内に空間特性が再現(replicate)される。
C係数または交差予測係数が0に設定されることによって、DTXの期間におけるアクティブでないフレームに対するデータレートをさらに低減し得る。コンフォートノイズモデリングの別の実装例は、Cパラメータを含み得る。
コンフォートノイズモデリングの一実装例において、P行列の上または下三角パラメータは、用いられない。P行列の実数値の対角成分のみを用いて、コンフォートノイズをモデリングし得る。コンフォートノイズモデリングの別の実装例において、P行列の上または下三角パラメータは、考慮されてもよい。
4-3-4ダウンミックスの場合、モノコーデックCNGパラメータは、Wダウンミックスチャンネルのモノ表現物に対して、および、2つの予測チャンネルに対して、生成され、そして伝送され得る。次いで、FOA空間コンフォートノイズが3チャンネルダウンミックス103から、および、SPARメタデータ105から生成され得る。3つのダウンミックスチャンネルは、1つがダウンミックスにおいて非符号化Wチャンネル表現物として成形されたスペクトルを有する非相関コンフォートノイズ信号であり、他の2つがダウンミックスにおいて非符号化Y残留チャンネルおよびX残留チャンネルとして成形されたスペクトルを有する非相関コンフォートノイズ信号であり得る。
図4a、4bおよび4cは、それぞれ1チャンネルダウンミックス103、2チャンネルダウンミックス103、または3チャンネルダウンミックス103を用いてFOA入力信号101を符号化する場合の、空間コンフォートノイズパラメータのフレーム単位の計算を例示する。Y′は、WチャンネルからYチャンネルを予測した後の残留を示す。X′は、WチャンネルからのXチャンネルの予測を示す。
好適な例において、パラメータPr(予測係数)および/またはP(相関解除器係数)の均一な量子化が行われ得る。量子化スキームは、ノイズの方向に依存し得る。特に、異なるチャンネルに割り当てられる量子化点の個数は、ノイズの方向に依存し得る。
予測係数(Pr)の量子化は、以下のように行われ得る。
●4-1-4の場合、予測係数は、均一な量子化を用いて量子化され得る。当該係数は、9個の均一に分散された量子化点を用いて、-1.2と1.2との間で量子化され得る。
●4-2-4の場合、Y′およびX′に対応する予測係数は、9個の均一に分散された量子化点を用いて、-1と1との間で量子化され得る。Z′チャンネルに対応する予測係数は、7個の均一に分散された量子化点を用いて、-1と1との間で量子化され得る。Z′と比較してY′およびX′に対する量子化点の個数が増大しているのは、Z′チャンネルと比較してY′およびX′チャンネルの知覚の重要度が増大していることにより得る。
●4-3-4の場合、Y′に対応する予測係数は、9個の均一に分散された量子化点を用いて、-1と1との間で量子化され得る。X′チャンネルに対応する予測係数は、7個の均一に分散された量子化点を用いて、-1と1との間で量子化され得る。Z′チャンネルに対応する予測係数は、5個の均一に分散された量子化点を用いて、-1と1との間で量子化され得る。
相関解除係数(P)の量子化は、以下のとおりであり得る。
●相関解除係数は、0と1.6との間で量子化され得る。
●4-1-4の場合、相関解除係数を増大させる(boost)ことによってさらなる拡散性(diffuseness)が付加され得る(これは、相関解除係数が比較的低い、例えば、0.4未満の場合にのみ行われ得る)。次いで、(増大された)相関解除係数は、7個の均一に分散された量子化点を用いて量子化され得る。相関解除係数を増大させることによって、非均一量子化が達成され得る。
●4-2-4の場合、増大は、追加されなくてもよく、かつ、相関解除係数は、7個の均一に分散された量子化点を用いて量子化され得る。
●4-3-4の場合、増大は、追加されなくてもよく、かつ、相関解除係数は、3個の均一に分散された量子化点を用いて量子化され得る。
なお、N-n-Nという表記は、入力信号101のチャンネル数N、ダウンミックス信号103のチャンネル数n、および再構成信号111のチャンネル数Nを示す。
図6aは、N個の異なるチャンネルを含むマルチチャンネル入力信号101を符号化するための方法例600のフローチャートを示す。ここで、Nは、1よりも大きな正の整数であり、好ましくは、N>2である。マルチチャンネル入力信号101は、SR信号、特に、FOA信号などのアンビソニックス信号であり得る。入力信号101は、フレームのシーケンスを含む。ここで、各フレームは、入力信号101のうちのある時間長、例えば、10~30msをカバーし得る。マルチチャンネル入力信号101のうちの1フレームは、典型的には、1ブロックのマルチチャンネルPCMデータを含む。特に、1フレームは、マルチチャンネル入力信号101の各チャンネルに対し、ある時間(例えば、20ms)に対するオーディオサンプル(例えば、20kHz以上、または40kHz以上、特に、48kHzなどのあるサンプリングレートで)を含み得る。
方法600は、フレームのシーケンスの各フレームに対して繰り返され得る。方法600は、フレームのシーケンスのうちの現在のフレームに対して、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを信号および/またはボイスアクティビティ検出器を用いて判定するステップ601を含み得る。言い換えると、現在のフレームは、アクティブなフレーム(信号、特に、スピーチを含む)であること、または、アクティブでないフレーム(バックグラウンドノイズ(のみ)を含む)であることに分類され得る。この目的のために、現在のフレームのサンプルは、例えば、現在のフレーム内のオーディオ信号のエネルギーに関して、および/または、現在のフレーム内のオーディオ信号のスペクトル組成に関して分析され得る。SADおよび/またはVADは、マルチチャンネル入力信号101の単一チャンネル(例えば、Wチャンネル)に基づいて、または、マルチチャンネル入力信号101の複数の、特に、すべてのチャンネルに基づいて行われ得る。
さらに、方法600は、マルチチャンネル入力信号101に基づいて、および/または、演算および/または目標ビットレートに基づいてダウンミックス信号103を決定するステップ602を含み得る。ここで、ダウンミックス信号103は、典型的には、N個以下のチャンネルを含む。特に、ダウンミックス信号103は、n個のチャンネルを含む。ここで、典型的には、n≦N、好ましくは、n<Nである。ダウンミックス信号103のチャンネル数nは、特に、比較的高いビットレートに対して、マルチチャンネル入力信号101のチャンネル数Nに等しくてもよい。ダウンミックス信号103は、マルチチャンネル入力信号101から1つ以上のチャンネルを選択することによって生成され得る。ダウンミックス信号103は、例えば、FOA信号のWチャンネルを含み得る。さらに、ダウンミックス信号103は、FOA信号の1つ以上の残留チャンネル(本明細書に記載の予測演算を用いて導出され得る)を含み得る.
ダウンミックス信号103、特に、ダウンミックス信号103のチャンネル数nは、典型的には、ビットストリームに対する目標データレートに依存して決定される。
方法600は、さらに、パラメータセットを含むアップミックスメタデータ105、特に、SPARメタデータを決定するステップ603を含み得る。アップミックスメタデータ105は、ダウンミックス信号103に基づいて(または、対応する再構成ダウンミックス信号114に基づいて)、N個のチャンネルを含む再構成マルチチャンネル信号111の生成を可能にするように決定され得る。アップミックスメタデータ105のパラメータセットは、マルチチャンネル入力信号101の現在のフレーム内に含まれるオーディオコンテンツ、特に、ノイズの1つ以上の空間特性を記述および/またはモデリングし得る。
上記のように、マルチチャンネル入力信号101は、Wチャンネル、Yチャンネル、ZチャンネルおよびXチャンネルを有するアンビソニックス信号、特に、FOA信号を含み得る。アップミックスメタデータ105のパラメータセットは、Wチャンネルに基づいてYチャンネル、ZチャンネルおよびXチャンネルを予測することによって残留チャンネル(それぞれY′チャンネル、Z′チャンネルおよびX′チャンネルと称される)を与えるための予測係数を含み得る。予測係数は、本明細書においてPrまたはPRと称される。ダウンミックス信号103は、Wチャンネルの表現物および1つ以上の残留信号(特に、最も高いエネルギーを有する1つ以上の残留信号)を含み得る。
ダウンミックス信号がWチャンネル表現物に加えて第1の残留チャンネルを含む場合、交差予測パラメータが決定され得る(おそらくは、アップミックスメタデータ105の一部として)。ここで、交差予測パラメータは、ダウンミックス信号に含まれる1つ以上の残留チャンネルと1つ以上の残りの残留チャンネル(ダウンミックス信号103に含まれない)との間の共分散に依存する。1つ以上の交差予測係数は、本明細書においてCと称される。
さらに、ダウンミックス信号103に含めなかった残留チャンネルを再構成する際に相関解除チャンネルを生成するための相関解除パラメータが残留チャンネルの共分散に基づいて決定され得る。相関解除パラメータは、本明細書においてPと称され、アップミックスメタデータの一部であり得る。
アップミックスメタデータ105は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され得る。特に、アップミックスメタデータ105内に含まれるパラメータセットは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。現在のフレームがアクティブなフレームである場合、アップミックスメタデータ105のパラメータセットは、現在のフレームがアクティブでないフレームである場合よりも、大きく、かつ/または、多くの異なるパラメータを含み得る。
特に、交差予測パラメータは、現在のフレームがアクティブでないフレームである場合、現在のフレームに対して、アップミックスメタデータ105の一部でなくてもよい。他方、交差予測パラメータは、現在のフレームがアクティブなフレームである場合、現在のフレームに対して、アップミックスメタデータ105の一部であり得る。
あるいは、または加えて、1つよりも多くの残留チャンネルをダウンミックス信号103に含める場合、現在のフレームに対するアップミックスメタデータ105のパラメータセットは、現在のフレームがアクティブなフレームである場合、含まれない残留チャンネルと、それ自体と、または、別の1つの含まれない残留チャンネルとの各可能な組み合わせに対して、相関解除パラメータを含み得る。他方、現在のフレームがアクティブでないフレームである場合、現在のフレームに対するアップミックスメタデータ105のパラメータセットは、含まれない残留チャンネルとそれ自体との組み合わせに対してのみ相関解除パラメータを含み得る。
したがって、アップミックスメタデータ105に含めるパラメータの種類は、アクティブなフレームに対してと、アクティブでないフレームに対してとでは、異なり得る。特に、バックグラウンドノイズの空間特性の再構成にあまり関係しない1つ以上のパラメータは、アクティブでないフレームに対して省かれ得る。この結果として、バックグラウンドノイズを符号化するためのデータレートは、知覚品質に影響を与えることなく低減され得る。
上記パラメータセットは、複数の異なる周波数バンドに対して対応するパラメータを含み得る。言い換えると、所与の種類のパラメータ(例えば、Pr、Cおよび/またはPパラメータ)は、複数の異なる周波数バンド(サブバンドとも称する)に対して決定され得る。パラメータが決定される異なる周波数バンドの個数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームでのいずれかあるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、異なる周波数バンドの個数は、現在のフレームがアクティブでないフレームである場合よりも大きくてもよい。
したがって、マルチチャンネル入力信号の空間特性を記述する上記パラメータセットの周波数解像度は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して改変され得る。特に、アクティブでないフレームに対するよりもアクティブなフレームに対して高周波数解像度が用いられ得る。こうすることによって、バックグラウンドノイズを符号化するためのデータレートは、知覚品質に影響を与えずに低減され得る。
方法600は、アップミックスメタデータ105をビットストリーム(ここで、ビットストリームは、対応する復号部150に伝送または与えられ得る)に符号化するステップ604をさらに含み得る。アップミックスメタデータ105のパラメータセットは、エントロピー符号化され、ビットストリームに挿入されることになる符号化メタデータ107を与え得る。この結果として、空間バックグラウンドノイズの効率的な符号化が提供される。
方法600は、現在のフレームがアクティブなフレームである場合、特に、その場合のみ、ダウンミックス信号103をビットストリームに符号化するステップをさらに含み得る。ダウンミックス信号103の1つ以上のチャンネルは、(1つ以上のインスタンスの)単一チャンネルオーディオ符号化器(EVS(エンハンスト・ボイスサービス(enhanced voice services))符号化器など)を用いて個別に符号化され、ビットストリームに挿入されることになるオーディオデータ106を与え得る。
方法600は、現在のフレームに対するアップミックスメタデータ105をビットストリームに符号化するステップ604のために、量子化器を用いて上記パラメータセットからパラメータを量子化するステップを含み得る。言い換えると、量子化器を用いて、ビットストリームに符号化されることになる上記パラメータセットを量子化し得る。量子化器、特に、量子化器の量子化ステップサイズおよび/または量子化ステップ数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、アクティブでないフレームに対するよりもアクティブなフレームに対して、量子化ステップサイズは、小さく、かつ/または、量子化ステップ数は、多くてもよい。あるいは、または加えて、量子化器、特に、量子化器の量子化ステップサイズおよび/または量子化ステップ数は、ダウンミックス信号のチャンネル数に依存し得る。こうすることによって、空間バックグラウンドノイズの高知覚品質な符号化の効率がさらに増大され得る。
あるいは、または加えて、量子化器、特に、量子化器の量子化ステップサイズおよび/または量子化ステップ数は、アップミックスメタデータ105が符号化されるチャンネルおよび/またはチャンネルの種類に依存し得る。異なるチャンネルおよび/または異なる種類のチャンネルは、異なる方向に関係し得る。例として、Xチャンネルおよび/またはZチャンネルと比較して、Yチャンネルに対し、量子化ステップサイズは、小さく、かつ/または、量子化ステップ数は、多くてもよい。なぜなら、左/右のキュー(cue)は、前/後または上/下のキューよりも知覚的に重要であり得るからである。
上記方法は、フレームのシーケンスからの複数フレームにわたって時間平滑化を行うことによって、マルチチャンネル入力信号の現在のフレームに対して、共分散、特に、共分散行列および/または1セットの共分散値を決定するステップを含み得る。時間平滑化は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して行われ得る。例として、時間平滑化に対する忘却係数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、忘却係数は、現在のフレームがアクティブでないフレームである場合よりも短くてもよい。言い換えると、アクティブでないフレームと比較して、アクティブなフレームに対して、より程度の小さい時間平滑化が行われ得る。一例において、現在のフレームがアクティブなフレームである場合、現在のフレームに対する共分散は、時間平滑化なしに決定されてもよい。他方、現在のフレームがアクティブでないフレームである場合、現在のフレームに対する共分散は、時間平滑化を用いて決定されてもよい。
忘却係数は、周波数に依存し得る。特に、少なくとも、複数の異なる周波数バンドのうちのいくつかに対して、異なる忘却係数、すなわち、忘却係数の異なる値が用いられてもよい。したがって、共分散の時間平滑化は、異なる周波数および/または周波数バンドに対して異なり得る。こうすることによって、空間バックグラウンドノイズの知覚品質は、さらに向上し得る。
アクティブでないフレームの期間において、より程度の大きな平滑化が行われ得る(アクティブなフレームと比較して)。なぜなら、バックグラウンドノイズの空間特性は、典型的には、アクティブなスピーチまたは一般的なオーディオと比較して、より安定していると想定されるからである。これはまた、復号器出力においてより安定した空間コンフォートノイズ体験を与え得る。
忘却係数は、異なる周波数バンドのバンド幅に依存し得る。特に、周波数バンドに対する忘却係数は、周波数バンドのバンド幅に依存し得る。忘却係数は、周波数バンドの周波数解像度が増大するにつれ増大し得る(その逆も然りである)。
アップミックスメタデータの1つ以上のパラメータ(特に、1つ以上の予測パラメータ、1つ以上の交差予測係数および/または1つ以上の相関解除パラメータ)は、現在のフレームに対する共分散に基づいて正確に決定され得る。
したがって、共分散の時間平滑化(空間特性を記述するための基礎となる)は、バックグラウンドノイズを含むアクティブでないフレームに対して行われ得る。こうすることによって、復号部150における再構成バックグラウンドノイズの知覚品質が向上し得る。さらに、データレート効率が向上し得る(エントロピー符号化のパフォーマンスが向上するため)。
方法600は、トランジェントノイズまたはトークバースト(talk burst)に対応する、フレームのシーケンスからの1つ以上のフレームを特定するステップを含み得る。トランジェントノイズおよび/またはトークバーストは、最大で所定のバースト期間閾値のあいだ続く音響イベントであり得る。バースト期間閾値は、例えば、100ms~300msに、例えば、200msに設定され得る。復号部150がトランジェントノイズおよび/またはトークバーストをその正しい空間位置において再構成できるように、トランジェントノイズおよび/またはトークバーストに対して、時間平滑化を行わずに、空間パラメータを得ることが知覚上重要であり得る。しかし、また、バックグラウンドノイズの共分散における急な変化は、可聴な不連続および/またはアーチファクトを生じさせ得るので、空間バックグラウンドノイズモデリングするために共分散平滑化フィルタ状態を維持する(トランジェントノイズおよび/またはトークバーストの影響を受けずに)ことが知覚上重要であり得る。
方法600は、時間平滑化を行う際に1つ以上の特定されたフレーム(トランジェントノイズおよび/またはトークバーストを含む)を無視するステップ、および/または、現在のフレームに対して共分散を決定するための時間平滑化計算から1つ以上の特定されたフレームを除外するステップを含み得る。言い換えると、比較的短いトランジェントノイズおよび/またはトークバーストを含む1つ以上の中間のアクティブなフレームが共分散の時間平滑化演算から除外され得る。この結果として、空間バックグラウンドノイズの知覚品質が向上し得る。その結果、復号部150における再構成空間バックグラウンドノイズの空間特性における急な変化を回避でき、知覚品質が向上する。
方法600は、所定のバースト期間閾値より短く、現在のフレームがフレームのシーケンスから1セットの1つ以上の先行するアクティブでないフレームに(直後に)続くアクティブなフレームであると判定するステップを含み得る。次いで、現在のフレームに対する共分散が現在のフレームを考慮せずに決定され得る。次いで、現在のフレームに対する共分散が1つ以上の先行するアクティブでないフレームのセットに基づいて決定された基準共分散に基づいて決定され得る。したがって、1シーケンスのアクティブでないフレームに続くアクティブなフレームが共分散の時間平滑化時に無視されることによって、復号部150における空間バックグラウンドノイズの知覚品質が向上し得る。
あるいは、方法600は、所定のバースト期間閾値より長く、現在のフレームがフレームのシーケンスから1セットの1つ以上の先行するアクティブでないフレームに(直後に)続くアクティブなフレームであると判定するステップを含み得る。言い換えると、現在のフレームが比較的短いトランジェントおよび/またはバーストの一部ではなく、スピーチおよび/または信号を含むと判定され得る。次いで、現在のフレームに対する共分散がサンプルに基づいて、特に、サンプルのみに基づいて、現在のフレームから決定され得る。したがって、マルチチャンネル入力信号101内のスピーチおよび/または信号の開始を検出した後に、共分散計算のリセットが行われ得る。この結果として、再構成マルチチャンネル信号111の知覚品質が向上し得る。
方法600は、現在のフレームがアクティブでないフレームであると判定するステップを含み得る。この場合、現在のフレームに対する共分散は、現在のフレームに(直後に)続く、フレームのシーケンスからの1つ以上の後のフレームに対する共分散を決定するために時間平滑化を行うための基準共分散として記憶され得る。アクティブでないフレームの共分散を、より多くの後の(アクティブでない)フレームの1つの共分散を計算するための基準共分散として記憶することによって、時間平滑化が効率的に行われ得る。
さらに、方法600は、現在のフレームに(直後に)続く、フレームのシーケンスからの後のフレームに対して、現在のフレームがアクティブでないフレームである場合に、後のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを、上記信号および/またはボイスアクティビティ検出器を用いて判定するステップを含み得る。後のフレームがアクティブでないフレームである場合、後のフレームに対する共分散は、現在のフレームのサンプルに基づいて、特に、現在のフレームに対する共分散に基づいて、および後のフレームのサンプルに基づいて(忘却係数を考慮して)決定され得る。こうすることによって、時間平滑化が信頼性良くかつ効率的に行われ得る。
方法600は、複数の異なる周波数バンド内のマルチチャンネル入力信号101の現在のフレームに対して、共分散、特に、共分散行列を決定するステップを含み得る。上記のように、周波数バンドの個数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、周波数バンドの個数は、現在のフレームがアクティブでないフレームである場合よりも多くてもよい。次いで、アップミックスメタデータ105の1つ以上のパラメータが現在のフレームに対する共分散に基づいて決定され得る。特に、複数のパラメータが、複数の周波数バンドに対する対応の複数の共分散に基づいて、複数の周波数バンドに対して決定され得る。この結果として、周波数依存パラメータは、信頼性良くかつ効率的に決定され得る。
現在のフレームがアクティブでないフレームであると判定された場合、現在のフレームの直前の、フレームのシーケンスからの先行するフレームがアクティブでないフレームであったかどうかが判定され得る。言い換えると、現在のフレームがSID(サイレンスインジケータ)フレームまたはND(データなし)フレームのいずれであるかが判定され得る。先行するフレームがアクティブでないフレームであって、かつ、最後のSIDフレームからの連続するアクティブでないフレームの個数が予め計算されたSIDフレーム間隔未満である(すなわち、現在のフレームがNDフレームである)場合、現在のフレームに対するダウンミックス信号103および/またはアップミックスメタデータ105をビットストリームに符号化するステップ604を行わないことにより、空間バックグラウンドノイズを送信するデータレートをさらに低減し得る。他方、先行するフレームがアクティブなフレームであって、または、最後のSIDフレームからの連続するアクティブでないフレームの個数が予め計算されたSIDフレーム間隔に等しい(すなわち、現在のフレームがSIDフレームである)場合、現在のフレームに対するダウンミックス信号103およびアップミックスメタデータ105がビットストリームに符号化されることによって、空間バックグラウンドノイズの正確な送信を提供し得る。
現在のフレームがアクティブなフレームである場合、ダウンミックス信号103の各チャンネルは、モノオーディオ符号化器(EVSなど)のインスタンスを用いて個別に符号化され得る。ここで、モノオーディオ符号化器は、ダウンミックス信号103のチャンネル内のオーディオ信号を(符号化された)励起信号に、および、(符号化された)スペクトルデータに符号化するように構成され得る。
現在のフレームがアクティブでない(SID)フレームである場合、ダウンミックス信号103の各チャンネルは、モノオーディオ符号化器(EVSなど)のインスタンスを用いて個別に符号化され得る。しかし、この場合、(符号化された)励起信号は、ビットストリームに挿入されなくてもよい。他方、(符号化された)スペクトルデータは、ビットストリームに挿入され得る。この結果として、バックグラウンドノイズのスペクトル特性に関するスペクトルデータは、効率的にビットストリームに挿入され得る。
対応する復号部150において、ダウンミックス信号103の1つ以上のチャンネルの励起信号は、ホワイトノイズによって置き換えられ得る(ここで、異なるチャンネルに対するホワイトノイズは、典型的には、互いに独立している)。さらに、(符号化された)スペクトルデータを用いて、スペクトル特性をダウンミックス信号103の1つ以上のチャンネルに付加し、再構成ダウンミックス信号114を与えてもよい。
方法600は、可変レートDTXを含み得る。ここで、SIDフレームの伝送周波数は、可変である。SIDフレームの伝送周波数は、入力信号101のバックグラウンドノイズの空間および/またはスペクトル特性または信号対ノイズ比の変化に依存して変化し得る。上記に概説したように、入力信号101のフレームは、アクティブなフレームまたはアクティブでないフレームに分類され得る。入力信号101のフレームのシーケンスは、1サブシーケンスのアクティブでないフレームを含み得る。アクティブでないフレームのサブシーケンス内に含まれるノイズの空間および/またはスペクトル特性に関する情報を与えるために、符号化部100は、SIDフレームをビットストリームに繰り返し、特に、周期的に挿入するように構成され得る。各SIDフレームは、本明細書に記載のアップミックスメタデータ105を含み得る。SIDフレームに対する周波数または繰り返しレートは、入力信号101に依存して改変され得る。
特に、現在のアクティブでないフレームを分析して、現在のアクティブでないフレーム内のノイズの空間および/またはスペクトル特性における変化が先回のアクティブでないフレームにおいて生じていたかどうかが判定され得る。例として、現在のアクティブでないフレームに対するアップミックスメタデータ105と先回のアクティブでないフレームのアップミックスメタデータ105との間の距離測度値が所定の距離閾値よりも大きいかどうかが判定され得る。距離測度値が所定の距離閾値よりも大きい場合、変化したアップミックスメタデータ105を復号部150に送信するために、現在のアクティブでないフレームに対してSIDフレームが挿入され得る。他方、距離測度値が距離閾値よりも小さい場合、現在のアクティブでないフレームは、NDフレームとして扱われ得る。
上記に概説したように、入力オーディオ信号101が符号化部100に与えられ得る。ここで、入力オーディオ信号101は、ひと続きのフレームを含む。フレームの時間長は、例えば、20msである。ひと続きフレームは、1サブセットのオーディオまたはボイスフレームと、バックグラウンドノイズのみからなる1サブセットのフレームとを含み得る。1シーケンスのオーディオフレームの一例は、以下のように考えられ得る。
A---A--ST---S----S---S---S----S---S---S----S---S----S---S---S---ST----S---S---S----S---S---S----S---A---A--A--A
と考えられ得る。
ここで、「A」は、アクティブなスピーチおよび/またはオーディオフレームを表し、「S」は、サイレンスフレーム(本明細書にてアクティブでないフレームとも称される)を表し、「ST」は、サイレンス伝送フレームを表す。サイレンス伝送フレームに対して、バックグラウンドノイズのスペクトルおよび/または空間特性における変化が検出され、したがって、空間および/またはスペクトルパラメータが符号化され、復号部150に送られることになる。
ノイズシェーピングパラメータのみを送り、かつ、バックグラウンドノイズ特性がアクティブなスピーチまたはオーディオフレームと同程度には頻繁に変化しないと仮定することによって、コーデックの実際のビットレートがアクティブでないフレームの期間に著しく低減される不連続伝送(DTX)システムに対して、上記シーケンスは、符号化部100によって、以下のフレームのシーケンスに翻訳され得る。
AB-AB-SID-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-ND-ND-ND-AB-AB-AB-AB
ここで、「AB」は、アクティブなフレームに対する符号化器ビットストリームを表し、「SID」は、コンフォートノイズ生成のためのひと続きのビットを含むサイレンスインジケータフレームを表し、「ND」は、データフレームがないこと、すなわち、これらのフレームの期間において何も復号部150に伝送されないことを表す。なお、上記シーケンスにおけるSIDフレームの伝送周波数は、予め決定されておらず、入力バックグラウンドノイズのスペクトルおよび/または空間特性における変化に依存する。
したがって、方法600は、現在のフレームがアクティブでないフレームである場合、現在のフレームに対する共分散行列における変化に基づいて、バックグラウンドノイズの空間および/またはスペクトル特性における変化を検出するステップを含み得る。当該変化が所定の閾値よりも大きい場合、SIDフレームのみが送られ得る。
言い換えると、方法600は、現在のフレームが、1サブシーケンスの(現在のフレームの直前の)1つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップを含み得る。さらに、方法600は、現在のフレームに含まれるバックグラウンドノイズの空間および/もしくはスペクトル特性、ならびに/または、現在のフレームの信号対ノイズ比が、1つ以上の先回のアクティブでないフレームのサブシーケンスにおけるバックグラウンドノイズの対応する空間および/もしくはスペクトル特性に対して、ならびに/または、1つ以上の先回のアクティブでないフレームのサブシーケンスの信号対ノイズ比に対して、変化したかどうかを判定するステップを含み得る。
方法600は、現在のフレームに含まれるバックグラウンドノイズの空間および/もしくはスペクトル特性、ならびに/または、現在のフレームの信号対ノイズ比が、1つ以上の先回のアクティブでないフレームのサブシーケンスに対して、変化した場合、特に、そうである場合のみに、現在のフレームに対するアップミックスメタデータ105をビットストリームに符号化するステップ604をさらに含み得る。したがって、現在のフレームは、現在のフレームに含まれるバックグラウンドノイズの空間および/もしくはスペクトル特性、ならびに/または、現在のフレームの信号対ノイズ比が変化した場合、特に、そうである場合のみに、SIDフレームとして符号化され得る。
あるいは、または加えて、方法600は、現在のフレームが1つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップを含み得る。加えて、方法600は、現在のフレームに対する共分散および/またはアップミックスメタデータ105と、1つ以上の先回のアクティブでないフレームに対する先回の共分散および/または先回のアップミックスメタデータ105との間の距離測度(例えば、二乗誤差)の値を決定するステップを含み得る。言い換えると、現在のフレームに対する共分散が1つ以上の先回のアクティブでないフレームに対する対応の先回の共分散からどれだけずれているかによって、および/または、現在のフレームに対するアップミックスメタデータ105が1つ以上の先回のアクティブでないフレームに対する先回のアップミックスメタデータ105からどれだけずれているかによって、決定され得る。先回のアップミックスメタデータ105は、最後のSIDフレームにおいて送られたアップミックスメタデータであり得る。先回の共分散は、先回のアップミックスメタデータ105を生成するために用いられた共分散であり得る。
方法600は、距離測度値が所定の距離閾値よりも大きいかどうかを判定するステップをさらに含み得る。距離測度値が所定の距離閾値よりも大きい場合、特に、そうである場合のみに、現在のフレームに対するアップミックスメタデータ105をビットストリームに符号化するステップ604が行われ得る。あるいは、距離測度値が所定の距離閾値よりも小さい場合、特に、そうである場合のみに、現在のフレームに対するアップミックスメタデータ105をビットストリームに符号化するステップ604が行われなくてもよい。
したがって、バックグラウンドノイズパラメータ(すなわち、アップミックスメタデータ105のバックグラウンドノイズパラメータ)の伝送は、非周期的であり得、かつ、入力バックグラウンドノイズの、および/または、信号対ノイズ比の空間および/またはスペクトル特性における変化に依存し得る。特に、空間および/もしくはスペクトル特性ならびに/または信号対ノイズ比における変化が所定の閾値よりも高い場合のみ、バックグラウンドノイズパラメータは、更新され、復号部150に送られ得る。
SIDフレームの適応的伝送を可能にすることによって、コンフォートノイズの知覚品質に影響を与えずにデータレートをさらに低減することができる。
対応する復号方法は、現在のフレームがアクティブでないフレームである場合、復号部150において、現在のフレームがSIDフレームまたはデータなしフレームであるかどうかを判定するステップを含み得る。複数のデータなしフレームにわたり、現在のSIDフレームにおける空間バックグラウンドノイズパラメータと、1つ以上の先回のSIDフレームにおける空間バックグラウンドノイズパラメータをクロスフェードさせる。例えば、Pcurr_sidが現在のSIDフレームに対するパラメータであり、かつ、Pprev_sidが先回のSIDフレームに対するパラメータである場合、バックグラウンドノイズパラメータにおける変量Pcurr_sid-Pprev_sidが複数の(x個の)フレーム(X>1)にわたって適用され得る。ここで、いずれの後のフレームにおける空間パラメータも(Pcurr_sid-Pprev_sid)/xだけ変更される。これにより、ある空間位置から別の空間位置への空間コンフォートノイズの平滑な遷移を確保できる。
方法600は、現在のフレームの先行の(直前の)フレームがアクティブなフレームであった場合、先行クレームに対するダウンミックス信号103のチャンネル数を決定し、先行クレームに対するダウンミックス信号103と同じチャンネル数の、現在のフレームに対するダウンミックス信号103を維持するステップを含み得る。言い換えると、ダウンミックス信号103内のチャンネル数は、アクティブなフレームとアクティブでないフレームとの間の遷移期間において維持され得る。この結果として、空間バックグラウンドノイズの知覚品質は、さらに向上し得る。
上記に概説したように、マルチチャンネル入力信号101は、Wチャンネル、Yチャンネル、ZチャンネルおよびXチャンネルを有するアンビソニックス信号を含み得る。特に、マルチチャンネル入力信号101は、FOA信号であり得る。方法600は、ミックスファクタfを用いて、Wチャンネルと、Yチャンネル、Zチャンネルおよび/またはXチャンネルとをミックスして、1チャンネルのダウンミックス信号103を生成するステップを含み得る。ミックス処理の結果、Wチャンネルの表現物(本明細書においてW′チャンネルと称される)が得られ得る。Y、Zおよび/またはXチャンネルからの情報をWチャンネルにミックスすることによって、元のWチャンネルよりも多い空間情報を含む変更W′チャンネルが得られる。この結果として、符号化スキームの知覚品質が向上し、および/または、ダウンミックス信号103内のダウンミックスチャンネルの個数が低減され得る。
ミックスファクタ(Y、Zおよび/またはXチャンネルがWチャンネルにミックスされる程度を規定する)は、現在のフレームがアクティブなフェームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、ミックスファクタは、現在のフレームがアクティブでないフレームである場合よりも高くてもよい。言い換えると、Y、Zおよび/またはXチャンネルは、アクティブなフレームに対して、アクティブでないフレームに対するよりも高い程度で、Wチャンネルにミックスされ得る。こうすることによって、符号化スキームの知覚品質は、さらに向上し得る。
図6bは、N個のチャンネルを含む再構成マルチチャンネル信号111を示すビットストリームを復号するための方法例610のフローチャートを示す。ビットストリームは、オーディオデータ106および/または符号化アップミックスメタデータ107を含み得る。再構成信号111は、フレームのシーケンスを含む。
方法610は、フレームのシーケンスのうちの現在のフレームに対して、ビットストリームに基づいて、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ611を含む。これは、例えば、ビットストリーム内に含まれる符号化アップミックスメタデータ107に基づいて判定され得る。さらに、方法610は、再構成ダウンミックス信号114を決定するステップ612を含み得る。再構成ダウンミックス信号114は、典型的には、N個未満のチャンネルを含む(N個のチャンネルを含んでもよい)。再構成ダウンミックス信号114は、現在のフレームがアクティブなフレームである場合、ビットストリーム内に含まれるオーディオデータ106に基づいて生成され得る。他方、ビットストリームは、典型的には、アクティブでないフレームに対してオーディオデータ106を含まない。再構成ダウンミックス信号114は、現在のフレームがアクティブでないフレームである場合、ランダムノイズ生成器を用いて生成され得る。再構成ダウンミックス信号114の1つ以上の異なるチャンネルに対して、統計的に独立したノイズ生成器が用いられ得る。
方法610は、再構成ダウンミックス信号114に基づいて、かつ、パラメータセットを含むアップミックスメタデータ105に基づいて、再構成マルチチャンネル信号111を生成するステップ613をさらに含む。再構成マルチチャンネル信号111は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成され得る。
特に、方法610は、再構成ダウンミックス信号114に含まれていない再構成マルチチャンネル信号111のチャンネルに対して、相関解除チャンネルを生成するステップを含み得る。相関解除チャンネルは、再構成ダウンミックス信号103に基づいて(特に、再構成Wチャンネルに基づいて)生成され得る。さらに、方法610は、アップミックスメタデータ105に基づいて空間性(spatial property)を相関解除チャンネル付加して、再構成ダウンミックス信号114に含まれる1つ以上の再構成チャンネルを除く、再構成マルチチャンネル信号111の再構成チャンネルを生成するステップを含み得る。
信号111のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して、再構成マルチチャンネル信号111、特に、マルチチャンネル信号111の1つ以上の再構成チャンネルの再構成を改変することによって、高品質の空間バックグラウンドノイズが与えられ得る。
対応する符号化方法600に関して概説したように、アップミックスメタデータ105は、典型的には、アクティブでないフレームの一部に対してだけ伝送される。復号部150は、SIDフレームに続く複数のアクティブでないフレームに対して、SIDフレーム内で伝送されたアップミックスメタデータ105を用いるように構成され得る。特に、アップミックスメタデータ105は、新たなSIDフレームが受信されるまで用いられ得る。こうすることによって、高品質コンフォートノイズは、データレートが効率的であるように生成され得る。
方法610は、現在のフレームが1つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定し得る。ここで、1つ以上の先回のアクティブでないフレームに対して再構成マルチチャンネル信号111を生成するために、先回のアップミックスメタデータ105が用いられた。さらに、方法610は、ビットストリームが現在のフレームに対して更新されたアップミックスメタデータ105を含むと判定するステップを含み得る。言い換えると、現在のフレームは、SIDフレーム(バックグラウンドノイズの更新された空間および/またはスペクトル特性を送信するために、更新されたアップミックスメタデータ105を含む)であると、判定され得る。
次いで、現在のフレームに対する再構成マルチチャンネル信号111(すなわち、空間バックグラウンドノイズ)は、更新されたアップミックスメタデータ105に基づいて生成され得る。更新されたアップミックスメタデータ105を有するSIDフレームを受信することによって、符号化部100におけるバックグラウンドノイズの変化を効率的に追跡し得る。
方法610は、更新されたアップミックスメタデータ105および先回のアップミックスメタデータ105に基づいてメタデータ平滑化を行って、平滑化アップミックスメタデータ105を決定するステップを含み得る。メタデータ平滑化は、現在のフレームから始まる1つ以上のアクティブでないフレーム内で、先回のアップミックスメタデータ105から更新されたアップミックスメタデータ105へクロスフェードさせるステップを含み得る。次いで、平滑化アップミックスメタデータ105に基づいて、現在のフレームに対する再構成マルチチャンネル信号111が決定され得る。
言い換えると、空間メタデータ平滑化が復号部150によって行われ、現在のSIDフレームで送られる空間パラメータは、複数のデータなし(ND)フレームにわたって1つ以上の先回のSIDフレームで送られる空間パラメータとクロスフェードされ得る
したがって、1つ以上のフレーム内で、バックグラウンドノイズの先回の空間および/またはスペクトル特性と更新された空間および/またはスペクトル特性との間で平滑な遷移が行われ得る。こうすることによって、コンフォートノイズの知覚品質は、さらに向上し得る。
さらに、符号化方法600に対応する符号化部100および/または復号方法610に対応する復号部150を本明細書に記載する。
したがって、アクティブなフレームに対して用いられる空間パラメータ105および同じまたは異なるダウンミックス103を用いて、ノイズの空間特性をモデリングすることによって、アクティブなフレームと非アクティブなフレームとの間で空間的に一定した(consistent)復号器150におけるコンフォートノイズ生成を可能にする方法600を記載する。方法600は、ボイス信号がオーディオ入力101の1つ以上のフレームに存在するかどうかを判定するステップを含み得る。ボイス信号が存在しないとの判定に応じて、フレーム-フレーム平均化(frame to frame averaging)を用いて共分散が推定され得る。さらに、空間ノイズパラメータ105が計算され、空間ノイズパラメータ105のエントロピー符号化が行われ得る。エントロピー符号化空間ノイズパラメータ107は、1つ以上のフレームに対して、ビットストリーム内に組み込まれ(pack)得る。
方法600は、1つ以上のフレームのうちの1フレームにおけるトランジェントの検出に応じて、共分散平均化から当該フレームを除外するステップを含み得る。空間ノイズパラメータ105の計算は、ノイズにおける空間変動性(variability)を回避するために、複数フレームにわたって平滑化する平滑化共分散推定を用いて行われ得る。方法600は、トランジェントおよび短いトークバーストにわたって共分散を平滑化し、それらを計算から除外するステップを含み得る。あるいは、または加えて、方法600は、1限定セットのバンドおよび/または1限定セットのパラメータを用いて、ノイズに対するパラメータビットレートを低減し、オーディオが存在する場合に完全なセットに戻すように切り替えるステップを含み得る。あるいは、または加えて、方法600は、既存のコンフォートノイズ生成器を再利用できるように、ノイズのスペクトル成分(element)とは別に空間成分を計算するステップを含み得る。
図5は、図1~4cを参照して説明した特徴およびプロセスを実施するためのモバイルデバイスアーキテクチャである。モバイルデバイスは、例えば、復号部150を備え得る。アーキテクチャ800は、デスクトップコンピュータ、消費者向けオーディオ/ビジュアル(AV)機器、ラジオ放送機器、モバイルデバイス(例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス)を含むが、これらに限定されない、任意の電子デバイスで実装することができる。図示した実施形態例では、アーキテクチャ800は、スマートフォン用であり、プロセッサ801、周辺機器インターフェース802、オーディオサブシステム803、ラウドスピーカ804、マイクロホン805、センサ806(例えば、加速度計、ジャイロ、気圧計、磁力計、カメラ)、位置プロセッサ807(例えば、GNSS受信機)、無線通信サブシステム808(例えば、Wi-Fi、Bluetooth、セルラ)およびI/Oサブシステム809を含む。I/Oサブシステム809は、タッチコントローラ810および他の入力コントローラ811、タッチ面812、および他の入力/制御デバイス813を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャも、開示された実施形態を実施するために用いることができる。
メモリインタフェース814は、プロセッサ801、周辺機器インターフェース802、およびメモリ815(例えば、フラッシュ、RAM、ROM)に接続される。メモリ815は、オペレーティングシステム命令816、通信命令817、GUI命令818、センサ処理命令819、電話命令820、電子メッセージング命令821、ウェブブラウジング命令822、オーディオ処理命令823、GNSS/ナビゲーション命令824、およびアプリケーション/データ825を含むが、これらに限定されないコンピュータプログラム命令およびデータを記憶する。オーディオ処理命令823は、図1~4cを参照して説明したオーディオ処理を実行するための命令を含む。
本明細書に記載のシステムの態様は、デジタルまたはデジタル化オーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境で実施され得る。適応的オーディオシステムの一部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするように機能する1つ以上のルータ(図示せず)を含む、任意の所望の個数の個々のマシンを含む1つ以上のネットワークを含んでもよい。そのようなネットワークは、種々の異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、またはそれらの任意の組み合わせであってもよい。
コンポーネント、ブロック、プロセス、または他の機能コンポーネントの1つ以上は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを介して実装され得る。また、本明細書に開示された種々の機能は、ハードウェア、ファームウェアの任意の個数の組み合わせを用いて、ならびに/または種々の機械可読またはコンピュータ可読媒体に具体化されたデータおよび/もしくは命令として、それらの演算、レジスタ転送、論理構成要素、および/または他の特徴に関して記載され得ることに留意されたい。そのようなフォーマット化データおよび/または命令が具体化され得るコンピュータ可読媒体は、光学、磁気または半導体記憶媒体のような種々の形態の物理的(非一時的)不揮発性記憶媒体を含むが、これらに限定されない。
1つまたは複数の実装例を例としておよび特定の実施形態に関して記載したが、1つまたは複数の実装例が開示された実施形態に限定されないことが理解される。逆に、当業者に明らかなように、種々の変更および類似の構成をカバーすることが意図される。従って、添付の特許請求の範囲には、そのような変更及び類似の構成の全てを包含するように、最も広い解釈が与えられるべきである。

Claims (42)

  1. N個の異なるチャンネルを含むマルチチャンネル入力信号(101)を符号化するための方法(600)であって、前記入力信号(101)は、フレームのシーケンスを含み、前記方法(600)は、前記フレームのシーケンスのうちの現在のフレームに対して、
    信号および/またはボイスアクティビティ検出器を用いて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ(601)と、
    前記マルチチャンネル入力信号(101)に基づいて、N個以下のチャンネルを含むダウンミックス信号(103)を決定するステップ(602)と、
    前記ダウンミックス信号(103)に基づいて、N個のチャンネルを含む再構成マルチチャンネル信号(111)を生成するためのパラメータセットを含むアップミックスメタデータ(105)を決定するステップ(603)であって、前記アップミックスメタデータ(105)は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定される、ステップ(603)と、
    前記アップミックスメタデータ(105)をビットストリームに符号化(604)するステップと、
    を含む、
    方法(600)。
  2. 前記方法(600)は、
    前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して、前記フレームのシーケンスからの複数フレームにわたって時間平滑化を行うことによって、前記マルチチャンネル入力信号(101)の前記現在のフレームに対して、共分散、特に、共分散行列を決定するステップと、
    前記現在のフレームに対する前記共分散に基づいて、前記アップミックスメタデータ(105)の1つ以上のパラメータを決定するステップと、
    を含む、
    請求項1に記載の方法(600)。
  3. 前記時間平滑化に対する忘却係数は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し、かつ/または
    前記現在のフレームがアクティブなフレームである場合、前記忘却係数は、前記現在のフレームがアクティブでないフレームである場合よりも短く、かつ/または
    前記現在のフレームがアクティブなフレームである場合、時間平滑化量は、前記現在のフレームがアクティブでないフレームである場合よりも小さい、
    請求項2に記載の方法(600)。
  4. 前記共分散の時間平滑化のための前記忘却係数は、周波数に依存する、
    請求項3に記載の方法(600)。
  5. 前記方法(600)は、
    トランジェントノイズまたはトークバーストに対応する、前記フレームのシーケンスからの1つ以上のフレームを特定するステップと、
    時間平滑化を行う際に前記1つ以上の特定されたフレームを無視するステップ、および/または、前記現在のフレームに対する前記共分散を決定するための前記時間平滑化計算から前記1つ以上の特定されたフレームを除外するステップと、
    を含む、
    請求項2から4のいずれかに記載の方法(600)。
  6. 前記方法(600)は、
    前記現在のフレームは、所定のバースト期間閾値より短く、前記フレームのシーケンスからの1セットの1つ以上の先行するアクティブでないフレームに続くアクティブなフレームであると判定するステップと、
    前記現在のフレームを考慮せずに、前記現在のフレームに対する前記共分散を決定するステップと、
    を含む、
    請求項2から5のいずれかに記載の方法(600)。
  7. 前記現在のフレームに対する前記共分散は、前記1つ以上の先行するアクティブでないフレームのセットに基づいて決定された基準共分散に基づいて決定される、
    請求項6に記載の方法(600)。
  8. 前記方法(600)は、
    前記現在のフレームは、所定のバースト期間閾値よりも長く、前記フレームのシーケンスからの1セットの1つ以上の先行するアクティブでないフレームに続くアクティブなフレームであると判定するステップと、
    前記現在のフレームからのサンプル、特に、前記サンプルのみに基づいて、前記現在のフレームに対する前記共分散を決定するステップと、
    を含む、
    請求項2から5のいずれかに記載の方法(600)。
  9. 前記方法(600)は、
    前記現在のフレームがアクティブでないフレームであると判定するステップと、
    前記現在のフレームに続く、前記フレームのシーケンスからの後のフレームに対する前記共分散を決定するために時間平滑化を行うための基準共分散として、前記現在のフレームに対する前記共分散を記憶するステップと、
    を含む、
    請求項2から5のいずれかに記載の方法(600)。
  10. 前記方法(600)は、前記現在のフレームに続く、前記フレームのシーケンスからの後のフレームに対して、現在のフレームがアクティブでないフレームである場合、
    前記信号および/または前記ボイスアクティビティ検出器を用いて、前記後のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップと、
    前記後のフレームがアクティブでないフレームである場合、前記現在のフレームのサンプルに基づいて、特に、前記現在のフレームに対する前記共分散に基づいて、かつ前記後のフレームのサンプルに基づいて、前記後のフレームに対する前記共分散を決定するステップと、
    を含む、
    請求項2から9のいずれかに記載の方法(600)。
  11. 前記方法(600)は、
    複数の異なる周波数バンド内の前記マルチチャンネル入力信号(101)の前記現在のフレームに対して、共分散、特に、共分散行列を決定するステップであって、周波数バンドの個数は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存する、ステップと、
    前記現在のフレームに対する前記共分散に基づいて前記アップミックスメタデータ(105)の1つ以上のパラメータを決定するステップと、
    を含む、
    先行する請求項のいずれかに記載の方法(600)。
  12. 前記現在のフレームがアクティブなフレームである場合、周波数バンドの個数は、前記現在のフレームがアクティブでないフレームである場合よりも多い、
    請求項11に記載の方法(600)。
  13. 前記現在のフレームがアクティブなフレームである場合、前記アップミックスメタデータ(105)の前記パラメータセットは、前記現在のフレームがアクティブでないフレームである場合よりも大きく、かつ/または、より多数の異なるパラメータを含む、
    先行する請求項のいずれかに記載の方法(600)。
  14. 前記方法(600)は、
    前記現在のフレームがアクティブでないフレームであると判定された場合、前記現在のフレームの直前に先行する、前記フレームのシーケンスからの先行するフレームは、アクティブでないフレームであったと判定するステップと、
    前記先行するフレームがアクティブでないフレームであった場合、かつ、アップミックスメタデータ(105)の最後の伝送から連続するアクティブでないフレームの個数が予め計算された数よりも小さい場合、前記現在のフレームに対する前記アップミックスメタデータ(105)を前記ビットストリームに符号化するステップ(604)を行わないようにするステップと、
    前記先行するがアクティブなフレームであった場合、または、アップミックスメタデータ(105)の最後の伝送から連続するアクティブでないフレームの個数が予め計算された数に等しい場合、前記現在のフレームに対する前記アップミックスメタデータ(105)を前記ビットストリームに符号化するステップ(604)と、
    を含む、
    先行する請求項のいずれかに記載の方法(600)。
  15. 前記方法(600)は、前記現在のフレームの直前の、前記フレームのシーケンスからの先行フレームがアクティブなフレームであった場合、
    前記先行クレームに対して前記ダウンミックス信号(103)のチャンネル数を決定するステップと、
    前記先行クレームに対する前記ダウンミックス信号(103)と同じチャンネル数の、前記アクティブでない現在のフレームに対する前記ダウンミックス信号(103)を維持するステップと、
    を含む、
    先行する請求項のいずれかに記載の方法(600)。
  16. 前記アップミックスメタデータ(105)の前記パラメータセットは、前記マルチチャンネル入力信号(101)の前記現在のフレーム内に含まれるオーディオコンテンツ、特に、ノイズの空間特性を記述および/またはモデリングするステップ
    を含む、
    先行する請求項のいずれかに記載の方法(600)。
  17. 前記マルチチャンネル入力信号(101)は、音場表現物(SRと称される)信号を含み、かつ/または、
    前記アップミックスメタデータ(105)は、空間再構成器(SPARと称される)メタデータを含む、
    先行する請求項のいずれかに記載の方法(600)。
  18. 前記マルチチャンネル入力信号(101)は、Wチャンネル、Yチャンネル、ZチャンネルおよびXチャンネルを有するアンビソニックス信号を含み、かつ、
    前記アップミックスメタデータ(105)の前記パラメータセットは、前記Wチャンネルの表現物に基づいて、前記Yチャンネル、前記Zチャンネルおよび前記Xチャンネルを予測することによって、それぞれY´チャンネル、Z´チャンネルおよびX´チャンネルと称される残留チャンネルを提供するための予測係数を含む、
    先行する請求項のいずれかに記載の方法(600)。
  19. 前記方法(600)は、前記ダウンミックス信号(103)が前記Wチャンネルの前記表現物の加えて第1の残留チャンネルを含む場合、前記第1の残留チャンネルと前記1つ以上の残りの残留チャンネルとの間の共分散に依存する、前記アップミックスメタデータ(105)の一部としての交差予測パラメータを決定するステップを含み、
    前記交差予測パラメータは、前記現在のフレームがアクティブでないフレームである場合、前記現在のフレームに対する前記ビットストリームに符号化される前記アップミックスメタデータ(105)の一部ではなく、かつ、
    前記交差予測パラメータは、前記現在のフレームがアクティブなフレームである場合、前記現在のフレームに対する前記ビットストリームに符号化される前記アップミックスメタデータ(105)の一部である、
    請求項18に記載の方法(600)。
  20. 前記方法(600)は、前記残留チャンネルの共分散に基づいて、前記ダウンミックス信号(103)に含められなかった残留チャンネルを再構成する際に相関解除チャンネルを生成するための相関解除パラメータを決定するステップを含む、
    請求項18または19に記載の方法(600)。
  21. 1つよりも多くの残留チャンネルが前記ダウンミックス信号(103)に含められなかった場合、
    前記現在のフレームに対する前記アップミックスメタデータ(105)の前記パラメータセットは、前記現在のフレームがアクティブなフレームである場合、含まれない残留チャンネルとそれ自体または前記含まれない残留チャンネルのうちの別の残留チャンネルとの各可能な組み合わせに対する相関解除パラメータを含み、かつ、
    前記現在のフレームに対する前記アップミックスメタデータ(105)の前記パラメータセットは、前記現在のフレームがアクティブでないフレームである場合、含まれない残留チャンネルとそれ自体との前記組み合わせのみに対する相関解除パラメータを含む、
    請求項20に記載の方法(600)。
  22. 前記パラメータセットは、複数の異なる周波数バンドに対する対応のパラメータを含み、かつ、
    前記現在のフレームがアクティブなフレームである場合、異なる周波数バンドの個数は、前記現在のフレームがアクティブでないフレームである場合よりも多い、
    先行する請求項に記載の方法(600)。
  23. 前記方法(600)は、
    前記現在のフレームは、1サブシーケンスの1つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップと、
    前記現在のフレームに含まれるバックグラウンドノイズの空間および/もしくはスペクトル特性、ならびに/または、前記現在のフレームの信号対ノイズ比が前記1つ以上の先回のアクティブでないフレームのサブシーケンスに関して変更されたかどうかを判定するステップと、
    前記現在のフレームに含まれるバックグラウンドノイズの前記空間および/もしくはスペクトル特性、ならびに/または、前記現在のフレームの前記信号対ノイズ比が前記1つ以上の先回のアクティブでないフレームのサブシーケンスに関して変更されたと判定された場合、特に、その場合のみに、前記現在のフレームに対する前記アップミックスメタデータ(105)を前記ビットストリームに符号化(604)と、
    を含む、
    先行する請求項に記載の方法(600)。
  24. 前記方法(600)は、
    前記現在のフレームは、1つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップと、
    前記現在のフレームに対する前記共分散および/または前記アップミックスメタデータ(105)と、前記1つ以上の先回のアクティブでないフレームに対する先回の共分散および/または先回のアップミックスメタデータ(105)との間の距離測度値を決定するステップと、
    前記距離測度値が所定の距離閾値よりも大きいかどうかを判定するステップと、
    前記距離測度値が前記所定の距離閾値よりも大きい場合、特に、その場合のみに、前記現在のフレームに対する前記アップミックスメタデータ(105)を前記ビットストリームに符号化するステップ(604)、および/または、
    前記距離測度値が前記所定の距離閾値よりも小さい場合、特に、その場合のみに、前記現在のフレームに対する前記アップミックスメタデータ(105)を前記ビットストリームに符号化するステップ(604)を行わないようにするステップと、
    を含む、先行する請求項に記載の方法(600)。
  25. 前記方法(600)は、量子化器を用いて、前記現在のフレームに対する前記アップミックスメタデータ(105)を前記ビットストリームに符号化するステップ(604)のための前記パラメータセットからの前記パラメータを量子化するステップを含み、かつ、
    前記量子化器、特に、前記量子化器の量子化ステップサイズおよび/または量子化ステップ数は、
    前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるか、および/または、
    前記ダウンミックス信号(103)のチャンネル数、および/または、
    前記パラメータが量子化されることになるチャンネルのタイプ
    に依存する、
    先行する請求項に記載の方法(600)。
  26. 前記方法(600)は、
    前記ビットストリームに挿入されることになるオーディオデータ(106)を与えるために、単一チャンネルオーディオ符号化器の1つ以上のインスタンスを用いて、前記ダウンミックス信号(103)の前記1つ以上のチャンネルを個別に符号化するステップ(604)と、
    前記ビットストリームに挿入されることになる符号化メタデータ(107)を与えるために、前記アップミックスメタデータ(105)の前記パラメータセットをエントロピー符号化するステップと、
    を含む、
    先行する請求項に記載の方法(600)。
  27. 前記方法(600)は、前記現在のフレームがアクティブなフレームである場合、特に、その場合のみに、前記現在のフレームに対する前記ダウンミックス信号(103)を前記ビットストリームに符号化するステップを含む、
    先行する請求項に記載の方法(600)。
  28. 前記方法(600)は、前記現在のフレームがアクティブでないフレームである場合、
    単一チャンネルオーディオ符号化器の1つ以上のインスタンスを用いて、前記ダウンミックス信号(103)の前記1つ以上のチャンネルのそれぞれに対してスペクトルデータを個別に決定するステップと、
    記スペクトルデータを前記ビットストリームに挿入するステップと、
    を含む、
    先行する請求項に記載の方法(600)。
  29. 前記方法(600)は、前記フレームのシーケンスからの各フレーム対して繰り返される、
    先行する請求項に記載の方法(600)。
  30. N>2である、
    先行する請求項に記載の方法(600)。
  31. 前記マルチチャンネル入力信号(101)は、Wチャンネル、Yチャンネル、ZチャンネルおよびXチャンネルを有するアンビソニックス信号を含み、かつ、
    前記方法(600)は、ミックスファクタを用いて前記Wチャンネルと、前記Yチャンネル、前記Zチャンネルおよび/または前記Xチャンネルをミックスして、前記ダウンミックス信号(103)の1チャンネルを生成するステップであって、前記ミックスファクタは、前記現在のフレームがアクティブなフェームまたはアクティブでないフレームのいずれであるかに依存する、ステップを含む、
    先行する請求項に記載の方法(600)。
  32. 前記現在のフレームがアクティブなフレームである場合、前記ミックスファクタは、前記現在のフレームがアクティブでないフレームである場合よりも高い、
    請求項31に記載の方法(600)。
  33. N個のチャンネルを含む再構成マルチチャンネル信号(111)を示すビットストリームを復号するための方法(610)であり、前記再構成信号(111)は、フレームのシーケンスを含み、前記方法(610)は、前記フレームのシーケンスのうちの現在のフレームに対して、
    前記ビットストリームに基づいて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ(611)と、
    再構成ダウンミックス信号(114)を決定するステップ(612)であって、前記再構成ダウンミックス信号(114)は、N個以下のチャンネルを含む、ステップと、
    前記再構成ダウンミックス信号(114)に基づいて、かつ、前記ビットストリーム内に含まれるアップミックスメタデータ(105)に基づいて、前記再構成マルチチャンネル信号(111)を生成するステップ(613)であって、前記再構成マルチチャンネル信号(111)は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成される、ステップと、
    を含む、
    方法(610)。
  34. 前記方法(610)は、
    前記再構成ダウンミックス信号(114)に含まれない前記再構成マルチチャンネル信号(111)の1チャンネルに対する相関解除チャンネルを生成するステップと、
    前記再構成ダウンミックス信号(114)に含まれる前記1つ以上の再構成チャンネルではなく、前記再構成マルチチャンネル信号(111)の1再構成チャンネルを生成するために、前記アップミックスメタデータ(105)に基づいて前記相関解除チャンネルに空間性を付加するステップと、
    を含む、
    請求項33に記載の方法(610)。
  35. 前記相関解除チャンネルは、前記再構成ダウンミックス信号(114)に基づいて生成される、
    請求項34に記載の方法(610)。
  36. 前記再構成ダウンミックス信号(114)は、前記現在のフレームがアクティブなフレームである場合、前記ビットストリーム内に含まれるオーディオデータ(106)に基づいて生成され、かつ/または、
    前記再構成ダウンミックス信号(114)は、現在のフレームがアクティブでないフレームである場合、ランダムノイズ生成器および前記ビットストリーム内に含まれるスペクトルデータを用いて生成される、
    請求項33から35のいずれかに記載の方法(610)。
  37. 前記方法(610)は、
    前記現在のフレームが1つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップであって、先回のアップミックスメタデータ(105)が前記1つ以上の先回のアクティブでないフレームに対する前記再構成マルチチャンネル信号(111)を生成するために用いられた、ステップと、
    前記ビットストリームは、前記現在のフレームに対する更新されたアップミックスメタデータ(105)を含むと判定するステップと、
    前記更新されたアップミックスメタデータ(105)に基づいて、前記現在のフレームに対する前記再構成マルチチャンネル信号(111)を生成するステップ(613)と、
    を含む、
    請求項33から36のいずれかに記載の方法(610)。
  38. 前記方法(610)は、
    前記更新されたアップミックスメタデータ(105)および前記先回のアップミックスメタデータ(105)に基づいてメタデータ平滑化を行って、平滑化アップミックスメタデータ(105)を決定するステップと、
    前記平滑化アップミックスメタデータ(105)に基づいて、前記現在のフレームに対する前記再構成マルチチャンネル信号(111)を生成するステップ(613)と、
    を含む、
    請求項37に記載の方法(610)。
  39. メタデータ平滑化は、前記現在のフレームから始まる1つ以上のアクティブでないフレーム内で、前記先回のアップミックスメタデータ(105)から前記更新されたアップミックスメタデータ(105)へのクロスフェードを行うステップを含む、
    請求項38に記載の方法(610)。
  40. N個の異なるチャンネルを含むマルチチャンネル入力信号(101)を符号化するための符号化部(100)であって、前記入力信号(101)は、フレームのシーケンスを含み、前記符号化部(100)は、前記フレームのシーケンスのうちの現在のフレームに対して、
    信号および/またはボイスアクティビティ検出器を用いて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定し、
    前記マルチチャンネル入力信号(101)に基づいてダウンミックス信号(103)を決定し、前記ダウンミックス信号(103)は、N個以下のチャンネルを含み、
    前記ダウンミックス信号(103)に基づいて、N個のチャンネルを含む再構成マルチチャンネル信号(111)を生成するためのパラメータセットを含むアップミックスメタデータ(105)を決定し、前記アップミックスメタデータ(105)は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され、
    前記アップミックスメタデータ(105)をビットストリームに符号化(604)する、
    ように構成される、
    符号化部(100)。
  41. N個のチャンネルを含む再構成マルチチャンネル信号(111)を示すビットストリームを復号するための復号部(150)であり、前記再構成信号(111)は、フレームのシーケンスを含み、前記復号部(150)は、前記フレームのシーケンスのうちの現在のフレームに対して、
    前記ビットストリームに基づいて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定し、
    再構成ダウンミックス信号(114)を決定し、前記再構成ダウンミックス信号(114)は、N個以下のチャンネルを含み、
    前記再構成ダウンミックス信号(114)に基づいて、かつ、前記ビットストリーム内に含まれるアップミックスメタデータ(105)に基づいて、前記再構成マルチチャンネル信号(111)を生成し、前記再構成マルチチャンネル信号(111)は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成される、
    ように構成される、
    復号器(150)。
  42. 1つ以上のプロセッサによる実行時に、前記1つ以上のプロセッサに請求項1から39のいずれか1つを実施させる命令を記憶した非一時的コンピュータ読取可能媒体。
JP2022575887A 2020-06-11 2021-06-10 マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス Pending JP2023530409A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063037650P 2020-06-11 2020-06-11
US63/037,650 2020-06-11
US202163193946P 2021-05-27 2021-05-27
US63/193,946 2021-05-27
PCT/US2021/036714 WO2021252705A1 (en) 2020-06-11 2021-06-10 Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal

Publications (1)

Publication Number Publication Date
JP2023530409A true JP2023530409A (ja) 2023-07-18

Family

ID=76845310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022575887A Pending JP2023530409A (ja) 2020-06-11 2021-06-10 マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス

Country Status (11)

Country Link
US (1) US20230215445A1 (ja)
EP (1) EP4165629A1 (ja)
JP (1) JP2023530409A (ja)
KR (1) KR20230023725A (ja)
CN (1) CN115867964A (ja)
AU (1) AU2021288690A1 (ja)
BR (1) BR112022025226A2 (ja)
CA (1) CA3185659A1 (ja)
IL (1) IL298725A (ja)
MX (1) MX2022015324A (ja)
WO (1) WO2021252705A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051954A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051955A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
KR20190052122A (ko) * 2016-09-28 2019-05-15 후아웨이 테크놀러지 컴퍼니 리미티드 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
MX2020010468A (es) * 2018-04-05 2020-10-22 Ericsson Telefon Ab L M Codificacion predictiva truncable.
ES2956797T3 (es) * 2018-06-28 2023-12-28 Ericsson Telefon Ab L M Determinación de parámetros de ruido de confort adaptable

Also Published As

Publication number Publication date
CN115867964A (zh) 2023-03-28
CA3185659A1 (en) 2021-12-16
IL298725A (en) 2023-02-01
KR20230023725A (ko) 2023-02-17
AU2021288690A1 (en) 2023-01-19
WO2021252705A1 (en) 2021-12-16
EP4165629A1 (en) 2023-04-19
US20230215445A1 (en) 2023-07-06
MX2022015324A (es) 2023-02-27
BR112022025226A2 (pt) 2023-01-03

Similar Documents

Publication Publication Date Title
JP7091411B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
KR101657251B1 (ko) 오디오 신호 프레임에서 이벤트들의 슬롯 위치들의 인코딩 및 디코딩
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
KR100904542B1 (ko) 멀티채널 합성장치 제어 신호를 발생하기 위한 장치 및방법과 멀티채널 합성을 위한 장치 및 방법
RU2376726C2 (ru) Устройство и способ для формирования закодированного стереосигнала аудиочасти или потока данных аудио
US20160198279A1 (en) Determining the inter-channel time difference of a multi-channel audio signal
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
JP2023530409A (ja) マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス
WO2019105575A1 (en) Determination of spatial audio parameter encoding and associated decoding
EP4179530B1 (en) Comfort noise generation for multi-mode spatial audio coding
US20220293112A1 (en) Low-latency, low-frequency effects codec
US20230267938A1 (en) Packet loss concealment
GB2598104A (en) Discontinuous transmission operation for spatial audio parameters
KR20230084232A (ko) 오디오 파라미터의 양자화
TW202211206A (zh) 低延遲、低頻率效應之編碼解碼器
KR20230088409A (ko) 오디오 코덱에 있어서 오디오 대역폭 검출 및 오디오 대역폭 스위칭을 위한 방법 및 디바이스
WO2022226627A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal