JP2017058696A - インターチャネル差分推定方法及び空間オーディオ符号化装置 - Google Patents

インターチャネル差分推定方法及び空間オーディオ符号化装置 Download PDF

Info

Publication number
JP2017058696A
JP2017058696A JP2016239118A JP2016239118A JP2017058696A JP 2017058696 A JP2017058696 A JP 2017058696A JP 2016239118 A JP2016239118 A JP 2016239118A JP 2016239118 A JP2016239118 A JP 2016239118A JP 2017058696 A JP2017058696 A JP 2017058696A
Authority
JP
Japan
Prior art keywords
icd
audio
audio channel
predetermined frequency
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2016239118A
Other languages
English (en)
Inventor
ユエ・ラン
Yue Lang
ダヴィド・ヴィレット
Virette David
ジャンフェン・シュー
Jian-feng XU
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to JP2016239118A priority Critical patent/JP2017058696A/ja
Publication of JP2017058696A publication Critical patent/JP2017058696A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】推定の複雑性と送信ビットレートを低減する。
【解決手段】低複雑度インターチャネルの差分を推定するための方法と装置が提供される。インターチャネルの差分(ICD)を推定するための方法は、複数のオーディオチャネル信号に対して時間ドメインから周波数ドメインへの変換を適用するステップと、所定の周波数範囲にわたる、前記複数のオーディオチャネル信号のうち少なくとも一つと基準オーディオチャネル信号の間の前記ICDのための複数のICD値を演算するステップであって、各ICD値は所定の周波数範囲の一部にわたって演算されるステップと、複数のICD値それぞれに対して、対応する周波数依存重み係数を持つ複数のICD値をそれぞれ乗算することによって重み付きICD値を演算するステップと、複数の重み付きICD値を加算することによって、所定の周波数範囲のICD範囲値を演算するステップとを有する。
【選択図】図4

Description

本発明は、インターチャネルの差分(ICD)推定の方法及び空間オーディオ符号化、又は、パラメトリックマルチチャネル符号化装置に関し、特にパラメトリック・マルチチャネル・オーディオ符号化に関する。
パラメトリック・マルチチャネル・オーディオ符号化は、Faller, C.,Baumgarte, F.の“Efficient representation of spatial audio using perceptual parametrization”, Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., October 2001, pp. 199-202.にて説明されている。ダウンミックスされたオーディオ信号は、マルチチャネルオーディオ信号を合成してアップミックスしてもよく、空間キューを使用して、ダウンミックスされたオーディオ信号よりも多くの出力オーディオチャネルを生成してもよい。通常、ダウンミックスされたオーディオ信号は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号の重ね合わせによって生成される。例えば、ステレオオーディオ信号である。ダウンミックスされたオーディオ信号は、符号化され、空間キューに関連する補助データとともにオーディオビットストリームに挿入された波形である。デコーダは、オーディオ信号を符号化した波形に基づいてマルチチャネルオーディオ信号を合成するために補助データを使用する。
マルチチャネルオーディオ信号を合成するために使用されてもよい、いくつかの空間キューまたはパラメータが存在する。第1に、インターチャネルレベルの差分(ILD)は、比較される2つのチャネルのオーディオ信号上のレベル間の差分を示す。第2に、インターチャネル時間の差分(ITD)は、人間の聴取者の両耳の間で音が到達する時間の差分を示す。聴取者の耳に対する音源の方向または入射角を特定する手がかりを提供するため、 ITD値は、音の定位のために重要である。第3に、インターチャネル位相差(ICD)は、比較される2つのチャネル間の関連の位相差を特定する。サブバンドICD値は、サブバンドITD値の推定に使用されてもよい。最後に、インターチャネルコヒーレンス(ICC)は、ITDまたはICDに基づく位相配置の後に、正規化されたインターチャネル相互相関として定義される。ICC値は、音源の幅の推定に使用されてもよい。
ILD、ITD、ICDおよびICCは、空間マルチチャネル符号化/復号化、特に、ステレオオーディオ信号と、とりわけバイノーラルオーディオ信号のために重要なパラメータである。ITDは、例えば、-1.5msから1.5msの間の可聴遅延の範囲をカバーしてもよい。ICDは、-πとπの間の位相差の全範囲をカバーしてもよい。ICCは、相関の範囲をカバーしてもよく、さらに0と、1または-1と+1の間の他の相関係数との間の割合値を特定してもよい。現在のパラメトリックステレオ符号化方式において、ILD、ITD、ICDおよびICCは、通常周波数ドメインで推定される。全てのサブバンドのために、ILD、ITD、ICDおよびICCは、演算され、量子化され、オーディオビットストリームのパラメータセクションに含まれ、かつ送信される。
パラメトリックオーディオ符号化方式のためのビットレートの制約に起因して、空間符号化パラメータのすべての値を送信するオーディオビットストリームのパラメータセクションに十分なビットが存在しない場合がある。例えば、文献US 2006/0153408 A1は、オーディオエンコーダを開示している。その中で、組み合わされたキュー符号は、ダウンミックスされたオーディオビットストリームに対するサイド情報として含まれる複数のオーディオチャネルのために生成される。文献US 8,054,981 B2は、オーディオチャネルのエネルギー測定レベルと複数のオーディオチャネルのエネルギー測定の関係に関連付けられた量子化規則を使用した空間オーディオ符号化の方法を開示している。
本発明の思想は、複数のオーディオチャネル信号の各ペア間の各周波数サブバンドあるいは周波数ビンのインターチャネルの差分(ICD)値を演算するとともに、ICD値に基づいて加重平均値を算出することである。加重の方法に依存し、知覚的に重要な周波数サブバンドまたはビンは、それほど重要でないものよりも高い優先度を与えて考慮される。
有利なことに、背景音又は拡散音はICDの推定に影響を与えないように、エネルギーまたは知覚の重要性は、本技術を使用して考慮される。これは、発声音データのような強い直接要素を持つ音の空間イメージを有意義に表すために、特に有利である。
加えて、提供される方法は、オーディオビットストリームに含まれる空間符号化パラメータの数を減らし、その結果、推定の複雑性と送信ビットレートを低減する。
従って、本発明の第1の態様は、インターチャネル差分(ICD)の推定のための方法に関し、前記手法は、
複数のオーディオチャネル信号に対し、時間ドメインから周波数ドメインへの変換を適用するステップと、
所定の周波数範囲にわたる、複数のオーディオチャネル信号の少なくとも一つと、基準オーディオチャネル信号との間のICD用の複数のICD値を演算するステップであって、各ICD値は所定の周波数範囲の一部にわたって演算される、ステップと、
複数のICD値それぞれに対して、対応する周波数依存重み係数を持つ前記複数のICD値をそれぞれ乗算することによって、重み付きICD値を演算するステップと、
複数の重み付きICD値を加算することによって、所定の周波数範囲に対するICD範囲値を演算するステップと、を有する。
ICDの第1の態様の第1の実施形態によると、ICDは、インターチャネルフェーズの差分(IPD)またはインターチャネル時間の差分(ITD)である。それらの空間符号化パラメータは、人間が聞くためのオーディオデータ再生のために特に有利である。
第1の態様の第2の実施形態によると、時間ドメインから周波数ドメインへの変換は、高速フーリエ変換(FFT)、コサイン変調フィルタバンク、離散フーリエ変換(DFT)、さらに複素数フィルタバンクのグループの内の一つを具備する。
第1の態様の第3の実施形態によると、所定の周波数範囲は、複数のオーディオチャネル信号の全周波数帯と、複数のオーディオチャネル信号の全周波数帯に含まれる所定の周波数インターバルと、複数のオーディオチャネル信号の全周波数帯に含まれる、複数の所定の周波数インターバルとのグループの内の一つを具備する。
第1の態様の第3の実施形態のうちの最初の実施例によると、所定の周波数インターバルは、200Hzと600Hz、又は、300Hzと1.5kHzの間に位置している。これらの周波数範囲は、ICDパラメータが最も重要である周波数依存の人間聴覚の感度に一致する。
第1の態様の第4の実施形態によると、基準オーディオチャネル信号は、オーディオチャネル信号、または複数のオーディオチャネル信号のうち少なくとも2つのオーディオチャネル信号から得たダウンミックスされたオーディオ信号のうちの一つを具備する。
第1の態様の第5の実施形態によると、複数のICD値を演算するステップは、周波数サブバンドに基づいた複数のICD値を演算するステップを有する。
第1の態様の第5の実施形態のうちの最初の実施例によると、周波数依存重み係数は、所定の周波数範囲にわたる全体のエネルギーに基づいて正規化された周波数サブバンドのエネルギーに基づいて決定される。
第1の態様の第5の実施形態のうちの第2の実施例によると、周波数依存重み係数は、所定の周波数範囲にわたり正規化されたオーディオチャネル信号の周波数のエネルギー分布のマスキング曲線に基づいて決定される。
第1の態様の第5の実施形態のうちの第3の実施例によると、周波数依存重み係数は、所定の周波数範囲にわたり正規化されたオーディオチャネル信号のサブバンドの知覚エントロピー値に基づいて決定される。
第1の態様の第6の実施形態によると、周波数依存重み係数は、少なくとも2つの連続するフレーム間で平滑化される。これは、推定ICD値が、短時間間隔の内では通常ほとんど変化がないステレオイメージに起因して、連続したフレーム間で比較的安定しているため、有利となることがある。
本発明の第2の態様によると、空間オーディオ符号化装置は、複数のオーディオチャネル信号に対して時間ドメインから周波数ドメインへの変換を実施するように構成された変換モジュールと、複数のオーディオチャネル信号のうちの少なくとも1つと、所定の周波数範囲にわたる基準オーディオチャネル信号との間のICD用の複数のICD値を演算し、複数のICD値それぞれに対して、対応する周波数依存重み係数を持つ複数のICD値をそれぞれ乗算することによって重み付きICD値を演算し、さらに、複数の重み付きICD値を加算することによって所定の周波数範囲のためのICD範囲値を演算するように構成されたパラメータ推定モジュールを有する。
第2の態様の第1の実施形態によると、空間オーディオ符号化装置は、複数のオーディオチャネル信号をダウンミックスすることによって、ダウンミックスされたオーディオチャネル信号を生成するように構成されたダウンミキシングモジュールをさらに有する。
第2の態様の第2の実施形態によると、空間オーディオ符号化装置は、ダウンミキシングモジュールに接続され、かつ符号化されダウンミックスされたオーディオビットストリームを含む、符号化されたオーディオビットストリームを生成するように構成された符号化モジュールをさらに有する。
第2の態様の第3の実施形態によると、空間オーディオ符号化装置は、パラメータ推定モジュールに接続され、かつ、ダウンミックスされたオーディオビットストリームと、複数のオーディオチャネル信号のためのICD範囲値を有する補助データとを含むオーディオビットストリームを生成するように構成されたストリーミングモジュールをさらに有する。
第2の態様の第3の実施形態のうちの最初の実施例によると、ストリーミングモジュールは、オーディオビットストリームのフラグを設定し、前記フラグは、オーディオビットストリームのICD範囲値を有する補助データの存在を示すようにさらに構成される。
第2の態様の第4の実施形態によると、フラグは、オーディオビットストリームの全体に設定されるか、またはオーディオビットストリームに包含された補助データに含まれる。
本発明の第3の態様によると、コンピュータプログラムは提供され、前記コンピュータプログラムは、コンピュータ上で実行する際に、1つ目の態様、またはその実施例のいずれか一つによる方法を実行するためのプログラミングコードを具備する。
ここに開示された方法は、デジタル・シグナル・プロセッサ(DSP)、マイクロ-コントローラ、あるいはほかのサイド-プロセッサのソフトウェアとして、もしくは特定用途向け集積回路(ASIC)内のハードウェア回路として実装されてもよい。
本発明は、デジタル電気回路の中、またはコンピュータハードウェア、ファームウェア、ソフトウェア、もしくはそれらの組合せで実現されることができる。
追加の実施態様と実施例は、以下の記述から容易に理解され得る。特に、具体例、態様および以下に述べられるような実施例からのどのような特徴も、特に言及されていなければ、実施形態、態様、実施例の他の特徴と組み合わされてもよい。
図面は、本開示についてさらに理解をするために添付される。それらは、実施形態を図示し、本明細と結びついた本発明の原理を説明するために役立つ。他の実施形態および意図した利点、想定された原理および機能の多くは、以下の詳細な説明を参照することによって、より良く理解されるものとして認識され得る。図面の要素は、互いの図面に対して同じスケールで必ずしも図示されていない。概ね同一の符号は、対応する類似の部分を示す。
空間オーディオ符号化システムを示す概略図である。 空間オーディオ符号化装置を示す概略図である。 空間オーディオ復号化装置を示す概略図である。 インターチャネル差分を推定するための方法の一態様を示す概略図である。 オーディオビットストリームのビットストリーム構造の他の態様を示す概略図である。
以下の詳細な説明において、添付図面が参照され、特定の実施態様が図面によって示される。他の実施形態は、本発明の範囲を逸脱することなく活用され、かつ構造上あるいは論理的な変更がされ得ることは明白である。特に他の点で言及されなければ、各実施形態の機能、原理、および詳細は、他の実施形態に組み合わせてもよい。一般的に、本願は、ここに説明された特定の適用又はバリエーションをカバーすることを目的とする。従って、以下の詳細な説明は、限定的な解釈がされてはならず、かつ本発明の範囲は添付された特許請求の範囲によって定義される。
本実施形態は、機械可読媒体によって提供される機械可読命令内で具体化され得る方法と処理を含んでもよい。前記機械可読媒体は、デバイス、装置、メカニズムまたはシステムを含むがこれらに限定されない。前記システムは、コンピュータ、演算装置、プロセスユニット、ネットワーク装置、携帯コンピュータ、マイクロプロセッサなどのような機械にアクセス可能である情報を格納することができる。機械可読媒体は、揮発性または不揮発性のメディア、および機械に情報を伝えることができるメディアである電気信号、デジタル信号、論理信号、光信号、音響信号、音響光学信号などの任意の形式の伝搬信号を含んでもよい。
以下において、フローチャートとブロック図の中に概略的かつ例示的に示される方法と方法のステップについて参照される。これらの実例の図面に関連して、説明された前記方法は、システム、装置、および/またはデバイスの実施形態によって同様に容易に実行できることが理解されなければならない。特に、詳細なブロック図、および/またはフローチャートの実行が可能なシステム、装置、および/またはデバイスは、下記に図示され、説明されたシステム、装置、および/またはデバイスに必ずしも限定されるものではなく、むしろ異なるシステム、装置、および/またはデバイスであってもよいことは明白である。用語「第一の」「第二の」「第三の」等は単に符号として使用されているだけであり、それらの対象に数字的条件を課す、またはそれらの対象の重要性の特定の順位を定めることを意図するものではない。
図1は、概略的に空間オーディオ符号化システム100を示す。空間オーディオ符号化システム100は、空間オーディオ符号化装置10と空間オーディオ復号化装置20を有する。図1において2つのみが例示されている複数のオーディオチャネル信号10a・10bは、空間オーディオ符号化装置10に入力される。空間オーディオ符号化装置10は、オーディオチャネル信号10a・10bを符号化しダウンミックスするとともに空間オーディオ復号化装置20に送信されるオーディオビットストリーム1を生成する。空間オーディオ復号化装置20は、オーディオビットストリーム1に含まれるオーディオデータを復号化し、アップミックスするとともに図1で2つのみが例示されている複数の出力オーディオチャネル信号20a・20bを生成する。オーディオチャネル信号10a・10bと20a・20bの数は、それぞれ原則として限定されない。例えば、オーディオチャネル信号、10a・10bと20a・20bの数は、バイノーラルステレオ信号のために2つであってもよい。例えば、バイノーラルステレオ信号が3Dオーディオ、または、例えばHRTFフィルタリングを用いたヘッドホンベースの音響レンダリングのために使用されてもよい。
空間オーディオ符号化システム100は、ITU-T G.722, G.722 Annex B, G.711.1 および/または G.711.1 Annex D.のステレオ拡張の符号化のために適用されてもよい。さらに、空間オーディオ符号化システム100は、3GPP EVS(Enhanced Voice Services)codecにて定義されているような携帯アプリケーションの音声と音響の符号化/復号化のために使用されてもよい。
図2は、概略的に図1の空間オーディオ符号化装置10をより詳細に示す。空間オーディオ符号化装置10は、変換モジュール15、変換モジュール15に接続されたパラメータ推定モジュール11、変換モジュール15に接続されたダウンミキシングモジュール12、ダウンミキシングモジュール12に接続された符号化モジュール13、及び符号化モジュール13とパラメータ推定モジュール11に接続されたストリーミングモジュール14を有する。
前記変換モジュール15は、空間符号化装置10に入力する複数のオーディオチャネル信号10a・10bに対して時間ドメインから周波数ドメインへの変換を適用するように構成されてもよい。ダウンミキシングモジュール12は、変換モジュール15から変換されたオーディオチャネル信号10a・10bを受信し、かつ複数の変換されたオーディオチャネル信号10a・10bをダウンミックスすることによって少なくとも1つのダウンミックスされたオーディオチャネル信号を生成するように構成されてもよい。ダウンミックスされたオーディオチャネル信号の数は、例えば変換されたオーディオチャネル信号10a・10bの数よりも少なくてもよい。例えば、ダウンミキシングモジュール12は、ただ一つのダウンミックスされたオーディオチャネル信号を生成するように構成されてもよい。符号化モジュール13は、ダウンミックスされたオーディオチャネル信号を受信し、かつ符号化されダウンミックスされたオーディオチャネル信号を有する、符号化されたオーディオビットストリームを生成するように構成されてもよい。
前記パラメータ推定モジュール11は、入力された複数のオーディオチャネル信号10a・10bを受信し、かつ複数のオーディオチャネル信号10aと10bのうち少なくとも一つと、所定の周波数範囲にわたる基準オーディオチャネル信号との間のICDのための複数のインターチャネル差分(ICD)値を演算するように構成されてもよい。基準オーディオチャネル信号は、例えば複数のオーディオチャネル信号10a・10bのうちの一つであってもよい。あるいは、複数のオーディオチャネル信号10aと10bの少なくとも二つのオーディオチャネル信号から生成されたダウンミックスされたオーディオ信号を使用することができる。パラメータ推定モジュール11は、複数のICD値それぞれに対して、対応する周波数依存重み係数を持つ複数のICD値をそれぞれ乗算することによって、重み付きICD値を演算し、かつ複数の重み付きICD値を加算することによって、所定の周波数範囲に対するICD範囲値を演算するように、さらに構成されてもよい。
前記ICD範囲値は、次に符号化モジュール13から符号化されたオーディオビットストリームと、ICD範囲値の量子化された表示を含むパラメータセクションを有する出力オーディオビットストリーム1を生成するように構成され得るストリーミングモジュール14に入力されてもよい。ストリーミングモジュール14は、オーディオビットストリーム1に含まれているICD範囲値の種別を示すオーディオビットストリーム1のパラメータセクションのパラメータ種別フラグを設定するようにさらに構成されてもよい。
加えて、前記ストリーミングモジュール14は、オーディオビットストリーム1のフラグを設定するようにさらに構成されてもよく、前記フラグは、オーディオビットストリーム1のパラメータセクションのICD範囲値の存在を示す。このフラグは、オーディオビットストリーム1全体のために設定されるか、またはオーディオビットストリーム1のパラメータセクションに含まれてもよい。このようにして、オーディオビットストリーム1に含まれるICD範囲値の信号は、空間オーディオ復号化装置20に明示的または暗黙的にシグナリングされ得る。明示的と暗黙的なシグナリングスキームの間は切り替えが可能であってもよい。
暗黙的なシグナリングの場合、フラグは、パラメータセクション内の補助データの2番目のチャネル情報の存在を示してもよい。従来の復号化装置20は、そのようなフラグが存在するかどうかをチェックしないで、単に符号化されダウンミックスされたオーディオビットストリームを復号化するだけである。一方で、従来ではない、例えば最新の復号化装置20は、受信されたオーディオビットストリーム1のそのようなフラグの存在をチェックし、さらに、例えばオーディオビットストリーム1のパラメータセクションに含まれるICD範囲値のような追加の全帯域空間符号化パラメータに基づいてマルチチャネルオーディオ信号20a・20bを再構築してもよい。
明示的な信号を使用する際、全オーディオビットストリーム1は、ICD範囲値を含むものとしてフラグを立ててもよい。このように、従来の復号化装置20は、ビットストリームを複合できず、そのためオーディオビットストリーム1を破棄する。一方、最新の復号化装置20は、全体としてのオーディオビットストリーム1を復号化するか、またはICD範囲値を無視しながら符号化されダウンミックスされたオーディオビットストリーム1だけを復号化するかを判断してもよい。明示的信号の利点は、例えば、新しい携帯端末が、エネルギーを節約するためにオーディオビットストリームのどの部分を復号化するかを決定でき、従って統合されたバッテリーのバッテリー寿命を延長するという点である。空間符号化パラメータの復号化は、通常、より複雑でよりエネルギーを必要とする。さらに、レンダリングシステムに依存した、最新の復号化装置20は、オーディオビットストリーム1のどの部分が復号化されるべきかを決定してもよい。例えばヘッドフォンでレンダリングするためには、符号化されダウンミックスされたオーディオビットストリームを単に復号化することで十分であってもよく、一方で、携帯端末がそのようなマルチチャネルレンダリング能力を備えたドッキングステーションに接続されている場合にのみ、マルチチャネルオーディオ信号は復号化される。
図3は、概略的に図1の空間オーディオ復号化装置20をより詳細に示す。空間オーディオ復号化装置20は、ビットストリーム抽出モジュール26、パラメータ抽出モジュール21、復号化モジュール22、アップミキシングモジュール24、並びに変換モジュール25を有してもよい。ビットストリーム抽出モジュール26は、オーディオビットストリーム1を受信し、かつパラメータセクションとオーディオビットストリーム1に包含された符号化されダウンミックスされたオーディオビットストリームを分離するように構成されてもよい。パラメータ抽出モジュール21は、オーディオビットストリーム1に含まれているICD範囲値を示す受信されたオーディオビットストリーム1のパラメータセクション中のパラメータ種別フラグを検出するように構成されてもよい。パラメータ抽出モジュール21は、受信したオーディオビットストリーム1のパラメータセクションからICD範囲値を読みとるようにさらに構成されてもよい。
前記復号化モジュール22は、符号化されダウンミックスされたオーディオビットストリームを復号化し、かつ複合化されダウンミックスされたオーディオ信号をアップミキシングモジュール24に入力するように構成されてもよい。アップミキシングモジュール24は、パラメータ抽出モジュール21に接続され、パラメータ抽出モジュール21によって提供された受信したオーディオビットストリーム1のパラメータセクションから読みとられたICD範囲値を使用して、複合化されダウンミックスされたオーディオ信号を複数のオーディオチャネル信号にアップミックスするように構成されてもよい。最後に、変換モジュール25は、アップミキシングモジュール24に接続され、かつ複数のオーディオチャネル信号に基づいて音を再生するために複数のオーディオチャネル信号を周波数ドメインから時間ドメインへ変換するように構成されてもよい。
図4は、概略的にパラメトリックな空間符号化の方法30の実施形態を示す。前記方法30は、第1のステップにおいて、入力したチャネル(例えば入力チャネル10a・10b)に対して時間-周波数変換を実行する。ステレオ信号の場合、第1の変換はステップ30aで実行され、第2の変換はステップ30bで実行される。変換は、高速フーリエ変換(FFT)を使用してそれぞれのケースで実行されてもよい。あるいは、短時間フーリエ変換(STFT)、コサイン変調フィルタバンクを有するコサイン変調フィルタ、または複素数フィルタバンクを有する複素数フィルタが実行されてもよい。
第2のステップ31で、相互スペクトルc[b]はサブバンドbごとに次式のように算出されてもよい。
ここで、X1[k]とX2[k]は、2つのチャネル1と2のFFT係数である。例えば、ステレオの場合の左と右のチャネルである。“*”は複素共役を示し、kbはサブバンドbの開始ビンを示し、さらにkb+1は隣接サブバンドb+1の開始ビンを示す。従って、kbからkb+1のFFTの周波数ビン[k]は、サブバンドbを表す。
あるいは相互スペクトルは、FFTのそれぞれの周波数ビンkに対して算出されてもよい。この場合、サブバンドbは、一つの周波数ビン[k]に直接対応する。
第3のステップ32では、インターチャネル差分は、相互スペクトルに基づいてサブバンドごとに演算されてもよい。例えば、両耳間位相差(IPD)の場合、かかる演算は、次式のように行われてもよい。
ここで、サブバンドbごとのIPDは、それぞれのサブバンドbの相互スペクトルc[b]の角度である。ステップ31・32は、複数のオーディオチャネル信号のうち少なくとも一つと所定の周波数範囲にわたる基準オーディオチャネル信号との間のICD/IPDに対する、特定のIPD値の複数のICD値が演算されることを保証する。さらに、それぞれのICD値は、周波数サブバンドb又は少なくとも一つの周波数ビンである所定の周波数範囲の一部分にわたり演算される。
ステップ31と32に関連して詳述されるように演算スキームは、Breebart, J., van de Par, S., Kohlrausch, A., Schuijers, E.らの“Parametric Coding of Stereo Audio”, EURASIP Journal on Applied Signal Processing, 005, No. 9, pp. 1305-1322.によって知られた方法に対応する。
このIPD値は、帯域が限定された信号のために位相差を示す。もし、帯域幅が十分に限定されていれば、このフェーズ差分は、入力信号間のわずかな遅延とすることができる。それぞれの周波数サブバンドbのためのIPDとインターチャネル時間差分(ITD)は、同じ情報を示す。しかし、全バンクのためのIPD値はITD値と異なる。全帯域IPDは、2つのチャネル1と2の間に一定の位相差があるのに対し、全帯域ITDは、2つのチャネル間に一定の時間差がある。
サブバンドIPD値に基づいた全帯域IPDを演算するために、全帯域IPD値を取得するための、全サブバンドIPD値にわたる平均を算出することができてもよい。すなわち、オーディオチャネル信号の全周波数範囲にわたるIPD範囲値である。しかしながら、この推定方法は、周波数サブバンドが異なる知覚的重要性を持つために、代表IPD範囲値の間違った推定を導く可能性がある。
ICDの範囲値の算出のために、所定の周波数範囲が定義されてもよい。例えば、所定の周波数範囲は、複数のオーディオチャネル信号の全周波数帯域であってもよい。あるいは、複数のオーディオチャネル信号の全周波数帯の中の一つまたは複数の所定の周波数インターバルが選ばれてもよく、一方で所定の周波数インターバルは、コヒーレントまたは間隔があいていてもよい。所定の周波数範囲は、例えば200Hzと600Hzの間、あるいは300Hzと1.5kHzの間の周波数帯を含んでもよい。
第3のステップ33と第4のステップ34では、第1と第2のステップ31,32と並行して、所定の周波数範囲の一部分ごとのエネルギーE[b]、すなわち各周波数サブバンドbまたは周波数ビンbが次式によって演算される。
続いて所定の周波数範囲のエネルギーEGにわたり正規化される。例えば、全周波数帯は次式となる。
ここで、MminとMmaxはそれぞれ所定の周波数範囲中の最小と最大の周波数サブバンドまたはビンのインデックスである。
ステップ35では、複数のICD値それぞれに対して、例えばIPD[b]値、重み付きICD値、例えば重み付きIPD値IPDw[b]が、対応する周波数依存重み係数Ew[b]と複数のICD値のそれぞれを乗算することによって演算される。
周波数依存重み係数は、例えば次式によって算出される重み付きエネルギー値Ew[b]に関連してもよい。
連続したフレームにわたる重み係数Ew[b]は、平滑化されることができる。すなわち、現在の重み係数Ew[b]を演算するときに複数のオーディオチャネル信号の前フレームの重み係数EW[b]の割合を考慮に入れることである。
最後に、ステップ36では、ICD範囲値、例えば全帯域IPD値IPDFが、複数の重み付きICD値を加算することによって所定の周波数範囲のために演算されてもよい。
あるいは、重み係数Ew[b]は、所定の周波数範囲にわたって正規化されたオーディオチャネル信号の周波数のエネルギー相関係数マスキング曲線から生成されてもよい。このようなマスキング曲線は、例えばBosi, M., Goldberg, R.の“Introduction to Digital Audio Coding and Standards”, Kluwer Academic Publishers, 2003.によって知られているように算出される。これは、所定の周波数範囲にわたり正規化されたオーディオチャネル信号のサブバンドbの知覚エントロピー値に基づいて周波数依存重み係数を決定することもできる。この場合、マスキング曲線または知覚エントロピーの正規化されたバージョンは重み係数として使われてもよい。
図4で示される方法は、マルチチャネルのパラメトリックオーディオ符号化のために実行されてもよい。相互スペクトルは、サブバンドbごととチャネルjごとに以下のように演算される。
ここで、Xj[k]は、チャネルjのFFT係数であり、Xref[k]は、基準チャネルのFFT係数である。基準チャネルは、複数のチャネルjから一つ選ばれてもよい。あるいは基準チャネルは、全チャネルjに渡る平均であるモノラルのダウンミックスされた信号のスペクトルであってもよい。前者の場合は、M-1個の空間キューが生成され、一方で後者の場合は、M個の空間キューが生成される。Mはチャネルjの数である。“*”は、複素共役を示し、kbは、サブバンドbの開始ビンを示し、さらにkb+1は隣接サブバンドb+1の開始ビンを示す。従って、FFTのkbからkb+1の周波数ビン[k]は、サブバンドbを表す。
あるいは、相互スペクトルは、FFTの各周波数ビンkのために算出されてもよい。この場合、サブバンドbは、一つの周波数ビン[k]に直接対応する。
チャネルjのインターチャネル差分は、相互スペクトルに基づいたサブバンドbごとに演算されてもよい。例えば、両耳間位相差(IPD)の場合は、そのような演算は以下のように処理される。
ここで、サブバンドbごとのIPDjとチャネルjは、サブバンドbとチャネルjそれぞれの相互スペクトルcj[b]の角度である。
所定の周波数範囲の各部分のチャネルjごとのエネルギーEj[b]は、例えば各周波数サブバンドb、もしくは周波数ビンbは、次式によって演算される。
さらにその後、所定の周波数範囲のエネルギーEGjにわたり正規化される。例えば全周波数帯域は以下のようになる。
ここで、MminとMmaxは、それぞれ所定の周波数範囲に含まれる周波数サブバンドもしくはビンの最小、最大のインデックスである。
複数のICD値それぞれに対して、例えば値IPDj[b]、重み付きICD値、例えば重み付きIPD値IPDwj[b]が、対応する周波数依存重み係数Ewj[b]を有する複数のICDをそれぞれ乗算することによって演算される。
周波数依存重み係数は、例えば次式で算出される重み付きエネルギー値Ewj[b]に関連されてもよい。
連続したフレームにわたる重み係数Ewj[b]を平滑化することができてもよい。すなわち、現在の重み係数Ewj[b]を演算するときに複数のオーディオチャネル信号の前フレームの重み係数Ewj[b]の割合を考慮に入れることである。
最後に、ICD範囲値は、例えば、全周波数帯IPD値であるIPDFjが複数の重み付きICD値を加算することによって所定の周波数範囲のために演算されてもよい。
図5は、概略的に例えば図1から3に詳細に述べられたオーディオビットストリーム1のオーディオビットストリームのビットストリーム構造を示す。図5のオーディオビットストリーム1は、符号化されダウンミックスされたオーディオ・ビットストリーム・セクション1aとパラメータセクション1bを含んでもよい。符号化されダウンミックスされたオーディオ・ビットストリーム・セクション1aとパラメータセクション1bは、入れ替えてもよく、それらを結合した長さは、オーディオビットストリーム1の全体のビットレートで表されてもよい。符号化されダウンミックスされたオーディオ・ビットストリーム・セクション1aは、複合化される実際のオーディオデータを含んでもよい。パラメータセクション1bは、ICD範囲値などのような空間符号化パラメータの、一つまたは複数の量子化された表示を有してもよい。オーディオビットストリーム1は、例えばオーディオビットストリーム1がパラメータセクション1bの中に補助データを含むか否かを明示的にシグナリングするために使われる信号フラグビット2を含んでもよい。さらに、パラメータセクション1bは、オーディオビットストリーム1がパラメータセクション1bに補助データを含むかどうかを暗黙的にシグナリングするために使われる信号フラグビット3を含んでもよい。
1 オーディオビットストリーム
2、3 信号フラグビット
10 空間オーディオ符号化装置
11 パラメータ推定モジュール
12 ダウンミキシングモジュール
13 符号化モジュール
14 ストリーミングモジュール
15 変換モジュール
20 空間オーディオ復号化装置
21 パラメータ抽出モジュール
22 複合化モジュール
24 アップミキシングモジュール
25 変換モジュール
26 ビットストリーム抽出モジュール
100 空間オーディオ符号化システム

Claims (16)

  1. 複数のオーディオチャネル信号に対し、時間ドメインから周波数ドメインへの変換を適用するステップ(30a,30b)と、
    所定の周波数範囲にわたる、前記複数のオーディオチャネル信号のうち少なくとも一つと、基準オーディオチャネル信号との間のICD用の複数のICD値を演算するステップであって、各ICD値は前記所定の周波数範囲の一部にわたって演算される、ステップ(31,32)と、
    前記複数のICD値それぞれに対して、対応する周波数依存重み係数を持つ前記複数のICD値をそれぞれ乗算することによって、重み付きICD値を演算するステップ(35)と、
    前記複数の重み付きICD値を加算することによって、前記所定の周波数範囲に対するICD範囲値を演算するステップ(36)と、
    を有する、インターチャネルの差分(ICD)を推定するための方法(30)。
  2. 前記ICDが、インターチャネルフェーズの差分(IPD)であるか、又は、インターチャネル時間の差分(ITD)である、請求項1に記載の方法(30)。
  3. 前記時間ドメインから周波数ドメインへの変換が、高速フーリエ変換(FFT)、コサイン変調フィルタバンク、離散フーリエ変換(DFT)、複素数フィルタバンクのグループのうちの一つを具備する請求項1又は2記載の方法(30)。
  4. 前記所定の周波数範囲が、
    前記複数のオーディオチャネル信号の全周波数帯と、
    前記複数のオーディオチャネル信号の前記全周波数帯に含まれる、所定の周波数インターバルと、
    前記複数のオーディオチャネル信号の前記全周波数帯に含まれる、複数の所定の周波数インターバルとのグループのうちの一つを含む、
    請求項1から3のうち一項に記載の方法(30)。
  5. 前記所定の周波数インターバルが、200Hzと600Hzの間、又は、300Hzと1.5kHzの間に位置している請求項4に記載の方法(30)。
  6. 前記基準オーディオチャネル信号が、前記オーディオチャネル信号または前記複数のオーディオチャネル信号の少なくとも2つのオーディオチャネル信号から取得されダウンミックスされたオーディオ信号のうちの一つを有する、請求項1から5のいずれか一項に記載の方法(30)。
  7. 前記複数のICD値を演算するステップが、前記周波数サブバンドを基準とした前記複数のICD値を演算するステップを有する、請求項1から6のいずれか一項に記載の方法(30)。
  8. 前記周波数依存重み係数が、前記所定の周波数範囲にわたる全体のエネルギーに基づいて正規化された前記周波数サブバンドの前記エネルギーを基準として決定される、請求項7に記載の方法(30)。
  9. 前記周波数依存重み係数が、前記所定の周波数範囲にわたり正規化された前記オーディオチャネル信号の前記周波数のエネルギー分布のマスキング曲線を基準として決定される、請求項7に記載の方法(30)。
  10. 前記周波数依存重み係数が、前記所定の周波数範囲にわたり正規化された前記オーディオチャネル信号の前記サブバンドの知覚エントロピー値を基準として決定される、請求項7に記載の方法(30)。
  11. 前記周波数依存重み係数が、少なくとも2つの連続するフレーム間で平滑化される、請求項1から10のいずれか一項に記載の方法(30)。
  12. 複数のオーディオチャネル信号(10a,10b)に対し、時間ドメインから周波数ドメインへの変換を適用するように構成された変換モジュール(15)と、
    所定の周波数範囲にわたる、前記複数のオーディオチャネル信号(10a,10b)のうち少なくとも1つと、基準オーディオチャネル信号との間のICD用の複数のICD値を演算し、前記複数のICD値それぞれに対して、対応する周波数依存重み係数を持つ前記複数のICD値をそれぞれ乗算することによって重み付きICD値を演算し、前記複数の重み付きICD値を加算することによって前記所定の周波数範囲に対するICD範囲値を演算するように構成されたパラメータ推定モジュール(11)と、
    を有する空間オーディオコーディング装置(10)。
  13. 前記複数のオーディオチャネルデータ信号(10a,10b)をダウンミックスすることによって、ダウンミックスされたオーディオチャネル信号を生成するように構成されたダウンミキシングモジュール(12)を有する、請求項12に記載の空間オーディオコーディング装置(10)。
  14. 前記ダウンミキシングモジュール(12)に接続され、符号化されてダウンミックスされたオーディオビットストリームを含む、符号化されたオーディオビットストリームを生成するように構成された符号化モジュール(13)を有する、請求項13に記載の空間オーディオコーディング装置(10)。
  15. 前記パラメータ推定モジュール(11)に接続され、かつ、ダウンミックスされたオーディオビットストリームと、前記複数のオーディオチャネル信号(10a,10b)のための前記ICD範囲値を有する補助データとを含むオーディオビットストリーム(1)を生成するように構成されたストリーミングモジュール(14)を有する、請求項12から14のいずれか一項に記載の空間オーディオコーディング装置(10)。
  16. コンピュータ上で動作する際、請求項1から11のいずれか一項に記載の前記方法を実行するためのプログラミングコードを備えたコンピュータプログラム。
JP2016239118A 2016-12-09 2016-12-09 インターチャネル差分推定方法及び空間オーディオ符号化装置 Withdrawn JP2017058696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016239118A JP2017058696A (ja) 2016-12-09 2016-12-09 インターチャネル差分推定方法及び空間オーディオ符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016239118A JP2017058696A (ja) 2016-12-09 2016-12-09 インターチャネル差分推定方法及び空間オーディオ符号化装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015503767A Division JP2015517121A (ja) 2012-04-05 2012-04-05 インターチャネル差分推定方法及び空間オーディオ符号化装置

Publications (1)

Publication Number Publication Date
JP2017058696A true JP2017058696A (ja) 2017-03-23

Family

ID=58391569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016239118A Withdrawn JP2017058696A (ja) 2016-12-09 2016-12-09 インターチャネル差分推定方法及び空間オーディオ符号化装置

Country Status (1)

Country Link
JP (1) JP2017058696A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020516955A (ja) * 2017-04-12 2020-06-11 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
CN113544774A (zh) * 2019-03-06 2021-10-22 弗劳恩霍夫应用研究促进协会 降混器及降混方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020516955A (ja) * 2017-04-12 2020-06-11 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
US11178505B2 (en) 2017-04-12 2021-11-16 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
JP7379602B2 (ja) 2017-04-12 2023-11-14 華為技術有限公司 マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
US11832087B2 (en) 2017-04-12 2023-11-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
CN113544774A (zh) * 2019-03-06 2021-10-22 弗劳恩霍夫应用研究促进协会 降混器及降混方法

Similar Documents

Publication Publication Date Title
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
US10706861B2 (en) Apparatus and method for estimating an inter-channel time difference
JP5947971B2 (ja) マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
EP2702776B1 (en) Parametric encoder for encoding a multi-channel audio signal
US9275646B2 (en) Method for inter-channel difference estimation and spatial audio coding device
JP5977434B2 (ja) パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
WO2013029225A1 (en) Parametric multichannel encoder and decoder
WO2010075895A1 (en) Parametric audio coding

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170110

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20170303