JP2014529101A - 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置 - Google Patents

多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置 Download PDF

Info

Publication number
JP2014529101A
JP2014529101A JP2014528904A JP2014528904A JP2014529101A JP 2014529101 A JP2014529101 A JP 2014529101A JP 2014528904 A JP2014528904 A JP 2014528904A JP 2014528904 A JP2014528904 A JP 2014528904A JP 2014529101 A JP2014529101 A JP 2014529101A
Authority
JP
Japan
Prior art keywords
audio
signal
parameter
audio channel
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014528904A
Other languages
English (en)
Other versions
JP5724044B2 (ja
Inventor
ユェ ラン,
ユェ ラン,
デイビッド ヴィレット,
デイビッド ヴィレット,
ジエンフェン シュ,
ジエンフェン シュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2014529101A publication Critical patent/JP2014529101A/ja
Application granted granted Critical
Publication of JP5724044B2 publication Critical patent/JP5724044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は:前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;を実行するように構成されることを特徴とする。

Description

本発明はオーディオ信号の符号化処理と関係する。
ステレオまたは多重チャネルのオーディオ信号に対するパラメトリックな符号化処理の具体例に関しては、例えば、“C.FallerとF.Baumgarte著:「知覚的パラメータ化処理を使用した空間的なオーディオ信号の効率的な表現」、音声と音響に対する信号処理の応用に関するIEEEワークショップの研究会議事録、2001年10月発行、第199ページ〜202ページ”において説明されており、この技術は、通常はモノラル又はステレオであるダウン・ミキシングされたオーディオ信号から多重チャネルのオーディオ信号を合成するために、空間的なキューを使用する技術であり、ここで、当該多重チャネルのオーディオ信号は、当該ダウン・ミキシングされたオーディオ信号よりも多くのチャネルを有している。通常の場合、ダウン・ミキシングされたオーディオ信号とは、多重チャネル・オーディオ信号に含まれる複数のオーディオ・チャネル信号を重ね合わせた結果として、例えばステレオ・オーディオ信号などとして生成されるオーディオ信号である。このようなダウン・ミキシング処理によりチャネルの個数が少なくなったオーディオ・チャネルは、波形符号化され、符号化されたオーディオ・チャネルに対して、サイド情報、すなわち空間的なキューが符号化パラメータとして追加され、当該サイド情報は、ダウン・ミキシング処理される前の信号チャネル同士の間の相対関係と関連している。復号化装置は、復号化の結果として得られた波形符号化されたオーディオ・チャネル信号に基づいて、ダウン・ミキシング処理される前と同じ個数のオーディオ・チャネルを再生成するために、このサイド情報を使用する。
初歩的なパラメトリック型ステレオ符号化装置は、ダウン・ミキシング処理によりモノラル信号とされたオーディオ信号からステレオ信号を再生成するために必要とされるキューとして、チャネル同士の間におけるレベルの差分(ICLD:Inter-Channel Level Differences)を使用することが可能である。これよりも高機能なパラメトリック型ステレオ符号化装置は、チャネル同士の間のコヒーレンス(ICC:Inter-Channel Coherence)をさらに使用することにより、オーディオ・チャネル信号(すなわち、オーディオ・チャンネル)同士の間の類似度を表現することが可能である。さらに、例えば、3次元オーディオまたはヘッドフォンに基づくサラウンド型音響再生などのためにバイノーラル録音されたステレオ信号を符号化する際に、チャネル同士の間の位相/遅延量の差を再生するために、チャネル同士の間における位相差(ICPD:Inter-Channel Phase Difference)もまた重要な役割を果たす。
ICCをキューとして使用した合成処理は、殆どのオーディオ・コンテンツや音楽コンテンツに関してアンビエンス音響成分、ステレオ残響音、音源の幅および空間的印象と関係したその他の知覚される音響を再生することと関連している場合があり得る。上記のように空間的印象と関連して知覚される音響については、“J.Blauert著:「空間的な聴取(人間の音響局所化に関する心理学)」、MIT出版、ケンブリッジ、マサチューセッツ州、米国、1997年発行”において説明されている。
また、“E.Schuijers、W.Oomen、B.den BrinkerおよびJ.Breebaart著:「高品質オーディオのためのパラメトリックな符号化処理の歩み」、オーディオ工学会第114回大会、2003年3月発行”において記述されているように、コヒーレンス合成の処理は、周波数領域で動作する逆相関回路を使用することにより実装することが可能である。しかしながら、空間的なキューを推定し、多重チャネル・オーディオ信号を合成するための合成処理に関する既知のアプローチは、信号処理の複雑度が増大してしまうという問題を引き起こす可能性がある。さらには、例えば、ICLD(チャネル同士の間におけるレベルの差分)やICPD(チャネル同士の間における位相差)などの他の符号化パラメータに加えて、ICCのパラメータを使用する場合には、ビットレートのオーバーヘッドが増大してしまう。
本発明の目的は、オーディオ信号の効率的な符号化のために、多重チャネル・オーディオ信号を構成するチャネル同士の間におけるチャネル間の相対関係を表現する符号化パラメータを推定するための発明概念を提供することにある。
上述した本発明の目的は、特許請求の範囲の独立請求項に記載された技術的特徴によって達成される。本発明に係る追加的な実装形態は、特許請求の範囲の従属請求項の記載、本願明細書中の実施例の記載および本明細書に添付した図面の記載から明らかである。
本発明を詳細に説明するために、以下に列挙する用語、略語および表記法が使用される。
<BCC>:バイノーラル・キュー符号化(BCC:Binaural Cues Coding)、すなわち、チャネル間の相対関係を記述するためにダウン・ミキシング処理およびバイノーラル・キュー(すなわち、空間パラメータ)を使用してステレオ信号または多重チャネル信号を符号化する技術。
<バイノーラル・キュー>:右耳から入った音響信号と左耳から入った音響信号との間におけるチャネル間キュー(ITD、ILDおよびICも参照されたい)。
<CLD>:チャネル間のレベル差分であり、ICLDと同じ意味である。
<FFT>:DFT演算を高速に実行するための実装形態であり、正確には高速フーリエ変換と表記される。
<STFT>:短期間(Short-Time)フーリエ変換
<HRTF>:人間の頭の位置と関連した伝達関数(Head-Related Transfer Function)、すなわち、自由音場において音源から右耳と左耳にそれぞれ入った音のエネルギー変換をモデル化している伝達関数である。
<IC>:両耳の間のコヒーレンス、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における類似度であり、しばしば、IACまたはIACC(両耳の間の相互相関(Interaural Cross-Correlation))とも呼ばれる。
<ICC>:チャネル間のコヒーレンス、チャネル間の相関
<ICPD>:チャネル間の位相差、すなわち、信号対の間における位相差を平均した値
<ICLD>:チャネル間のレベル差
<ICTD>:チャネル間の時間差分
<ILD>:両耳の間のレベル差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間におけるレベルの差分であり、しばしば、IID(両耳の間の強度の差分(Interaural Intensity Difference))とも呼ばれる。
<IPD>:両耳の間の位相差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における位相の差分である。
<ITD>:両耳の間の時間差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における時間の差分である。
<ミキシング処理>:多数の音源信号(例えば、別々に録音された複数の楽器による音源や多重トラック録音された音源など)を与えられた際に、空間的なオーディオ再生を目的としてステレオ又は多重チャネルのオーディオ信号を生成する処理過程を指してミキシング処理と呼ぶ。
<空間的オーディオ>:適切な再生システムにより再生された際に、聴覚的な空間イメージを想起させるようなオーディオ信号。
<空間的キュー>:空間的な知覚と関連したキューであり、この用語は、ステレオ又は多重チャネルのオーディオ信号の中のチャネル対の間のキューを指して呼ぶのに使用され(ICTD、ICLDおよびICCも参照されたい)、空間パラメータまたはバイノーラル・キューとも呼ばれる。
本発明に係る第1の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を実行するように構成されることを特徴とする。
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
パラメトリック型のオーディオ符号化器は、コヒーレンスまたは相関を計算するための処理を必要としないので、符号化器の構造的な複雑度を低く抑えることが可能である。数個の量子化ステップしか必要としない粗い量子化器によってICCが量子化される場合には、それはさらに、複数のオーディオ・チャネル間の関係についての正確な推定結果を提供する。特に、音楽の信号についてだけでなく、会話の信号についても言えることであるが、出力された音楽の音は、音響シーン幅が正確であれば、より自然なものとなり、「ドライ」ではなくなるので、オーディオ信号の符号化のために符号化パラメータを使用することは重要である。ビットレートが非常に低いパラメトリック型のステレオ・オーディオ符号化方式に関しては、ビットの割り当て量は限定されており、唯一つのフル・バンドICCが送信され、当該符号化パラメータは、複数のチャネル間のグローバルな相関を表現している。
本発明に係る第1の側面に従うパラメトリック型オーディオ符号化器の第1の実現可能な実装形態においては、複数の符号化パラメータから成る第1パラメータ群は、以下に列挙する複数のパラメータの中の一つ以上により構成される。これら複数のパラメータは、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」である。
そのようなパラメータは、複数のオーディオ信号同士の間の類似度を表現するので、伝送される情報量を減少させるために符号化器によって使用されることが可能であり、その結果、計算の複雑さを軽減することが可能となる。
本発明に係る第1の側面または当該第1の側面の第1の実装形態に従うパラメトリック型オーディオ符号化器の第2の実現可能な実装形態においては、パラメータ生成器は、複数の符号化パラメータから成る第1パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される。
後続する複数のオーディオ・チャネル信号値同士の間の位相差分は、複数のチャネル同士の間における位相および/または遅延の差分を再生成するために必要とされ、位相差分が再生成された場合には、会話と音楽の音響内容はより自然なものとなる。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第3の実現可能な実装形態においては、オーディオ・チャネル信号と基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる。
使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。その結果、パラメトリック型のオーディオ符号化器は、人間の知覚に対して良好に適合することが可能となる。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第4の実現可能な実装形態においては、パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する。
チャネルのインパルス応答特性に対する等化処理は、周波数ドメインにおいて効率的に実行され得る。何故なら、時間ドメインにおける畳み込み積分演算が周波数ドメインでは乗算演算となるからである。従って、周波数ドメインにおいてパラメトリック型オーディオ符号化器の計算処理を実行することは、結果的に、計算の複雑性の観点からより高い効率を達成し、より高い計算精度を達成する。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第5の実現可能な実装形態においては、パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第1パラメータ群を決定するように構成される。
パラメトリック型オーディオ符号化器は、複数の符号化パラメータから成る第1パラメータ群の決定処理を、人間の耳によって知覚可能な周波数ビンすなわち周波数サブバンドに限定することが可能であるので、計算の複雑性を低く抑えることが出来る。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第6の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値を決定するように構成される。
上述した平均化処理により、パラメトリック型オーディオ符号化器は、全ての周波数成分を考慮に入れた場合におけるオーディオ信号の短期間平均値を提供する。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第7の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている。
上述した平均化処理により、パラメトリック型オーディオ符号化器は、オーディオ信号の長期間平均値を提供し、このとき、会話の信号または音楽の信号に関する特徴的な性質が考慮に入れられる。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第8の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値とオーディオ・チャネル信号に関する符号化パラメータの第1の平均値との間の差分の絶対値を決定するように構成される。
上述した差分を計算することにより、パラメトリック型オーディオ符号化器は、上述した長期間平均値と上述した短期間平均値との間における差分の測度を提供し、会話又は音楽の振る舞いを予測することが可能となる。
本発明に係る第1の側面に関して上述した第8の実装形態に従うパラメトリック型オーディオ符号化器の第9の実現可能な実装形態においては、パラメータ生成器は、上記のとおりに決定された絶対値の関数として符号化パラメータを決定するように構成される。
上記のとおりに決定された絶対値の関数として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
本発明に係る第1の側面に関して上述した第8の実装形態または第9の実装形態に従うパラメトリック型オーディオ符号化器の第10の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値と、上記のとおりに決定された絶対値に第2のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される。
第1のパラメータ値と上記のとおりに決定された絶対値との間における差分として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
本発明に係る第1の側面に関して上述した第10の実装形態に従うパラメトリック型オーディオ符号化器の第11の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値を1に設定し、第2のパラメータ値を1に設定するように構成され、このような設定に基づく関係性により、パラメトリック型オーディオ符号化器は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第12の実現可能な実装形態においては、パラメトリック型オーディオ符号化器は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器、当該ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器(特にモノラル符号化器)および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器をさらに具備している。
当該ダウンミキシング済みオーディオ信号と当該符号化されたオーディオ信号とは、パラメータ生成器のための基準信号として使用することが可能である。これら2つの信号の両者は、複数のオーディオ・チャネル信号を含んでいるので、単一のチャネル信号が基準信号として採用された場合よりも高い精度を実現することが可能となる。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第13の実現可能な実装形態においては、符号化パラメータの第1の平均値は、オーディオ・チャネル信号の現在のフレームを参照しており、符号化パラメータのさらに別の第1の平均値は、オーディオ・チャネル信号の以前のフレームを参照している。
オーディオ・チャネル信号に関して現在のフレームと以前のフレームを使用することにより、長期間にわたる平均化処理を効率的に実行することが可能となる。
本発明に係る第1の側面に関して上述した第13の実装形態に従うパラメトリック型オーディオ符号化器の第14の実現可能な実装形態においては、オーディオ・チャネル信号の現在のフレームは、オーディオ・チャネル信号の以前のフレームに対して連続的なものである。
これら2つのフレームが互いに連続的である場合、オーディオ・チャネル信号の鋭いピーク波形部分が平均化処理結果の中で検出され、パラメトリック型オーディオ符号化器において考慮に入れられる。その結果、鋭いピーク波形部分を検出することが出来ない場合と比較して、符号化処理をより高精度なものとすることが可能となる。
本発明に係る第2の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出されたダウンミキシング済みオーディオ信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を実行するように構成されることを特徴とする。
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
パラメトリック型のオーディオ符号化器は、コヒーレンスまたは相関を計算するための処理を必要としないので、符号化器の構造的な複雑度を低く抑えることが可能である。数個の量子化ステップしか必要としない粗い量子化器によってICCが量子化される場合には、それはさらに、複数のオーディオ・チャネル間の関係についての正確な推定結果を提供する。特に、音楽の信号についてだけでなく、会話の信号についても言えることであるが、出力された音楽の音は、音響シーン幅が正確であれば、より自然なものとなり、「ドライ」ではなくなるので、オーディオ信号の符号化のために符号化パラメータを使用することは重要である。ビットレートが非常に低いパラメトリック型のステレオ・オーディオ符号化方式に関しては、ビットの割り当て量は限定されており、唯一つのフル・バンドICCが送信され、当該符号化パラメータは、複数のチャネル間のグローバルな相関を表現している。
本発明に係る第2の側面に従うパラメトリック型オーディオ符号化器の第1の実現可能な実装形態においては、複数の符号化パラメータから成る第1パラメータ群は、以下に列挙する複数のパラメータの中の一つ以上により構成される。これら複数のパラメータは、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」である。
そのようなパラメータは、複数のオーディオ信号同士の間の類似度を表現するので、伝送される情報量を減少させるために符号化器によって使用されることが可能であり、その結果、計算の複雑さを軽減することが可能となる。
本発明に係る第2の側面または当該第2の側面の第1の実装形態に従うパラメトリック型オーディオ符号化器の第2の実現可能な実装形態においては、パラメータ生成器は、複数の符号化パラメータから成る第1パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される。
後続する複数のオーディオ・チャネル信号値同士の間の位相差分は、複数のチャネル同士の間における位相および/または遅延の差分を再生成するために必要とされ、位相差分が再生成された場合には、会話と音楽の音響内容はより自然なものとなる。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第3の実現可能な実装形態においては、オーディオ・チャネル信号と基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる。
使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。その結果、パラメトリック型のオーディオ符号化器は、人間の知覚に対して良好に適合することが可能となる。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第4の実現可能な実装形態においては、パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する。
チャネルのインパルス応答特性に対する等化処理は、周波数ドメインにおいて効率的に実行され得る。何故なら、時間ドメインにおける畳み込み積分演算が周波数ドメインでは乗算演算となるからである。従って、周波数ドメインにおいてパラメトリック型オーディオ符号化器の計算処理を実行することは、結果的に、計算の複雑性の観点からより高い効率を達成し、より高い計算精度を達成する。
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第5の実現可能な実装形態においては、パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第1パラメータ群を決定するように構成される。
パラメトリック型オーディオ符号化器は、複数の符号化パラメータから成る第1パラメータ群の決定処理を、人間の耳によって知覚可能な周波数ビンすなわち周波数サブバンドに限定することが可能であるので、計算の複雑性を低く抑えることが出来る。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第6の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値を決定するように構成される。
上述した平均化処理により、パラメトリック型オーディオ符号化器は、全ての周波数成分を考慮に入れた場合におけるオーディオ信号の短期間平均値を提供する。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第7の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている。
上述した平均化処理により、パラメトリック型オーディオ符号化器は、オーディオ信号の長期間平均値を提供し、このとき、会話の信号または音楽の信号に関する特徴的な性質が考慮に入れられる。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第8の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値とオーディオ・チャネル信号に関する符号化パラメータの第1の平均値との間の差分の絶対値を決定するように構成される。
上述した差分を計算することにより、パラメトリック型オーディオ符号化器は、上述した長期間平均値と上述した短期間平均値との間における差分の測度を提供し、会話又は音楽の振る舞いを予測することが可能となる。
本発明に係る第2の側面に関して上述した第8の実装形態に従うパラメトリック型オーディオ符号化器の第9の実現可能な実装形態においては、パラメータ生成器は、上記のとおりに決定された絶対値の関数として符号化パラメータを決定するように構成される。
上記のとおりに決定された絶対値の関数として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
本発明に係る第2の側面に関して上述した第8の実装形態または第9の実装形態に従うパラメトリック型オーディオ符号化器の第10の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値と、上記のとおりに決定された絶対値に第2のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される。
第1のパラメータ値と上記のとおりに決定された絶対値との間における差分として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
本発明に係る第2の側面に関して上述した第10の実装形態に従うパラメトリック型オーディオ符号化器の第11の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値を1に設定し、第2のパラメータ値を1に設定するように構成され、このような設定に基づく関係性により、パラメトリック型オーディオ符号化器は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第12の実現可能な実装形態においては、パラメトリック型オーディオ符号化器は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器、当該ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器(特にモノラル符号化器)および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器をさらに具備している。
当該ダウンミキシング済みオーディオ信号と当該符号化されたオーディオ信号とは、パラメータ生成器のための基準信号として使用することが可能である。これら2つの信号の両者は、複数のオーディオ・チャネル信号を含んでいるので、単一のチャネル信号が基準信号として採用された場合よりも高い精度を実現することが可能となる。
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第13の実現可能な実装形態においては、符号化パラメータの第1の平均値は、オーディオ・チャネル信号の現在のフレームを参照しており、符号化パラメータのさらに別の第1の平均値は、オーディオ・チャネル信号の以前のフレームを参照している。
オーディオ・チャネル信号に関して現在のフレームと以前のフレームを使用することにより、長期間にわたる平均化処理を効率的に実行することが可能となる。
本発明に係る第2の側面に関して上述した第13の実装形態に従うパラメトリック型オーディオ符号化器の第14の実現可能な実装形態においては、オーディオ・チャネル信号の現在のフレームは、オーディオ・チャネル信号の以前のフレームに対して連続的なものである。
これら2つのフレームが互いに連続的である場合、オーディオ・チャネル信号の鋭いピーク波形部分が平均化処理結果の中で検出され、パラメトリック型オーディオ符号化器において考慮に入れられる。その結果、鋭いピーク波形部分を検出することが出来ない場合と比較して、符号化処理をより高精度なものとすることが可能となる。
本発明に係る第3の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を具備することを特徴とする。
上述した方法は、プロセッサ上で効率的に実行することが可能である。
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
本発明に係る第4の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出されたダウンミキシング済みオーディオ信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を具備することを特徴とする。
上述した方法は、プロセッサ上で効率的に実行することが可能である。
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
本発明に係る第5の側面に従うならば、本発明は、コンピュータ上で実行された際に、本発明に関して上述した第3および第4の側面の何れか一つに従う方法を実装するように構成されたコンピュータ・プログラムと関係する。
当該コンピュータ・プログラムの複雑性は低く抑えられているので、バッテリー寿命を温存しなくてはならないモバイル型端末において効率的に実装することが可能である。当該コンピュータ・プログラムがモバイル型端末の上で実行された場合には、バッテリー寿命の長さは増加する。
本発明に関して上述した方法は、DSP(ディジタル信号処理プロセッサ)内におけるソフトウェア、マイクロ・コントローラ内におけるソフトウェア、またはその他の任意の補助プロセッサ内におけるソフトウェアとして、またはASIC(特定用途向け集積回路)内に実装されたハードウェア回路として実施することが可能である。
本発明は、ディジタル電子回路内において実装することが可能であり、またはコンピュータのハードウェア、ファームウェア、ソフトウェアまたはこれらを組み合わせたものとして実装することも可能である。本発明に関するさらに追加の実施形態は、以下において簡単に説明する添付図面を参照しながら、本明細書中の「発明の実施するための形態」欄において具体的に後述する。
本発明に係る一実装形態に従うパラメトリック型オーディオ符号化器のブロック図 本発明に係る一実装形態に従うパラメトリック型オーディオ復号化器のブロック図 本発明に係る一実装形態に従うパラメトリック型のステレオ・オーディオ符号化器およびステレオ・オーディオ復号化器のブロック図 本発明に係る一実装形態に従って、オーディオ・チャネル信号に関する符号化パラメータを生成するための方法を説明する動作ブロック図
図1は、本発明に係る一実装形態に従うパラメトリック型オーディオ符号化器100のブロック図を示している。パラメトリック型オーディオ符号化器100は、入力信号として、多重チャネルのオーディオ信号101を受信し、出力信号103としてビット・ストリームを出力する。パラメトリック型オーディオ符号化器100は、多重チャネルのオーディオ信号101に結合し、符号化パラメータ115を生成するためのパラメータ生成器105、多重チャネルのオーディオ信号101に結合し、ダウンミキシング済みの信号111または合計の信号を生成するためのダウンミキシング済みの信号の生成器107、ダウンミキシング済みの信号の生成器107と結合し、ダウンミキシング済みの信号111を符号化することによって符号化されたオーディオ信号113を出力するためのオーディオ符号化器109およびパラメータ生成器105およびオーディオ符号化器109と結合し、符号化パラメータ115と符号化されたオーディオ信号113からビット・ストリーム103を形成するための(例えば、ビット・ストリーム形成器のような)合成器117を具備している。
パラメトリック型オーディオ符号化器100は、ステレオ信号と多重チャネル・オーディオ信号のためのオーディオ符号化方式を実装し、当該オーディオ符号化方式は、例えば、ダウンミキシング処理された単一オーディオ・チャネルのような単一のオーディオ・チャネルに加えて、それに付随する複数のパラメータだけを送信する。その際、当該複数のパラメータは、複数のオーディオ・チャネル
Figure 2014529101
同士の間における「知覚的に関連する差分」を記述している。上述したオーディオ符号化方式においては、両耳性のキュー(Binaural Cue)が重要な役割を果たすこととなるため、上述したオーディオ符号化方式は、BCC符号化(Binaural Cue Coding)に従って実行される。添付図面において図示されているとおり、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネルであって、符号化器100に入力されるM個のオーディオ・チャネル
Figure 2014529101
は、単一のオーディオ・チャネル111へとダウンミキシング処理され、当該単一のオーディオ・チャネルは、合計の信号とも表記される。ステレオのオーディオ信号を扱う場合においては、オーディオ・チャネルの個数Mの値は2に等しくなる。複数のオーディオ・チャネル
Figure 2014529101
同士の間における「知覚的に関連する差分」と同様に、例えば「チャネル間の時間差分(ICTD:Inter-Channel Time Difference)」、「チャネル間のレベル差分(ICLD:Inter-Channel Level Difference)」および「チャネル間のコヒーレンス(ICC:Inter-Channel Coherence)」等のような複数の符号化パラメータは時間と周波数の関数として推定され、図2に示す復号化器200に対して補助情報として送信される。
パラメータ生成器105内において実装されているBCC(Binaural Cue Coding)符号化処理機能は、所定の時間分解能と周波数分解能の下で多重チャネルのオーディオ信号101を処理する。使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。送信される合計の信号111が多重チャネルのオーディオ信号101に含まれる全ての信号成分を含んでいることは重要である。本発明の目的とするところは、これら信号成分の各々がパラメトリック符号化の前後を通じて完全に維持されることである。
上述したように多重チャネルのオーディオ信号101を構成する複数のオーディオ入力チャネル
Figure 2014529101
を単純に合計する場合、一部の信号成分が増幅されたり減衰させられたりする結果を時として生じ得る。言い換えれば、これらの信号成分を単純に合計した信号の電力は、
Figure 2014529101
で表される複数のチャネルの各々にそれぞれ対応する信号成分の実際の合計電力よりも時として大きかったり小さかったりする。従って、合計の信号111を等化処理するためのダウンミキシング処理装置107を応用した信号処理を実行することによるダウンミキシング処理技法が使用され、その結果、合計の信号111に含まれる複数の信号成分の電力が、多重チャネルのオーディオ信号101を構成する全てのオーディオ入力チャネル
Figure 2014529101
のそれぞれに関して対応する電力と近似的に同一となる。上述した複数のオーディオ入力チャネル
Figure 2014529101
は、サブバンドbに関するチャネル信号を表現している。周波数ドメイン表現のオーディオ入力チャネルは、
Figure 2014529101
と表記され、kは周波数インデックス(周波数ビン)を表し、通常の場合、サブバンドbは、幾つかの周波数ビンkによって構成されている。
合計の信号111を与えられると、パラメータ生成器105は、ICTD、ICLDおよび/またはICCが元々の多重チャネル・オーディオ信号101における対応するキューを近似するような態様でステレオのオーディオ信号又は多重チャネルのオーディオ信号115を合成する。
一つの音源に関する両耳性の室内インパルス応答特性(BRIR:Binaural Room Impulse Response)を考慮する場合、聴覚的事象、聴取環境およびBRIRの早い時期の部分と遅い時期の部分に関して推定されたICCの間には所定の関係性が存在する。しかしながら、(BRIRに限らず)一般的な信号に関するこれらの性質とICCとの間における上述した関係性は、直進的に得られるものではない。通常の場合、ステレオまたは多重チャネルのオーディオ信号は、反射波の信号成分が重ね合わされ合成されることにより同時並列的にアクティブ状態となる複数の音源信号が混ざり合った複合的な信号を含んでおり、そのような反射波の信号成分の重ね合わせは、閉ざされた空間内での録音操作や空間的な音の印象を人工的に作り出すために、録音技師によって付加された結果として生じ得る。複数の異なる音源信号とその反射波信号成分は、時間/周波数の平面上において異なる領域を占有する。これは、時間と周波数の関数として変化するICTD、ICLDおよびICCによって反映される。この場合、ICTD、ICLDおよびICCの瞬時値、聴覚的事象の方向および空間的な印象の間の関係性は自明なものではない。パラメータ生成器105のパラメータ生成戦略は、元々の多重チャネル・オーディオ信号101における対応するキューをこれらのキューが近似するような態様で、これらのキューを盲目的に合成するものである。
一つの実装形態においては、パラメトリック型オーディオ符号化器100は、等価な長方形の帯域幅の2倍に等しい帯域幅のサブバンドを有するフィルター・バンクを使用する。非公式の聞き取り試験の結果、BCCのオーディオ品質は、周波数分解能を高くしても、それほど顕著には改善されないことが判明した。それならむしろ、周波数分解能を低くする方が好適である。何故ならば、そのようにすることにより、復号化器に送信する必要があるICTD、ICLDおよびICCの個数をより少なくすることができるので、ビット・レートを低く抑えることが出来るからである。時間分解能に関しては、ICTD、ICLDおよびICCは、規則的な時間周期毎に考慮される。一つの実装形態においては、ICTD、ICLDおよびICCは、約4ミリ秒〜約16ミリ秒毎の周期で考慮される。非常に短い時間周期毎にキューが考慮されるのでない限り、先行して生じた効果は直接的には考慮されない。
上記のように合成された信号と基準信号との間における知覚的な差分が時として小さくなることは、規則的な時間周期毎にICTD、ICLDおよびICCを合成することによって、広範囲にわたる聴覚的空間イメージ属性が暗黙裡に考慮されていることを意味している。これらの空間的なキューを伝送するのに必要とされるビット・レートは、数キロビット/秒に過ぎないので、パラメトリック型オーディオ符号化器100は、単一のオーディオ・チャネル信号の伝送に必要とされるビット・レートと同程度のビット・レートでステレオ又は多重チャネルのオーディオ信号を伝送することが可能である。図4は、符号化パラメータ115の一つとしてICCを推定するための方法を図示している。
パラメトリック型オーディオ符号化器100は、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング処理された信号111を取得するためのダウンミキシング済みの信号の生成器107、ダウンミキシング処理された信号111を符号化することによって符号化されたオーディオ信号113を取得するためのオーディオ符号化器(特にモノラルの符号化器)109および対応する符号化パラメータ115と符号化されたオーディオ信号113とを合成するための合成器117を具備している。
パラメトリック型オーディオ符号化器100は、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネル信号であって、符号化器100に入力されるM個のオーディオ・チャネル信号
Figure 2014529101
の中の一つのオーディオ・チャネル信号について符号化パラメータを生成する。複数のオーディオ・チャネル信号
Figure 2014529101
の各々は、
Figure 2014529101
と表記される周波数ドメインにおけるディジタル表現形式のオーディオ・チャネル信号を具備するディジタル信号とすることが可能である。
パラメトリック型オーディオ符号化器100が符号化パラメータ115を生成する対象となるオーディオ・チャネル信号の一つの具体例は、信号値X1[k]を有する第1のオーディオ・チャネル信号X1[b]である。第1のオーディオ・チャネル信号X1[b]に関して、パラメータ生成器105は、オーディオ・チャネル信号X1[b]のオーディオ・チャネル信号値X1[k]と基準オーディオ信号の基準オーディオ信号値から、複数の符号化パラメータを含む第1パラメータ群を決定し、これはIPD[b]と表記される。
基準オーディオ信号として使用される一つのオーディオ・チャネル信号は、例えば、第2のオーディオ・チャネル信号X2[b]とすることが可能である。同様に、複数のオーディオ・チャネル信号
Figure 2014529101
に含まれる他の任意のオーディオ・チャネル信号が基準オーディオ信号としての役割を果たすようにすることも可能である。本発明に係る第1の側面に従うならば、基準オーディオ信号は、符号化パラメータ115が生成される対象となるオーディオ・チャネル信号X1[b]とは等しくない複数のオーディオ・チャネル信号の中に含まれるさらに別のオーディオ・チャネル信号とすることが可能である。
本発明に係る第2の側面に従うならば、基準オーディオ信号は、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出された(例えば、第1のオーディオ・チャネル信号X1[b]と第2のオーディオ・チャネル信号X2[b]から導出された)ダウンミキシング済みオーディオ信号である。一つの実装形態においては、基準オーディオ信号は、ダウンミキシング処理された信号111であり、以下の説明においては、ダウンミキシング済み信号の生成器107によって生成された合計の信号とも呼ぶことにする。一つの実装形態においては、基準オーディオ信号は、オーディオ符号化器109によって出力される符号化されたオーディオ信号113である。
パラメータ生成器105によって使用される基準オーディオ信号の一例は、信号値X2[k]を有する第2のオーディオ・チャネル信号X2[b]である。
オーディオ・チャネル信号X1[b]に関して、パラメータ生成器105は、オーディオ・チャネル信号X1[b]のための複数の符号化パラメータを含む第1パラメータ群IPD[b]に基づいて、符号化パラメータの第1の平均値を決定し、これはIPDmean[i]と表記される。
オーディオ・チャネル信号X1[b]に関して、パラメータ生成器105は、オーディオ・チャネル信号X1[b]に関する符号化パラメータの第1の平均値IPDmean[i]とオーディオ・チャネル信号X1[b]に関する符号化パラメータのさらに別の第1の平均値の少なくとも一つであって、IPDmean[i−1]と表記される平均値に基づいて、符号化パラメータの第2の平均値を決定し、これはIPDmean_long_termと表記される。一つの実装形態において、符号化パラメータの第1の平均値IPDmean[i]は、オーディオ・チャネル信号X1[b]の現在のフレームiを参照しており、符号化パラメータのさらに別の第1の平均値IPDmean[i−1]は、オーディオ・チャネル信号X1[b]の以前のフレームi−1を参照している。一つの実装形態において、オーディオ・チャネル信号X1[b]の以前のフレームi−1は、他のフレーム受信を挟まないで現在のフレームiの直前に受信されたフレームである。一つの実装形態において、オーディオ・チャネル信号X1[b]の以前のフレームi−Nは、現在のフレームiに先立って受信されたフレームであるが、その2つのフレームの受信時点を挟んで他の一つ以上のフレームが到着している。
オーディオ・チャネル信号X1[b]に関する符号化パラメータの第1の平均値IPDmean[i]に基づき、かつ、オーディオ・チャネル信号X1[b]に関する符号化パラメータの第2の平均値IPDmean_long_termに基づいて、パラメータ生成器105は、ICCと表記される符号化パラメータを決定する。
複数の符号化パラメータを含む第1パラメータ群IPD[b]は、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」または「サブバンドに関するチャネル間の強度差分」などのパラメータ、あるいはこれらを組み合わせたパラメータから構成され得る。「チャネル間の位相差分(ICPD)」は、一対の信号間における位相差分の平均であり、「チャネル間のレベル差分(ICLD)」は、両耳の間におけるレベル差分(ILD:Inter-Aural Level Difference)と同じものである。すなわち、「チャネル間のレベル差分(ICLD)」は、左耳と右耳にそれぞれ入ってくる2つの信号間におけるレベル差分としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間におけるレベル差分として定義される。「チャネル間のコヒーレンス」すなわち「チャネル間の相関」は、両耳の間におけるコヒーレンス(IC:Inter-Aural Coherence)と同じものである。すなわち、「チャネル間のコヒーレンス」は、左耳と右耳にそれぞれ入ってくる2つの信号同士の間の類似度としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間における類似度として定義される。「チャネル間の時間差分(ICTD)」は、両耳の間における時間差分(ITD:Inter-Aural Time Difference)と同じものであり、「両耳の間における時間遅延量」とも呼ばれる。すなわち、「チャネル間の時間差分」は、左耳と右耳にそれぞれ入ってくる2つの信号同士の間の時間差分としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間における時間差分として定義される。「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」は、サブバンド帯域幅に関して上述したとおりに定義されるパラメータと関係付けられている。
パラメータ生成器105は、複数の符号化パラメータを含む第1パラメータ群IPD[b]を取得するために、後続するオーディオ・チャネル信号値X1[k]の位相差分を決定する。一つの実装形態においては、オーディオ・チャネル信号X1[b]と基準オーディオ信号X2[b]とは、周波数ドメインの信号であり、オーディオ・チャネル信号値X1[k]と基準オーディオ信号値X2[k]とは、「k」と表記される周波数ビン、すなわち「b」と表記されるサブバンドと関係付けられる。一つの実装形態においては、パラメトリック型オーディオ符号化器100は、複数の時間ドメインのオーディオ・チャネル信号
Figure 2014529101
を周波数ドメインに変換することによって複数のオーディオ・チャネル信号
Figure 2014529101
を取得するための変換器(例えば、FFT(高速フーリエ変換)処理装置など)を具備している。一つの実装形態においては、パラメータ生成器105は、複数のオーディオ・チャネル信号
Figure 2014529101
の周波数ビン[k]の各々について、すなわちサブバンド[b]の各々について、複数の符号化パラメータを含む第1パラメータ群IPD[b]を決定する。
第1の処理ステップにおいては、パラメータ生成器105は、時間ドメイン表現の入力チャネル(例えば、第1の入力チャネルX1[n])および時間ドメイン表現の基準チャネル(例えば、第2の入力チャネルX2[n])の上で時間/周波数変換処理を適用する。ステレオ信号の場合、左側チャネルと右側チャネルが存在する。好適な実施例においては、時間/周波数変換処理は、FFT(高速フーリエ変換)処理である。代替的な実施例においては、時間/周波数変換処理は、コサイン変調されたフィルター・バンクまたは複素数型フィルター・バンクである。
第2の処理ステップにおいては、パラメータ生成器105は、FFT処理における周波数ビン[b]の各々について、以下の式に従って交差スペクトルを計算する。
Figure 2014529101
上記の式において、c[b]は、周波数ビン[b]の交差スペクトルであり、
Figure 2014529101
は2つのチャネルに対応するFFT係数である。「*」は複素共役を表す。この場合、サブバンド[b]は、一つの周波数ビン[k]と直接的に対応し、周波数ビン[b]と[k]とは全く同一の周波数ビンを表現している。
代替的に、パラメータ生成器105は、サブバンド[b]の各々について、以下の式に従って交差スペクトルを計算する。
Figure 2014529101
上記の式において、c[b]は、周波数ビン[b]の交差スペクトルであり、
Figure 2014529101
は2つのチャネルに対応するFFT係数である。「*」は複素共役を表す。kは、サブバンドbにおける開始ビンであり、kb+1は、隣接するサブバンドb+1における開始ビンである。従って、FFT処理においてkとkb+1−1との間に位置する複数の周波数ビン[k]は、サブバンド[b]を表現している。
「チャネル間の位相差分(ICPD)」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。
Figure 2014529101
上記式において、∠は、c[b]の偏角を計算するための偏角演算子である。
一つの実装形態においては、パラメータ生成器105は、複数の周波数ビン[k]に跨って、すなわち複数のサブバンド[b]に跨って、オーディオ・チャネル信号X1[b]に関する第1パラメータ群IPD[b]に含まれる複数の符号化パラメータを平均した値として、オーディオ・チャネル信号X1[b]に関する符号化パラメータの第1の平均値IPDmean[i]を決定する。
複数の周波数ビン[k]に跨って、すなわち複数のサブバンド[b]に跨って平均化されたIPD(IPDmean)は、以下の式で定義されるとおりに計算される。
Figure 2014529101
上記の式において、Kは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。
一つの実装形態においては、パラメータ生成器105は、オーディオ・チャネル信号X1[b]に関する複数のフレームに跨って符号化パラメータに関する複数の第1の平均値IPDmean[i]を平均化した値として、オーディオ・チャネル信号X1[b]に関する符号化パラメータの第2の平均値IPDmean_long_termを決定し、この際、符号化パラメータに関する複数の第1の平均値IPDmean[i]の各々は、多重チャネルのオーディオ信号の一つのフレーム[i]と関係付けられている。
以前に算出されたIPDmeanの値に基づいて、パラメータ生成器105は、IPDの長期間平均値を算出する。IPDmean_long_termは、最新のN個のフレーム(例えば、N=10と設定することが可能である)に跨ってIPDを平均化した値として以下の式に従って算出される。
Figure 2014529101
一つの実装形態においては、パラメータ生成器105は、符号化パラメータの第2の平均値IPDmean_long_termと符号化パラメータの第1の平均値IPDmean[i]との間における差分の絶対値IPDdistを決定する。
IPDパラメータの安定性を評価するために、IPDmean_long_termと符号化パラメータの第1の平均値IPDmean[i]との間の距離(すなわち、IPDdist)が計算され、これは、最新のN個のフレーム期間にわたるIPDの漸進的変化を示している。好適な実施例においては、局所的なIPDと長期間平均のIPDとの間の距離は、IPDの局所平均とIPDの長期間平均との間の差分の絶対値として、以下の式に従って計算される。
Figure 2014529101
先行する複数のフレームに跨ってIPDmeanパラメータが安定であるならば、距離パラメータIPDdistの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。
一つの実装形態においては、パラメータ生成器105は、上記のとおりに決定された絶対値IPDdistの関数として符号化パラメータICCの値を決定する。一つの実装形態においては、パラメータ生成器105は、第1のパラメータ値dと上記のとおりに決定された絶対値IPDdistに第2のパラメータ値eを乗算した値との間における差分から、符号化パラメータICCの値を決定する。一つの実装形態においては、パラメータ生成器105は、第1のパラメータ値dを1に設定し、第2のパラメータ値eを1に設定する。
チャネル間のコヒーレンス、すなわちICCパラメータは、以下の式
Figure 2014529101
に従って算出することも可能である。何故ならば、ICCの値とIPDdistの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ICCの値は1に近くなり、同時にこの時、IPDdistの値は0に近くなる。
代替的に、ICCの値とIPDdistの値との間の関係を定義する関係式は、以下の式
Figure 2014529101
と定義することも可能であり、この場合、上述した2つのパラメータICCとIPDdistとの間の補数関係をより良好に表現することが出来るように係数dとeの値が選ばれる。さらなる実施例においては、ICCの値とIPDdistの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、
Figure 2014529101
と一般化することが可能である。
オーディオ信号において相関が強いセグメントの持続期間中は、IPDdistの値は小さく、オーディオ入力の拡散部分の持続期間中(例えば、音楽に関するオーディオ入力期間)においては、このIPDdistの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、IPDdistの値は1に近くなる。その結果、ICCの値とIPDdistの値との間の関係は、間接的な補数の関係となる。
図2は、本発明に係る一実装形態に従うパラメトリック型オーディオ復号化器200のブロック図を示している。パラメトリック型オーディオ復号化器200は、通信チャネル上でビット・ストリーム203を入力信号として受信し、復号化された多重チャネル・オーディオ信号201を出力信号として出力する。パラメトリック型オーディオ復号化器200は、ビット・ストリーム203と結合したビット・ストリーム復号化器217であって、ビット・ストリーム203を復号化することによって符号化パラメータ215と符号化された信号213とを生成するビット・ストリーム復号化器217と、ビット・ストリーム復号化器217と結合した復号化器209であって、当該符号化された信号213から合計の信号211を生成するための復号化器209と、ビット・ストリーム復号化器217と結合したパラメータ復号化器205であって、符号化パラメータ215からパラメータ値221を復号化するパラメータ復号化器205と、復号化器209およびパラメータ復号化器205に結合した合成器207であって、パラメータ値221および合計の信号211から復号化された多重チャネル・オーディオ信号を合成するための合成器207を具備している。
パラメトリック型オーディオ復号化器200は、チャネル間におけるICTD、ICLDおよび/またはICCの値が元々の多重チャネル・オーディオ信号におけるICTD、ICLDおよび/またはICCの値を近似するような方法で、自身に入力された多重チャネル・オーディオ信号201を構成する複数の出力チャネルを生成する。上述した方式によって、モノラルのオーディオ信号を表現するのに必要とされるビット・レートよりも僅かに高いだけのビット・レートで多重チャネルのオーディオ信号を表現することが可能となる。その理由は、上述した方式に従ってチャネル対の間で推定されたICTD、ICLDおよび/またはICCの値が、オーディオ波形を表す情報と比べておよそ2のべき乗のオーダーだけ少ない情報量を含んでいるからである。ビット・レートを低く抑えることだけでなく、後方互換性の側面も重要である。送信された合計の信号は、ステレオ又は多重チャネルのオーディオ信号をダウンミキシング処理することにより得られるモノラル信号に対応している。
図3は、本発明に係る一実装形態に従うパラメトリック型のステレオ・オーディオ符号化器301およびステレオ・オーディオ復号化器303のブロック図を示している。パラメトリック型のステレオ・オーディオ符号化器301は、図1に関して上述したパラメトリック型オーディオ符号化器100に対応するが、多重チャネルのオーディオ信号101は、左側のオーディオ・チャネル305と右側のオーディオ・チャネル307を有するステレオ・オーディオ信号とされている。
パラメトリック型のステレオ・オーディオ符号化器301は、左側チャネルのオーディオ信号305と右側チャネルのオーディオ信号307を有するステレオ・オーディオ信号305、307を入力信号として受信し、一本のビット・ストリームを出力信号309として出力する。パラメトリック型のステレオ・オーディオ符号化器301は、ステレオ・オーディオ信号305、307と結合したパラメータ生成器311であって、空間パラメータ313を生成するためのパラメータ生成器311と、ステレオ・オーディオ信号305、307と結合したダウンミキシング済み信号の生成器315であって、ダウンミキシング済み信号317、すなわち合計の信号317を生成するためのダウンミキシング済み信号の生成器315と、ダウンミキシング済み信号の生成器315と結合したモノラル符号化器319であって、ダウンミキシング済み信号317を符号化することによって符号化されたオーディオ信号321を出力するためのモノラル符号化器319と、パラメータ生成器311およびモノラル符号化器319に結合したビット・ストリーム合成器323であって、符号化パラメータ313および符号化されたオーディオ信号321を一本のビット・ストリームに合成することによって出力信号309を出力するためのビット・ストリーム合成器323を具備している。パラメータ生成器311内において、空間パラメータ313は、ビット・ストリーム内に多重化されるのに先立って、まず抽出され、続いて量子化される。
パラメトリック型のステレオ・オーディオ復号化器303は、パラメトリック型ステレオ・オーディオ符号化器301から通信チャネルを介して伝送されて来た出力信号309であるビット・ストリームを入力信号として受信し、左側チャネルのオーディオ信号325と右側チャネルのオーディオ信号327を有するステレオ・オーディオ信号を出力する。パラメトリック型のステレオ・オーディオ復号化器303は、受信されたビット・ストリーム309と結合したビット・ストリーム復号化器329であって、ビット・ストリーム309を復号化することによって符号化パラメータ331と符号化された信号333とを生成するビット・ストリーム復号化器329と、ビット・ストリーム復号化器329と結合したモノラル復号化器335であって、当該符号化された信号333から合計の信号337を生成するためのモノラル復号化器335と、ビット・ストリーム復号化器329と結合した空間パラメータ復号化器339であって、符号化パラメータ331から空間パラメータ値341を復号化する空間パラメータ復号化器339と、モノラル復号化器335および空間パラメータ復号化器339(すなわちリゾルバ339)に結合した合成器343であって、空間パラメータ値341および合計の信号337から復号化されたステレオ・オーディオ信号325、327を合成するための合成器343を具備している。
パラメトリック型のステレオ・オーディオ符号化器301内における信号処理は、遅延を抽出し、時間/周波数領域内におけるオーディオ信号のレベルを適応的に計算することにより、空間パラメータ313(例えば、チャネル間の時間差分ICTDやチャネル間のレベル差分ICLDなど)を生成することが可能である。パラメトリック型のステレオ・オーディオ符号化器301は、ICC(チャネル間のコヒーレンス)に関して時間適応的なフィルタリング処理動作を実行する。一つの実装形態においては、パラメトリック型のステレオ・オーディオ符号化器301は、計算の複雑性を低く抑えながらBCC(Binaural Cue Coding)符号化方式を効率的に実装するために、STFT(短期間フーリエ変換)に基づくフィルター・バンクを使用する。パラメトリック型のステレオ・オーディオ符号化器301内における信号処理は、計算の複雑性を低く抑えながら時間遅延量を少なくすることを可能にしているので、パラメトリック型のステレオ・オーディオ信号の符号化処理動作をリアルタイム・アプリケーションのためのマイクロ・プロセッサやディジタル信号処理プロセッサの上において現状の実装技術で実現可能な形で実装するのに適している。
図3に示されるパラメータ生成器311は、空間的なキューの量子化処理と符号化処理が追加されている点を除いて、図1に関連して上述された対応するパラメータ生成器105と機能的に同一である。合計の信号317は、従来式のモノラル・オーディオ符号化器319を使用して符号化される。一つの実装形態においては、パラメトリック型のステレオ・オーディオ符号化器301は、STFTに基づく時間/周波数変換処理を使用して、ステレオのオーディオ・チャネル信号305、307を周波数ドメインへと変換する。上述したSTFTは、入力信号x(n)内におけるウィンドウ制御された部分区間内に対して離散フーリエ変換処理を適用する。N点DFT変換処理が適用されるのに先立って、N個の信号サンプルから構成される一つの信号フレームは、長さWを有するウィンドウ関数と乗算される。隣接するウィンドウ同士は互いに重複する関係にあり、隣接するウィンドウ同士は、W/2個分の信号サンプルに等しい幅だけ互いにシフトされている。上述したウィンドウは、互いに重複するウィンドウ関数同士の合計が1に等しい定数値となるように選択される。
従って、逆変換処理に関しては、追加のウィンドウ適用操作は全く必要ない。復号化器303内においては、W/2個分の信号サンプルに等しい幅だけ時間的に前方向にずれた複数の連続フレームに対してサイズがN点である通常の逆DFT変換処理が使用される。スペクトルが修正されていなければ、フレーム同士の間の重複/加算によりフレームの完璧な再構成結果が得られる。
STFTにおいて見られる均一なスペクトル分解能は、人間の知覚に対して良好に適合していないので、STFTが出力する均一に離間配置されたスペクトル係数は、人間の知覚に対してより良好に適合した帯域幅を有する互いに重複しないB個の区間にグループ化される。図1に関連した上記説明に従うならば、上述した区間の各々は、概念的には一つのサブバンドに対応している。代替的な実装形態においては、パラメトリック型のステレオ・オーディオ符号化器301は、非均一なフィルター・バンクを使用することによって、ステレオのオーディオ・チャネル信号305、307を周波数ドメインへと変換する。
一つの実装形態においては、ダウンミキシング処理回路315は、等化処理された合計の信号317を表すS(k)について、一つの区間b内に含まれる(すなわち、一つのサブバンドb内に含まれる)複数のスペクトル係数を以下の式に従って決定する。
Figure 2014529101
上記式において、
Figure 2014529101
は、入力されたオーディオ・チャネル305、307のスペクトル成分であり、
Figure 2014529101
は、以下の式に従って算出される利得係数である。
Figure 2014529101
また、その際、区間内に電力は、以下の式に従って推定される。
Figure 2014529101
サブバンド信号の合計に対する減衰効果が著しい場合において利得係数の値を大きくした結果として生じるアーチファクトを防止するために、利得係数
Figure 2014529101
の上限を6dBに制限することが可能である。これを式で表すと、
Figure 2014529101
となる。
一つの実装形態においては、パラメータ生成器311は、左側チャネル305と右側チャネル307から構成される複数の入力チャネルに対して、例えば、上述したSTFTやFFTなどの時間/周波数変換処理を適用する。一つの実装形態においては、当該時間/周波数変換処理はFFT(高速フーリエ変換)であり、代替的な実装形態においては、当該時間/周波数変換処理はコサイン変調されたフィルター・バンクや複素数型フィルター・バンクなどである。
パラメータ生成器311は、FFT処理またはSTFT処理における周波数ビン[b]の各々について、以下の式に従って交差スペクトルを計算する。
Figure 2014529101
上記の式において、サブバンド[b]は、一つの周波数ビン[k]と直接的に対応しており、周波数ビン[b]と[k]とは全く同一の周波数ビンを表現している。
代替的に、パラメータ生成器311は、サブバンド[k]の各々について、以下の式に従って交差スペクトルを計算する。
Figure 2014529101
上記の式において、c[b]は、周波数ビン「b」すなわちサブバンド「k」の交差スペクトルであり、
Figure 2014529101
は左側チャネル305と右側チャネル307に対応するFFT係数である。「*」は複素共役を表す。kは、サブバンドbにおける開始ビンであり、kb+1は、隣接するサブバンドb+1における開始ビンである。従って、FFT処理またはSTFT処理においてkとkb+1−1との間に位置する複数の周波数ビン[k]は、サブバンド[b]を表現している。
「チャネル間の位相差分(ICPD)」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。
Figure 2014529101
上記式において、∠は、c[b]の偏角を計算するための偏角演算子である。
一つの実装形態においては、パラメータ生成器311は、複数の周波数ビンに跨って、すなわち複数のサブバンドに跨って平均化されたIPD(IPDmean)を算出する
Figure 2014529101
上記の式において、Kは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。
続いて、以前に算出されたIPDmeanの値に基づいて、パラメータ生成器311は、IPDの長期間平均値を算出する。IPDmean_long_termは、最新のN個のフレーム(例えば、N=10と設定することが可能である)に跨ってIPDを平均化した値として以下の式に従って算出される。
Figure 2014529101
IPDパラメータの安定性を評価するために、IPDmean_long_termと符号化パラメータの第1の平均値IPDmean[i]との間の距離(すなわち、IPDdist)がパラメータ生成器311によって計算され、これは、最新のN個のフレーム期間にわたるIPDの漸進的変化を示している。好適な実施例においては、局所的なIPDと長期間平均のIPDとの間の距離は、IPDの局所平均とIPDの長期間平均との間の差分の絶対値として、以下の式に従って計算される。
Figure 2014529101
先行する複数のフレームに跨ってIPDmeanパラメータが安定であるならば、距離パラメータIPDdistの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。
一つの実装形態においては、パラメータ生成器311は、チャネル間のコヒーレンス、すなわちICCパラメータを以下の式に従って算出することも可能である。
Figure 2014529101
何故ならば、ICCの値とIPDdistの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ICCの値は1に近くなり、同時にこの時、IPDdistの値は0に近くなる。
代替的に、パラメータ生成器311は、ICCの値とIPDdistの値との間の関係を定義する関係式として以下の式
Figure 2014529101
を使用することも可能であり、この場合、上述した2つのパラメータICCとIPDdistとの間の補数関係をより良好に表現することが出来るように係数dとeの値が選ばれる。さらなる実施例においては、ICCの値とIPDdistの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、
Figure 2014529101
と一般化することが可能である。
オーディオ信号において相関が強いセグメントの持続期間中は、IPDdistの値は小さく、オーディオ入力の拡散部分の持続期間中(例えば、音楽に関するオーディオ入力期間)においては、このIPDdistの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、IPDdistの値は1に近くなる。その結果、ICCの値とIPDdistの値との間の関係は、間接的な補数の関係となる。
パラメータ生成器311は、ICCの概算値を推定するために、IPDdistを使用する。交差スペクトルの算出は、相関の計算よりも必要とされる計算の複雑性が低い。さらに、パラメトリック型の空間オーディオ符号化器においてIPDパラメータを算出する場合、この交差スペクトルは既に算出済みであり、その結果、全体の計算複雑性は低減される。
図4は、本発明に係る一実装形態に従って、オーディオ・チャネル信号に関する符号化パラメータを生成するための方法400を説明する動作ブロック図を示している。方法400は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号x[n],x[n]の中のオーディオ・チャネル信号x[n]に関して符号化パラメータICCを生成するための方法である。複数のオーディオ・チャネル信号x[n],x[n]の各々は、オーディオ・チャネル信号値を有している。図4は、当該複数のオーディオ・チャネル信号が、左側のオーディオ・チャネルx[n]と右側のオーディオ・チャネルx[n]を具備しているステレオ信号の場合を図示している。方法400は以下の処理ステップを順に実行する。
左側のオーディオ・チャネル信号x[n]に対してFFT変換処理(処理ステップ401)を適用し、右側のオーディオ・チャネル信号x[n]に対してFFT変換処理(処理ステップ403)を適用することによって、周波数ドメイン表現のオーディオ・チャネル信号X[b],X[b]を取得するステップであって、周波数ドメイン内における周波数ビン[b]に関して、X[b]は、左側のオーディオ・チャネル信号であり、X[b]は、右側のオーディオ・チャネル信号である。代替的に、左側のオーディオ・チャネル信号x[n]と右側のオーディオ・チャネル信号x[n]に対してフィルター・バンクによる変換処理を適用することによって、周波数ドメイン表現のオーディオ・チャネル信号X[b],X[b]を取得することも可能であり、その場合、[b]は周波数サブバンドを表している。
左側のオーディオ・チャネル信号X[b]と右側のオーディオ・チャネル信号X[b]に関する周波数ビン[b]の各々について、相互相関c[b]を決定するステップ405、または代替的に、左側のオーディオ・チャネル信号X[b]と右側のオーディオ・チャネル信号X[b]に関する周波数サブバンド[b]の各々について、相互相関c[b]を決定するステップ405。
複数のオーディオ・チャネル信号の中のオーディオ・チャネル信号X[b]に関して、オーディオ・チャネル信号X[b]のオーディオ・チャネル信号値と基準オーディオ信号X[b]の基準オーディオ信号値から、複数の符号化パラメータを含む第1パラメータ群IPD[b]を決定するステップ407であって、基準オーディオ信号は、複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号X[b]とすることが可能であり、あるいは多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出されたダウンミキシング済みのオーディオ信号とすることが可能である、ステップ407。ここで、図4の動作ブロック図は、ステレオ信号の場合を図示しており、この場合、上述した決定するステップ407における決定動作は、左側のオーディオ・チャネル信号X[b]に関して複数の符号化パラメータを含む第1パラメータ群IPD[b]を決定する動作であり、同時に、基準オーディオ信号は、右側のオーディオ・チャネル信号X[b]に相当する。
オーディオ・チャネル信号X[b]に関する複数の符号化パラメータを含む第1パラメータ群IPD[b]に基づいて、オーディオ・チャネル信号X[b]に関する符号化パラメータの第1の平均値IPDmean[i]を決定するステップ409。
オーディオ・チャネル信号X1[b]に関する符号化パラメータの第1の平均値IPDmean[i]とオーディオ・チャネル信号X1[b]に関する符号化パラメータのさらに別の第1の平均値の少なくとも一つであって、IPDmean[i−1]と表記される平均値に基づいて、オーディオ・チャネル信号X1[b]に関する符号化パラメータの第2の平均値IPDmean_long_termを決定するステップ411であって、符号化パラメータのさらに別の第1の平均値IPDmean[i−1]は、オーディオ・チャネル信号X1[b]に関するN個の先行するフレームから算出される、ステップ411。
オーディオ・チャネル信号X1[b]に関する符号化パラメータの第1の平均値IPDmean[i]に基づき、かつ、オーディオ・チャネル信号X1[b]に関する符号化パラメータの第2の平均値IPDmean_long_termに基づいて、符号化パラメータICCを決定するステップ413。
一つの実装形態においては、オーディオ・チャネル信号X1[b]に関する複数の符号化パラメータを含む第1パラメータ群IPD[b]は既に利用可能な状態であり、方法400は、上述したように、ステップ409から実行開始して、ステップ411および413と実行して行くことが可能である。
図4には示されていないが、方法400は、多重チャネルのオーディオ信号を扱う一般化された場合にも適用することが可能であり、その場合、基準オーディオ信号は、図1に関して上述したとおり、別のオーディオ・チャネル信号またはダウンミキシング済み信号とすることが可能である。
一つの実装形態においては、方法400に従った信号処理は以下のように実行することが可能である。
第1の処理ステップ401および403においては、入力チャネル(例えば、ステレオ信号の場合なら、左側と右側のオーディオ・チャネル)に対して時間/周波数変換処理が適用される。好適な実施例においては、時間/周波数変換処理は、FFT(高速フーリエ変換)処理である。代替的な実施例においては、時間/周波数変換処理は、コサイン変調されたフィルター・バンクまたは複素数型フィルター・バンクである。
第2の処理ステップ405においては、FFT処理における周波数ビン[b]の各々について、以下の式に従って交差スペクトルが計算される。
Figure 2014529101
上記の式において、サブバンド[b]は、一つの周波数ビン[k]と直接的に対応しており、周波数ビン[b]と[k]とは全く同一の周波数ビンを表現している。
代替的に、サブバンド[k]の各々について、以下の式に従って交差スペクトルを計算することも可能である。
Figure 2014529101
上記の式において、c[b]は、周波数ビン「b」すなわちサブバンド「k」の交差スペクトルであり、
Figure 2014529101
は2つのチャネル(例えば、ステレオ信号の場合なら、左側チャネルと右側チャネル)に対応するFFT係数である。「*」は複素共役を表す。kは、サブバンドbにおける開始ビンであり、kb+1は、隣接するサブバンドb+1における開始ビンである。従って、FFT処理またはSTFT処理においてkとkb+1−1との間に位置する複数の周波数ビン[k]は、サブバンド[b]を表現している。
第3の処理ステップ407においては、「チャネル間の位相差分(ICPD)」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。
Figure 2014529101
上記式において、∠は、c[b]の偏角を計算するための偏角演算子である。
第4の処理ステップ409においては、複数の周波数ビンに跨って、すなわち複数のサブバンドに跨って平均化されたIPD(IPDmean)が以下の式に従って算出される。
Figure 2014529101
上記の式において、Kは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。
処理ステップ411においては、以前に算出されたIPDmeanの値に基づいて、パラメータ生成器311は、IPDの長期間平均値を算出する。IPDmean_long_termは、最新のN個のフレーム(例えば、N=10と設定することが可能である)に跨ってIPDを平均化した値として以下の式に従って算出される。
Figure 2014529101
IPDパラメータの安定性を評価するために、IPDmean_long_termと符号化パラメータの第1の平均値IPDmean[i]との間の距離(すなわち、IPDdist)がパラメータ生成器311によって計算され、これは、最新のN個のフレーム期間にわたるIPDの漸進的変化を示している。好適な実施例においては、局所的なIPDと長期間平均のIPDとの間の距離は、IPDの局所平均とIPDの長期間平均との間の差分の絶対値として、以下の式に従って計算される。
Figure 2014529101
先行する複数のフレームに跨ってIPDmeanパラメータが安定であるならば、距離パラメータIPDdistの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。
処理ステップ413においては、チャネル間のコヒーレンス、すなわちICCパラメータを以下の式に従って算出することが可能である。
Figure 2014529101
何故ならば、ICCの値とIPDdistの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ICCの値は1に近くなり、同時にこの時、IPDdistの値は0に近くなる。
代替的に、処理ステップ413においては、ICCの値とIPDdistの値との間の関係を定義する関係式として以下の式
Figure 2014529101
を使用することも可能であり、この場合、上述した2つのパラメータICCとIPDdistとの間の補数関係をより良好に表現することが出来るように係数dとeの値が選ばれる。さらなる実施例においては、ICCの値とIPDdistの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、
Figure 2014529101
と一般化することが可能である。
オーディオ信号において相関が強いセグメントの持続期間中は、IPDdistの値は小さく、オーディオ入力の拡散部分の持続期間中(例えば、音楽に関するオーディオ入力期間)においては、このIPDdistの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、IPDdistの値は1に近くなる。その結果、ICCの値とIPDdistの値との間の関係は、間接的な補数の関係となる。
本明細書中において上述した実施例の説明より、当該技術分野における当業者であれば、本発明に係る実施例を多種多様な方法、システム、記録媒体上に記録されたコンピュータ・プログラムなどとして実現することが可能である。
本明細書中の開示内容は、実行された際に、本明細書中において上述した処理ステップを少なくとも一つのコンピュータ装置に実行させ、計算させるコンピュータ実行可能なプログラム・コードやコンピュータ実行可能な命令を含んでいるコンピュータ・プログラム製品をさらにサポートしている。
本明細書中の開示内容は、本明細書中において上述した処理ステップを実行し、計算することができるように構成されたシステムをさらにサポートする。
本明細書中において上述した実施例の説明より、当該技術分野における当業者であれば、本発明に係る数多くの代替実施例や変形実施例を直ちに自明なものとして考え付くことが出来るだろう。当然のことであるが、当該技術分野における当業者であれば、本発明を応用すべき特定用途やアプリケーションは、本明細書に開示されたもの以外にも数多く存在し得ることを直ちに理解するだろう。本発明は、一つ以上の特定の実施例を参照しながら説明されて来たけれども、当該技術分野における当業者であれば、本発明の技術思想と技術的範囲を逸脱すること無しに、本発明の実施に際して、本明細書記載の実施例に対して数多くの変更や修正を加えることが可能である。従って、本明細書に添付した特許請求の範囲記載の発明とその均等物を含む範囲内において、本発明を実施することが可能であり、さもなければ、本明細書中において当業者が実施可能な程度に具体的に説明されていることが理解できる。
本発明に係る対応する実施例は、ITU−T G.722, G.722のAnnexB G.711.1および/またはG711.1のAnnex Dで仕様が規定されているステレオ拡張に関する符号化器において適用することが可能である。さらに、上述した方法は、3GPP EVS(Enhanced Voice Service)コーデックにおいて規定されているモバイル・アプリケーション用の会話とオーディオの符号化器のために応用することが可能である。

Claims (15)

  1. 多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置であって、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は:
    前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;
    前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
    前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
    前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
    を実行するように構成されることを特徴とする、パラメトリック型オーディオ符号化装置。
  2. 請求項1記載のパラメトリック型オーディオ符号化装置であって、
    複数の符号化パラメータから成る前記第1パラメータ群に含まれるパラメータは:
    チャネル間のレベル差分;
    チャネル間の位相差分;
    チャネル間のコヒーレンス;
    チャネル間の強度差分;
    サブバンドに関するチャネル間のレベル差分;
    サブバンドに関するチャネル間の位相差分;
    サブバンドに関するチャネル間のコヒーレンス;および、
    サブバンドに関するチャネル間の強度差分、
    の何れか一つ以であることを特徴とするパラメトリック型オーディオ符号化装置。
  3. 請求項1または請求項2記載のパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、複数の符号化パラメータから成る第1パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  4. 請求項1乃至請求項3の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    前記オーディオ・チャネル信号と前記基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  5. 請求項1乃至請求項4の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    前記パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  6. 請求項1乃至請求項5の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第1パラメータ群を決定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  7. 請求項1乃至請求項6の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る前記第1パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値を決定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  8. 請求項1乃至請求項7の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの前記第1の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの前記第1の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  9. 請求項1乃至請求項8の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの前記第2の平均値とオーディオ・チャネル信号に関する符号化パラメータの前記第1の平均値との間の差分の絶対値を決定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  10. 請求項9記載のパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、前記決定された絶対値の関数として符号化パラメータを決定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  11. 請求項9または請求項10に記載されたパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、第1のパラメータ値と、前記決定された絶対値に第2のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  12. 請求項11記載のパラメトリック型オーディオ符号化装置であって、
    前記パラメータ生成器は、第1のパラメータ値を1に設定し、第2のパラメータ値を1に設定するように構成される、
    ことを特徴とするパラメトリック型オーディオ符号化装置。
  13. 請求項1乃至請求項12の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
    パラメトリック型オーディオ符号化器は:
    多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器;
    前記ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器;
    をさらに具備していることを特徴とするパラメトリック型オーディオ符号化装置。
  14. 多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法であって、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は:
    前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;
    前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
    前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
    前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
    を具備することを特徴とする。
  15. コンピュータ装置上で実行された際に、請求項14記載の方法を実行するように構成されたコンピュータ・プログラム。
JP2014528904A 2012-02-17 2012-02-17 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置 Active JP5724044B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/052734 WO2013120531A1 (en) 2012-02-17 2012-02-17 Parametric encoder for encoding a multi-channel audio signal

Publications (2)

Publication Number Publication Date
JP2014529101A true JP2014529101A (ja) 2014-10-30
JP5724044B2 JP5724044B2 (ja) 2015-05-27

Family

ID=45808779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014528904A Active JP5724044B2 (ja) 2012-02-17 2012-02-17 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置

Country Status (7)

Country Link
US (1) US9401151B2 (ja)
EP (1) EP2702776B1 (ja)
JP (1) JP5724044B2 (ja)
KR (1) KR101580240B1 (ja)
CN (1) CN104246873B (ja)
ES (1) ES2555136T3 (ja)
WO (1) WO2013120531A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019527856A (ja) * 2016-08-10 2019-10-03 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号の符号化方法およびエンコーダ
CN113395633A (zh) * 2020-03-13 2021-09-14 雅马哈株式会社 音频处理装置和音频处理方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101580240B1 (ko) * 2012-02-17 2016-01-04 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
CN107358960B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
CN107358961B (zh) * 2016-05-10 2021-09-17 华为技术有限公司 多声道信号的编码方法和编码器
CN107742521B (zh) 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
US11145316B2 (en) * 2017-06-01 2021-10-12 Panasonic Intellectual Property Corporation Of America Encoder and encoding method for selecting coding mode for audio channels based on interchannel correlation
CN109215668B (zh) 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN109859766B (zh) 2017-11-30 2021-08-20 华为技术有限公司 音频编解码方法和相关产品
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
EP4383254A1 (en) * 2022-12-07 2024-06-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder comprising an inter-channel phase difference calculator device and method for operating such encoder

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
WO2007010785A1 (ja) * 2005-07-15 2007-01-25 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ
JP2007529031A (ja) * 2004-03-12 2007-10-18 ノキア コーポレイション 符号化済みマルチチャンネルオーディオ信号に基づくモノオーディオ信号の合成
JP2009512271A (ja) * 2005-10-05 2009-03-19 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置、エンコーディング及びデコーディング方法並びにそのための装置
JP2009526264A (ja) * 2006-02-07 2009-07-16 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
WO2011045409A1 (en) * 2009-10-16 2011-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
WO2006000952A1 (en) * 2004-06-21 2006-01-05 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
JP5455647B2 (ja) * 2007-01-10 2014-03-26 コーニンクレッカ フィリップス エヌ ヴェ オーディオデコーダ
MX2011000364A (es) * 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Metodo y discriminador para clasificar distintos segmentos de una señal.
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2609589B1 (en) * 2010-09-28 2016-05-04 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
KR101580240B1 (ko) * 2012-02-17 2016-01-04 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
JP2005229612A (ja) * 2004-02-12 2005-08-25 Agere Systems Inc 聴覚情景の後部残響音ベースの合成
JP2007529031A (ja) * 2004-03-12 2007-10-18 ノキア コーポレイション 符号化済みマルチチャンネルオーディオ信号に基づくモノオーディオ信号の合成
WO2007010785A1 (ja) * 2005-07-15 2007-01-25 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ
JP2009512271A (ja) * 2005-10-05 2009-03-19 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置、エンコーディング及びデコーディング方法並びにそのための装置
JP2009526264A (ja) * 2006-02-07 2009-07-16 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
WO2011045409A1 (en) * 2009-10-16 2011-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
JP2013507664A (ja) * 2009-10-16 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN5013000663; Jeroen BREEBAART, et al.: '"Parametric Coding of Stereo Audio"' EURASIP Journal on Applied Signal Processing , 200506, pp.1305-1322 *
JPN6009042459; Christof FALLER, et al.: '"Efficient Representation of Spatial Audio Using Perceptual Parametrization"' Applications of Signal Processing to Audio and Acoustics 2001 , 200110, pp.199-202, IEEE Workshop *
JPN6011025659; Christof FALLER, et al.: '"Binaural Cue Coding - Part II: Schemes and Applications"' IEEE Transactions on Speech and Audio Processing Vol.11, No.6, 200311, pp.520-531 *
JPN6013023138; J. Herre, et al.: '"Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio"' Convention Paper of the 117th Convention No.6186, 200410, pp.1-13, Audio Engineering Society *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019527856A (ja) * 2016-08-10 2019-10-03 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号の符号化方法およびエンコーダ
JP2021009399A (ja) * 2016-08-10 2021-01-28 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号の符号化方法およびエンコーダ
US11133014B2 (en) 2016-08-10 2021-09-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder
JP7091411B2 (ja) 2016-08-10 2022-06-27 華為技術有限公司 マルチチャネル信号の符号化方法およびエンコーダ
JP2022137052A (ja) * 2016-08-10 2022-09-21 華為技術有限公司 マルチチャネル信号の符号化方法およびエンコーダ
JP7443423B2 (ja) 2016-08-10 2024-03-05 華為技術有限公司 マルチチャネル信号の符号化方法およびエンコーダ
US11935548B2 (en) 2016-08-10 2024-03-19 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder
CN113395633A (zh) * 2020-03-13 2021-09-14 雅马哈株式会社 音频处理装置和音频处理方法
CN113395633B (zh) * 2020-03-13 2023-02-17 雅马哈株式会社 音频处理装置和音频处理方法

Also Published As

Publication number Publication date
US20140098963A1 (en) 2014-04-10
CN104246873B (zh) 2017-02-01
KR101580240B1 (ko) 2016-01-04
JP5724044B2 (ja) 2015-05-27
EP2702776A1 (en) 2014-03-05
ES2555136T3 (es) 2015-12-29
US9401151B2 (en) 2016-07-26
KR20140128423A (ko) 2014-11-05
CN104246873A (zh) 2014-12-24
WO2013120531A1 (en) 2013-08-22
EP2702776B1 (en) 2015-09-23

Similar Documents

Publication Publication Date Title
JP5724044B2 (ja) 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置
KR101662681B1 (ko) 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
US9865270B2 (en) Audio encoding and decoding
KR101621287B1 (ko) 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
JP2021114799A (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
EP1565036B1 (en) Late reverberation-based synthesis of auditory scenes
US8265284B2 (en) Method and apparatus for generating a binaural audio signal
TWI314024B (en) Enhanced method for signal shaping in multi-channel audio reconstruction
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
JP2009539283A (ja) 非エネルギー節約型アップミックス・ルールのコンテクストにおけるバイノーラル・マルチチャンネル・デコーダ
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
RU2427978C2 (ru) Кодирование и декодирование аудио
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
KR102195976B1 (ko) 오디오 신호 처리 방법 및 장치
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150330

R150 Certificate of patent or registration of utility model

Ref document number: 5724044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250