JP5643834B2 - パラメトリックエンコード及びデコード - Google Patents

パラメトリックエンコード及びデコード Download PDF

Info

Publication number
JP5643834B2
JP5643834B2 JP2012538447A JP2012538447A JP5643834B2 JP 5643834 B2 JP5643834 B2 JP 5643834B2 JP 2012538447 A JP2012538447 A JP 2012538447A JP 2012538447 A JP2012538447 A JP 2012538447A JP 5643834 B2 JP5643834 B2 JP 5643834B2
Authority
JP
Japan
Prior art keywords
weighting
signal
downmix
channel
weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012538447A
Other languages
English (en)
Other versions
JP2013511062A (ja
Inventor
ブリンカー アルバーツス コーネリス デン
ブリンカー アルバーツス コーネリス デン
エリク ゴスイヌス ペトルス シュイジャース
エリク ゴスイヌス ペトルス シュイジャース
アルノルデュス ウェーナー ジョハネス オオメン
アルノルデュス ウェーナー ジョハネス オオメン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2013511062A publication Critical patent/JP2013511062A/ja
Application granted granted Critical
Publication of JP5643834B2 publication Critical patent/JP5643834B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、パラメトリックエンコード及びデコードに関係し、特にダウンミックス及びパラメトリックアップミックスデータを使用したマルチチャネル信号のパラメトリックエンコード及びデコードに関係する。
アナログ表現及び通信からデジタル信号表現及び通信への置き換えが増加してきているので、様々なソース信号のデジタルエンコードは、最近益々重要になってきている。例えば、ビデオ及び音楽のようなメディアコンテンツの配信は、デジタルコンテンツエンコードに益々基づいている。
マルチチャネル信号のエンコードは、より少ないチャネルへのマルチチャネル信号のダウンミキシングと、これらのエンコード及び送信により実施される。例えば、ステレオ信号は、モノ信号へダウンミキシングされ、その後エンコードされる。パラメトリックマルチチャネルエンコードにおいて、元のマルチチャネル信号(近似値)を再形成するためダウンミックスをアップミキシングすることをサポートするパラメトリックデータが、更に生成される。ダウンミキシング/アップミキシング及び関連するパラメトリックデータを使用するマルチチャネルシステムの例は、ParametricStereo(パラメトリックステレオ、PS)標準やその拡張版のマルチチャネルパラメトリックエンコード(例えば、MPEGSurround:MPS)のような既知の技術を含む。
最も簡単な形態では、モノ信号へのステレオ信号のダウンミキシングは、2つのステレオチャネルの平均を生成することにより、すなわち中央又は和信号を単に生成することにより簡単に実施される。このモノ信号は、その後配信され、モノ信号として直接更に使用される。パラメトリックステレオにより用いられるようなエンコードアプローチでは、ダウンミックス信号に加えて、ステレオキューが供給される。特に、チャンネル間レベル差、時間差又は位相差、及びコヒーレンス又は相関パラメータが、(通常は周波数軸のBark又はERBバンド分割及び時間軸の一定均一なセグメント化に対応する)時間―周波数タイル当たり決定される。このデータは、通常はダウンミックス信号と共に配信され、パラメータに依存しているアップミキシングにより元のステレオ信号の正確な再現を可能にする。
しかしながら、中央の信号を作ることは、通常、結果的にいくらか鈍い信号となる、すなわち、低減された輝度/高周波コンテンツとなることは、よく知られている。この理由は、典型的音声信号のために、異なるチャネルは、より低い周波数に対してはかなり相関しているが、より高い周波数に対してはあまり相関していない傾向があるからである。2つのステレオチャネルの直接的な和は、揃っていない信号成分を効果的に抑制する。実際、レフト及びライト信号が完全に位相が揃っていない周波数サブバンドに対して、結果として生じる中央の信号はゼロである。
提案された解決策は、和をとることが実施される前に、チャネルの位相揃えを使用することである。よって、理想的には、レフト及びライト信号は、加算される前に、(時間領域の時間差に対応する)周波数領域の任意の位相差に対して補償される。しかしながら、斯様なアプローチは、複雑な傾向があって、アルゴリズムの遅延を招いてしまう。また、実際には、当該アプローチは、最適な品質を提供しない傾向がある。例えば、チャンネル間位相差が決定される場合、左チャネルの位相を右チャネルに位置合わせするべきか又はその逆かの曖昧性がある。また、両方のチャネルの位相を等しくシフトさせようとすることは、曖昧さを導く。更に、相関が低く、これにより結果的に正確さ及び頑健さが低いシステムとなるとき、位相差は数値的に悪い状況になる。全体として、これらの問題は、位相を揃えることによりダウンミックスを作るとき、認知可能な偽信号を導く傾向がある。通常、音の成分上の変調は、当該アプローチから生じる。
結果として、ほとんどの実用的なシステムは、レフト及びライト信号の平均として単に生成されるいわゆる受動的なダウンミックスを使用する傾向がある。残念なことに、受動的なダウンミックスは、また、幾つかの関連する不利な点を持つ。これら不利な点の1つは、音響エネルギーが、大幅に低減され位相が外れた信号に対して完全に失われさえすることである。これに対処するための提案された方法は、ダウンミックスがオリジナル信号と同じエネルギーを持つように再スケールされるいわゆる能動的ダウンミックスを使用することである。他の提案された解決策は、デコーダサイドのエネルギー補償を提供することである。しかしながら、斯様な補償は、むしろグローバルなレベルである傾向があって、(補償が必要な所の)音の成分と(そうではない所の)ノイズとを区別しない。更にまた、受動的及び能動的ダウンミックスアプローチ両方において、位相が揃っていないアプローチをする信号に対して問題が発生する。実際、位相が揃っていない成分は、ダウンミックス信号において全くない。
よって、マルチチャネルパラメトリックエンコード/デコードのための改善されたシステムは有利であり、特に、増大された柔軟性、容易にされたオペレーション、容易にされた実行、低減された複雑さ、改善された頑健さ、位相が揃っていない信号成分の改善されたエンコード、低減されたデータレート対品質の比率、及び/又は改善されたパフォーマンスを可能にするシステムは有利であろう。
従って、本発明は、上述の不利な点の一つ以上を、単独で又は組合せて、好ましくは緩和し軽減し又は除去しようとする。
本発明の一態様によると、第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けられた第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネル信号との結合であるダウンミックスを受信するための第1の受信器と、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを受信するための第2の受信器と、前記アップミックスパラメトリックデータから第2の重み付けに対する第2の重み付け推定値及び第1の重み付けに対する第1の重み付け推定値を生成する回路と、前記アップミックスパラメトリックデータ、第1の重み付け推定値及び第2の重み付け推定値に応じて、前記ダウンミックスをアップミキシングすることによりマルチチャネル音声信号を生成するためのアップミキサーとを有し、アップミキシングすることは第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つの振幅に依存する、マルチチャネル音声信号を生成するためのデコーダが提供される。
本発明は、多くのシナリオで、改善された及び/又は容易にされたオペレーションを可能にする。当該アプローチは、通常、位相揃えエンコードの位相外れ問題及び/又は不利な点を緩和する。当該アプローチは、しばしば、データレートを増大する必要なく、改善された音声品質を可能にする。より頑健なエンコード/デコードシステムが、しばしば達成され、特にエンコード/デコードは、特定の信号状況にあまり影響されない。当該アプローチは、複雑さの低い実行を可能にし及び/又は低い計算リソース要件を持つ。
処理は、サブバンドベースでもよい。エンコード及びデコードは、周波数サブバンドで、時間間隔で実施されてもよい。特に、ダウンミックス信号の値と共に、第1の重み付け及び第2の重み付けが、各周波数サブバンドに対して、及び各(時間)セグメントに対して供給される。ダウンミックスは、サブバンドに対する重み付けにより重み付けられた第1及び第2のチャネル信号の周波数サブバンド値を各サブバンドで個別に結合することにより生成される。サブバンドに対する重み付け(及び、よって重み付け推定値)は、第1及び第2のチャネル信号の少なくとも幾つかの値に対して異なる振幅(及び、よってエネルギー)を持つ。各時間―周波数間隔は、具体的には、エンコード/デコード時間セグメント及び周波数サブバンドに対応する。
アップミックスパラメトリックデータは、ダウンミックスから元のダウンミックスマルチチャネル信号に対応するアップミックスを生成するために用いられるパラメータを有する。アップミックスパラメトリックデータは、具体的には、Interchannel Level Difference(ILD)、Interchannel Coherence/Correlation(IC/ICC)、Interchannel Phase Difference(IPD)及び/又はInterchannel Time Difference(ITD)パラメータを有する。パラメータは、周波数サブバンドのために、適切な更新間隔で供給される。特に、パラメータセットは、各エンコード/デコード時間セグメントに対する複数の周波数バンドの各々に対して供給される。パラメトリックデータのために使用される周波数バンド及び/又は時間セグメントは、ダウンミックスのために使用されるものと同一でもよいが、そうする必要はない。例えば、同一周波数サブバンドが、低い周波数に対して使用されてもよいが、高い周波数に対して使用されなくてもよい。よって、アップミックスパラメトリックデータのパラメータ並びに第1及び第2の重み付けに対する時間―周波数解像度は、同一である必要はない。
第1及び第2の重み付け(及び、よって対応する重み付け推定値)の1つは、幾つかの信号値に対して、1つのサブバンドにおいてゼロでもよい。第1及び第2のチャネル信号の結合は、特に線形和のような線形結合でもよく、各信号は和をとる前に対応する重み付けによりスケーリングされている。
マルチチャネル信号は、2つ以上のチャネルを有する。特に、マルチチャネル信号は、2チャネル(ステレオ)信号である。
当該アプローチは、低い複雑さ及び低いデータレートを維持すると同時に、より頑健なシステムを提供するために特に位相外れ問題を緩和する。特に、当該アプローチは、送信されるべき付加的なデータを必要とすることなく、異なる重み付け(異なる振幅を持つ)が決定可能にされる。よって、改善された音質が、増大されたデータレートを必要とすることなく達成される。
第1及び/又は第2の重み付け推定値の決定は、エンコーダ内の第1及び/又は第2の重み付けを決定するために使われる(とみなされる)のと同じアプローチを使用してもよい。多くの実施例では、一方又は両方の重み付け/重み付け推定値は、アップミックスパラメトリックデータのパラメータから重み付け/重み付け推定値を決定するための推定関数に基づいて決定される。
デコーダは、受信信号の正確な特性の明確な情報を持たなくてもよく、ダウンミックスが少なくとも第1の重み付けにより重み付けられた第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネル信号との組合せであると想定することにより単に動作してもよく、ここで、第1の重み付け及び第2の重み付けは、少なくとも幾つかの時間―周波数間隔に対して異なる振幅を持つ。時間―周波数間隔は、時間間隔、周波数間隔、又は例えば時間セグメントの周波数サブバンドのような時間間隔及び周波数間隔の組合せに対応する。
本発明のオプション的な特徴によると、回路は、少なくとも幾つかの時間−周波数間隔に対するパラメトリックデータの少なくとも幾つかのパラメータとの異なる関係を持つ第1の重み付け推定値及び第2の重み付け推定値を生成するように設けられる。
これは、改善されたエンコード/デコードシステムを可能にし、より頑健なシステムを提供するために、特に位相外れ問題を緩和する。パラメータから重み付け推定値を決定するための関数は、このように2つの重み付けに対して異なるので、同じパラメータが異なる振幅を持つ重み付け推定値に結果としてなる。
エンコーダは、少なくとも幾つかの時間―周波数間隔に対するパラメトリックデータの少なくとも幾つかのパラメータと異なる関係を持つように、第1の重み付け及び第2の重み付けを決定するようにしかるべく設けられる。
時間―周波数間隔は、時間間隔、周波数間隔、又は例えば時間セグメントの周波数サブバンドのような時間間隔及び周波数間隔の組合せに対応する。
本発明のオプション的な特徴によると、アップミキサーは、アップミックスパラメトリックデータのエネルギーパラメータの関数として、第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つを決定するように設けられ、エネルギーパラメータは第1のチャネル信号及び第2のチャネル信号に対する相対的エネルギー特性を示す。
これは、改善されたパフォーマンス、並びに/又は容易にされたオペレーション及び/若しくは実行を提供する。エネルギーの考慮すべき点は、適切な重み付けの決定に対して特に関連し、これら重み付けは、しかるべくより最適に表されて、アップミックスパラメトリックデータのエネルギーパラメータと相関している。よって、重み付け/重み付け推定値を決定するエネルギーパラメータの使用は、異なる振幅を持つ重み付け/重み付け推定値が決定可能にされる情報の効率的な通信を可能にする。特に、重み付け/重み付け推定値を決定するエネルギーパラメータの使用は、単に重み付けの位相だけよりもむしろ重み付けの振幅の効率的な決定を可能にする。エネルギーパラメータは、具体的には、第1のチャネル信号、第2のチャネル信号のエネルギー(又は、同等のパワー)特性、これらチャネル信号間の差のエネルギー(又は、同等のパワー)特性、又は(クロスパワー特性のような)結合信号のエネルギーのエネルギー(又は、同等のパワー)特性の情報を提供する。
本発明のオプション的な特徴によると、エネルギーパラメータは、Interchannel Intensity Difference(IID)パラメータ、Interchannel Level Difference(ILD)パラメータ、及びInterchannel Coherence/Correlation(IC/ICC)パラメータの少なくとも一つである。
これは、特に好適なパフォーマンスを提供し、改善された下位互換性を提供する。
本発明のオプション的な特徴によると、アップミックスパラメトリックデータは、第1の重み付け及び第2の重み付けとアップミックスパラメトリックデータとの間の関係に対する正確さ指標を有し、デコーダは、正確さ指標に応じて第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つを生成する。
これは、多くのシナリオで改善されたパフォーマンスを提供し、異なる信号状況に対するより正確な重み付け推定値の改善された決定を特に可能にする。
正確さ指標は、パラメトリックデータから重み付け推定値を計算するとき、重み付け推定値に対して得られる正確さを示す。正確さ指標は、具体的には、達成可能な正確さが正確さ基準を満たしているかどうかを示す。例えば、正確さ指標は、パラメトリックデータが使用できるかどうかを単に示すバイナリの指標である。正確さ指標は、各サブバンドに対して個別の値を有するか、又は複数若しくは全てのサブバンドにさえ適用可能な一つ以上の指標を有する。
デコーダは、正確さ指標が充分な正確さを示す場合だけ、パラメトリックデータから重み付け推定値を推定するように設けられる。
本発明のオプション的な特徴によると、少なくとも一つの周波数間隔に対する第1の重み付け及び第2の重み付けの少なくとも一つは、前記アップミックスパラメトリックデータの対応するパラメータよりも精細な周波数−時間的解像度を持つ。
データレートを低く維持可能にすると同時に、より正確な重み付けがダウンミックスを生成するために使用できるので、これは多くのシナリオで改善されたパフォーマンスを提供する。
同様に、少なくとも一つの周波数間隔に対する第1の重み付け推定値及び第2の重み付け推定値の少なくとも1つは、アップミックスパラメトリックデータの対応するパラメータより精細な周波数―時間軸解像度を持つ。
対応するパラメータは、同じ時間−周波数間隔を含むパラメータである。多くの実施例において、デコーダは、対応するパラメータに基づいて第1及び/又は第2の重み付けに対する推定値を生成するように処理を進める。よって、パラメータが、より大きな時間及び/又は周波数間隔にわたる信号特性を表すにもかかわらず、パラメータは、重み付けの時間及び/又は周波数間隔に対する近似値としてもまだ使われる。
本発明のオプション的な特徴によると、アップミキサーは、パラメトリックデータに応じて、全位相差(Overall Phase Difference)値を生成し、前記全位相差値に応じて、アップミキシングすることを実施するように設けられ、前記全位相差値は第1の重み付け推定値及び第2の重み付け推定値に依存する。
これは、高品質を持つ効率的なデコードを可能にする。これは、幾つかのシナリオでは、改善された下位互換性を提供する。OPDは、第1及び第2の重み付け推定値(その振幅を含む)両方に個別に依存していて、具体的には、重み付けの関数(すなわち、OPD=f(w,w))として定められる。
アップミックスは、例えば実質的に以下のように生成される。
Figure 0005643834
ここで、sはダウンミックス信号であり、sはダウンミックス信号に対してデコーダ生成された非相関信号である。c及びcは左右の出力チャネル間の正しいレベル差を回復させるパラメータであり、α及びβはアップミックスパラメトリックデータから生成できる値である。
OPD値は、例えば実質的に以下のように、
Figure 0005643834
又は、例えば実質的に以下のように、生成される。
Figure 0005643834
ここで、w及びwはそれぞれ第1及び第2の重み付けであり、ダウンミックス信号は、s=w・l+w・rにより生成される。
本発明のオプション的な特徴によると、アップミキシングすることは、全位相差値(Overall Phase Difference値)を除けば、第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つの振幅とは独立している。
これは、改善されたパフォーマンス及び/又はオペレーションを可能にする。
本発明のオプション的な特徴によると、アップミキサーは、ダウンミックスから、ダウンミックスとは相関がない非相関信号を生成し、マトリクス乗算をダウンミックス及び非相関信号に付与することにより前記ダウンミックスをアップミキシングするように設けられ、マトリクス乗算の係数が第1の重み付け推定値及び第2の重み付け推定値に依存する。
これは、高品質を持つ効率的なデコードを可能にする。これは、幾つかのシナリオでは、改善された下位互換性を提供する。
マトリックス乗算は、ダウンミックス信号から差信号の予測を表わす予測係数を含む。予測係数は、重み付けから決定される。マトリックス乗算は、非相関信号から差信号への寄与を表わす非相関スケーリングファクタを含む。非相関スケーリングファクタは、重み付けから決定される。
マトリックス乗算の係数は、推定された重み付けから決定される。異なる係数は、第1及び第2の重み付けの異なる依存性を持ち、第1及び第2の重み付けは各係数に異なって影響を及ぼす。
アップミックスは、具体的には、実質的に以下のように実施される:
Figure 0005643834
ここで、αは予測ファクタであり、βは非相関スケーリングファクタであり、sはダウンミックスであり、sはデコーダ生成された非相関信号であり、w及びwはそれぞれ第1及び第2の重み付けであり、*は複素共役を示す。
α及び/又はβは、推定された重み付け及びパラメトリックデータから決定され、例えば以下のように実質的に決定される。
Figure 0005643834
Figure 0005643834
本発明のオプション的特徴によると、アップミックスパラメトリックデータに応じて第1のチャネル信号及び第2のチャネル信号に対する位相が揃っていない結合のエネルギーを示す第1のエネルギー尺度を決定し、アップミックスパラメトリックデータに応じて第1のチャネル信号及び第2のチャネル信号に対する位相が揃った結合のエネルギーを示す第2のエネルギー尺度を決定し、第2のエネルギー尺度に対する第1のエネルギー尺度の第1の尺度を決定し、第1の尺度に応じて第1の重み付け推定値を決定することにより、アップミキサーは第1の重み付け推定値を決定するように設けられる。
これは、第1の重み付け推定値の非常に有利な決定を提供する。この特徴は、改善されたパフォーマンス及び/又は容易なオペレーションを提供する。
第1のエネルギー尺度は、第1のチャネル信号及び第2のチャネル信号の和のエネルギーの指標である。第2のエネルギー尺度は、第1のチャネル信号及び第2のチャネル信号のコヒーレントな和のエネルギーの指標である。第1の尺度は、第1のチャネル信号と第2のチャネル信号との間の位相キャンセルの程度の指標を表す。第1及び/又は第2のエネルギー尺度は、エネルギーの任意の指標であり、具体的には、例えば第1及び/又は第2のチャネル信号のエネルギーと関係するエネルギー正規化された尺度に関係する。
第1の尺度は、第1のエネルギー尺度と第2のエネルギー尺度との間の比率として、例えば決定される。例えば、第1の尺度は、実質的に以下のように決定される。
Figure 0005643834
第1の重み付けは、第1の尺度の非線形及び/又は単調な関数として決定される。第2の重み付けは、例えば2つの重み付けの振幅の和が予め定められた値を持つように、第1の重み付けから例えば決定される。幾つかの実施例では、第1及び/又は第2の重み付けの生成は、ダウンミックスのエネルギーの正規化を含む。例えば、重み付けは、左のチャネル信号のエネルギーと右側のチャネル信号のエネルギーとの和と実質的に同じエネルギーを持つダウンミックスに結果としてなるようにスケーリングされる。
重み付けは、具体的には、以下の通りに実質的に生成される。
Figure 0005643834
又はq=r1/4であり、g=2−q、g=qと組み合わせて、結果的に
=g・c
=g・c
となる。ここで、cは所望のエネルギー正規化を提供するように選択される。
エンコーダは、同じオペレーションを実施し、エンコーダに関して説明されたように、第1の重み付け(及びおそらく第2の重み付け)の導出を実施する。
本発明のオプション的な特徴によると、第1の重み付け及び第2の重み付けの予め決められた値の複数の対の各々に対して、パラメトリックデータに応じて予め決められた値の前記対に対応するダウンミックスのエネルギーを示すエネルギー尺度を決定し、エネルギー尺度及び予め決められた値の前記対に応じて、第1の重み付けを決定することにより、アップミキサーは第1の重み付け推定値を決定するように設けられる。
これは、第1の重み付け推定値の非常に有利な決定を提供する。この特徴は、改善されたパフォーマンス及び/又は容易なオペレーションを提供する。
デコーダは、予め定められた一定の重み付けを使用する複数のダウンミックスの組合せであるダウンミックスを想定し、当該組合せは各ダウンミックスの信号エネルギーに依存する。第1の重み付け推定値(及び/又は第2の重み付け推定値)は、予め定められた重み付けの組合せに対応するように決定され、ここで、個々の予め定められた重み付けの組合せは、ダウンミックスの各々の推定されたエネルギー(又は同等のパワー)に応じて決定される。各ダウンミックスのための推定されたエネルギーは、アップミックスパラメトリックデータに基づいて決定される。
特に、第1の重み付け推定値は、予め定められた値の対を結合することにより決定され、予め定められた値の各対は、予め定められた値の対に対するエネルギー尺度に依存している。
予め定められた値の対に対するエネルギー尺度は、具体的には、実質的に以下のように決定される。
Figure 0005643834
ここで、mは予め定められた重み付けのための指標であり、M(m,k)は、予め定められた重み付けのm番目の対のk番目の重み付けを表す。
幾つかの実施例では、バイアスが、重み付けの対の一つ以上へ向けて導入されてもよい。例えば、エネルギー尺度は、以下のように決定される。
Figure 0005643834
ここで、b(m)はダウンミックスの一つ以上に対する付加的なバイアスを導入するバイアス関数である。バイアス関数は、アップミックスパラメトリックデータの関数である。
本発明の一つの態様によると、第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けされた第1のチャネルの第1のチャネル信号と第2の重み付けにより重み付けされた第2のチャネルの第2のチャネル信号との結合としてダウンミックスを生成するためのダウンミキサーと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを生成するための回路であって、前記アップミックスパラメトリックデータが第1の重み付け及び第2の重み付けを更に特徴付ける、当該アップミックスパラメトリックデータを生成するための回路と、前記ダウンミックス及び前記アップミックスパラメトリックデータを含むエンコード表現を生成するための回路とを有する少なくとも第1のチャネル及び/又は第2のチャネルを有するマルチチャネル音声信号のエンコード表現を生成するためのエンコーダが提供される。
これは、上述のデコーダと互換性を持つ特に有利なエンコードを提供する。デコーダに関して提供されたコメントのほとんどが、等しくエンコーダに適切に適用されることは理解されるだろう。
第1及び第2の重み付けは、アップミックスパラメトリックデータに含まれないか、又は実際エンコーダにより通信されないか若しくは配信されなくてもよい。ダウンミックスは、任意の適切なエンコードアルゴリズムに従ってエンコードされる。
本発明のオプション的な特徴によると、ダウンミキサーは、第1のチャネル信号及び第2のチャネル信号に対して位相が揃っていない結合のエネルギーを示す第1のエネルギー尺度を決定し、第1のチャネル信号及び第2のチャネル信号に対して位相が揃った結合のエネルギーを示す第2のエネルギー尺度を決定し、第2のエネルギー尺度に対する第1のエネルギー尺度の第1の尺度を決定し、第1の尺度に応じて第1の重み付け及び第2の重み付けを決定するように設けられる。
これは、特に有利なエンコードを提供する。
本発明のオプション的な特徴によると、第1の重み付け及び第2の重み付けの予め決められた値の複数の対の各々に対してダウンミックスを生成し、ダウンミックスの各々に対してダウンミックスのエネルギーを示すエネルギー尺度を決定し、エネルギー尺度に応じてダウンミックスを結合することによりダウンミックスを生成するダウンミキサーが設けられる。
これは、特に有利なエンコードを提供する。
本発明の一つの態様によると、第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けられた第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネル信号との結合であるダウンミックスを受信する受信ステップと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを受信するステップと、前記アップミックスパラメトリックデータから第1の重み付けに対する第1の重み付け推定値及び第2の重み付けに対する第2の重み付け推定値を生成するステップと、前記アップミックスパラメトリックデータ、第1の重み付け推定値及び第2の重み付け推定値に応じて、前記ダウンミックスをアップミキシングすることによりマルチチャネル音声信号を生成するステップとを有し、アップミキシングすることは、第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つの振幅に依存する、マルチチャネル音声信号を生成する方法が提供される。
本発明の一つの態様によると、少なくとも第1のチャネル及び第2のチャネルを有するマルチチャネル音声信号のエンコード表現を生成する方法であって、第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けられた第1のチャネルの第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネルの第2のチャネル信号との結合としてダウンミックスを生成するステップと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを生成する生成ステップであって、前記アップミックスパラメトリックデータが第1の重み付け及び第2の重み付けを更に特徴付ける当該生成ステップと、前記ダウンミックス及び前記アップミックスパラメトリックデータを含むためのエンコード表現を生成するステップとを有する方法が提供される。
本発明の一つの態様によると、少なくとも第1の重み付けにより重み付けられた第1のチャネルの第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネルの第2のチャネル信号との結合であるダウンミックスであって、第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ前記ダウンミックスと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータであって、第1の重み付け及び第2の重み付けを更に特徴付ける前記アップミックスパラメトリックデータとを有する、マルチチャネル音声信号の音声ビットストリームが提供される。第1及び第2の重み付けは、ビットストリームに含まれなくてもよい。
本発明のこれら及び他の態様、特徴及び利点は、これ以降説明される実施例を参照して明らかに説明されるだろう。
本発明の実施例は、単なる例示として、図面を参照して説明されるだろう。
図1は、本発明の幾つかの実施例に従う音声分布システムの実例である。 図2は、本発明の幾つかの実施例に従う音声エンコーダの要素の実例である。 図3は、本発明の幾つかの実施例に従う音声エンコーダの要素の実例である。 図4は、本発明の幾つかの実施例に従う音声デコーダの要素の実例である。
以下の説明は、2つのチャネル(すなわちステレオ信号)を持つマルチチャネル信号のエンコード及びデコードに適用できる本発明の実施例に集中する。特に、説明は、モノダウンミックスへのステレオ信号のダウンミキシング及び関連するパラメータ、並びに関連するアップミキシングに集中する。しかしながら、本発明はこのアプリケーションに限定されず、例えばMPEG Surroundのような多くの他のマルチチャネル(ステレオを含む)システム及びHE―AACv2のようなパラメトリックステレオに適用されることは理解されるだろう。
図1は、本発明の幾つかの実施例に従う音声信号の通信のための送信システム100を例示する。送信システム100は、ネットワーク105、特にインターネットを通じて受信器103に結合される送信器101を有する。
具体例では、送信器101は信号記録装置であり、受信器103は信号再生装置であるが、他の実施例では、送信器及び受信器は、他のアプリケーション及び他の目的のために使用されてもよいことは理解されるだろう。例えば、送信器101及び/又は受信器103は、トランスコーディング機能の一部でもよく、例えば他の信号源又は他の相手とのインターフェースを提供してもよい。
信号記録機能がサポートされる具体例では、送信器101は、サンプリング及びAD変換によりデジタルPCM(PulseCodeModulated)マルチチャネル信号に変換されるアナログ信号を受信するデジタイザ107を有する。
デジタイザ107は、エンコードアルゴリズムに従うマルチチャネルPCM信号をエンコードする図1のエンコーダ109に結合される。エンコーダ109は、エンコード信号を受信し、インターネット105とインターフェースするネットワーク送信器111に結合される。ネットワーク送信器は、インターネット105を通じてエンコード信号を受信器103へ送信する。
受信器103は、インターネット105とインターフェースし、送信器101からエンコード信号を受信するように設けられるネットワーク受信器113を有する。
ネットワーク受信器113は、デコーダ115に結合されている。デコーダ115は、エンコード信号を受信し、デコードアルゴリズムに従ってそれをデコードする。
信号再生機能がサポートされている具体例では、受信器103は、デコーダ115からデコード音声信号を受信して、これをユーザに示す信号プレーヤ117を更に有する。特に、信号プレーヤ117は、デコードされたマルチチャネル音声信号を出力するために必要とされるようなDA変換器、アンプ及びスピーカを有する。
図2は、更に詳細にエンコーダ109を例示する。受信したレフト及びライト信号は、最初に周波数領域に変換される。具体例では、ライト信号は、ライト信号を複数の周波数サブバンドへ変換する第1の周波数サブバンド変換器201へ供給される。同様に、レフト信号は、レフト信号を複数の周波数サブバンドへ変換する第2の周波数サブバンド変換器203へ供給される。
サブバンドライト及びレフト信号は、更に詳細に後述されるように、ステレオ信号のダウンミックスを生成するように設けられるダウンミックスプロセッサ205へ供給される。具体例では、ダウンミックスは、周波数領域サブバンドダウンミックスモノ信号を生成するためにライト及びレフト信号の個々のサブバンドを結合することにより生成されるモノ信号である。このように、ダウンミキシングは、サブバンドベースで実施される。ダウンミックスプロセッサ205は、ダウンミックスモノ信号を受信し、適切なエンコードアルゴリズムに従ってそれをエンコードするダウンミックスエンコーダ207に結合される。ダウンミックスエンコーダ207へ転送されるダウンミックスモノ信号は、周波数領域サブバンド信号であるか、又は先ず時間領域へ変換される。
更に、エンコーダ109は、ダウンミックスをマルチチャネル信号へアップミックスするためデコーダ115により用いられるパラメトリック空間データを生成するパラメータプロセッサ209を有する。
特に、パラメータプロセッサ209は、周波数サブバンドをステレオキューが抽出されるERB又はBarkサブバンドへグループ化する。パラメータプロセッサ209は、具体的には、パラメトリックデータを生成するための標準的なアプローチを使用する。特に、Parametric Stereo及びMPEG Surround技術から知られたアルゴリズムが用いられる。このように、パラメータプロセッサ209は、当業者に知られているであろう各パラメータサブバンドのためのInterchannel Level Difference(ILD)、Interchannel Coherence/Correlation(IC/ICC)、Interchannel Phase Difference(IPD)又はInterchannel Time Difference(ITD)を生成する。
パラメータプロセッサ209及びダウンミックスエンコーダ207は、特にビットストリームであるコンパクトにエンコードされたデータ信号を生成するためにエンコードされたダウンミックスデータ及びパラメトリックデータを多重するデータ出力プロセッサ211に結合される。
図3は、エンコーダ109のダウンミックス生成の原理を例示し、以下の説明に使われる参照を例示する。図示されるように、レフト(l)及びライト(r)入力信号は、第1及び第2の周波数サブバンド変換器201、203へ別に入力される。出力は、それぞれK個の周波数サブバンド信号l、...,l及びr、...、rであり、ダウンミックスプロセッサ205へ供給される。ダウンミックスプロセッサ205は、レフト及びライトサブバンド信号(l、...,l及びr、...、r)からダウンミックス(d、...、d)を生成し、当該ダウンミックスは、後でエンコードされる時間領域ダウンミックス信号を生成するためダウンミックスエンコーダ207に供給される(幾つかの実施例では、サブバンドダウンミックスは、直接エンコードされる)。
従来のシステムでは、ダウンミックスは、各サブバンドのレフト及びライト信号の線形和により実施される。通常、受動的なダウンミックスは、レフト信号及びライト信号を単に合計するか又は平均化することにより実施される。しかしながら、レフト及びライト信号が互いに位相がほとんどずれているとき、結果として生じる和信号が大幅に減らされて、完全な位相信号のずれのためにゼロにさえ減少するので、斯様なアプローチは大きな問題を導く。幾つかの従来のシステムでは、合計された信号は、入力信号に対応するエネルギーを持つダウンミックス信号に結果としてなるようにスケーリングされる。しかしながら、これは、生成されたダウンミックスサンプルの相対的なエラー及び不確定度が、低い値に対してより重要になるので、依然問題である。エネルギー正規化は、ダウンミックスをスケーリングするだけではなく、これに関連する誤差信号をスケーリングするだろう。実際、完全に位相外れの信号に対して、結果として生じる和又は平均信号は、ゼロであって、しかるべくスケーリングできない。
幾つかのシステムでは、重み付けされた和が使用され、ここで、重み付けは、単なるユニット又はスカラー値ではなくて、付加的にレフト及びライト信号への位相シフトも導入する。このアプローチは、レフト及びライト信号の和が同位相で実施されるように、位相揃えを提供するように用いられ、すなわち、このアプローチは、コヒーレントな和のために信号を位相合わせするために用いられる。しかしながら、斯様な位相合わせされたダウンミックスの生成は、多くの不利な点を持つ。特に、これは、複雑且つ曖昧なオペレーションである傾向があり、結果的に低減された音声品質となる。
しかしながら、これらのアプローチとは対照的に、図1乃至図3のシステムのダウンミックスは、異なる位相を持つだけでなく、異なる振幅も持つ重み付けを使用することにより生成される。よって、2つのチャネルに対する重み付けの振幅は、少なくとも幾つかの信号特性のために異なる値を持つ。よって、生成されるダウンミックスで、2つのステレオチャネルの重み付けが異なる。
更にまた、ダウンミックスサブバンドへのレフト及びライトサブバンド信号の結合のため適用されるサブバンド重み付けは、また、信号に依存し、レフト及びライト信号のための信号特性の関数として変化する。特に、各サブバンドで、重み付けは、サブバンドの信号特性に依存して決定される。よって、位相及び振幅両方とも信号に依存し、変化する。従って、重み付けの振幅は、時間的に変化するだろう。
特に、重み付けは、互いに位相を益々異にするレフト及びライト信号に対して、重み付けに対する異なる振幅へのバイアスが導入されるように修正される。例えば、重み付けの振幅差は、レフト及びライト信号に対するクロスパワー尺度に依存している。クロスパワー尺度は、レフト及びライト信号の相互相関である。クロスパワー尺度は、ライト及びレフトチャネルの少なくとも1つにおけるエネルギーに対する正規化された尺度である。
よって、重み付け、特に位相及び振幅両方は、具体例では、(例えば、クロスパワー尺度により表されるような)これら間の相関に依存するだけでなく、レフト信号及びライト信号に対するエネルギー尺度に依存している。
重み付けは、レフト及びライト信号の信号特性から決定され、具体的には、パラメータプロセッサ209により生成されるパラメトリックデータを考慮することなく決定される。しかしながら、後で示されるように、生成されたパラメトリックデータは信号エネルギーにも依存していて、これは、デコーダがパラメトリックデータからダウンミックスで使用される重み付けを再形成可能にする。よって、異なる振幅を持つ様々な重み付けが使われるにもかかわらず、これらの重み付けは、デコーダに明確に通信される必要がなく、受信されたパラメトリックデータに基づいて推定できる。よって、予想とは対照的に、付加的なデータオーバヘッドが、異なる振幅を持つ重み付けをサポートするために通信される必要はない。
更にまた、異なる重み付けの使用は、位相合せを実施する必要なく、よって関連する不利な点を導入することなく、従来の一定の和と関連した位相ずれの問題を回避するか又は緩和するように使用できる。
例えば、レフト及びライト信号の結合パワーと関係するレフト及びライト信号の位相合わせされていない結合のパワーを示す尺度が生成される。特に、レフト信号のパワー/エネルギーとライト信号のパワー/エネルギーとの和に関係するレフト及びライト信号に対する和信号のパワー/エネルギーが決定される。この尺度のより高い値は、レフト及びライト信号が位相がずれていない、対称形の(一様なエネルギー)重み付けがダウンミックスに対してしかるべく使われていることを示す。しかしながら、位相が益々ずれている信号に対して、第1のパワー(和信号のパワー)は、ゼロの方へ減少し、よって、尺度のより低い値は、レフト及びライト信号の位相が益々ずれてきて、従って単純な和がダウンミックス信号としてもはや好適でないことを示すだろう。従って、重み付けにより、益々非対称とし、結果的にダウンミックスの一方のチャネルからの寄与が他方からの寄与より大きく、これにより他方による一方の信号のキャンセルを減らす。実際には、位相ずれの信号に対して、ダウンミックスは、例えばレフト及びライト信号の一方として単純に決定されてもよく、すなわち一方の重み付けのエネルギーはゼロである。
より特定の例として、レフト及びライト信号の和のエネルギーと、位相合わせされたレフト及びライト信号の和のエネルギー(すなわち、レフト及びライト信号の位相追加でコヒーレントをフォローするエネルギー)との間の比率を反映する尺度rが、以下のように決定できる。
Figure 0005643834
ここで、ipdはレフト信号とライト信号との間の位相差であり(これは、パラメータプロセッサ209により決定されるパラメータの1つでもあり)、<>は内積を示し、E{}は期待値演算子である。
上記の相対的な値は、このように、レフト及びライト信号の和に対するエネルギー尺度とレフト及びライト信号の位相合わせされた結合のエネルギーを示すエネルギー尺度との間の相対的な関係を反映するように生成される。このとき、重み付けは、この相対的な値から決定される。
比率rは、2つの信号がどのくらい位相ずれしているかを示す。特に、完全な位相ずれの信号に対して、当該比率は0に等しく、完全に位相が揃った信号に対して、当該比率は1に等しい。よって、比率は、レフトチャネルとライトチャネルとの間の位相差のためにどのくらいのエネルギー低減が起こるかの正規化された([0,1])尺度を提供する。
以下のように、示すことができる。
Figure 0005643834
ここで、E及びEはレフト信号及びライト信号のエネルギーであり、Elrはレフト信号とライト信号との間の相互相関である。
それから、以下の式、
Figure 0005643834
を使用して、ここで、iidはチャネル間強度差であり、iccはチャネル間コヒーレンスであり、これにより以下の式を導くことを示すことができる。
Figure 0005643834
このように、例示されるように、信号がどのくらい位相ずれしているかを示す尺度rが、パラメトリックデータから導出でき、よって、付加的なデータが通信されることを必要とすることなく、デコーダ115により決定できる。
比率は、ダウンミックス信号のための重み付けを生成するために用いられる。特に、ダウンミックス信号は、各サブバンドにおいて、以下のように生成される。
d(n)=wl(n)+wr(n)
重み付けは、rがゼロに近づくにつれて、非対称(エネルギー差)が増大するように、比率rから生成される。例えば、中間の値は、以下のように生成される。
q=r1/4
中間の値を使用して、2つのゲインは、以下のように計算される。
=2−q
=q
このとき、重み付けは、任意のエネルギー正規化により決定できる。
=g・c
=g・c
ここで、cは所望の正規化を供給するように選ばれる。特に、cは、結果として生じるダウンミックスのエネルギーがレフト信号のパワーとライト信号のパワーとを足したものに等しいように選択される。
別の例として、中間の値は、以下のように生成される。
Figure 0005643834
これは、増大する様々な信号状況に対して一定である(完全に対称であるか完全に非対称である)重み付けを供給する傾向があるだろう。
よって、斯様な実施例では、エンコーダ109は、固定の又は位相合わせされたダウンミックスと関連した不利な点が回避できるか又は緩和できるような特定の信号状況に重み付けが自動的に適合される、柔軟且つ動的なダウンミックスを使用する。実際、このアプローチは、両方のチャネルを等しく扱う完全に対称のダウンミックスから、1つのチャネルが完全に無視される完全に非対称のダウンミックスまで徐々に且つ自動的に適合する。この適合は、直接使用できる(すなわち、モノ信号として使用できる)ダウンミックス信号を同時に生成しながら、ダウンミックスが改善された信号を供給可能にし、この改善された信号に基づいてアップミキシングできる。更にまた、説明される例は、エネルギー差の非常に漸進的且つ円滑な遷移を供給し、これにより、改善されたリスニング経験を提供する。
また、後で示されるように、この改善されたパフォーマンスは、選択された重み付けの情報を供給するために何れの付加的なデータも配信される必要なしに達成できる。特に、上で示されるように、重み付けは送信されたパラメトリックデータから決定でき、後で示されるように、等しいダウンミックス重み付けの仮定に基づいたアップミキシングに対する従来のアプローチが、修正でき、異なるエネルギー(又は、等価的に異なる振幅若しくはパワー)を持つ重み付けに対するアップミキシングを可能にするように強化できる。
以下に、異なるダウンミックス重み付けを用いたエンコードアプローチの他の例が、説明されるだろう。幾つかのシナリオでは、ダウンミックスは、パラメトリックデータを使用せずに作られる。他のシナリオ又は実施例では、パラメトリックデータが、重み付けを決定するために、エンコーダにおいても使われる。当該アプローチは、(特に対称形のエネルギーであり、すなわち同じエネルギーを持ち、例えば、位相オフセットを導入するだけである)予め定められた重み付けを使用する複数の中間のダウンミックスの決定に基づく。このとき、中間のダウンミックスは、中間のダウンミックスの各々が中間のダウンミックスのエネルギーに依存して重み付けられる単一のダウンミックスへ結合される。よって、中間のダウンミックスが大幅に位相がずれた信号の結合から生じたので低いエネルギーを持つことになる中間のダウンミックスは、中間のダウンミックスがよりコヒーレントな結合から生じたので高いエネルギーを持つことになる中間のダウンミックスより低く重み付けされる。このとき、結果として生じるダウンミックスは、入力信号と関係して正規化されたエネルギーである。
より詳細には、異なる演繹的な(中間の)サブバンドダウンミックス
Figure 0005643834
のセットが以下のように生成される。
Figure 0005643834
通常、中間のダウンミックスの数は低く維持でき、これにより結果的に低い複雑さ及び低減された計算要件となる。特に、中間のサブバンドダウンミックスの数は10以下であり、複雑さとパフォーマンスとの間の特に有利なトレードオフが、4つの中間のダウンミックスに対して見つかった。
特別な例では、特定の重み付けを持つ4つの(P=4)演繹的な(予定され且つ固定された)中間のダウンミックスが用いられる。
Figure 0005643834
Figure 0005643834
であり、*は共役を示す。重み付けは、マトリックス形式でも表される。
Figure 0005643834
これら先験的ダウンミックスは、レフト及びライト信号が振幅で等しく、位相ずれが0、90、180又は270度という場合に対する最適なダウンミックスに対応する。代わりに、二つだけの先験的ダウンミックスのセット、例えばp=1及びp=4が使用できる。
次に、これらオプションの各々のエネルギーEp,k(n)が
Figure 0005643834
により決定され、wはサンプル指標n周りに中心を置いたオプション的窓である。サブバンドダウンミックスは、
Figure 0005643834
により新しいサブバンドダウンミックス
Figure 0005643834
を形成するために結合され、ここで、重み付けαp,kはダウンミックスの相対的強度から決定される。よって、種々異なる中間ミックスが、これらの相対的強度に従って各々を重み付けることにより単一のダウンミックスへ結合される。
相対的強度は、例えば
Figure 0005643834
のようなエネルギーに基づくことができ、ここで、εはゼロにより割ることを防止するための小さな正の定数である。包絡尺度のような他の尺度ももちろん使用できる。
最終のダウンミックスdは、エネルギー正規化により
Figure 0005643834
から生成される。特に、
Figure 0005643834
のエネルギーが決定でき、レフト及びライト信号のエネルギーの和のものと等しいようにこれを調整ために、必要とされるスケーリングが実施できる。
特別な例として、各ダウンミックスに対して、バイアスされた和エネルギー比が、
Figure 0005643834
のように計算でき、ここで、b(m)は追加のバイアスを、
Figure 0005643834
によりデフォルトのダウンミックスへ導入するバイアス関数である。
それから、二つのゲインが
Figure 0005643834
のように計算され、最終の重み付けがエネルギー正規化
=g・c
=g・c
により決定される。ここで、cは、結果として生じるダウンミックスのエネルギーがレフトチャネルのパワーとライトチャネルのパワーとをプラスしたものに等しいように選択される。
これらのアプローチは、受信されたパラメトリックデータを使用してデコーダ115により重み付けが生成可能にされ、何れの追加情報も送信される必要がないことに留意されたい。
説明されたアプローチは、位相揃えを使用する必要なく、且つ関連する不利益がなく、位相信号のずれと関連した受動的ダウンミックス及び能動的(固定の)ダウンミックス両方の不利益を回避又は緩和する。
複数の異なる中間ダウンミックスの線形結合は、位相ずれの問題がダウンミックスの一つだけ又はおそらく二つに限定されるようなので、説明されたアプローチの利点は、追加の頑健さを提供することである。更にまた、4つの中間ダウンミックスだけを使用することにより、効率的且つ低い計算リソース要求が達成できる。
最終的に、ダウンミックス信号
Figure 0005643834
はレフト信号及びライト信号の線形結合である、すなわち、
Figure 0005643834
であることに注目する価値がある。ここで、各βk,i、i=1、2はEp,k及び選択されるwp,qに依存する。
p,kがレフト及びライトのエネルギーとクロスエネルギーとに依存することにも注目する価値がある。特に、
Figure 0005643834
であることが示され、ここで、
Figure 0005643834
は複素数の実数部分を示す。これは、中間のダウンミックスエネルギーが測定される必要がなく、実際に中間ダウンミックスが明確に生成される必要がないので、計算的により簡単なスキームを可能にする。むしろ、αp,k値は、先験的に選択されたダウンミックス重み付けwp,q及びエネルギーEp,qから導出でき、ここで、後者は、上記で示されたように元の信号のクロスエネルギー及び測定されたエネルギーから直接得られる。
結局、βk,iは、
Figure 0005643834
なので、測定されたエネルギー及びクロスエネルギーと選択されたwp,iから得られる。
また、エネルギー補償は、入力エネルギー及びβk,iの知識から容易に得られる。
説明されたアプローチは、レフト及びライト信号のエネルギーが大幅に異なるとき、又はレフト及びライト間の相関が低いシナリオに対して効率が低い。しかしながら、これらの場合では、良好なダウンミックスがレフト及びライト信号の単純な和により供給される。
この考察は、以下のようにアプローチを修正するために使用できる。先ず、変調指標μは以下のように規定される。
Figure 0005643834
ここで、E、E、及びE12は、それぞれレフト信号、ライト信号及びクロスエネルギーである。0≦μ≦1であることに留意されたい。
αの計算は、μが低い場合、例えばp=1(これはこの例では中間信号に対応する)
Figure 0005643834
Figure 0005643834
によりダウンミックスを好むように適応できる。
これは、数字的な頑健さを持つがダウンミックスへの位相がずれた成分を含むダウンミックスの作成を導く。
再び、中間の固定されたダウンミックスを使用するダウンミックス生成は、実際に信号に依存するダウンミックスパラメータに基づくことに留意されたい。しかしながら、結果として生じるダウンミックス重み付けの依存性は、エネルギーE、E及びクロスエネルギーE12にのみ依存する。これは、また、パラメータデータ(例えば、生成されたILD、IPD及びIC)の場合であるので、送信されたパラメトリックデータから付与される重み付けをデコーダ115が導出可能である。特に、重み付けは、エンコーダ109を参照して上述されたのと同じ機能を評価するデコーダにより見つけられる。
より詳細には、所与のダウンミックス信号に対する重み付けは、以下のようなμを先ず考慮することによりパラメータから見つけられる。
Figure 0005643834
次に、以下の関係を用いて、αp,k(n)が全てのpに対して計算できる。
Figure 0005643834
これから、βk,iは以下のようになる。
Figure 0005643834
上記では、より頑強で改善されたダウンミックス信号を供給するためにダウンミックス重み付けの信号依存の動的変化(振幅変化を含む)を適用する様々なエンコーダアプローチが説明されてきた。これらのアプローチは、特に、パフォーマンスを改善するために(潜在的に異なる振幅を持つ)非対称重み付けを利用している。更にまた、説明されてきたように、ダウンミックス重み付けが重み付けから導出でき、よって、デコーダにより決定でき、これにより重み付けに対して異なるエネルギーを使用するというエンコーダアプローチの仮定に基づいてアップミキシングを実施するデコーダオペレーションを可能にする。このアップミキシングは、ダウンミックス及び空間的パラメータにのみ基づき、何れの追加情報も要求しない。よって、デコーダオペレーションは、異なる振幅を持つ重み付けを考慮するように修正され、よって、従来のデコーダのように等しい振幅ダウンミックス重み付けの仮定に基づいていない。以下では、斯様なデコーダの種々異なる例が説明され、アップミキシングアプローチが非対称振幅ダウンミックス重み付けで操作するために修正できるだけでなく、更にまた、これが、追加のデータを通信される必要がなく、存在するパラメトリックデータに基づいて達成できることが示されるだろう。
図4は、本発明の幾つかの実施例によるデコーダの例を示す。
当該デコーダは、エンコーダ109からのデータストリームを受信する受信器401を有する。受信器401は、データストリームからパラメトリックデータを受信するパラメータプロセッサ403と結合されている。よって、パラメータプロセッサ403は、データストリームからIID、IPD及びICC値を受信する。
受信器401は、更にまた、受信されたエンコードされたダウンミックス信号をデコードするダウンミックスデコーダ405と結合されている。ダウンミックスデコーダ405は、エンコーダ109のダウンミックスエンコーダ207の反転した機能を実施し、よって、デコードされた周波数ドメインのサブバンド信号(又は周波数ドメインサブバンド信号へ後で変換される時間ドメイン信号)を生成する。
ダウンミックスデコーダ405は、更にまた、パラメータプロセッサ403とも結合されているアップミックスプロセッサ407と結合されている。アップミックスプロセッサ407は、マルチチャネル信号(特定の例では、ステレオ信号である)を生成するためにダウンミックス信号をアップミキシングする。特定の例では、モノダウンミックスが、ステレオ信号のレフト及びライトチャネルへアップミキシングされる。アップミキシングは、パラメトリックデータから生成されるダウンリンク重み付けの決定された推定値とパラメトリックデータとに基づいて実施される。アップミキシングされたステレオチャネルは、特定の例では、周波数サブバンドドメインから時間ドメインへの変換を含む出力回路409へ行く。出力回路409は、特に、逆QMF又はFFT変換を含む。
図4のデコーダでは、パラメータプロセッサ403は、アップミックスプロセッサに更に結合されている重み付けプロセッサ411と結合されている。重み付けプロセッサ411は、受信されたパラメトリックデータからダウンミックス重み付けを推定するように設けられる。この決定は、等しい重み付けの仮定に限定されない。むしろ、デコーダ115は、どのダウンミックス重み付けがエンコーダ109に適用されたのかを必ずしも正確に知る必要はない一方で、デコードは、重み付け間で(振幅)差を持つ潜在的に非対称な重み付けの使用に基づく。このように、受信されたパラメータが、重み付けのエネルギー/振幅及び/又は角度を決定するために使用される。特に、重み付けの決定は、チャネル間のエネルギー関係を示すパラメータに応じて実施される。特に、当該決定は、IPDの位相値に限定されるのではなく、IID及び/又はICC値にも応えている。
付与される重み付けの決定は、特に、エンコーダ115に対して前に説明されたのと同じアプローチを使用する。このように、エンコーダ109に対して前に説明されたのと同じ計算が、重み付けプロセッサ411により実施され、結果的に対応するエンコーダ109により使用されたであろう(又は使用されたと思われる)重み付けw及びwとなる。
従来のデコーダにより実施されるアップミキシングは、付与される重み付けが2つのチャネルに対するのと同じ、又は位相値だけが異なるとの仮定に基づく。しかしながら、図4のデコーダ115では、アップミキシングは、また、重み付け間の振幅差も考慮し、パラメータプロセッサ403から実際に推定される重み付けw及びwがアップミキシングを修正するために使用されるように、特に修正される。このように、従来のアップミキシングは、受信したパラメトリックデータから推定値が計算される信号依存の重み付けを動的に変化させることを更に考慮するように修正された。
以下では、種々異なるエネルギーを持つ重み付けを調整するために拡張されたアップミックスアルゴリズムの特定の例が提示されるだろう。
固定の基準(通常はレフトチャネル)に対するサブバンドレフト及び/又はライトチャネルの絶対的(平均的)位相オフセットを示す全位相差(Overall Phase Difference)を使用するアップミキシング方法が知られている。
特に、パラメトリックステレオ標準(Parametric Stereo standard)は、以下のアップミックスを使用する。
Figure 0005643834
ここで、当業者には知られるように、sは受信したモノダウンミックスであり、sdはデコーダにより生成される非相関信号である。c1及びc2は、レフト信号とライト信号との間の正しいレベル差を保証するためのゲインである。
特に、c、c、α及びβは、以下のように決定される。
Figure 0005643834
Figure 0005643834
この式は、OPD値が適当に修正される場合、重み付けw及びwが異なるエネルギーを持つシナリオに対して有効である。よって、上記式の修正は、重み付け間のエネルギー差を可能にする信号のデコードのために必要とされない。これは、アップミックスマトリックスが、OPDに独立して正しい空間的キュー(IID、ICC、IPD)を常に回復させるからである。OPDは、付加的程度の自由度として見ることができる。
OPDは、レフトチャネルと和信号との間の角度として規定され、sはレフト及び/又はライト信号を加算することにより生成される。
Figure 0005643834
更にまた、
Figure 0005643834
及び
Figure 0005643834
である。ここで、Pllはレフト信号のパワーであり、Plrはレフト及びライト信号のクロスパワー又はクロス相関である。
よって、
Figure 0005643834
であり、ここで、Prrはライト信号のパワーである。
よって、重み付けw及びwは、以前に説明されたように、パラメトリックデータに基づいて、重み付けプロセッサ411により先ず決定され、推定された重み付けは、次に、潜在的に非対称重み付け(すなわち、振幅非対称を含む重み付け間の差)を考慮するオーバーオールの位相値を生成するためにパラメトリックデータと共に使用される。生成されたオーバーオール位相値は、次に、ダウンミックス信号及び相関づけられた信号からアップミックス信号を生成するために使用される。
幾つかの実施例では、OPD値は、チャネルが相関している、すなわち、iccパラメータがユニティ値という仮定の下、生成されてもよい。これは、以下のOPD値を導く。
Figure 0005643834
このように、デコーダは、固定の和又は位相揃えダウンミックスアプローチに関連した通常の不具合からの影響をそれ程受けないアップミックス信号を生成する。更にまた、これは、送信される追加のデータを必要とすることなく達成される。
他の例として、アップミキシングは、ダウンミックス信号からの非相関信号の予測に基づいてもよい。ダウンミックスは、以下のように生成される。
s=w・l+w・r
ここで、w及びwは複素数である。その後、補助信号は、結果的に以下のオーバーオールのダウンミックスマトリクスとなるスケーリングされた複素回転を使用して構成できる。
Figure 0005643834
このように、信号dは、レフト及びライト信号に対する差信号を表す。
結果として生じる理論的アップミックスマトリクスは、以下のように決定できる。
Figure 0005643834
前記差信号は、ダウンミックス信号sと非相関である予測できない成分と、ダウンミックス信号sから予測できる予測可能な成分とにより表される。よって、dは、以下のように表せる。
d=α・s+β・s
ここで、sはデコーダ生成された非相関和信号であり、αは複素予測ファクタであり、βは(実数値の)非相関スケーリングファクタである。これは、以下の式を導く。
Figure 0005643834
よって、予測ファクタα及び非相関スケーリングファクタβが決定できるとすると、アップミックスは、このアプローチにより生成される。
差信号を生成するための前の式において、β・sの第2の項は、ダウンミックス信号sから予測できない差信号の部分を表す。低いデータレートを維持するため、この残余信号成分は、通常、デコーダと通信せず、従って、アップミックスは、非相関スケーリングファクタ及び局地的に生成される非相関信号に基づいている。
しかしながら、幾つかの場合では、残余信号β・sが信号dresとしてエンコードされ、デコーダと通信される。斯様な場合、差信号は、以下のように与えられる。
d=α・s+dres
これは、以下の式を導く。
Figure 0005643834
更にまた、予測ファクタα及び非相関スケーリングファクタβが、受信されたパラメトリックデータから決定できる。
Figure 0005643834
Figure 0005643834
このように、予測に基づいたアプローチは、ダウンミックスに対して用いられた非対称のエネルギー重み付けの仮定に基づくアップミキシングを実施可能にする。更にまた、アップミックスプロセスは、パラメトリックデータにより制御され、エンコーダから追加的情報が送信される必要はない。
より詳細には、複素予測ファクタα及び非相関スケーリングファクタβが以下の考察から導出できる。
第1に、予測パラメータαが以下のように付与される。
Figure 0005643834
ここで、
Figure 0005643834
である。これは、以下の式を導く。
Figure 0005643834
それから、以下のパラメータ定義を使用すると、
Figure 0005643834
これは、以下の式を生じる。
Figure 0005643834
非相関スケーリングファクタβが以下のように付与される。
Figure 0005643834
非相関信号のパワーが和信号のパワーと合うという仮定を使用して、
Figure 0005643834
これから、以下のことが成り立つ。
Figure 0005643834
以前の例は、何れの付加的パラメータも通信される必要なしに、ダウンミックス/アップミックスシステムで使用されるべき変化する非対称重み付け(重み付け間の振幅非対称を含む)を可能にするシステムを説明してきた。むしろ、重み付け及びアップミックス動作は、パラメトリックデータに基づく。
ダウンミックス及びアップミックスに対して使用されるサブバンドは、パラメータが計算される解析バンドと比較的近く対応するとき、斯様なアプローチは特に好適である。
これは、しばしば、ダウンミックスサブバンド及びパラメトリックデータ解析周波数バンドが一致する傾向がある低い周波数に対する場合である。しかしながら、幾つかの実施例では、解析周波数バンドより精細な周波数及び/又は時間量子化を持つダウンミックスサブバンドを例えば持つことが好適であり、これは、幾つかのシナリオでは改善された音声品質に結果的になるからである。これは、特に、高い周波数に対する場合である。
このように、高い周波数では、ダウンミックスのサブバンド間の相関とパラメータ解析とが異なってもよい。重み付けが個別のダウンミックスサブバンドに対して異なるので、各サブバンドに対する個別の重み付けとパラメトリックデータとの間の相関は、正確さが劣る。しかしながら、パラメトリックデータは、ダウンミックス重み付けの粗い推定値を生成するために通常使用され、関連する品質劣化は、通常許容可能であろう。
特に、幾つかの実施例では、エンコーダは、各サブバンドで使用される実際のダウンミックス重み付けと、より広い解析バンドのパラメトリックデータに基づいて計算されたものとの間の違いを評価する。相違があまりにも大きくなる場合、エンコーダは、この指標を含む。このように、エンコーダは、パラメトリックデータが少なくとも一つの周波数−時間間隔に対する(例えば、一つのセグメントのダウンミックスサブバンドに対する)重み付けを生成するために使用されるべきかの指標を含んでもよい。当該指標が、パラメトリックデータが使用されるべきでないという場合、エンコーダは、代わりに、他のアプローチを使用してもよく、例えば簡単な和であるダウンミックスの仮定に基づいてアップミキシングしてもよい。
幾つかの実施例では、エンコーダは、更に、サブバンドに対して用いられるダウンミックス重み付けの指標を含むように設けられ、当該サブバンドに対して正確さ指標はパラメトリックデータが重み付けを推定するには不十分であることを示す。斯様な実施例では、デコーダ115は、これらの重み付けをこのように直接取り出し、これらを適当なサブバンドに適用する。重み付けは、絶対値として通信されてもよいし、又は例えば実際の重み付けとパラメトリックデータを使用して計算されるものとの差のような相対的値として例えば通信されてもよい。
明快さのための上記説明は、種々の機能的回路、ユニット及びプロセッサを参照して本発明の実施例を説明されてきたことは理解されるだろう。しかしながら、種々の機能的回路、ユニット又はプロセッサ間の機能性の任意の適切な配信が本発明を損なうことなく使用されてもよいことは理解されるだろう。例えば、プロセッサ又はコントローラにより実施されるために例示された機能は、同じプロセッサ又はコントローラにより実施されてもよい。よって、特別な機能性ユニット又は回路の参照は、厳格に論理的若しくは物理的構造又は組織を示すよりむしろ説明された機能を供給するための適切な手段の参照として見られるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせを含む任意の適切な形式で実行できる。本発明は、オプション的には、一つ以上のデータプロセッサ及び/又はデジタル信号プロセッサで実行するコンピュータソフトウェアとして少なくとも部分的に実行されてもよい。本発明の実施例の要素及び部品が、任意の適当な態様で物理的に、機能的に及び論理的に実行されてもよい。実際、機能は、単一のユニット、複数のユニット、又は他の機能ユニットの一部として実行されてもよい。例えば、本発明は、単一のユニットで実行されてもよいし、種々のユニット、回路及びプロセッサ間で物理的及び/又は機能的に配信されてもよい。
本発明が幾つかの実施例と関連して説明されてきたが、ここで説明される特定の形式に限定されることを意図していない。むしろ、本発明の範囲は、添付の請求項によってのみ限定される。加えて、特徴が特定の実施例と関連して説明されるように見えるが、当業者は、説明される実施例の様々な特徴が本発明に従って組み合わされてもよいことを認識するだろう。請求項において、「有する」という用語は、他の要素又はステップの存在を除外しない。
更にまた、個々にリストされたが、複数の手段、要素、回路又は方法のステップが単一の回路、ユニット又はプロセッサにより実行されてもよい。加えて、個々の特徴が異なる請求項に含まれているが、これらは、好適に組み合わせられてもよく、異なる請求項に含まれていることは、特徴の組み合わせが可能ではない及び/又は好適ではないことを暗示していない。一つのカテゴリの請求項内の特徴に含まれることは、このカテゴリへの限定を暗示しているわけではなく、むしろ特徴が適当に他の請求項のカテゴリに等しく適用可能であることを示す。更にまた、請求項内の特徴の順番は、特徴が働かなければならない任意の特定の順番を暗示するわけではなく、特に、方法の請求項の個別のステップの順番は、これらのステップがこの順番に実施されなければならないことを暗示するものではない。むしろ、これらのステップは、任意の好適な順番で実施されてもよい。加えて、単一の参照符号は複数を除外しない。このように、「a」「an」「第1」「第2」等の用語は、複数であることを妨げない。請求項内の参照符号は、単に明確な例として提供されていて、いずれの態様においても請求項の範囲を限定するものとして考慮されるべきではない。

Claims (15)

  1. 第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けられた第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネル信号との結合であるダウンミックスを受信するための第1の受信器と、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを受信するための第2の受信器と、前記アップミックスパラメトリックデータから第2の重み付けに対する第2の重み付け推定値及び第1の重み付けに対する第1の重み付け推定値を生成する回路と、前記アップミックスパラメトリックデータ、第1の重み付け推定値及び第2の重み付け推定値に応じて、前記ダウンミックスをアップミキシングすることによりマルチチャネル音声信号を生成するためのアップミキサーとを有し、アップミキシングすることは第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つの振幅に依存する、マルチチャネル音声信号を生成するためのデコーダ。
  2. 前記回路は、前記少なくとも幾つかの時間−周波数間隔に対する前記アップミックスパラメトリックデータの少なくとも幾つかのパラメータとの異なる関係を持つ第1の重み付け推定値及び第2の重み付け推定値を生成する、請求項1に記載のデコーダ。
  3. 前記アップミキサーは、アップミックスパラメトリックデータのエネルギーパラメータの関数として、第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つを決定し、前記エネルギーパラメータは第1のチャネル信号及び第2のチャネル信号に対する相対的エネルギー特性を示す、請求項2に記載のデコーダ。
  4. 前記エネルギーパラメータは、Interchannel Intensity Difference(IID)パラメータ、Interchannel Level Difference(ILD)パラメータ、及びInterchannel Coherence/Correlation(IC/ICC)パラメータの少なくとも一つである、請求項3に記載のデコーダ。
  5. 前記アップミックスパラメトリックデータは、第1の重み付け及び第2の重み付けと前記アップミックスパラメトリックデータとの間の関係に対する正確さ指標を有し、前記デコーダは、前記正確さ指標に応じて第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つを生成する、請求項1に記載のデコーダ。
  6. 少なくとも一つの周波数間隔に対する第1の重み付け及び第2の重み付けの少なくとも一つが、前記アップミックスパラメトリックデータの対応するパラメータよりも精細な周波数−時間的解像度を持つ、請求項1に記載のデコーダ。
  7. 前記アップミキサーは、前記アップミックスパラメトリックデータに応じて、全位相差(Overall Phase Difference)値を生成し、前記全位相差値に応じて、アップミキシングすることを実施し、前記全位相差値は第1の重み付け推定値及び第2の重み付け推定値に依存する、請求項1に記載のデコーダ。
  8. 前記アップミキシングすることは、前記全位相差値を除けば、第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つの振幅とは独立している、請求項に記載のデコーダ。
  9. 前記アップミキサーは、前記ダウンミックスから、前記ダウンミックスとは相関がない非相関信号を生成し、マトリクス乗算を前記ダウンミックス及び前記非相関信号に付与することにより前記ダウンミックスをアップミキシングし、前記マトリクス乗算の係数が第1の重み付け推定値及び第2の重み付け推定値に依存する、請求項1に記載のデコーダ。
  10. 前記アップミックスパラメトリックデータに応じて第1のチャネル信号及び第2のチャネル信号に対する位相が揃っていない結合のエネルギーを示す第1のエネルギー尺度を決定し、前記アップミックスパラメトリックデータに応じて第1のチャネル信号及び第2のチャネル信号に対する位相が揃った結合のエネルギーを示す第2のエネルギー尺度を決定し、第2のエネルギー尺度に対する第1のエネルギー尺度の第1の尺度を決定し、第1の尺度に応じて第1の重み付け推定値を決定することにより、前記アップミキサーは第1の重み付け推定値を決定する、請求項1に記載のデコーダ。
  11. 第1の重み付け及び第2の重み付けの予め決められた値の複数の対の各々に対して、前記アップミックスパラメトリックデータに応じて予め決められた値の前記対に対応するダウンミックスのエネルギーを示すエネルギー尺度を決定し、前記エネルギー尺度及び予め決められた値の前記対に応じて、第1の重み付けを決定することにより、前記アップミキサーは第1の重み付け推定値を決定する、請求項1に記載のデコーダ。
  12. 第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けされた第1のチャネルの第1のチャネル信号と第2の重み付けにより重み付けされた第2のチャネルの第2のチャネル信号との結合としてダウンミックスを生成するためのダウンミキサーと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを生成するための回路であって、前記アップミックスパラメトリックデータが第1の重み付け及び第2の重み付けを更に特徴付ける、当該アップミックスパラメトリックデータを生成するための回路と、前記ダウンミックス及び前記アップミックスパラメトリックデータを含むエンコード表現を生成するための回路とを有する少なくとも第1のチャネル及び第2のチャネルを有するマルチチャネル音声信号のエンコード表現を生成するためのエンコーダであって、前記ダウンミキサーは、第1のチャネル信号及び第2のチャネル信号に対して位相が揃っていない結合のエネルギーを示す第1のエネルギー尺度を決定し、第1のチャネル信号及び第2のチャネル信号に対して位相が揃った結合のエネルギーを示す第2のエネルギー尺度を決定し、第2のエネルギー尺度に対する第1のエネルギー尺度の第1の尺度を決定し、第1の尺度に応じて第1の重み付け及び第2の重み付けを決定する、エンコーダ。
  13. 第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けられた第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネル信号との結合であるダウンミックスを受信する受信ステップと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを受信するステップと、前記アップミックスパラメトリックデータから第1の重み付けに対する第1の重み付け推定値及び第2の重み付けに対する第2の重み付け推定値を生成するステップと、前記アップミックスパラメトリックデータ、第1の重み付け推定値及び第2の重み付け推定値に応じて、前記ダウンミックスをアップミキシングすることによりマルチチャネル音声信号を生成するステップとを有し、アップミキシングすることは、第1の重み付け推定値及び第2の重み付け推定値の少なくとも一つの振幅に依存する、マルチチャネル音声信号を生成する方法。
  14. 少なくとも第1のチャネル及び第2のチャネルを有するマルチチャネル音声信号のエンコード表現を生成する方法であって、第1の重み付け及び第2の重み付けが少なくとも幾つかの時間−周波数間隔に対して異なる振幅を持つ、少なくとも第1の重み付けにより重み付けられた第1のチャネルの第1のチャネル信号と第2の重み付けにより重み付けられた第2のチャネルの第2のチャネル信号との結合としてダウンミックスを生成するステップと、第1のチャネル信号と第2のチャネル信号との間の関係を特徴付けるアップミックスパラメトリックデータを生成する生成ステップであって、前記アップミックスパラメトリックデータが第1の重み付け及び第2の重み付けを更に特徴付ける当該生成ステップと、前記ダウンミックス及び前記アップミックスパラメトリックデータを含むためのエンコード表現を生成するステップとを有する、方法。
  15. コンピュータに、請求項13又は14に記載の方法を実行するためのコンピュータプログラム。
JP2012538447A 2009-11-12 2010-11-05 パラメトリックエンコード及びデコード Active JP5643834B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09175771A EP2323130A1 (en) 2009-11-12 2009-11-12 Parametric encoding and decoding
EP09175771.6 2009-11-12
PCT/IB2010/055025 WO2011058484A1 (en) 2009-11-12 2010-11-05 Parametric encoding and decoding

Publications (2)

Publication Number Publication Date
JP2013511062A JP2013511062A (ja) 2013-03-28
JP5643834B2 true JP5643834B2 (ja) 2014-12-17

Family

ID=42008564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012538447A Active JP5643834B2 (ja) 2009-11-12 2010-11-05 パラメトリックエンコード及びデコード

Country Status (10)

Country Link
US (1) US9070358B2 (ja)
EP (2) EP2323130A1 (ja)
JP (1) JP5643834B2 (ja)
KR (1) KR101732338B1 (ja)
CN (1) CN102598122B (ja)
BR (1) BR112012011084B1 (ja)
MX (1) MX2012005414A (ja)
RU (1) RU2560790C2 (ja)
TW (1) TWI573130B (ja)
WO (1) WO2011058484A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
CN103403801B (zh) * 2011-08-29 2015-11-25 华为技术有限公司 参数多通道编码器和解码器
ES2555136T3 (es) * 2012-02-17 2015-12-29 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
WO2013149673A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for inter-channel difference estimation and spatial audio coding device
KR20140016780A (ko) * 2012-07-31 2014-02-10 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
BR112015002793B1 (pt) * 2012-08-10 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Codificador, decodificador, sistema e método empregando um conceito residual para codificação de objeto de áudio paramétrico
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
JP6169718B2 (ja) 2012-12-04 2017-07-26 サムスン エレクトロニクス カンパニー リミテッド オーディオ提供装置及びオーディオ提供方法
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN104299615B (zh) * 2013-07-16 2017-11-17 华为技术有限公司 一种声道间电平差处理方法及装置
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
RU2730548C2 (ru) * 2015-09-25 2020-08-24 Войсэйдж Корпорейшн Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
EP3301673A1 (en) * 2016-09-30 2018-04-04 Nxp B.V. Audio communication method and apparatus
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
AU2017357452B2 (en) * 2016-11-08 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
BR112019009318A2 (pt) * 2016-11-08 2019-07-30 Fraunhofer Ges Forschung aparelho e método para codificar ou decodificar um sinal multicanal com o uso de um ganho lateral e um ganho residual
CN109389984B (zh) 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN113782039A (zh) * 2017-08-10 2021-12-10 华为技术有限公司 时域立体声编解码方法和相关产品
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10580420B2 (en) 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
CA3132404A1 (en) * 2019-03-06 2020-09-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method of downmixing
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
US20220399026A1 (en) * 2021-06-11 2022-12-15 Nuance Communications, Inc. System and Method for Self-attention-based Combining of Multichannel Signals for Speech Processing

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US7343281B2 (en) * 2003-03-17 2008-03-11 Koninklijke Philips Electronics N.V. Processing of multi-channel signals
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
DE602005006777D1 (de) 2004-04-05 2008-06-26 Koninkl Philips Electronics Nv Mehrkanal-codierer
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
JP2006325162A (ja) * 2005-05-20 2006-11-30 Matsushita Electric Ind Co Ltd バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
BRPI0613734B1 (pt) * 2005-07-19 2019-10-22 Agere Systems decodificador, método e receptor para gerar um sinal de áudio de multi-canais, unidade legível por computador, sistema de transmissão, método para transmitir e receber um sinal de áudio, e, dispositivo de reprodução de áudio
US7693706B2 (en) 2005-07-29 2010-04-06 Lg Electronics Inc. Method for generating encoded audio signal and method for processing audio signal
ES2587999T3 (es) * 2005-10-20 2016-10-28 Lg Electronics Inc. Procedimiento, aparato y soporte de registro legible por ordenador para decodificar una señal de audio multicanal
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US9009057B2 (en) * 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
EP2000001B1 (en) 2006-03-28 2011-12-21 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for a decoder for multi-channel surround sound
US8271290B2 (en) * 2006-09-18 2012-09-18 Koninklijke Philips Electronics N.V. Encoding and decoding of audio objects
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法

Also Published As

Publication number Publication date
TW201145259A (en) 2011-12-16
KR20120089335A (ko) 2012-08-09
TWI573130B (zh) 2017-03-01
US20120224702A1 (en) 2012-09-06
US9070358B2 (en) 2015-06-30
EP2499638A1 (en) 2012-09-19
JP2013511062A (ja) 2013-03-28
WO2011058484A1 (en) 2011-05-19
BR112012011084A2 (pt) 2017-09-19
EP2499638B1 (en) 2015-02-25
RU2560790C2 (ru) 2015-08-20
KR101732338B1 (ko) 2017-05-04
EP2323130A1 (en) 2011-05-18
CN102598122A (zh) 2012-07-18
CN102598122B (zh) 2014-10-29
MX2012005414A (es) 2012-06-14
BR112012011084B1 (pt) 2020-12-08
RU2012123750A (ru) 2013-12-20

Similar Documents

Publication Publication Date Title
JP5643834B2 (ja) パラメトリックエンコード及びデコード
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
US8433583B2 (en) Audio decoding
JP5490143B2 (ja) ダウンミックスオーディオ信号をアップミックスするためのアップミキサー、方法、および、コンピュータ・プログラム
JP5174973B2 (ja) ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム
JP5724044B2 (ja) 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置
WO2010097748A1 (en) Parametric stereo encoding and decoding
EP2834813A1 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
KR20110018728A (ko) 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
RU2696952C2 (ru) Аудиокодировщик и декодер
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
WO2011039668A1 (en) Apparatus for mixing a digital audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131101

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141031

R150 Certificate of patent or registration of utility model

Ref document number: 5643834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250