JP5102213B2 - マルチチャンネル音声信号の時間的および空間的整形 - Google Patents

マルチチャンネル音声信号の時間的および空間的整形 Download PDF

Info

Publication number
JP5102213B2
JP5102213B2 JP2008534883A JP2008534883A JP5102213B2 JP 5102213 B2 JP5102213 B2 JP 5102213B2 JP 2008534883 A JP2008534883 A JP 2008534883A JP 2008534883 A JP2008534883 A JP 2008534883A JP 5102213 B2 JP5102213 B2 JP 5102213B2
Authority
JP
Japan
Prior art keywords
channel
representation
resolution
signal
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008534883A
Other languages
English (en)
Other versions
JP2009511966A (ja
Inventor
サッシャ ディスヒ
ユールゲン ヘレ
マティアス ノイズィンガー
イェルーン ブレーバールト
ジェラルド ホトー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009511966A publication Critical patent/JP2009511966A/ja
Application granted granted Critical
Publication of JP5102213B2 publication Critical patent/JP5102213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Description

本発明は、マルチチャンネル音声信号の符号化に関し、特に、再構築されたマルチチャンネル信号の空間的知覚を向上させるための概念に関する。
音声符号化における最近の開発によって、ステレオ(またはモノラル)信号および対応制御データに基づいて音声信号のマルチチャンネル表現を再現する機能が可能となってきている。このような方法は、ドルビープロロジックなどの従来のマトリックスに基づく解決策とは実質的に異なる。なぜならば、送信されたモノラルまたはステレオチャンネルに基づいてサラウンドチャンネルのアップミックスとも称される再現を制御するために、さらなる制御データが送信されるからである。
よって、パラメータによるマルチチャンネル音声デコーダは、M個の送信済みチャンネルとさらなる制御データとに基づいてN個のチャンネルを再構成する。なお、N>Mである。さらなる制御データは、すべてのNチャンネルを送信するよりも著しく低いデータレートを表し、Mチャンネル装置とNチャンネル装置との両方の互換性を同時に確保しつつ、符号化を非常に効率的なものとしている。Mチャンネルは、単一のモノラル、ステレオ、または5.1チャンネル表現のいずれかでありうる。よって、例えば7.2チャンネルの元の信号を5.1チャンネルの後方互換信号にダウンミックスすることができ、空間的音声パラメータによって、空間的音声デコーダは、元の7.2チャンネルと非常に似通ったバージョンを少ない追加のビットレートオーバヘッドで再生することができる。
このようなパラメータによるサラウンド符号化方法は、通常、ILD(チャンネル間レベル差(Interchannel Level Difference))およびICC(チャンネル間コヒーレンス(Inter Channel Coherence))に基づくサラウンド信号のパラメータ化を含む。このようなパラメータは、例えば、電力率と、元のマルチチャンネル信号のチャンネル対間の相関性を表す。復号化処理において、再生したマルチチャンネル信号は、受信されたダウンミックスチャンネルのエネルギーを、送信されたILDパラメータによって表されたすべてのチャンネル対間に分散させることによって得られる。しかしながら、マルチチャンネル信号は、異なるチャンネルにおける信号が非常に異なっていても、すべてのチャンネル間で均一の電力分布を有しうるので、聞いた際に非常に幅広い(拡散)音であるという印象を与え、正確な幅(拡散性)は、信号をその逆相関バージョンでミキシングすることによって得られる。このミキシングは、ICCパラメータによって表される。信号の逆相関バージョンは、当該信号を反射器などの全通過フィルタを通すことによって得られる。
これは、信号の逆相関バージョンはデコーダ側で作成されるものであり、ダウンミックスチャンネルと同様にエンコーダからデコーダへ送信されるものではないことを意味する。全通過フィルタ(逆相関器)からの出力信号は、通常、非常に平坦な時間応答を有する。よって、ディラック入力信号は、減衰ノイズバーストアウトを与える。したがって、逆相関されたものと元信号をミキシングする場合、逆相関信号の時間的エンベロープを整形するのに重要な高密度の過渡事象(喝采(applause)信号)などといったある信号型が、ダウンミックスチャンネルによりよく適合し、しばしばドライ(dry)信号とも称される。それがうまくいかないと、空間サイズが大きいように知覚され、不自然な音の過渡信号という結果となってしまう。過渡信号と全通過フィルタとしての反射器とを有するので、逆相関(ウェット(wet))信号の整形が省略される場合に、反射型のアーチファクトが生じうる。
技術的観点から、例えばMPEG音声合成内にマルチチャンネル信号を再構築する際の重要な課題の1つは、非常に幅広い音像を伴うマルチチャンネル信号を適切に再生させることである。技術的にいえば、これは、低チャンネル間相関(またはコヒーレンス)を伴ういくつかの信号の生成に対応するが、それでもスペクトルおよび時間的エンベロープを厳しく制御するものである。そのような信号の例は、「喝采」要素であり、高度の逆相関および急激な過渡事象(拍手)の両方を示す。その結果、これらの要素は、MPEGサラウンド技術にとって非常に重要なものとなっており、より詳細には、例えば、「MPEG空間音声符号化RM0リスニングテストに関するレポート(Report on MEPG Spatial Audio Coding RM0 Listening Tests)」、ISO/IEC JTC1/SC29/WG11(MPEG)、文書N7138、釜山、大韓民国、2005年、に詳述されている。一般的に、過去の研究は、以下の解決策を提供することによって喝采などの広/拡散信号を最適に再生することに関する数多くの態様に注目している。
1.アーチファクトなどの前反響を防止するために、逆相関信号の時間的(および空間的)整形を、送信されたダウンミックス信号のそれに適合させる(注:これには、空間音声エンコーダから空間音声デコーダへのサイド情報の送信を何ら必要としない)。
2.元の入力信号の時間的エンベロープを示しかつ空間音声エンコーダから空間音声デコーダへ送信されるサイド情報を使用して、合成出力チャンネルの時間的エンベロープを(対応エンコーダの入力の際に存在する)その元エンベロープ形状に適合させる。
現在、MPEGサラウンド基準モデルは、そのような信号の符号化をサポートするいくつかのツールを既に含んでいる。例えば、
・時間領域の時間的整形(Time Domain Temporal Shaping:TP)
・時間的エンベロープ整形(Temporal Envelope Shaping:TES)
MPEGサラウンド合成システムにおいて、送信されたICC値に従って合成出力信号の相関性を制御するために、逆相関音が生成されて「ドライ」信号とミキシングされる。以下、逆相関信号を「拡散(diffuse)」信号と称するが、「拡散」という用語は、信号自身の性質よりも再構築された空間音フィールドの性質を反映している。過渡信号に関して、デコーダにおいて生成された拡散音は、ドライ信号の上質な時間的整形に自動的には適合せず、ドライ信号とは知覚的にうまく一致するものではない。これにより、知覚音声符号化から知られている「前反響問題」と同様に、過渡再生が悪くなる。時間領域の時間的整形を実施するTPツールは、拡散音の処理によってこの問題に対処するために設計される。
TPツールは、図14に示すように時間領域において適用される。これは、基本的には、MPEGサラウンド符号化器のフィルタバンクによって提供されるものより高い時間解像度を伴うドライおよび拡散信号の時間的エンベロープ推定からなる。拡散信号は、ドライ信号のエンベロープに適合するために、その時間的エンベロープにおいて再スケーリングされる。この結果、喝采などの空間的画像が広い/チャンネル信号間の相関が低い臨界的な過渡信号についての音声品質が著しく向上する。
エンベロープ整形(チャンネル内に含まれるエネルギーの時間的進展の調整)は、ウェット信号の正規化された短時間エネルギーをドライ信号のそれに適合させることによって行われる。これは、拡散信号に適用される時間変動するゲイン関数によって達成され、拡散信号の時間エンベロープがドライ信号のそれに適合するように整形される。
注意すべきなのは、信号の時間的エンベロープを処理するために、エンコーダからデコーダへ送信されるべきサイド情報を何ら必要としないということである(TPを選択的に許可/禁止するための制御情報のみがサラウンドエンコーダによって送信される)。
図14は、MPEGサラウンド符号化内で適用されるような時間領域の時間的整形を示す。直接信号10および整形されるべき拡散信号12が処理対象の信号であり、共にフィルタバンク領域に提供される。MPEGサラウンド内において、オプションとして、まだフィルタバンク領域内にある直接信号10に追加される残余信号14が利用可能であってもよい。MPEGサラウンドデコーダの特別な場合においては、拡散信号12の高周波数部のみが整形されるので、信号の低周波数部16は、フィルタバンク領域内の直接信号10に追加される。
直接信号10および拡散信号12は、フィルタバンク合成装置18aおよび18bによって別個に時間領域に変換される。実際の時間領域の時間的整形は、合成フィルタバンクの後に行われる。拡散信号12の高周波数部のみが整形されることになっているので、直接信号10および拡散信号12の時間領域表現は、以降のフィルタリングステップにおいて信号の高周波数部のみが使用されることを保証する高域通過フィルタ20aおよび20bへ入力される。後に続く信号のスペクトル白色化は、スペクトル白色化器22aおよび22bにおいて行われて、信号の全スペクトル範囲の振幅(エネルギー)比率を以降のエンベロープ推定24において占めることを確実にしてもよい。エンベロープ推定24では、所定の時間部分内における直接信号および拡散信号内に含まれるエネルギーの比率を比較する。この時間部分は、通常フレーム長によって規定される。エンベロープ推定24は出力として、スケール係数26を有し、信号エンベロープが基本的に各フレーム内の拡散信号12および直接信号10で同一であることを保証するために、これが時間領域内のエンベロープ整形28における拡散信号12に適用される。
最後に、エンベロープが整形された拡散信号には、低域周波数帯域のアーチファクトが含まれてないことを保証するために、エンベロープが整形された拡散信号は、再び高域通過フィルタ29によって高域通過フィルタリングされる。直接信号と拡散信号との結合が加算器30によって行われる。その後、出力信号32は、直接信号10および拡散信号12の信号部を含み、拡散信号はエンベロープ整形されて、信号エンベロープが基本的に結合前の拡散信号12および直接信号10で同一であることを確実にする。
拡散音の時間的整形の詳細な制御の問題は、いわゆる時間的エンベロープ整形(TES)ツールによっても対処できる。このツールは、時間的処理(Temporal Processing:TP)ツールに代わる複雑性の低いものとして設計されている。TPは、拡散音エンベロープの時間領域スケーリングによって時間領域において動作するのに対して、TESによる取り組みは、スペクトル領域表現における拡散音エンベロープを制御することによって同一原理の効果を達成する。これは、MPEG‐2/4高度音声符号化(Advanced Audio Coding:AAC)から知られているような時間領域雑音整形(Temporal Noise Shaping:TNS)による取り組みと同様に行われる。拡散音の細かい時間的エンベロープの操作は、そのスペクトル係数をドライ信号のスペクトル係数のLPC分析から派生された適切な整形フィルタで周波数に亘って畳み込むことによって実現される。MPEGサラウンドフィルタバンクは、時間解像度が非常に高いことから、TES処理には低次フィルタリング(1次複素予測)のみを必要とするので、計算の複雑性は低い。それに対して、例えば時間的エイリアシングに関連する制約により、TPツールが提供する時間的制御の全範囲を提供することはできない。
注意すべきなのは、TESは、TPの場合と同様に、信号の時間的エンベロープを説明するために、エンコーダからデコーダへサイド情報を何ら送る必要がないことである。
TPおよびTESというツールは共に、時間的整形を送信されたダウンミックス信号のそれに適合させることによって拡散音の時間的整形の問題に上手く対処している。これによって前反響型のアンマスキングが回避される一方で、マルチチャンネル出力信号における第2の型の不備は、空間的な再分配が欠けているので埋め合わせることはできない。
喝采信号は、過渡事象(拍手)の高密度の混合からなり、過渡事象のうちのいくつかは、典型的には同一のパラメータフレーム内となる。フレーム内のすべての拍手が同一(または同様の)空間的方向から生じるわけではないのは明らかである。しかしながら、MPEGサラウンドデコーダに関しては、デコーダの時間的な精度は、フレームサイズとパラメータスロットの時間的精度とによって主に決定される。よって、合成後において、各拍手が個々に局在化されてもよいような(実際そのように感じられてもよい)元信号とは対照的に、あるフレーム内のすべての拍手が同一の空間的向き(出力チャンネル間のレベル分布)で現れる。
また、喝采信号などの非常に臨界的な信号の空間的再分散の観点からよい結果を達成するためには、アップミックス済みの信号の時間エンベロープを非常に高い時間解像度で整形する必要がある。
「MPEG空間音声符号化RM0リスニングテストに関するレポート(Report on MEPG Spatial Audio Coding RM0 Listening Tests)」、ISO/IEC JTC1/SC29/WG11(MPEG)、文書N7138、釜山、大韓民国、2005年
したがって、本発明の目的は、効率的な符号化を可能にするマルチチャンネル音声信号の符号化のための概念を提供して、マルチチャンネル信号の空間的分布の改良された保存を提供することである。
本発明の第1の態様によれば、本目的は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するためのデコーダによって実現され、ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低く、フレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、本デコーダは、中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するためのアップミキサと、選択されたアップミックス済みのチャンネルを、選択されたアップミックス済みのチャンネルに対応する選択された元チャンネルの中間波形パラメータを使用して整形するための整形器とを備える。
本発明の第2の態様によれば、本目的は、サンプリング期間を有するサンプリング値をそれぞれ備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するためのエンコーダによって実現され、本エンコーダは、フレームのサンプリング値を使用して、サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有するチャンネルの低解像度表現を派生させるための時間解像度減少器と、低解像度表現の波形を表わす波形パラメータ表現を計算するための波形パラメータ計算器であって、サンプリング値の時間解像度よりも低く、フレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合されている、波形パラメータ計算器とを備える。
本発明の第3の態様によれば、本目的は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するための方法によって実現され、ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、また、元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、本方法は、中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するステップと、選択されたアップミックス済みのチャンネルを、選択されたアップミックス済みのチャンネルに対応する選択された元チャンネルの中間波形パラメータを使用して整形するステップとを含む。
本発明の第4の態様によれば、本目的は、サンプリング期間を有するサンプリング値を備えるそれぞれフレームによって表されるマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するための方法によって実現され、本方法は、フレームのサンプリング値を使用して、サンプリング期間よりも大きい低解像度期間に関連付けられる低解像度値を有するチャンネルの低解像度表現を派生させるステップと、低解像度表現の波形を表わす波形パラメータ表現を計算するステップであって、波形パラメータ計算器は、サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合される、ステップとを含む。
本発明の第5の態様によれば、本目的は、1つ以上のチャンネルを有するマルチチャンネル音声信号から派生されたベース信号に基づくマルチチャンネル音声信号の表現によって実現され、ベース信号のチャンネル数は、マルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、また、マルチチャンネル信号の選択されたチャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い時間解像度を有する中間波形パラメータのシーケンスを含む。
本発明の第6の態様によれば、本目的は、1つ以上のチャンネルを有するマルチチャンネル音声信号から派生されたベース信号に基づく、マルチチャンネル音声信号の表現を記憶するコンピュータ読み出し記憶媒体によって実現され、ベース信号のチャンネル数は、マルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、また、マルチチャンネル信号の選択されたチャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い時間解像度を有する中間波形パラメータのシーケンスを含む。
本発明の第7の態様によれば、本目的は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するためのデコーダを有する受信器または音声再生器によって実現され、ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、また、元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するためのアップミキサと、選択されたアップミックス済みのチャンネルを、選択されたアップミックス済みのチャンネルに対応する選択された元チャンネルの中間波形パラメータを使用して整形するための整形器とを備える。
本発明の第8の態様によれば、本目的は、サンプリング期間を有するサンプリング値をそれぞれ備えるフレームによって表されるマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するためのエンコーダを有する送信器または音声記録器によって実現されるのであって、エンコーダは、フレームのサンプリング値を使用して、サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有するチャンネルの低解像度表現を派生させるための時間解像度減少器と、低解像度表現の波形を表わす波形パラメータ表現を計算するための波形パラメータ計算器であって、サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合されている、波形パラメータ計算器とを備える。
本発明の第9の態様によれば、本目的は、受信または音声再生の方法によって実現され、マルチチャンネル出力信号を生成するための方法を有し、本方法は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づいており、ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、本方法は、元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、方法は、中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するステップと、選択されたアップミックス済みのチャンネルを、選択されたアップミックス済みのチャンネルに対応する選択された元のチャンネルの中間波形パラメータを使用して整形するステップとを含む。
本発明の第10の態様によれば、本目的は、送信または音声記録の方法によって実現され、サンプリング期間を有するサンプリング値をそれぞれ備えるフレームによって表されるマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するための方法を有し、方法は、フレームのサンプリング値を使用して、サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有するチャンネルの低解像度表現を派生させるステップと、低解像度表現の波形を表わす波形パラメータ表現を計算するステップであって、波形パラメータ計算器は、サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合されている、ステップとを含む。
本発明の第11の態様によれば、本目的は、送信器および受信器を有する送信システムによって実現され、送信器は、サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するためのエンコーダを有し、受信器は、マルチチャンネル出力信号を生成するためのデコーダを有し、デコーダは、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づいており、ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、また、元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含む。
本発明の第12の態様によれば、本目的は、送信および受信の方法によって実現され、送信の方法は、サンプリング期間を有するサンプリング値をそれぞれ備えるフレームによって表されるマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するための方法を有し、受信の方法は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するための方法を有し、ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、ベース信号は、高解像度を有するサンプリング値をそれぞれ備えるフレームに組織化されており、また、元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、波形パラメータ表現は、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含む。
本発明の第13の態様によれば、本目的は、コンピュータを実行する際に、上記方法のいずれかを行うためのプログラムコードを有するコンピュータプログラムによって実現される。
本発明は、以下の知見に基づく。すなわち、高時間解像度を有するサンプリング値からなるフレームによって表されるマルチチャンネル信号の選択されたチャンネルがより高品質で符号化可能なのは、選択されたチャンネルの中間解像度表現の波形を表す波形パラメータ表現が派生された場合であるということである。本波形パラメータ表現には、サンプリング値の高時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する中間波形パラメータのシーケンスを含む。再構築されたチャンネルを整形して、選択された元のチャンネルに近い信号エンベロープを有するチャンネルを取り出すために、中間解像度の波形パラメータ表現を使用することができる。整形が行われる時間スケールは、フレームのような処理の時間スケールよりも細かいので、再構築されたチャンネルの品質を向上させる。その一方で、整形時間スケールはサンプリング値の時間スケールよりも粗いので、波形パラメータ表現によって必要とされるデータ量を著しく減少させる。
エンベロープ整形に適した波形パラメータ表現は、本発明の好ましい一実施の形態において、サンプリング期間内の信号の強度を示すパラメータとして、信号強度の度合いを含んでもよい。信号強度は信号の知覚的な音の大きさに非常に関連しているので、強度パラメータを使用することは、エンベロープ整形を実施するために適切な選択である。2つの自然信号強度パラメータは、例えば、振幅または二乗された振幅、すなわち、信号のエネルギーである。
本発明は、高い時間的な精度で信号空間分散を回復し、それによって喝采信号などに関連するような「空間分散」の完全な知覚を回復させるための機構を提供することを目的としている。重要なサイド条件として、送信された制御情報(サラウンドサイド情報)が容認できないほど多く増加することなく、改良されたレンダリング性能が達成されることが挙げられる。
以下の段落において説明される本発明は、利用可能なダウンミックス信号と追加の制御データとに基づく音声信号のマルチチャンネル再構築に主に関する。元の信号の(所定の)ダウンミックスに対してマルチチャンネル特性を表す空間的パラメータが、エンコーダの側で抽出される。ダウンミックス信号および空間的表現が、ダウンミックス信号とその逆相関されたバージョンとの結合を再構築されているチャンネルに分散させることによって、元のマルチチャンネル信号に非常に似通った表現を再生成するために、デコーダ内で使用される。
本発明は、ステレオデジタル無線送信(DAB、XM衛星無線など)などの後方互換ダウンミックス信号が望ましいシステム内において適用可能であるが、マルチチャンネルの非常にコンパクトな表現を必要とするシステム内においても適用可能である。以下の段落では、MPEGサラウンド音声標準規格内のアプリケーションにおいて本発明を説明する。いうまでもなく、上述のような例などの他のマルチチャンネル音声符号化システム内においても適用可能である。
本発明は、以下の考慮事項に基づく。
・最適な知覚音声品質のためには、MPEGサラウンド合成段階が、逆相関のための手段を提供するだけでなく、細かい時間的な精度上の信号の空間的分散を再合成することができなくてはならない。
・これには、マルチチャンネル信号の空間的分散(チャンネルエンベロープ)を表すサラウンドサイド情報の送信が必要である。
・各時間的チャンネルエンベロープの送信のために必要なビットレートを最小限にするためには、この情報を、ダウンミックス信号のエンベロープに対して正規化されかつ関連付けられたやり方で符号化する。エンベロープ送信に必要なビットレートをさらに減少させるために、追加のエントロピー符号化ステップが続く。
・この情報に従って、MPEGサラウンドデコーダは、時間的な対象エンベロープに適合するように直接および拡散音(または結合された直接/拡散音)を共に整形する。これにより、個々のチャンネルエンベロープの独立的な制御が可能となり、空間的分散の知覚を細かい時間的精度で再生成し、これは、(逆相関手法のみによるフレームベースの低解像度の空間的処理よりも)元のものに非常に似通ったものとなる。
ガイドされたエンベロープ整形の原理は、スペクトルおよび時間領域の両方において適用することができ、スペクトル領域における実施の方が計算の複雑性が低い。
本発明の一実施の形態において、マルチチャンネル信号の選択されたチャンネルは、チャンネルのエンベロープを説明するパラメータ表現によって表され、該チャンネルは、高サンプリングレート、すなわち高時間解像度を有するサンプリング値のフレームによって表される。エンベロープは、チャンネルに含まれるエネルギーの時間的な進化として規定されており、エンベロープは、典型的には、フレーム長に対応する時間間隔のために計算される。本発明において、単一のパラメータがエンベロープを表す時間スライスは、フレームによって規定された時間スケールに対して減少する。すなわち、この時間スライスは、サンプリング間隔よりも長くフレーム長よりも短い中間時間間隔である。これを実現するために、サンプリングパラメータによって提供される解像度に比べて低い時間解像度を有するフレームを説明する、選択されたチャンネルの中間解像度表現を計算する。選択されたチャンネルのエンベロープは、一方で低解像度表現の時間解像度を向上させるとともに他方で時間領域内の整形に比べてデータ量と必要な計算の複雑性とを減少させる低解像度表現の時間解像度を使用して推定される。
本発明の好ましい一実施の形態において、選択されたチャンネルの中間解像度表現は、選択されたチャンネルのダウンサンプリングされたフィルタバンク表現を派生するフィルタバンクによって提供される。フィルタバンク表現において、各チャンネルは、数多くの有限の周波数帯域に分割され、各周波数帯域は、サンプリング値の時間解像度よりも低い時間解像度の選択された周波数帯域内の信号の時間的な進化を説明する数多くのサンプリング値によって表されている。
フィルタバンク領域における本発明の適用は、数多くの大きな利点を有する。その実施は、既存の符号化スキームに上手く適合する。すなわち、本発明は、MPEGサラウンド音声符号化などの既存の音声符号化スキームに対して完全に後方互換性を有して実施することができる。さらに、フィルタバンクのダウンサンプリング特性によって、時間解像度の必要な減少が自動的に提供され、スペクトルの白色化を、時間領域よりもフィルタバンク領域における計算の複雑性の方が遥かに低く実施することができる。さらなる利点としては、進歩的な本概念は、知覚的な品質の観点から、整形を必要とする選択されたチャンネルの周波数部分だけに適用されてもよいということである。
本発明のさらに好ましい一実施の形態において、選択されたチャンネルのエンベロープとエンコーダ側から派生されたダウンミックス信号のエンベロープとの間の比率を説明する、選択されたチャンネルの波形パラメータ表現が派生される。エンベロープの差分または相対推定に基づいて波形パラメータ表現を派生させることは、波形パラメータ表現によって必要とされるビットレートをさらに削減するという主要な利点がある。さらなる好ましい実施の形態において、そのように派生された波形パラメータ表現は、波形パラメータ表現によって必要とされるビットレートを削減するために、量子化される。さらに非常に有利なことには、情報をさらに損失することなくビットレートをさらに節約するために、エントロピー符号化を量子化されたパラメータに適用する。
本発明のさらに好ましい一実施の形態において、波形パラメータは、所定の時間部についての選択されたチャンネルに含まれるエネルギーを説明するエネルギーの度合いに基づく。エネルギーは、好ましくは、選択されたチャンネルを説明するサンプリングパラメータの二乗和として計算される。
本発明のさらに好ましい一実施の形態において、マルチチャンネル音声信号の選択された音声信号の中間解像度表現に基づいて波形パラメータ表現を派生させる進歩的な本概念は、時間領域において実施される。必要とされる中間解像度表現の派生は、数多くの連続するサンプリング値の(二乗)平均またはエネルギー和を計算することによって実現可能である。平均化される連続するサンプリング値の数の違いによって、エンベロープ整形処理の時間解像度を簡便に調整することができる。上述の実施形態を修正した形態においては、波形パラメータ表現の派生のために各n番目のサンプリング値のみが使用されて、計算の複雑性をさらに減少させる。
本発明のさらに好ましい一実施の形態において、整形パラメータの派生は、周波数領域における計算の複雑性が比較的低く行われ、実際の整形、すなわち整形パラメータの適用は、時間領域において行われる。
本発明のさらに好ましい一実施の形態において、エンベロープ整形は、高時間解像度のエンベロープ整形が本当に必要な、選択されたチャンネルの部分に対してのみ適用される。
上の段落において説明した本発明は、以下の利点を生じさせる。
・最悪の場合の信号であると現在考えられうる喝采信号などの高密度の過渡音の空間的な音質の改善。
・エンベロープ情報の非常にコンパクトな符号化により、空間的な音声サイド情報比率の適度な増加に留める(エンベロープの継続的な送信につき約5キロビット/秒)。
・知覚的に必要な場合にのみ、エンベロープをエンコーダに送信させることによって、ビットレート全体をさらに減少しうる。提案されるエンベロープビットストリーム要素のシンタックスはこれを考慮している。
進歩的な本概念は、ガイドされたエンベロープ整形として説明でき、以下の段落内で簡潔にまとめられる。
ガイドされたエンベロープ整形は、ビットストリーム内に含まれるパラメータのブロードバンドエンベロープサイド情報を使用して、エンベロープ平坦化および各出力チャンネルの再整形を行うことによって、合成された出力信号のブロードバンドエンベロープを復元する。
再整形処理では、ダウンミックスおよび出力チャンネルのエンベロープが抽出される。これらのエンベロープを取得するために、パラメータ帯域およびスロット毎のエネルギーが計算される。続いて、スペクトル白色化動作が行われ、すべてのパラメータ帯域の総エネルギーが同一となるように、各パラメータ帯域のエネルギー値が重み付けされる。最後に、すべてのパラメータ帯域の重み付けされたエネルギーを合計および正規化することによってブロードバンドエンベロープが取得され、長期間定数を使用する低域通過フィルタリングによって長期間平均エネルギーが取得される。
エンベロープ再整形処理は、対象エンベロープに向けて出力チャンネルの平坦化および再整形を行うものであって、これは、各出力チャンネルの直接および拡散音部分上のゲイン曲線を計算および適用することによって行われる。したがって、送信されたダウンミックスおよび各出力チャンネルのエンベロープは、上述のように抽出される。
その後、抽出されたダウンミックスエンベロープおよび抽出された出力エンベロープの比率を、ビットストリームで送信されたエンベロープ比率値でスケーリングすることによって、ゲイン曲線が取得される。
提案されるエンベロープ整形ツールは、ビットストリームで送信される量子化されたサイド情報を使用する。エンベロープサイド情報に対する総ビットレートの要求を表1に列挙する(44.1kHzサンプリングレートで5ステップ量子化エンベロープサイド情報であると仮定する)。
Figure 0005102213
上述のように、ガイドされた時間的エンベロープ整形は、TESまたはTPによって対処されるのと直交する問題に対処する。提案されるガイドされた時間的エンベロープ整形は、過渡事象の空間的分散を改善することが目的であるのに対して、TESおよびTPツールは、ドライエンベロープに適合させるために拡散音エンベロープを整形するように機能する。よって、高品質な適用の場合には、新規に提案されたツールをTESまたはTPと組み合わせるのが推奨される。最適な性能のためには、ガイドされた時間的エンベロープ整形は、デコーダツールチェーンにおけるTESまたはTPの適用以前に行われる。さらに、TESおよびTPツールは、提案されるツールと継ぎ目なく統合するようにその構成はやや改造される。基本的には、TESまたはTP処理において対象エンベロープを派生させるために使用される信号を、ダウンミックス信号を使用することから再整形された個々のチャンネルアップミックスチャンネルを使用することに変更する。
既に上述のように、進歩的な本概念の大きな利点の1つに、MPEGサラウンド符号化スキーム内に配置できる可能性がある。進歩的な本概念は、一方では、過渡事象または信号の適切な処理に必要な時間的整形機構を実施するので、TP/TESツールの機能を拡張する。他方では、本ツールは、整形処理をガイドするためのサイド情報の送信を必要とする。必要とされる平均サイド情報ビットレート(連続するエンベロープ送信用には約5キロビット/秒)は比較的低いものの、概念上の品質のゲインは著しい。その結果、新規の本概念は、既存のTP/TESツールに対する付加として提案される。高い音声品質を維持しながら計算の複雑性をやや低くしておくという意味において、新規に提案された概念をTESに組み合わせるのが好ましい動作モードである。計算の複雑性に関して、エンベロープ抽出および再整形に必要とされる計算はフレーム毎ベースのものもあれば、スロット(すなわち、フィルタバンク領域内の時間間隔)毎に行われるものもあることに注意されたい。複雑性は、フレーム長と共にサンプリング周波数にも依存する。フレーム長が32スロットでサンプリングレートが44.1KHzとすると、上記のアルゴリズムは、エンベロープ抽出のために1チャンネルにつき毎秒約105.000動作(operation per second:OPS)を必要とし、1つのチャンネルの整形のために330.000OPSを必要とする。1つのエンベロープ抽出がダウンミックスチャンネル毎に必要であり、かつ、1つの整形動作が出力チャンネル毎に必要なので、これにより、5‐1‐5構成、すなわち5チャンネルのマルチチャンネル音声信号がモノラルダウンミックス信号によって表される場合には合計1.76MOPSの複雑性となり、ステレオダウンミックス信号を使用する5‐2‐5構成では1.86MOPSとなる。
本発明の好ましい実施の形態は、添付の図面を参照することによって次に説明する。
図1は、進歩的なデコーダを示す。
図2は、進歩的なエンコーダを示す。
図3aは、ハイブリッドフィルタバンクのフィルタ帯域インデックスを対応サブバンドインデックスに割り当てる表を示す。
図3bは、ハイブリッドフィルタバンクのフィルタ帯域インデックスを対応サブバンドインデックスに割り当てる表を示す。
図4は、異なるデコード構成のパラメータを示す。
図5は、進歩的な概念の後方互換性を表わす符号化スキームを示す。
図6は、異なる構成を選択するパラメータ構成を示す。
図7は、後方互換符号化スキームを示す。
図7bは、異なる量子化スキームを示す。
図8は、後方互換符号化スキームをさらに示す。
図9は、効率的な実施のために使用されるハフマンコードブックを示す。
図10は、マルチチャンネル出力信号のチャンネル構成のための例を示す。
図11は、進歩的な送信器または音声記録器を示す。
図12は、進歩的な受信器または音声再生器を示す。
図13は、進歩的な送信システムを示す。
図14は、従来技術の時間領域の時間的整形を示す。
図1は、アップミキサ42と整形器44とを有する進歩的なデコーダ40を示す。
デコーダ40は、元のマルチチャンネル信号から派生された、1つ以上のチャンネルを有するベース信号46を入力として受信する。ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少ない。デコーダ40は、選択された元のチャンネルの低解像度表現の波形を表す波形パラメータ表現48を第2の入力として受信する。波形パラメータ表現48は、ベース信号46を記述するフレームに組織化されたサンプリング値の時間解像度よりも少ない時間解像度を有する波形パラメータのシーケンスを含む。アップミキサ42は、ベース信号46からアップミックスチャンネル50を生成しており、アップミックス50は、サンプリング値の時間解像度よりも低い時間解像度を有する元のマルチチャンネル信号の選択された元チャンネルの低解像度の推定表現である。整形器44は、アップミックスチャンネル50と波形パラメータ表現48とを入力として受信し、対応する元チャンネルのエンベロープを許容範囲内に収めるように整形済みのアップミックスチャンネル52のエンベロープを調整することによって整形されるアップミックス済みのチャンネル52を派生させる。時間解像度は、波形パラメータ表現の時間解像度によって与えられる。
よって、整形されたアップミックス済みのチャンネルのエンベロープは、ベース信号46を形成するフレームによって規定される時間解像度よりも高い時間解像度で整形される。したがって、再構築された信号の空間的な再分散が、フレームを使用するよりも細かい時間精度で保証され、知覚品質は、波形パラメータ表現48によってビットレートはやや上昇するものの、拡張可能である。
図2は、時間解像度減少器62と波形パラメータ計算器64とを有する進歩的なエンコーダ60を示す。エンコーダ60は、フレーム66によって表わされているマルチチャンネル信号のチャンネルを入力として受信する。フレームは、サンプリング値68aから68gを備え、各サンプリング値は、第1のサンプリング期間を表わす。時間解像度減少器62は、チャンネルの低解像度表現70を派生させる。フレームは、サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値72aから72dを有する。
波形パラメータ計算器64は、低解像度表現70を入力として受信し、波形パラメータ74を計算する。波形パラメータ74は、サンプリング値の時間解像度よりも低くフレームによって規定される時間解像度よりも高い時間解像度を有する。
波形パラメータ74は、好ましくは、低解像度期間によって規定される時間部分内のチャンネルの振幅に依存する。好ましい一実施の形態において、波形パラメータ74は、低解像度期間におけるチャンネル内に含まれるエネルギーを記述している。好ましい一実施の形態において、波形パラメータは、波形パラメータ74に含まれるエネルギーの度合いが、進歩的なマルチチャンネル音声エンコーダによって派生されるダウンミックス信号によって規定される基準エネルギーの度合いに関連して派生されるように派生される。
進歩的な概念の概略を示すために、MPEGサラウンド音声エンコーダの場合における進歩的な概念の適用を以下の段落内でより詳細に述べる。
従来技術のMPEGエンコーダのサブバンド領域内での進歩的な概念の適用は、従来技術の符号化スキームに対して、進歩的な概念である有利な後方互換性をさらに際立たせる。
本発明(ガイドされたエンベロープ整形)は、合成された出力信号のブロードバンドエンベロープを復元する。本発明は、修正されたアップミックス手順に、各出力チャンネルの直接(ドライ)および拡散(ウェット)信号部分のエンベロープ平滑化および再整形が続く。再整形を進めるために、ビットストリームに含まれるパラメータブロードバンドエンベロープサイド情報が使用される。サイド情報は、送信されたダウンミックス信号エンベロープを元の入力チャンネル信号エンベロープに関連付ける比率(envRatio)からなる。
エンベロープ整形処理は、異なる信号に対するエンベロープ抽出動作を用いるので、エンベロープ抽出処理をより詳細に初めに説明する。注意すべきなのは、MPEG符号化スキームにおいて、ハイブリッドフィルタバンクによって派生された表現においてチャンネルが操作されることであり、すなわち、2つの連続フィルタが入力チャンネルに適用される。第1のフィルタバンクは、入力チャンネルの表現を派生させ、そこでは、複数の周波数間隔が、入力チャンネルのサンプリング値の時間解像度よりも低い時間解像度を有するパラメータによって独立して記述される。これらのパラメータ帯域を、以下では文字κによって表わす。あるパラメータ帯域は、後にさらなるフィルタバンクによってフィルタリングされ、当該フィルタバンクは、以下の段落においてkによって表わされる表現を伴って、1つ以上の有限の周波数帯域における第1のフィルタバンクのいくつかの周波数帯域をさらに分割する。言い換えれば、各パラメータ帯域κは、1つより多いハイブリッドインデックスkに関連付けられてもよい。
図3aおよび図3bは、パラメータ帯域の数を対応するハイブリッドパラメータに関連付ける表を示す。ハイブリッドパラメータkは、表の第1欄80において与えられており、関連パラメータ帯域κは、欄82aまたは82bのうちの1つにおいて与えられている。欄82aまたは82bの適用は、MPEGデコーダフィルタバンクの2つの異なる構成の可能性を示すパラメータ84(decType)に依存する。
さらに注意すべきなのは、チャンネルに関連付けられるパラメータは、フレームのようなやり方で処理されることであり、単一のフレームは、n個の時間間隔を有し、時間間隔n毎に、単一のパラメータyがハイブリッドインデックスk毎に存在する。時間間隔nは、スロットとも称され、関連パラメータは、yn,kで示される。正規化されたエンベロープの推定に関して、パラメータ帯域のエネルギーは、yn,kをフレーム内のスロット毎の入力信号として計算される。
Figure 0005102213
総計は、図3aおよび図3bに示す表に従ってすべてのパラメータ帯域κによるものとされたすべてのkを含む。
その後、パラメータ帯域毎のフレームにおける合計パラメータ帯域エネルギーが以下のように計算される。
Figure 0005102213
ここで、αは、400msの時定数を有する1次IIR低域通過に対応する重み付け係数である。tは、フレームインデックス、sFreqは、入力信号のサンプリングレート、および、64は、フィルタバンクのダウンサンプル係数を表わす。フレームにおける平均エネルギーは、以下のように計算される。
Figure 0005102213
ここで、κstart=10かつ κstop=18である。
これらのエネルギーの比率は、スペクトル白色化のための重みを取得するために決定される。
Figure 0005102213
ブロードバンドエンベロープは、パラメータ帯域の重み付けされた寄与の総計、正規化、および平方根の計算によって取得される。
Figure 0005102213
エンベロープ抽出の後、エンベロープ整形処理が行われる。これは、出力チャンネル毎の直接および拡散音エンベロープの平滑化に続いて、対象エンベロープに向けての再整形を行うことからなる。これにより、各出力チャンネルの直接及び拡散信号部分に適用されるゲイン曲線が生じる。
MPEGサラウンド互換符号化スキームの場合には、5‐1‐5および5‐2‐5構成が区別される。
Figure 0005102213
Figure 0005102213
すべてのチャンネルについて、エンベロープ適応ゲイン曲線が以下のように適用される。
Figure 0005102213
ここで、kは、クロスオーバーハイブリッドサブバンドk0で開始し、n=0,…,numSlots−1である。
ウェットおよびドライ信号のエンベロープ整形を別個に行った後に、整形された直接および拡散音は、以下の式に従って、サブバンド領域内でミックスされる。
Figure 0005102213
上記の段落では、MPEGサラウンド符号化に基づく従来技術の符号化スキーム内で進歩的な本概念を実施することが有利に可能であることを示した。本発明は、さらなる計算の手間をほとんど掛けずに、操作すべき信号の既存のサブバンド領域表現も活用することができる。進歩的な本概念をMPEGマルチチャンネル音声符号化へ実施する効率性を向上するためには、アップミキシングおよび時間的エンベロープ整形に対してさらに何らかの変更を行うことが望ましい。
ガイドされたエンベロープ整形が可能である場合には、直接及び拡散信号は、以下の式に従って、ハイブリッドサブバンド領域における修正された後ミキシングを使用して別個に合成される。
Figure 0005102213
ここで、k0はクロスオーバーハイブリッドサブバンドを示す。
上述の式からわかるように、直接出力は、直接信号と、低帯域の拡散信号と、残余信号(もしあれば)とを保持する。拡散出力は、高帯域の拡散信号を提供する。
ここで、k0は図4に係るクロスオーバーハイブリッドサブバンドを示す。図4は、パラメータ84(decType)によって指示される2つのデコーダ構成の可能性に依存してクロスオーバーハイブリッドサブバンドk0を与える表を示す。
TESが、ガイドされたエンベロープ整形と組み合わせて使用される場合には、最適な性能のために、TES処理はやや改造される。
ダウンミックス信号の代わりに、再整形された直接アップミックス信号が、整形フィルタ推定のために使用される。
Figure 0005102213
よって、5‐1‐5または5‐2‐5モードとは独立して、すべてのTES計算がチャンネル毎ベースで行われる。さらに、直接および拡散信号のミキシングステップは、TESによって行われるので、ガイドされたエンベロープ整形の際には省略される。
TPが、ガイドされたエンベロープ整形と組み合わせて使用される場合には、最適な性能のためにTP処理は、やや改造される。
一般的なダウンミックス(元のマルチチャンネル信号から派生)の代わりに、チャンネル毎の対象エンベロープを抽出するために、各チャンネルの再整形された直接アップミックス信号が使用される。
Figure 0005102213
よって、5‐1‐5または5‐2‐5モードとは独立して、すべてのTP計算がチャンネル毎ベースで行われる。さらに、直接および拡散信号のミキシングステップは、ガイドされたエンベロープ整形の際には省略され、TPによって行われる。
MPEG音声符号化の進歩的な概念である後方互換性をさらに強調かつ証明するために、以下の図は、完全に後方互換性があると定義されかつ量子化されたエンベロープ再整形データをさらにサポートするビットストリーム定義および関数を示す。
図5は、ビットストリームの空間的固有構成を説明する一般的なシンタックスを示す。
本構成の第1の部分90において、変数は、例えば残余符号化が適用されるか、または、適用する逆相関スキームについての指示を与えるかどうかについて規定する従来技術のMPEG符号化に関連付けられている。この構成は、第2の部分92によって容易に拡張することができる。第2の部分92は、進歩的な本発明であるガイドされたエンベロープ整形を適用する場合の修正された構成を記述している。
特に、第2の部分は、デコーダによって適用可能なエンベロープ整形の構成を示す変数bsTempShapeConfigを使用する。
図6は、前記変数によって消費される4ビットを解釈する、後方互換性のあるやり方を示す。図6からわかるように、変数値4から7(行94に示す)は、進歩的な本概念の使用を示しており、さらに、進歩的な本概念を従来技術の整形機構TPおよびTESに組み合わせることを示している。
図7は、本発明の好ましい一実施形態に置いて実施されるようなエントロピー符号化スキームのための提案されたシンタックスの概要を示す。加えて、エンベロープサイド情報が、5ステップ量子化規則で量子化される。図7に提示された疑似コードの第1の部分においては、時間的エンベロープ整形が、すべての所望の出力チャンネルについて可能であり、提示のコードの第2の部分102においては、エンベロープ再整形が要求されている。これは、図6の変数bsTempShapeConfigによって示される。
本発明の好ましい一実施の形態において、5ステップ量子化が使用され、量子化された値は、1から8個の同一の連続した値が、エンベロープ整形パラメータのビットストリーム内で生じたかどうかという情報を使用して共に符号化される。
注意すべきなのは、原理的には、提案された5ステップ量子化などの細かい量子化が可能であり、そして、図7bに示すような変数bsEnvQuantModeによって示すことができる。原理的には可能であるものの、本実施は、1つの有効な量子化のみを導入する。
図8は、量子化済みのパラメータをハフマン符号化された表現から派生させるように適合されるコードを示す。既に述べたように、量子化値に関する結合情報および当該値の反復回数は、単一のハフマン符号語によって表される。したがって、ハフマン復号化は、所望の出力チャンネルに対するループを開始する第1の構成要素104と、ハフマン符号語を送信して、図9に示すような関連パラメータ値と反復データを受信することによって、個々のチャンネル毎に符号化された値を受信する第2の構成要素106とを備える。
図9は、40個のエントリを有する関連ハフマンコードブックを示す。5つの互いに異なるパラメータ値110に対し、最大反復レートが8であることが予測されるからである。したがって、ハフマン符号語112は、パラメータ110と連続発生数114との組み合わせを記述する。
ハフマン復号化されたパラメータ値について、ガイドされたエンベロープ整形のために使用されるエンベロープ比率は、以下の式に従って、送信された再整形済みのデータから取得される。
Figure 0005102213
ここで、n=0,…,numSlots−1であり、Xおよびocは、図10に従って出力チャンネルを表わす。
図10は、上記の表および式によって使用されるようなループ変数oc120を再構築されたマルチチャンネル信号の出力チャンネル122に関連付けている表を示す。
図3aから図9によって示されてきたように、進歩的な本概念を従来技術の符号化スキームに適用することは容易に行うことができ、後方互換性を完全に維持しつつ知覚品質が向上することになる。
図11は、エンコーダ60と入力インターフェース332と出力インターフェース334とを有する進歩的な音声送信器または記録器330を示す。
送信器/録音器330の入力インターフェース332において音声信号を供給することが可能である。音声信号は、送信器/録音器内の進歩的なエンコーダ60によって符号化され、符号化された表現は、送信器/録音器330の出力インターフェース334において出力される。その後、符号化された表現は、記憶媒体に送信または記憶されてもよい。
図12は、進歩的なデコーダ40とビットストリーム入力342と音声出力344とを有する進歩的な受信器または音声再生器340を示す。
進歩的な受信器/音声再生器340の入力342にビットストリームが入力可能である。その後、ビットストリームは、デコーダ40によって復号化され、復号化された信号は、進歩的な受信器/音声再生器340の出力344において出力または再生される。
図13は、進歩的な送信器330と進歩的な受信器340とを備える送信システムを示す。
送信器330の入力インターフェース332における音声信号入力は符号化されて、送信器330の出力344から受信器340の入力342へ転送される。受信器は、音声信号を復号化して、その出力344において音声信号を再生または出力する。
まとめると、本発明は、例えば以下を説明することによって、改良された解決策を提供する。
‐知覚される歪みを最小限にする適切かつ安定的なブロードバンドエンベロープを計算するやり方
‐ダウンミックス信号のエンベロープと関連して表される(正規化されて表される)ようにすることによって、ビットレートオーバヘッドを最小限にするように、エンベロープサイド情報を符号化するための最適化された方法
‐送信されるべきエンベロープ情報に対する量子化スキーム
‐このサイド情報の送信のための適切なビットストリームシンタックス
‐QMFサブバンド領域内のブロードバンドエンベロープ操作の効率的な方法
‐元の時間的チャンネルエンベロープを記述する空間的サイド情報が利用可能である場合に、上述のような処理型(1)および(2)を、マルチチャンネル信号の細かな空間的分散を時間の経過と共に回復することができる単一のアーキテクチャ内にいかにして統合することができるかという概念。そのような情報が、空間的ビットストリーム内で送信されない場合には(例えば、利用可能なサイド情報のビットレートにおける制約のため)、処理は、(チャンネル個別ベースではないものの)逆相関音の正確な時間的整形を行うことができる(1)型の処理に戻る。
上述の本発明の概念を既存のMPEG符号化スキームへの応用において広範に説明してきたが、当該進歩的な概念は、空間的な音声特性を保持しなければならない符号化の任意の他の種類にも適用することができる。
エンベロープ、すなわち信号のエネルギーを大きな時間解像度で整形するために中間信号を導入または使用するという進歩的な概念は、周波数領域だけでなく、図示のように、時間領域においても適用することができ、例えば、連続する時間スライスに亘って平均化するか、または音声信号のサンプル表現のn番目毎のサンプル値のみを考慮することによって、時間解像度を低下、したがって必要なビットレートを減少させることができる。
以上の段落で示したような進歩的な本概念は、処理済みの信号をスペクトル白色化することを組み込んでいるが、スペクトル白色化を伴わずに中間解像度信号を有するという考え方を組み込むこともできる。
進歩的な本方法の実施要件によっては、本方法は、ハードウェアまたはソフトウェアで実施することができる。本実施は、電子的に読み出し可能な制御信号を記憶するデジタル記憶媒体、特にディスク、DVD、またはCDを使用して行うことができ、進歩的な本方法が行われるようなプログラム可能なコンピュータシステムと共に動作する。したがって、一般的に、本発明は、機械読み出し可能な担体上に記憶されたプログラムコードを伴うコンピュータプログラム製品であって、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行する場合に、進歩的な本方法を行うために動作する。したがって、言い換えれば、進歩的な本方法は、コンピュータプログラムがコンピュータ上で実行する場合に、本方法の少なくとも1つを行うためのプログラムコードを有するコンピュータプログラムである。
以上、その特定の実施の形態を参照して図示および説明してきたが、形式および詳細に対する他の様々な変更が本発明の精神および範囲から逸脱することなく行われてもよいことは、当業者によって理解されるだろう。異なる実施の形態に適応する際に、本明細書に記載されかつ請求項に包含されるさらに広い概念から逸脱することなく様々な変更が行われてもよいことが理解されるべきである。
進歩的なデコーダを示す。 進歩的なエンコーダを示す。 ハイブリッドフィルタバンクのフィルタ帯域インデックスを対応サブバンドインデックスに割り当てる表を示す。 ハイブリッドフィルタバンクのフィルタ帯域インデックスを対応サブバンドインデックスに割り当てる表を示す。 異なるデコード構成のパラメータを示す。 進歩的な概念の後方互換性を表わす符号化スキームを示す。 異なる構成を選択するパラメータ構成を示す。 後方互換符号化スキームを示す。 異なる量子化スキームを示す。 後方互換符号化スキームをさらに示す。 効率的な実施のために使用されるハフマンコードブックを示す。 マルチチャンネル出力信号のチャンネル構成のための例を示す。 進歩的な送信器または音声記録器を示す。 進歩的な受信器または音声再生器を示す。 進歩的な送信システムを示す。 従来技術の時間領域の時間的整形を示す。

Claims (32)

  1. 1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するためのデコーダであって、前記ベース信号のチャンネル数は、前記元のマルチチャンネル信号のチャンネル数よりも少なく、前記ベース信号は、高解像度を有するサンプリング値を備えるフレームを有し、前記元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、前記波形パラメータ表現は、前記サンプリング値の前記高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、
    前記中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成し、かつ、前記アップミックス済みのチャンネルを生成するために使用される前記ベース信号の中間解像度表現を派生させるためのアップミキサと、
    前記ベース信号の前記中間解像度表現の基準波形パラメータ表現を派生させ、かつ、選択されたアップミックス済みのチャンネルを、前記基準波形パラメータ表現と前記選択されたアップミックス済みのチャンネルに対応する前記選択された元チャンネルの前記中間波形パラメータとを使用して整形するための整形器とを備える、デコーダ。
  2. 前記アップミキサは、前記ベース信号の中間解像度表現を派生させるようにさらに動作する、請求項1に記載のデコーダ。
  3. 前記アップミキサは、フィルタバンクを使用して、前記ベース信号の前記中間解像度表現を派生させるように動作し、前記ベース信号の前記中間解像度表現は、フィルタバンク領域において派生される、請求項2に記載のデコーダ。
  4. 前記フィルタバンクは、複合変調されたフィルタバンクである、請求項3に記載のデコーダ。
  5. 前記アップミキサは、前記ベース信号から1つ以上の逆相関信号を派生させるための1つ以上の逆相関器を有する、請求項1に記載のデコーダ。
  6. 前記アップミキサは、前記アップミックス済みのチャンネルの前記生成が前記ベース信号の前記チャンネルと前記1つ以上の逆相関信号との一次結合を含むように動作する、請求項5に記載のデコーダ。
  7. 前記整形器は、前記ベース信号から派生された選択されたアップミックス済みのチャンネルの第1の部分が、前記1つ以上の逆相関信号から派生された前記選択されたアップミックス済みのチャンネルの第2の部分とは独立して整形されるように、前記選択されたアップミックス済みのチャンネルを整形するように動作する、請求項6に記載のデコーダ。
  8. 前記整形器は、前記選択されたチャンネルの前記中間解像度表現の信号強度の度合いを表す中間波形パラメータを使用するように動作する、請求項1に記載のデコーダ。
  9. 前記整形器は、振幅またはエネルギーの度合いを有する信号強度の度合いを表す中間波形パラメータを使用するように動作する、請求項8に記載のデコーダ。
  10. 前記整形器は、前記整形が前記波形パラメータ表現と前記基準波形パラメータ表現とからの前記パラメータの組み合わせを備えるように、前記選択されたアップミックス済みのチャンネルを整形するように動作する、請求項1に記載のデコーダ。
  11. 前記整形器は、前記ベース信号の前記中間解像度表現について、スペクトルが平らな表現を派生させ、前記スペクトルが平らな表現は、平らな周波数スペクトルを有し、かつ、前記スペクトルが平らな表現から前記基準波形パラメータ表現を派生させるように動作する、請求項1に記載のデコーダ。
  12. 前記整形器は、前記フレーム反復レートによって規定される前記低時間解像度を有するさらなる波形パラメータを使用して、前記選択されたアップミックス済みのチャンネルを整形するようにさらに適合される、請求項1に記載のデコーダ。
  13. 前記整形済みの選択されたアップミックス済みのチャンネルを使用して、前記高時間解像度を有する前記マルチチャンネル出力信号を生成するための出力インターフェースをさらに有する、請求項1に記載のデコーダ。
  14. 前記出力インターフェースは、前記マルチチャンネル出力信号の前記生成が、複数の整形されたアップミックス済みのチャンネルのフィルタバンク表現の合成を備えることで、前記高時間解像度を有する前記複数の整形されたアップミックス済みのチャンネルの時間領域表現となるように、前記マルチチャンネル出力信号を生成するように動作する、請求項13に記載のデコーダ。
  15. 前記整形器は、10量子化ステップよりも少ないステップを有する逆量子化規則を使用して、前記波形パラメータ表現をその量子化された表現から派生させるための逆量子化器を有する、請求項1に記載のデコーダ。
  16. 前記整形器は、前記波形パラメータ表現の前記量子化された表現を、そのエントロピー符号化された表現から派生させるためのエントロピーデコーダを有する、請求項15に記載のデコーダ。
  17. 前記エントロピーデコーダは、前記波形パラメータ表現の前記量子化された表現を派生させるためのハフマンコードブックを使用するように動作する、請求項16に記載のデコーダ。
  18. 前記整形器は、前記時間領域における前記選択されたアップミックス済みのチャンネルを整形するように動作する、請求項3に記載のデコーダ。
  19. サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するためのエンコーダであって、
    フレームの前記サンプリング値を使用して、前記サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有する前記チャンネルの低解像度表現を派生させ、かつ、前記マルチチャンネル信号から派生されたベース信号の基準低解像度表現を派生させるための時間解像度減少器であって、前記ベース信号のチャンネル数は、前記マルチチャンネル信号のチャンネル数よりも少ない、時間解像度減少器と、
    前記低解像度表現の波形を表わす前記波形パラメータ表現を計算するための波形パラメータ計算器であって、前記サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合されており、前記チャンネルの前記基準低解像度表現と前記低解像度表現とを使用して前記波形パラメータを計算するように動作する、前記波形パラメータ計算器とを備える、エンコーダ。
  20. 前記時間解像度減少器は、フィルタバンク領域において派生される前記チャンネルの前記低解像度表現を派生させるためのフィルタバンクを有する、請求項19に記載のエンコーダ。
  21. 前記波形パラメータ計算器は、前記波形パラメータの前記計算が前記チャンネルの前記基準低解像度表現と前記低解像度表現との振幅度合いの組み合わせを備えるように動作する、請求項19に記載のエンコーダ。
  22. 前記波形パラメータ計算器は、前記波形パラメータの量子化された表現を派生させるための量子化器を有する、請求項19に記載のエンコーダ。
  23. 前記波形パラメータ計算器は、前記波形パラメータの前記量子化された表現のエントロピー符号化された表現を派生させるためのエントロピー符号化器を有する、請求項22に記載のエンコーダ。
  24. 1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するための方法であって、前記ベース信号のチャンネル数は、元のマルチチャンネル信号のチャンネル数よりも少なく、前記ベース信号は、高解像度を有するサンプリング値を備えるフレームを有し、また、前記元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、前記波形パラメータ表現は、前記サンプリング値の前記高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、
    前記アップミックス済みのチャンネルを生成するために使用される前記ベース信号の中間解像度表現を派生させるステップと、
    前記中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するステップと、
    前記ベース信号の前記中間解像度表現の基準波形パラメータ表現を派生させるステップと、
    選択されたアップミックス済みのチャンネルを、前記基準波形パラメータ表現と前記選択されたアップミックス済みのチャンネルに対応する前記選択された元チャンネルの前記中間波形パラメータとを使用して整形するステップとを含む、方法。
  25. サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するための方法であって、
    フレームの前記サンプリング値を使用して、前記サンプリング期間よりも大きい低解像度期間に関連付けられる低解像度値を有する前記チャンネルの低解像度表現を派生させるステップと、
    前記マルチチャンネル信号から派生されたベース信号の基準低解像度表現を派生させるステップであって、前記ベース信号のチャンネル数は、前記マルチチャンネル信号のチャンネル数よりも少ない、ステップと、
    前記チャンネルの前記基準低解像度表現と低解像度表現とを使用して前記低解像度表現の波形を表わす前記波形パラメータ表現を計算するステップであって、前記波形パラメータ表現は、前記サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する、ステップとを含む、方法。
  26. 1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するためのデコーダを有する受信器または音声再生器であって、前記ベース信号のチャンネル数は、前記元のマルチチャンネル信号のチャンネル数よりも少なく、前記ベース信号は、高解像度を有するサンプリング値を備えるフレームを有し、また、前記元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、前記波形パラメータ表現は、前記サンプリング値の前記高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、
    前記中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成し、かつ、前記アップミックス済みのチャンネルを生成するために使用される前記ベース信号の中間解像度表現を派生させるためのアップミキサと、
    前記ベース信号の前記中間解像度表現の基準波形パラメータ表現を派生させ、かつ、選択されたアップミックス済みのチャンネルを、前記基準波形パラメータ表現と前記選択されたアップミックス済みのチャンネルに対応する前記選択された元のチャンネルの前記中間波形パラメータとを使用して整形するための整形器とを備える、受信器または音声再生器。
  27. サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するためのエンコーダを有する送信器または音声記録器であって、前記エンコーダは、
    フレームの前記サンプリング値を使用して、前記サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有する前記チャンネルの低解像度表現を派生させ、かつ、前記マルチチャンネル信号から派生されたベース信号の基準低解像度表現を派生させるための時間解像度減少器であって、前記ベース信号のチャンネル数は、前記マルチチャンネル信号のチャンネル数よりも少ない、時間解像度減少器と、
    前記低解像度表現の波形を表わす前記波形パラメータ表現を計算するための波形パラメータ計算機であって、前記サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合されており、前記チャンネルの前記基準低解像度表現と前記低解像度表現とを使用して前記波形パラメータを計算するように動作する、波形パラメータ計算器とを備える、送信器または音声記録器。
  28. 受信または音声再生の方法であって、当該方法は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するための方法を有し、前記ベース信号のチャンネル数は、前記元のマルチチャンネル信号のチャンネル数よりも少なく、前記ベース信号は、高解像度を有するサンプリング値を備えるフレームを有し、当該方法は、前記元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、前記波形パラメータ表現は、前記サンプリング値の前記高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、前記方法は、
    前記アップミックス済みのチャンネルを生成するために使用される前記ベース信号の中間解像度表現を派生させるステップと、
    前記中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するステップと、
    前記ベース信号の前記中間解像度表現の基準波形パラメータ表現を派生させるステップと、
    選択されたアップミックス済みのチャンネルを、前記選択されたアップミックス済みのチャンネルに対応する前記選択された元のチャンネルの前記中間波形パラメータを使用して整形するステップとを含む、方法。
  29. 送信または音声記録の方法であって、サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するための方法を有し、前記方法は、
    フレームの前記サンプリング値を使用して、前記サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有する前記チャンネルの低解像度表現を派生させるステップと、
    前記マルチチャンネル信号から派生されたベース信号の基準低解像度表現を派生させるステップであって、前記ベース信号のチャンネル数は、前記マルチチャンネル信号のチャンネル数よりも少ない、ステップと、
    前記チャンネルの前記基準低解像度表現と低解像度表現とを使用して前記低解像度表現の波形を表わす前記波形パラメータ表現を計算するステップであって、前記波形パラメータ表現は、前記サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する、ステップとを含む、方法。
  30. 送信器および受信器を有する送信システムであって、前記送信器は、サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するためのエンコーダを有し、前記エンコーダは、
    フレームの前記サンプリング値を使用して、前記サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有する前記チャンネルの低解像度表現を派生させ、かつ、前記マルチチャンネル信号から派生されたベース信号の基準低解像度表現を派生させるための時間解像度減少器であって、前記ベース信号のチャンネル数は、前記マルチチャンネル信号のチャンネル数よりも少ない、時間解像度減少器と、
    前記低解像度表現の波形を表わす前記波形パラメータ表現を計算するための波形パラメータ計算機であって、前記サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する波形パラメータのシーケンスを生成するように適合されており、前記チャンネルの前記基準低解像度表現と前記低解像度表現とを使用して前記波形パラメータを計算するように動作する、波形パラメータ計算器とを備え、
    前記受信器は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するためのデコーダを有し、前記ベース信号のチャンネル数は、前記元のマルチチャンネル信号のチャンネル数よりも少なく、前記ベース信号は、高解像度を有するサンプリング値を備えるフレームを有し、また、前記元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、前記波形パラメータ表現は、前記サンプリング値の前記高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、前記デコーダは、
    前記中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成し、かつ、前記アップミックス済みのチャンネルを生成するために使用される前記ベース信号の中間解像度表現を派生させるためのアップミキサと、
    前記ベース信号の前記中間解像度表現の基準波形パラメータ表現を派生させ、かつ、選択されたアップミックス済みのチャンネルを、前記基準波形パラメータ表現と前記選択されたアップミックス済みのチャンネルに対応する前記選択された元のチャンネルの前記中間波形パラメータとを使用して整形するための整形器とを備える、送信システム。
  31. 送信および受信の方法であって、前記送信の方法は、サンプリング期間を有するサンプリング値を備えるフレームを有するマルチチャンネル信号のチャンネルの波形パラメータ表現を生成するための方法を有し、前記方法は、
    フレームの前記サンプリング値を使用して、前記サンプリング期間よりも長い低解像度期間に関連付けられる低解像度値を有する前記チャンネルの低解像度表現を派生させるステップと、
    前記マルチチャンネル信号から派生されたベース信号の基準低解像度表現を派生させるステップであって、前記ベース信号のチャンネル数は、前記マルチチャンネル信号のチャンネル数よりも少ない、ステップと、
    前記チャンネルの前記基準低解像度表現と前記低解像度表現とを使用して前記低解像度表現の波形を表わす前記波形パラメータ表現を計算するステップであって、前記波形パラメータ表現は、前記サンプリング値の時間解像度よりも低くフレーム反復レートによって規定される時間解像度よりも高い時間解像度を有する、ステップとを含み、
    前記受信の方法は、1つ以上のチャンネルを有する元のマルチチャンネル信号から派生されたベース信号に基づくマルチチャンネル出力信号を生成するための方法を有し、前記ベース信号のチャンネル数は、前記元のマルチチャンネル信号のチャンネル数よりも少なく、前記ベース信号は、高解像度を有するサンプリング値を備えるフレームを有し、また、前記元のマルチチャンネル信号の選択された元チャンネルの中間解像度表現の波形を表わす波形パラメータ表現にも基づいており、前記波形パラメータ表現は、前記サンプリング値の前記高時間解像度よりも低くフレーム反復レートによって規定される低時間解像度よりも高い中間時間解像度を有する中間波形パラメータのシーケンスを含み、前記方法は、
    前記アップミックス済みのチャンネルを生成するために使用される前記ベース信号の中間解像度表現を派生させるステップと、
    前記中間解像度よりも高い時間解像度を有する複数のアップミックス済みのチャンネルを生成するステップと、
    前記ベース信号の前記中間解像度表現の基準波形パラメータ表現を派生させるステップと、
    選択されたアップミックス済みのチャンネルを、前記基準波形パラメータ表現と前記選択されたアップミックス済みのチャンネルに対応する前記選択された元のチャンネルの前記中間波形パラメータとを使用して整形するステップとを含む、方法。
  32. コンピュータに、請求項24、請求項25、請求項28、請求項29、または請求項3のいずれかに記載の方法をさせるためのプログラ
JP2008534883A 2005-10-12 2006-08-31 マルチチャンネル音声信号の時間的および空間的整形 Active JP5102213B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US72638905P 2005-10-12 2005-10-12
US60/726,389 2005-10-12
US11/363,985 US7974713B2 (en) 2005-10-12 2006-02-27 Temporal and spatial shaping of multi-channel audio signals
US11/363,985 2006-02-27
PCT/EP2006/008534 WO2007042108A1 (en) 2005-10-12 2006-08-31 Temporal and spatial shaping of multi-channel audio signals

Publications (2)

Publication Number Publication Date
JP2009511966A JP2009511966A (ja) 2009-03-19
JP5102213B2 true JP5102213B2 (ja) 2012-12-19

Family

ID=37179043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008534883A Active JP5102213B2 (ja) 2005-10-12 2006-08-31 マルチチャンネル音声信号の時間的および空間的整形

Country Status (16)

Country Link
US (3) US7974713B2 (ja)
EP (1) EP1934973B1 (ja)
JP (1) JP5102213B2 (ja)
KR (1) KR100947013B1 (ja)
CN (1) CN101356571B (ja)
AU (1) AU2006301612B2 (ja)
BR (1) BRPI0618002B1 (ja)
CA (1) CA2625213C (ja)
ES (1) ES2770146T3 (ja)
IL (1) IL190765A (ja)
MY (1) MY144518A (ja)
NO (1) NO343713B1 (ja)
PL (1) PL1934973T3 (ja)
RU (1) RU2388068C2 (ja)
TW (1) TWI332192B (ja)
WO (1) WO2007042108A1 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE444549T1 (de) * 2004-07-14 2009-10-15 Koninkl Philips Electronics Nv Tonkanalkonvertierung
KR20070065401A (ko) * 2004-09-23 2007-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체
US7304586B2 (en) 2004-10-20 2007-12-04 Electro Industries / Gauge Tech On-line web accessed energy meter
US9080894B2 (en) 2004-10-20 2015-07-14 Electro Industries/Gauge Tech Intelligent electronic device for receiving and sending data at high speeds over a network
US7747733B2 (en) 2004-10-25 2010-06-29 Electro Industries/Gauge Tech Power meter having multiple ethernet ports
US8121801B2 (en) * 2005-01-27 2012-02-21 Electro Industries/Gauge Tech System and method for multi-rate concurrent waveform capture and storage for power quality metering
US8190381B2 (en) 2005-01-27 2012-05-29 Electro Industries/Gauge Tech Intelligent electronic device with enhanced power quality monitoring and communications capabilities
US8160824B2 (en) 2005-01-27 2012-04-17 Electro Industries/Gauge Tech Intelligent electronic device with enhanced power quality monitoring and communication capabilities
US8620608B2 (en) 2005-01-27 2013-12-31 Electro Industries/Gauge Tech Intelligent electronic device and method thereof
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
CN101297353B (zh) 2005-10-26 2013-03-13 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
TWI483619B (zh) * 2006-03-30 2015-05-01 Lg Electronics Inc 一種媒體訊號的編碼/解碼方法及其裝置
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
EP1956589B1 (en) * 2007-02-06 2009-12-30 Oticon A/S Estimating own-voice activity in a hearing-instrument system from direct-to-reverberant ratio
US20130275066A1 (en) 2007-04-03 2013-10-17 Electro Industries/Gaugetech Digital power metering system
US9989618B2 (en) 2007-04-03 2018-06-05 Electro Industries/Gaugetech Intelligent electronic device with constant calibration capabilities for high accuracy measurements
US10845399B2 (en) 2007-04-03 2020-11-24 Electro Industries/Gaugetech System and method for performing data transfers in an intelligent electronic device
US11307227B2 (en) 2007-04-03 2022-04-19 Electro Industries/Gauge Tech High speed digital transient waveform detection system and method for use in an intelligent electronic device
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8504377B2 (en) * 2007-11-21 2013-08-06 Lg Electronics Inc. Method and an apparatus for processing a signal using length-adjusted window
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8909361B2 (en) * 2008-06-19 2014-12-09 Broadcom Corporation Method and system for processing high quality audio in a hardware audio codec for audio transmission
EP3300076B1 (en) 2008-07-11 2019-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
CN102811034A (zh) 2011-05-31 2012-12-05 财团法人工业技术研究院 信号处理装置及信号处理方法
US8831515B2 (en) 2011-10-12 2014-09-09 Broadcom Corporation Shaped load modulation in a near field communications (NFC) device
CN104025190B (zh) * 2011-10-21 2017-06-09 三星电子株式会社 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备
WO2013108200A1 (en) * 2012-01-19 2013-07-25 Koninklijke Philips N.V. Spatial audio rendering and encoding
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
KR101629661B1 (ko) * 2012-08-29 2016-06-13 니폰 덴신 덴와 가부시끼가이샤 복호 방법, 복호 장치, 프로그램 및 그 기록매체
CN103871414B (zh) * 2012-12-11 2016-06-29 华为技术有限公司 一种多声道语音信号的时标调制方法和装置
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
RU2630370C9 (ru) 2013-02-14 2017-09-26 Долби Лабораторис Лайсэнзин Корпорейшн Способы управления межканальной когерентностью звуковых сигналов, подвергнутых повышающему микшированию
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN103680513B (zh) * 2013-12-13 2016-11-02 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
US20160018443A1 (en) * 2014-07-21 2016-01-21 Tektronix, Inc. Method for determining a correlated waveform on a real time oscilloscope
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2016091332A1 (en) * 2014-12-12 2016-06-16 Huawei Technologies Co., Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
JP2016126037A (ja) * 2014-12-26 2016-07-11 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
CN108352163B (zh) 2015-09-25 2023-02-21 沃伊斯亚吉公司 用于解码立体声声音信号的左和右声道的方法和系统
KR101968456B1 (ko) 2016-01-26 2019-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 양자화
EP3417544B1 (en) 2016-02-17 2019-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
US10958695B2 (en) * 2016-06-21 2021-03-23 Google Llc Methods, systems, and media for recommending content based on network conditions
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
FI3711047T3 (fi) 2017-11-17 2023-01-13 Laite ja menetelmä suunnattujen audiokoodausparametrien koodaamiseksi tai dekoodaamiseksi käyttäen eri aika/taajuusresoluutioita
KR20230112750A (ko) 2018-12-07 2023-07-27 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
EP4085660A1 (en) 2019-12-30 2022-11-09 Comhear Inc. Method for providing a spatialized soundfield
CN113702893B (zh) * 2021-09-23 2023-11-21 云南电网有限责任公司电力科学研究院 一种直流互感器暂态波形传变一致性评价方法及装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4189625A (en) * 1978-03-13 1980-02-19 Strandberg Terry W Method and apparatus for processing dual frequency digital information signals
DE2916308C3 (de) * 1979-04-23 1982-02-25 Deutsche Vereinigte Schuhmaschinen Gmbh, 6000 Frankfurt Klebepresse zum Ankleben von Laufsohlen an aufgeleistetes Schuhwerk
US4285058A (en) 1980-02-26 1981-08-18 Fisher Charles B Waveform correction by sampling
TW226035B (en) 1991-12-13 1994-07-01 Nat Science Committee A process for producing anisotropic ribbon of R-Fe-M-B and the produced anisotropic resin bond
FR2700383B1 (fr) 1993-01-11 1995-02-10 Framatome Sa Echangeur de chaleur dans lequel l'alimentation en fluide secondaire s'effectue en partie haute par un boîtier d'alimentation ouvert vers le bas.
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
KR0174084B1 (ko) 1995-09-25 1999-04-01 이준 Mpeg-2 다채널 오디오 복호화기의 역변환기
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US6865232B1 (en) * 1996-09-02 2005-03-08 Stmicroelectronics N.V. Multi-carrier transmission systems
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
WO2000060746A2 (en) 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrixing for losseless encoding and decoding of multichannels audio signals
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7418043B2 (en) * 2000-07-19 2008-08-26 Lot 41 Acquisition Foundation, Llc Software adaptable high performance multicarrier transmission protocol
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
TW561451B (en) 2001-07-27 2003-11-11 At Chip Corp Audio mixing method and its device
SG108862A1 (en) 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
TWI226601B (en) 2003-01-17 2005-01-11 Winbond Electronics Corp System and method of synthesizing a plurality of voices
CN1748247B (zh) 2003-02-11 2011-06-15 皇家飞利浦电子股份有限公司 音频编码
CN1839426A (zh) * 2003-09-17 2006-09-27 北京阜国数字技术有限公司 多分辨率矢量量化的音频编解码方法及装置
TWI226035B (en) 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
TWI229318B (en) 2003-10-29 2005-03-11 Inventec Multimedia & Telecom Voice processing system and method
WO2005083889A1 (fr) * 2004-01-30 2005-09-09 France Telecom Quantification vectorielle en dimension et resolution variables
US7613306B2 (en) 2004-02-25 2009-11-03 Panasonic Corporation Audio encoder and audio decoder
CA2992065C (en) * 2004-03-01 2018-11-20 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals

Also Published As

Publication number Publication date
CN101356571A (zh) 2009-01-28
NO343713B1 (no) 2019-05-13
BRPI0618002A2 (pt) 2011-08-16
AU2006301612B2 (en) 2010-07-22
US8644972B2 (en) 2014-02-04
ES2770146T3 (es) 2020-06-30
AU2006301612A1 (en) 2007-04-19
WO2007042108A1 (en) 2007-04-19
US20140126725A1 (en) 2014-05-08
CN101356571B (zh) 2012-05-30
NO20082176L (no) 2008-05-09
US9361896B2 (en) 2016-06-07
JP2009511966A (ja) 2009-03-19
PL1934973T3 (pl) 2020-06-01
RU2388068C2 (ru) 2010-04-27
BRPI0618002B1 (pt) 2021-03-09
RU2008118333A (ru) 2009-11-20
TW200746044A (en) 2007-12-16
US20110106545A1 (en) 2011-05-05
TWI332192B (en) 2010-10-21
IL190765A (en) 2013-09-30
US20070081597A1 (en) 2007-04-12
US7974713B2 (en) 2011-07-05
KR100947013B1 (ko) 2010-03-10
CA2625213A1 (en) 2007-04-19
EP1934973B1 (en) 2019-11-13
KR20080059193A (ko) 2008-06-26
CA2625213C (en) 2012-04-10
MY144518A (en) 2011-09-30
IL190765A0 (en) 2008-11-03
EP1934973A1 (en) 2008-06-25

Similar Documents

Publication Publication Date Title
JP5102213B2 (ja) マルチチャンネル音声信号の時間的および空間的整形
JP6407928B2 (ja) オーディオ処理システム
JP5191886B2 (ja) サイド情報を有するチャンネルの再構成
JP5185337B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
KR100933548B1 (ko) 비상관 신호의 시간적 엔벨로프 정형화
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
IL194064A (en) Improved signal design in multichannel audio reconstruction
KR20120006010A (ko) 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
JP2024020349A (ja) オーディオ信号の高周波再構成を行う方法及びオーディオ処理ユニット
JP2023085524A (ja) ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
US7725324B2 (en) Constrained filter encoding of polyphonic signals
RU2804032C1 (ru) Устройство обработки звуковых сигналов для кодирования стереофонического сигнала в сигнал битового потока и способ декодирования сигнала битового потока в стереофонический сигнал, осуществляемый с использованием устройства обработки звуковых сигналов
EP1639580B1 (en) Coding of multi-channel signals
AU2018200340A1 (en) Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110720

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120927

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5102213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250