JP4934427B2 - 音声信号復号化装置及び音声信号符号化装置 - Google Patents

音声信号復号化装置及び音声信号符号化装置 Download PDF

Info

Publication number
JP4934427B2
JP4934427B2 JP2006528708A JP2006528708A JP4934427B2 JP 4934427 B2 JP4934427 B2 JP 4934427B2 JP 2006528708 A JP2006528708 A JP 2006528708A JP 2006528708 A JP2006528708 A JP 2006528708A JP 4934427 B2 JP4934427 B2 JP 4934427B2
Authority
JP
Japan
Prior art keywords
audio
signal
channel signal
frequency
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006528708A
Other languages
English (en)
Other versions
JPWO2006003891A1 (ja
Inventor
セン・チョン コク
直也 田中
ホン・ネオ スア
峰生 津島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2006528708A priority Critical patent/JP4934427B2/ja
Publication of JPWO2006003891A1 publication Critical patent/JPWO2006003891A1/ja
Application granted granted Critical
Publication of JP4934427B2 publication Critical patent/JP4934427B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Description

本発明は、符号化処理において音声信号からバイノーラルキューを抽出して、ダウンミクス信号を生成する符号化装置、及び復号化処理において前記バイノーラルキューを前記ダウンミクス信号に付加することでマルチチャネル音声信号を復号する音声信号復号化装置に関する。
本発明は、符号化処理においてQMF(Quadrature Mirror Filter)フィルタバンクを用いてマルチチャネル音声信号を時間−周波数(T/F)表現に変換するバイノーラルキュー符号化方法に関する。
本発明は、マルチチャネル音声信号の符号化および復号化に関する。本発明の主たる目的は、ビットレートに制約がある場合でも、デジタル音声信号の知覚上のクオリティーを最大限に保ちつつ当該デジタル音声信号の符号化を行うことである。ビットレートが低くなると、伝送帯域幅および記憶容量を小さくするという点で有利である。
従来、上記のようにビットレート低減を実現するための方法が多く存在する。
"MS(mid−side)ステレオ"による方法では、ステレオチャネルLおよびRが、それらの"和"(L+R)および"差分"(L−R)チャネルという形で表現される。これらのステレオチャネルの相関性が高い場合、"差分"信号に含まれるのは、"和"信号よりも少ないビットで粗い量子化を施せる重要度の低い情報である。L=Rとなるような極端な例では、差分信号に関する情報を送信する必要はない。
"インテンシティステレオ"による方法では、耳が持つ音響心理学的特性を利用し、高周波数領域に対しては、周波数依存性を持つスケールファクタと共に"和"信号のみを送信し、デコーダ側でそのスケールファクタを"和"信号に適用して、LチャネルおよびRチャネルを合成する。
"バイノーラルキュー符号化"による方法では、復号化処理においてダウンミクス信号の成形を行うために、バイノーラルキューが生成される。バイノーラルキューは、例えば、チャネル間レベル/強度差(ILD)、チャネル間位相/遅延差(IPD)、チャネル間干渉性/相関性(ICC)等である。ILDキューからは相対的な信号のパワーを測定でき、IPDキューからは音が両耳に届くまでの時間差を測定でき、ICCキューからは類似性を測定できる。一般に、レベル/強度キューおよび位相/遅延キューにより音声のバランスや定位を制御でき、干渉性/相関性キューにより音声の幅や拡がりを制御できる。これらのキューは一体となって、聴き手が音響学的シーンを頭の中で構成するのを助ける空間的パラメータとなる。
図1は、バイノーラルキュー符号化による符号化及び復号化方法を用いた典型的な符号化及び復号化コーデックの構成を示す図である。符号化処理において、音声信号はフレームごとに処理される。ダウンミキシング部(500)は、左チャネルLおよび右チャネルRをダウンミクスし、M=(L+R)/2を生成する。バイノーラルキュー抽出モジュール(502)は、L、RおよびMを処理し、バイノーラルキューを生成する。バイノーラルキュー抽出モジュール(502)は、通常、時間―周波数変換モジュールを備える。時間―周波数変換モジュールは、L、RおよびMを例えば、FFT、MDCT等の完全なスペクトル表現に変換するか、またはQMF等のような時間と周波数との混合的表現に変換する。この代わり、スペクトル表現されたLおよびRの平均値をとることにより、スペクトル変換後に、LおよびRからMを生成することもできる。バイノーラルキューは、上記のように表現されたL、RおよびMを、スペクトル帯域上で、スペクトル帯域ごとに比較することで求めることができる。
音声符号化器(504)は、M信号を符号化し、圧縮ビットストリームを生成する。音声符号化器の例として、MP3、AACなどの符号化器がある。バイノーラルキューは、(506)において量子化されてから、圧縮されたMに多重化され、完全なビットストリームが形成される。復号化処理において、デマルチプレクサ(508)はMのビットストリームをバイノーラルキュー情報から分離する。音声復号化器(510)はMのビットストリームを復号し、ダウンミクス信号Mを復元する。マルチチャネル合成モジュール(512)は、当該ダウンミクス信号および逆量子化されたバイノーラルキューを処理し、マルチチャネル信号を復元する。従来技術に関連する文献としては、以下のものが挙げられる。
[1]ISO/IEC 14496-3:2001/FDAM2, "Parametric Coding for high Quality Audio" [2]WO03/007656A1, "Efficient and Scalable Parametric StereoCoding for Low Bitrate Application" [3]WO03/090208A1, "Parametric Representation of Spatial Audio" [4]US6252965B1, "Multichannel Spectral Mapping Audio Apparatus and Method" [5]US2003/0219130A1, "Coherence-based Audio Coding and Synthesis" [6]US2003/0035553A1, "Backwards-Compatible Perceptual Coding of Spatial Cues" [7]US2003/0235317A1, "Equalization For Audio Mixing" [8]US2003/0236583A1, "Hybrid Multi-channel/Cue Coding/Decoding of Audio Signals"
従来技術[1](非特許文献1参照)では、ダウンミクス信号と"残響信号"とをミキシングすることで音の拡がりを実現している。残響信号は、ダウンミクス信号をShroederのオールパスリンクを用いて処理することで得られる。このフィルタの係数は、全て復号処理において決定される。音声信号が変化の速い特徴を含む場合、過度なエコー効果を取り除くために、この残響信号に対して、別途、過渡減衰処理を施して残響の拡がりを抑える。しかしながら、このように別途フィルタリング処理を行うと、さらに計算負荷が生じてしまう。
従来技術[5](特許文献4参照)では、ILDキューおよびIPDキューに対して"ランダムシーケンス"を挿入することで、音の拡散性(すなわち、サラウンド効果)を実現している。ランダムシーケンスは、ICCキューによって制御される。
図2は、従来の標準的な時間セグメントの分割方法を示す図である。ILDキューを計算するために、従来技術[1]の方法では、T/F表現されたL、RおよびMを("時間境界線601"で区切られる)時間セグメントに分割し、時間セグメントにつきILDを一つ計算する。しかしながら、この方法は、耳が持つ音響心理学的特性を完全に活用しているとはいえない。
従来技術[1]では、ダウンミクス信号の全ての周波数スペクトルに対してバイノーラルキュー符号化を行っている。しかしこの方法は、高ビットレートで"透明感のある"音質を実現するには不十分である。従来技術[8](特許文献7参照)によると、ビットレートが高い場合、1.5kHzより低い周波数で原音の符号化が行われている。しかしながら、中間のビットレートで最適な音質を得ることができないため、固定のクロスオーバー周波数(すなわち1.5kHz)を用いることは有利とはいえない。
本発明は、従来技術におけるバイノーラルキュー符号化に基づく方法を改良することを目的とする。
上記課題を解決するため、本発明の一形態である音声信号復号化装置は、複数の音声チャネル信号をダウンミクスして得られるダウンミクスチャネル信号から、複数の前記音声チャネル信号を復号化する音声信号復号化装置であって、ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換するダウンミクス信号変換手段と、所定の上限周波数までを低ビット量に量子化、符号化された音声チャネル信号を前記時間−周波数表現に変換する音声チャネル信号変換手段と、変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、前記所定の上限周波数までの帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成するプレミキシング手段と、音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信号とを前記所定の上限周波数より高域の帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成するミキシング手段と、前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換するミキシングチャネル信号変換手段とを備えることを特徴とする。
本発明の実施の形態1では、残響の拡がりに影響を与えるフィルタ係数を変更することで残響の拡がりを直接制御することを提案する。さらに、これらのフィルタ係数をICCキューおよび過渡検出モジュールによって制御することを提案する。
実施の形態2では、まず、T/F表現をスペクトル方向に複数の"セクション"に分割する。時間的境界の最大許容数をセクションごとに異ならせ、高周波数領域に属するセクションに対しては時間的境界の許容数が少なくなるようにする。このようにして、低周波数領域における信号の細分化をより緻密に行うことができ、ビットレートの急激な変化を抑止しつつ、より正確にレベル調整を行うことができる。
実施の形態3では、クロスオーバー周波数がビットレートに合わせて変更されることを提案する。また、ビットレートの制約があるために原音の符号化が粗く行われていると予測される場合、原音信号とダウンミクス信号とを低周波数でミキシングすることを提案する。さらに、ミキシングの割合を制御するためにICCキューを使用することを提案する。
本発明では、バイノーラルキューを抽出し、原音をダウンミキシングする符号化処理において圧縮された原音が持つ、マルチチャネルならではの効果を再現することに成功した。これは、復号化処理において前記バイノーラルキューをダウンミクス信号に付加することで可能となる。
(実施の形態1)
以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているに過ぎず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業者であれば容易に理解するところである。従って、本発明は特許請求の範囲によってのみ制限されるものであって、以下に示す詳細な具体例よって限定されるものではない。
さらに、ここではステレオ−モノラルの例を示しているが、本発明はこれに限定されるものではない。これを、M個のオリジナルチャネルおよびN個のダウンミクスチャネルとして一般化することができる。
図3は、実施の形態1の符号化装置の構成を示すブロック図である。図3は本発明に関わる符号化処理を示す。本実施の形態の符号化装置は、変換モジュール100、ダウンミクスモジュール102、L(t,f)およびR(t,f)のための2つのエネルギーエンベロープ分析器104、左チャネルのチャネル間位相キューIPDL(b)を算出するモジュール106、右チャネルのIPDR(b)を算出するモジュール108およびICC(b)を算出するモジュール110を備える。変換モジュール(100)は、以下で時間の関数L(t)およびR(t)として示されるオリジナルチャネルを処理する。それぞれの時間−周波数表現L(t,f)およびR(t,f)を得る。ここで、tは時間指標を示し、fは周波数指標を示す。変換モジュール(100)は、例えば、MPEG Audio Extension 1及び2で用いられるような複素QMFフィルタバンク等である。L(t,f)およびR(t,f)は連続する複数のサブバンドを含んでおり、それぞれのサブバンドは原信号の狭い周波数帯域を表している。QMFフィルタバンクは、低周波数サブバンドに対しては狭い周波数帯域を通過させ、高周波数サブバンドに対しては広い帯域を通過させるため、複数のステージで構成することができる。
ダウンミクスモジュール(102)は、L(t,f)およびR(t,f)を処理し、ダウンミクス信号M(t,f)を生成する。ダウンミキシングの方法は数多く存在するが、本実施の形態では"平均化"を用いた方法を示す。
本発明では、ILDキューの代わりにエネルギーキューを用いてレベル調整を行う。エネルギーキューを計算するために、左チャネルエネルギーエンベロープ分析モジュール(104)は、L(t,f)をさらに処理し、エネルギーエンベロープEL(l,b)およびBorderLを生成する。図4は、ミキシング後の音声チャネル信号のエネルギーエンベロープを調整するための時間−周波数セクションの区切り方を示す図である。図4に示されるように、まず、時間―周波数表現L(t,f)を周波数方向に複数の帯域(400)に分割する。それぞれの帯域は複数のサブバンドを含む。耳の持つ音響心理学的特性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなっている。例えば、サブバンドを帯域にグループ分けする際に、音響心理学の分野でよく知られている"バーク尺度"または"臨界帯域"を用いることができる。
L(t,f)はさらに時間方向にBorderLで周波数帯域(l,b)に分割され、これに対してEL(l,b)を計算する。ここで、lは時間的区分の指標であり、bは帯域の指標を示す。BorderLの最適な配置場所は、L(t,f)のエネルギーの変化が大きく、かつ、復号化処理で成形される信号のエネルギーの変化が大きいと予測される時間的位置である。
復号化処理において、EL(l,b)はダウンミクス信号のエネルギーエンベロープを帯域ごとに成形するために用いられ、その境界は、同じ臨界帯域境界およびBorderLにより決定される。エネルギーEL(l,b)は以下のように定義される。
Figure 0004934427
同様の方法で、右チャネルエネルギーエンベロープ分析モジュール(104)はR(t,f)を処理しER(l,b)およびBorderRを生成する。
左チャネルのチャネル間位相キューを取得するため、左チャネル間位相キュー算出モジュール(106)はL(t,f)およびM(t,f)を処理し、以下の数式を用いてIPDL(b)を求める。
Figure 0004934427
ここで、M*(t,f)はM(t,f)の複素共役を表わす。右チャネル間位相キュー算出モジュール(108)は、同様にして右チャネルのチャネル間位相キューIPDR(b)を求める。
Figure 0004934427
最後に、符号化処理において左チャネルと右チャネルとのチャネル間干渉性キューを求めるため、モジュール(110)はL(t,f)およびR(t,f)を処理し、以下の数式を用いてICC(b)を求める。
Figure 0004934427
上記バイノーラルキューは全て、符号化処理における副情報の一部となる。
図5は、実施の形態1の復号化装置の構成を示すブロック図である。本実施の形態1の復号化装置は、変換モジュール(200)、残響生成器(202)、過渡検出器(204)、位相調整器(206、208)、ミキサ2(210、212)、エネルギー調整器(214、216)及び逆変換モジュール(218)を備える。図5は、上述のように生成されたバイノーラルキューを利用する、想定可能な復号化処理を示す。変換モジュール(200)はダウンミクス信号M(t)を処理し、時間−周波数表現M(t,f)に変換する。本実施の形態で示す変換モジュール(200)は、複素QMFフィルタバンクである。
残響生成器(202)はM(t,f)を処理し、MD(t,f)と呼ばれるM(t,f)の"拡散バージョン"を生成する。この拡散バージョンは、M(t,f)に"エコー"を挿入することで、より"ステレオ"的な印象(マルチチャネルの場合は"サラウンド"的な印象)を生み出すものである。従来技術では、そのような残響の印象を、単純に遅延を利用したり、分数遅延オールパスフィルタリングを用いたりして生成する装置が数多く存在する。本発明では、残響効果を得るために、分数遅延オールパスフィルタリングを用いる。通常、複数のオールパスフィルタのカスケード方式(Schroederのオールパスリンクとして知られる)が用いられる。
Figure 0004934427
ここで、Lはリンクの数を表わし、d(m)はそれぞれのリンクのフィルタの次数を表わす。通常、これらは互いに素となるよう構成されている。Q(f,m)はエコーの密度を高くする分数遅延を示し、slope(f,m)は残響の減衰率を制御する。残響の減衰はslope(f,m)が大きいほど小さい。これらのパラメータの設計に関する具体的な処理は本発明の範囲外である。従来技術においては、これらのパラメータはバイノーラルキューによって制御されない。
従来技術における残響減衰率の制御方法は、あらゆる信号の特徴に対して最適であるというわけではない。例えば、変化の早い信号"スパイク波"で構成される信号である場合、エコー効果が過剰になることを避けるために、残響は少ないほうが望ましい。従来技術では、過渡減衰装置を用いて、別途、残響をある程度抑止している。
最後の問題は、原音が本質的に"モノラル"である場合(例えば独話)、残響が過剰であると、復号化された信号が原音と大きく異なって聞こえる可能性があるということである。この問題を解決するための従来技術や装置は存在しない。
本発明では、ICCキューを用いてslope(f,m)パラメータを適応的に制御する。上記問題に対処するため、以下のようにslope(f,m)の代わりにnew_slope(f,m)を用いる。
Figure 0004934427
ここで、new_slope(f,m)は過渡検出モジュール(204)の出力関数として定義され、ICC(b)は以下のように定義される。
Figure 0004934427
ここで、αはチューニングパラメータである。信号における対象フレームが本質的にモノラルである場合、当該フレームの、右チャネルと左チャネルの間の相関性を評価するためのICC(b)はかなり高くなる。残響を減らすために、slope(f,m)を(1−ICC(b))により大幅に低下させる。また、逆の場合も同様である。
信号における対象フレームが急速に変化する信号スパイク波で構成される場合、過渡検出モジュール(204)は、slope(f,m)を低減させるために、0.1等の小さいTr_flag(b)を返す。これによって、残響を減らすことができる。一方、なめらかに変化する信号の場合、過渡検出モジュール(204)は、0.99のように大きなTr_flag(b)の値を返す。これによって、所望の残響量を保つことが可能になる。Tr_flag(b)は、復号化処理においてM(t,f)を分析することで生成できる。あるいは、Tr_flag(b)を符号化処理において生成し、副情報として復号処理側に送信することも可能である。
z領域に表わされる残響信号MD(t,f)は、M(t,f)をHf(z)に畳み込むことで生成される(畳み込みはz領域における乗算である)。
Figure 0004934427
Lreverb(t,f)およびRreverb(t,f)は、位相キューIPDL(b)およびIPDR(b)をそれぞれ位相調整モジュール(206)および(208)においてMD(t,f)に付加することで生成される。この処理を行うことで、符号化処理における原音とダウンミクス信号との位相関係を回復することができる。
適用される数式は以下の通りである。
Figure 0004934427
ここで付加された位相は、以前に処理された音声フレームの位相を用い、それらを付加する前に補間することができる。例えばLreverb(t,f)の場合、左チャネル位相調整モジュール(208)における数式は以下のように変更される。
Figure 0004934427
ここで、a−2,a−1およびa0は補間係数であり、frは音声フレームの指標を示す。補間を行うことで、Lreverb(t,f)の位相が急激に変化するのを防止でき、音声が全体的に安定する。
右チャネル位相調整モジュール(206)も同様にして補間を行い、MD(t,f)からRreverb(t,f)を生成する。
Lreverb(t,f)およびRreverb(t,f)は左チャネルエネルギー調整モジュール(214)、右チャネルエネルギー調整モジュール(216)において成型される。その成型は、BorderL、BorderRや、(図4に示すような)所定の周波数セクションの境界で区切られる様々な帯域におけるエネルギーエンベロープが、原音におけるエネルギーエンベロープと類似するように行われる。左チャネルについて説明すると、ゲイン係数GL(l,b)は帯域(l,b)に対して以下のように計算される。
Figure 0004934427
次に、当該帯域における全てのサンプルに対してLreverb(t,f)にゲイン係数を乗算する。右チャネルエネルギー調整モジュール(216)は同様の処理を右チャネルに対して行う。
Figure 0004934427
Lreverb(t,f)およびRreverb(t,f)は人工的な残響信号に過ぎないため、場合によっては、それらをそのままマルチチャネル信号として用いることが最適とはならないことがある。その上、残響をある程度減らすために、パラメータslope(f,m)を調整してnew_slope(f,m)に合わせるが、これではオールパスフィルタの順番で決まるエコーの主成分を変えることはできない。そこで本発明では、エネルギー調整を行う前に、ミキシングモジュールである左チャネルミキサ2(210)および右チャネルミキサ2(212)においてLreverb(t,f)およびRreverb(t,f)と、ダウンミクス信号M(t,f)とをミキシングすることで、制御の幅を広げるオプションを提供する。残響信号Lreverb(t,f)およびRreverb(t,f)とダウンミクス信号M(t,f)との割合は、ICC(b)によって、例えば次のように制御できる。
Figure 0004934427
ICC(b)は左チャネルと右チャネル間の相関関係を示している。上記数式では、相関性が高い場合、M(t,f)をより多くLreverb(t,f)およびRreverb(t,f)にミキシングする。また、逆の場合も同様である。
モジュール(218)はエネルギー調整されたLadj(t,f)およびRadj(t,f)を逆変換し、時間軸における信号を生成する。ここでは逆QMF処理を用いる。マルチステージQMFの場合、数ステージに亘って逆変換処理を行う必要がある。
(実施の形態2)
実施の形態2は、図3に示すエネルギーエンベロープ分析モジュール(104)に関わる。図2に示す分割方法の例では、耳が持つ音響心理学的特性を利用できていない。そこで本実施の形態では、図4に示すように、高い周波数の音に対しては感度が低いという耳の特性を利用して、低い周波数に対しては緻密に分割を行い、高い周波数に対しては分割の精度を下げる。
これを実現するため、L(t,f)の周波数帯域を、さらに"セクション"(402)に分割する。図4ではセクション0(402)〜セクション2(404)までの3つのセクションが示されている。高周波数のセクションは、例えば最大1つの境界しか持つことができず(404)、これによって当該周波数セクションは2分割されることになる。ビット数をさらに節減するため、最も高域の周波数セクションでの分割は許可しない。この場合、このセクションには従来技術において用いられる有名な"インテンシティステレオ"を利用する。分割の精度は、耳の感度がより高くなる低域のセクションに向かうほど高くなる。
副情報の一部がセクションの境界となってもよいし、符号化のビットレートに従ってあらかじめ定めてもよい。ただし、各セクションの時間的境界(406)は、副情報BorderLの一部となる。
なお、対象フレームの第一境界がそのフレームの始まりの境界である必要はない。連続する2つのフレームに、複数のフレーム境界をまたぐ同じエネルギーエンベロープを共有させてもよい。この場合、この処理を可能とするために、2つの音声フレームのバッファリングを行う必要がある。
(実施の形態3)
ビットレートが高い場合、残響信号を用いてマルチチャネル信号を導出するだけでは高ビットレートで期待される透明性レベルを獲得するのに不十分である。このため、実施の形態3では、粗い量子化が行われた差分信号Llf(t)およびRlf(t)を、ダウンミクス信号とは別に符号化して復号化装置に送り、ダウンミクス信号から分離された音声チャネル信号と原音チャネル信号とのずれを復号化装置において補正する。図6は、実施の形態3の復号化装置の構成を示すブロック図である。同図において、破線で囲んで示す部分は、ミキサ1(322、324)でのプレミキシングによって得られたプレミキシングチャネル信号の位相を調整するためのLreverb、Rreverbを、残響生成器(302)においてダウンミクス信号から分離する信号分離部である。この復号化装置は、前述の信号分離部、変換モジュール(300)、ミキサ1(322、324)、低域通過フィルタ(320)、ミキサ2(310、312)、エネルギー調整器(314、316)及び逆変換モジュール(318)を備える。図6に示す本実施の形態3の復号化装置では、粗い量子化を行ったマルチチャネル信号と低周波数領域における残響信号とをミキシングする。粗い量子化が行われるのは、ビットレートに制限があるためである。
粗い量子化が行われたLlf(t)およびRlf(t)は、QMFフィルタバンクである変換モジュール(300)において、ダウンミクス信号M(t)とともに時間―周波数変換され、それぞれLlf(t,f)およびRlf(t,f)と表現される。低域通過フィルタ(320)で決まるある一定のクロスオーバー周波数fxに到達するまで、プレミキシングモジュールである左側ミキサ1(322)および右側ミキサ1(324)は、それぞれ、右チャネルRlf(t,f)および左チャネルLlf(t,f)を、ダウンミクス信号M(t,f)にプレミキシングする。これにより、プレミキシングチャネル信号LM(t,f)とRM(t,f)とを生成する。例えば、以下のようにしてプレミキシングを行う。
Figure 0004934427
ここで、ICC(b)はチャネル間の相関を表しており、Llf(t,f)およびRlf(t,f)それぞれと、M(t,f)とのミキシングの割合を示している。例えば、ICC(b)=1のとき、ICC(b)は、粗い量子化が行われ、時間−周波数表現に変換されたLlf(t,f)およびRlf(t,f)それぞれと、M(t,f)とが、よく似ていることを示している。すなわち、ICC(b)=1のときには、M(t,f)だけで、ミキシングチャネル信号LM(t,f)とRM(t,f)とを十分、精度良く復元できる。
クロスオーバー周波数fxより高域の周波数領域に対する以降の処理ステップは、図4に示した実施の形態2と同じである。Llf(t)およびRlf(t)に対して粗い量子化を行うための一つの方法は、
Figure 0004934427
のようにLlf(t)およびRlf(t)に対して差分信号を計算し、音響心理学モデルに応じて決定されるfxまでの主要な周波数成分のみを符号化することである。ビットレートをさらに低くするために、所定の量子化ステップを採用することができる。なお、上記の数式15では、差分信号としてLlf(t)=L(t)−M(t)、Rlf(t)=R(t)−M(t)を計算したが、本発明はこれに限定されない。例えば、上記数式15のM(t)の代わりに、分離後の各チャネル信号を減算するとしてもよい。すなわち、Llf(t)=L(t)−Lreverb(t)、Rlf(t)=R(t)−Rreverb(t)を算出し、分離後の各チャネル信号にLlf(t)、Rlf(t)を加算して、信号のずれを補正するとしてもよい。
低域通過フィルタ(320)および高域通過フィルタ(326)が用いるクロスオーバー周波数fxはビットレートの関数である。ビットレートが非常に低いという極端なケースでは、Llf(t)およびRlf(t)を量子化するためのビット数が不十分であるため、ミキシングが行えない。例えば、fxがゼロといったケースである。実施の形態3においては、fxよりも高域に対してのみバイノーラルキュー符号化を行う。
図7は、本実施の形態3の符号化装置と復号化装置とからなる符号化システムの構成を示すブロック図である。実施の形態3の符号化システムは、符号化側にダウンミクス部(410)、AACエンコーダ(411)、バイノーラルキューエンコーダ(412)、及び第2エンコーダ(413)を備え、復号化側にAACデコーダ(414)、プレミクス部(415)、信号分離部(416)及びミキシング部(417)を備える。信号分離部(416)は、チャネル分離部(418)及び位相調整部(419)を備える。
ダウンミクス部(410)は、例えば、図1に示したダウンミクス部(102)と同じである。例えば、ダウンミクス部(410)は、M(t)=(L(t)+R(t))/2で表されるダウンミクス信号を生成する。このように生成されたダウンミクス信号M(t)は、AACエンコーダ(411)において、MDCT(Modified Descrete Cosine Transform)変換され、サブバンドごとに量子化され、可変長符号化されて符号化ビットストリームに組み込まれる。
バイノーラルキューエンコーダ(412)は、音声チャネルL(t)、R(t)及びM(t)を、一旦、QMFによって時間−周波数表現に変換した上、それぞれのチャネル信号を比較してバイノーラルキューを算出する。バイノーラルキューエンコーダ(412)は、算出したバイノーラルキューを符号化して符号列に多重化する。
また、第2エンコーダ(413)は、例えば、数式15に示したような、右チャネル信号R(t)及び左チャネル信号L(t)のそれぞれと、ダウンミクス信号M(t)との差分信号Llf(t)及びRlf(t)を算出し、粗く量子化して、符号化する。第2エンコーダ(413)は、必ずしもAACエンコーダ(411)と同じ符号化形式で符号化を行なう必要はない。
AACデコーダ(414)は、AAC方式で符号化されたダウンミクス信号を復号化した上、復号化されたダウンミクス信号を、QMFにより時間−周波数表現M(t,f)に変換する。
信号分離部(416)は、チャネル分離部(418)と位相調整部(419)とを備える。チャネル分離部(418)は、バイノーラルキューエンコーダ(412)によって符号化されたバイノーラルキューパラメータと、第2エンコーダ(413)によって符号化された差分信号Llf(t)、Rlf(t)とを復号化した後、差分信号Llf(t)、Rlf(t)を時間−周波数表現に変換する。その後、チャネル分離部(418)は、例えば、ICC(b)に従って、AACデコーダ(414)の出力であるダウンミクス信号M(t,f)と、時間−周波数表現に変換された差分信号Llf(t,f)、Rlf(t,f)とをプレミキシングし、これによって生成されたプレミキシングチャネル信号LM、RMをミキシング部417に出力する。
位相調整部(419)は、ダウンミクス信号M(t,f)に対して必要な残響成分の生成付加を行なった後、その位相を調整し、位相調整信号LrevとRrevとしてミキシング部(417)に出力する。
ミキシング部(417)は、左チャネルについては、プレミキシングチャネル信号LMと、位相調整信号Lrevとをミキシングして、得られたミキシング信号を逆QMFし、時間の関数で表される出力信号L"を出力する。また、右チャネルについては、プレミキシングチャネル信号RMと、位相調整信号Rrevとをミキシングして、得られたミキシング信号を逆QMFし、時間の関数で表される出力信号R"を出力する。
なお、上記図7に示した符号化システムにおいても、左右の差分信号Llf(t)、Rlf(t)を、原音の音声チャネル信号L(t)、R(t)と、位相調整によって得られる出力信号Lrev(t)、Rrev(t)との差分としてもよい。すなわち、Llf(t)=L(t)−Lrev(t)、Rlf(t)=R(t)−Rrev(t)としてもよい。
本発明は、ホームシアターシステム、カーオーディオシステム、電子ゲームシステム等に適用可能である。
図1は、従来の典型的なバイノーラルキュー符号化システムの構成を示す図である。 図2は、様々な周波数セクションに対する従来の典型的な時間分割方法を示す図である。 図3は、本発明に関わる符号化装置の構成を示すブロック図である。 図4は、様々な周波数セクションに対する時間的分割方法を示す図である。 図5は、本発明の実施の形態1に関わる復号化装置の構成を示すブロック図である。 図6は、本発明の実施の形態3に関わる復号化装置の構成を示すブロック図である。 図7は、本発明の実施の形態3に関する符号化システムの構成を示すブロック図である。
符号の説明
100 変換モジュール
102 ダウンミクスモジュール
104 エネルギーエンベロープ分析器
106 IPDL(b)を算出するモジュール
108 IPDR(b)を算出するモジュール
110 ICC(b)を算出するモジュール
200 変換モジュール
202 残響生成器
204 過渡検出器
206、208 位相調整器
210、212 ミキサ2
214、216 エネルギー調整器
218 逆変換モジュール
300 変換モジュール
302 残響生成器
304 過渡検出器
306、308 位相調整器
310、312 ミキサ2
314、316 エネルギー調整器
318 逆変換モジュール
320 低域通過フィルタ
322、324 ミキサ1
326 高域通過フィルタ
400 帯域
402 セクション0
404 セクション2
406 境界
410 ダウンミクス部
411 AACエンコーダ
412 バイノーラルキューエンコーダ
413 第2エンコーダ
414 AACデコーダ
415 プレミクス部
416 信号分離部
417 ミキシング部
418 チャネル分離部
419 位相調整部
500 ダウンミキシング部
502 バイノーラルキュー抽出部
504 音声符号化器
506 マルチプレクサ
508 デマルチプレクサ
510 音声復号化器
512 マルチチャネル合成部
601 境界

Claims (19)

  1. 複数の音声チャネル信号をダウンミクスして得られるダウンミクスチャネル信号から、複数の前記音声チャネル信号を復号化する音声信号復号化装置であって、
    ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換するダウンミクス信号変換手段と、
    所定の上限周波数までを低ビット量に量子化、符号化された音声チャネル信号を前記時間−周波数表現に変換する音声チャネル信号変換手段と、
    変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、前記所定の上限周波数までの帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成するプレミキシング手段と、
    音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信号とを前記所定の上限周波数より高域の帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成するミキシング手段と、
    前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換するミキシングチャネル信号変換手段と
    を備えることを特徴とする音声信号復号化装置。
  2. 前記空間音声情報は、時間軸方向への境界と、周波数方向への境界とによって区切られた領域に対して、それぞれ与えられる
    ことを特徴とする請求項1記載の音声信号復号化装置。
  3. 前記時間方向への境界の数は、周波数方向に設定されたセクションごとに異なる
    ことを特徴とする請求項2記載の音声信号復号化装置。
  4. 前記空間音声情報はさらに、チャネル間の干渉性を示す成分を含み、前記ミキシング手段は、前記チャネル間の干渉性を示す成分によって示される割合でミキシングする
    ことを特徴とする請求項1記載の音声信号復号化装置。
  5. 前記空間音声情報に基づく所定の処理は、ダウンミクス信号に対して残響成分を生成付加する処理を含み、
    残響成分を生成する前記処理は、前記チャネル間の干渉性を示す成分によって制御される
    ことを特徴とする請求項4記載の音声信号復号化装置。
  6. 全ての周波数帯域について、前記ミキシングチャネル信号のゲイン係数を導出するために、前記ミキシングチャネル信号のエネルギーを算出し、当該ゲイン係数を前記周波数帯域におけるミキシング信号に乗算する
    ことを特徴とする請求項1記載の音声信号復号化装置。
  7. 前記上限周波数は、符号化のビットレートに合わせて決定されている
    ことを特徴とする請求項4記載の音声信号復号化装置。
  8. 前記ダウンミクス信号変換手段および音声チャネル信号変換手段は、QMF手段であり、前記ミキシングチャネル信号変換手段は、逆QMF手段である
    ことを特徴とする請求項1記載の音声信号復号化装置。
  9. 複数の音声チャネル信号を前記音声チャネル信号間の空間的特徴を表す空間音声情報とともに符号化する音声信号符号化装置であって、
    複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル信号を生成するダウンミクス手段と、
    複数の前記音声チャネル信号と、生成された前記ダウンミクスチャネル信号とを、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換する信号変換手段と、
    所定の時間−周波数領域ごとに、複数の前記音声チャネル信号を比較して、前記空間音声情報を算出する空間音声情報算出手段と、
    前記ダウンミクスチャネル信号と前記空間音声情報とを符号化する第1符号化手段と、
    複数の前記音声チャネル信号の所定の上限周波数までの帯域成分を低ビット量に量子化した後、符号化する第2符号化手段と
    を備えることを特徴とする音声信号符号化装置。
  10. 前記時間−周波数領域の時間境界は、前記音声チャネル信号および前記ダウンミクスチャネルのいずれかの信号のエネルギーに、急激な変化が生じる時間的位置に配置される
    ことを特徴とする請求項記載の音声信号符号化装置。
  11. 前記空間音声情報は、前記時間境界と前記周波数の境界とによって区切られる領域ごとに算出される
    ことを特徴とする請求項記載の音声信号符号化装置。
  12. 前記空間音声情報のうち、音が両耳に届くまでの時間差を示す成分は、各音声チャネルの帯域ごとに算出される
    ことを特徴とする請求項記載の音声信号符号化装置。
  13. 前記空間音声情報のうち、前記音声チャネル信号間の干渉性を示す成分は、前記複数の音声チャネル信号の相関性として算出される
    ことを特徴とする請求項記載の音声信号符号化装置。
  14. 複数の音声チャネル信号をダウンミクスして得られるダウンミクスチャネル信号から、複数の前記音声チャネル信号を復号化する音声信号復号化方法であって、
    ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換し、
    所定の上限周波数までを低ビット量に量子化された音声チャネル信号を前記時間−周波数表現に変換し、
    変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、前記所定の上限周波数までの帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成し、
    音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信号とを前記所定の上限周波数より高域の帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成し、
    前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換する
    ことを特徴とする音声信号復号化方法。
  15. 複数の音声チャネル信号を前記音声チャネル信号間の空間的特徴を表す空間音声情報とともに符号化する音声信号符号化方法であって、
    複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル信号を生成し、
    複数の前記音声チャネル信号と、生成された前記ダウンミクスチャネル信号とを、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換し、
    所定の時間−周波数領域ごとに、複数の前記音声チャネル信号を比較して、前記空間音声情報を算出し、
    前記ダウンミクスチャネル信号と前記空間音声情報とを符号化し、
    複数の前記音声チャネル信号の所定の上限周波数までの成分を低ビット量に量子化した後、符号化する
    ことを特徴とする音声信号符号化方法。
  16. 複数の音声チャネル信号をダウンミクスして得られるダウンミクスチャネル信号から、複数の前記音声チャネル信号を復号化する音声信号復号化装置のためのプログラムであって、
    ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換するステップと、所定の上限周波数までを低ビット量に量子化された音声チャネル信号を前記時間−周波数表現に変換するステップと、変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、前記所定の上限周波数までの帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成するステップと、音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信号とを前記所定の上限周波数より高域の帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成するステップと、前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換するステップとをコンピュータに実行させるプログラム。
  17. 複数の音声チャネル信号を前記音声チャネル信号間の空間的特徴を表す空間音声情報とともに符号化する音声信号符号化装置のためのプログラムであって、
    複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル信号を生成するステップと、複数の前記音声チャネル信号と、生成された前記ダウンミクスチャネル信号とを、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換するステップと、所定の時間−周波数領域ごとに、複数の前記音声チャネル信号を比較して、前記空間音声情報を算出するステップと、前記ダウンミクスチャネル信号と前記空間音声情報とを符号化するステップと、複数の前記音声チャネル信号の所定の上限周波数までの成分を低ビット量に量子化した後、符号化するステップとをコンピュータに実行させるプログラム。
  18. ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換するステップと、所定の上限周波数までを低ビット量に量子化、符号化された音声チャネル信号を前記時間−周波数表現に変換するステップと、変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、前記所定の上限周波数までの帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成するステップと、音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信号とを前記所定の上限周波数より高域の帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成するステップと、前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換するステップとをコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体。
  19. 複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル信号を生成するステップと、複数の前記音声チャネル信号と、生成された前記ダウンミクスチャネル信号とを、周波数軸に沿って分割された複数の帯域における時間−周波数表現に変換するステップと、所定の時間−周波数領域ごとに、複数の前記音声チャネル信号を比較して、前記空間音声情報を算出するステップと、前記ダウンミクスチャネル信号と前記空間音声情報とを符号化するステップと、複数の前記音声チャネル信号の所定の上限周波数までの成分を低ビット量に量子化した後、符号化するステップとをコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2006528708A 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置 Active JP4934427B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006528708A JP4934427B2 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004197336 2004-07-02
JP2004197336 2004-07-02
JP2006528708A JP4934427B2 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置
PCT/JP2005/011842 WO2006003891A1 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置

Publications (2)

Publication Number Publication Date
JPWO2006003891A1 JPWO2006003891A1 (ja) 2008-04-17
JP4934427B2 true JP4934427B2 (ja) 2012-05-16

Family

ID=35782698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006528708A Active JP4934427B2 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置

Country Status (7)

Country Link
US (1) US7756713B2 (ja)
EP (1) EP1768107B1 (ja)
JP (1) JP4934427B2 (ja)
KR (1) KR101120911B1 (ja)
CN (1) CN1981326B (ja)
CA (1) CA2572805C (ja)
WO (1) WO2006003891A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101040322A (zh) * 2004-10-15 2007-09-19 皇家飞利浦电子股份有限公司 处理音频数据以便生成交混回响的系统和方法
ES2623551T3 (es) * 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
JP5227794B2 (ja) 2005-06-30 2013-07-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
EP1913576A2 (en) 2005-06-30 2008-04-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8019614B2 (en) * 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
US8654983B2 (en) * 2005-09-13 2014-02-18 Koninklijke Philips N.V. Audio coding
JP4999846B2 (ja) * 2006-08-04 2012-08-15 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
KR20090013178A (ko) 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
WO2008069594A1 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP2010516077A (ja) * 2007-01-05 2010-05-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
JP5309944B2 (ja) 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
JP5524237B2 (ja) 2008-12-19 2014-06-18 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
US9026236B2 (en) 2009-10-21 2015-05-05 Panasonic Intellectual Property Corporation Of America Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus
CN103180898B (zh) * 2010-08-25 2015-04-08 弗兰霍菲尔运输应用研究公司 用于利用合成单元和混频器解码包括瞬时的信号的设备
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
TWI462087B (zh) 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
CN102446507B (zh) * 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP2014074782A (ja) * 2012-10-03 2014-04-24 Sony Corp 音声送信装置、音声送信方法、音声受信装置および音声受信方法
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
WO2014058138A1 (ko) * 2012-10-12 2014-04-17 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
CN104781877A (zh) * 2012-10-31 2015-07-15 株式会社索思未来 音频信号编码装置以及音频信号解码装置
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN105247611B (zh) 2013-05-24 2019-02-15 杜比国际公司 对音频场景的编码
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
WO2015012594A1 (ko) * 2013-07-23 2015-01-29 한국전자통신연구원 잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더
WO2015060652A1 (ko) 2013-10-22 2015-04-30 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09102742A (ja) * 1995-10-05 1997-04-15 Sony Corp 符号化方法および装置、復号化方法および装置、並びに記録媒体
JPH09102472A (ja) * 1995-10-06 1997-04-15 Matsushita Electric Ind Co Ltd 誘電体素子の製造方法
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5343171A (en) 1992-09-28 1994-08-30 Kabushiki Kaish Toshiba Circuit for improving carrier rejection in a balanced modulator
US5640385A (en) 1994-01-04 1997-06-17 Motorola, Inc. Method and apparatus for simultaneous wideband and narrowband wireless communication
US6252965B1 (en) 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
DE19721487A1 (de) * 1997-05-23 1998-11-26 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Fehlerverschleierung bei Mehrkanaltonsignalen
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
AR024353A1 (es) 1999-06-15 2002-10-02 He Chunhong Audifono y equipo auxiliar interactivo con relacion de voz a audio remanente
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
ATE426235T1 (de) * 2002-04-22 2009-04-15 Koninkl Philips Electronics Nv Dekodiervorrichtung mit dekorreliereinheit
US7039204B2 (en) 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09102742A (ja) * 1995-10-05 1997-04-15 Sony Corp 符号化方法および装置、復号化方法および装置、並びに記録媒体
JPH09102472A (ja) * 1995-10-06 1997-04-15 Matsushita Electric Ind Co Ltd 誘電体素子の製造方法
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
JP2005523479A (ja) * 2002-04-22 2005-08-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータによるマルチチャンネルオーディオ表示
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化

Also Published As

Publication number Publication date
WO2006003891A1 (ja) 2006-01-12
CA2572805C (en) 2013-08-13
CA2572805A1 (en) 2006-01-12
KR20070030796A (ko) 2007-03-16
EP1768107A1 (en) 2007-03-28
JPWO2006003891A1 (ja) 2008-04-17
KR101120911B1 (ko) 2012-02-27
CN1981326A (zh) 2007-06-13
US7756713B2 (en) 2010-07-13
US20080071549A1 (en) 2008-03-20
EP1768107B1 (en) 2016-03-09
EP1768107A4 (en) 2009-10-21
CN1981326B (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
US9812136B2 (en) Audio processing system
RU2388068C2 (ru) Временное и пространственное генерирование многоканальных аудиосигналов
JP5224017B2 (ja) オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
RU2551797C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US8817992B2 (en) Multichannel audio coder and decoder
US7630396B2 (en) Multichannel signal coding equipment and multichannel signal decoding equipment
JP5400059B2 (ja) オーディオ信号処理方法及び装置
JP4794448B2 (ja) オーディオエンコーダ
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
JP5426680B2 (ja) 信号処理方法及び装置
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算
US20080154583A1 (en) Stereo Signal Generating Apparatus and Stereo Signal Generating Method
US20120010879A1 (en) Speech encoding/decoding device
US9167367B2 (en) Optimized low-bit rate parametric coding/decoding
WO2011013381A1 (ja) 符号化装置および復号装置
EP2056294A2 (en) Apparatus, Medium and Method to Encode and Decode High Frequency Signal
JP2008519306A (ja) 信号の組のエンコード及びデコード
US20100121632A1 (en) Stereo audio encoding device, stereo audio decoding device, and their method
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

R150 Certificate of patent or registration of utility model

Ref document number: 4934427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350