JP2008517333A - バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形 - Google Patents

バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形 Download PDF

Info

Publication number
JP2008517333A
JP2008517333A JP2007537133A JP2007537133A JP2008517333A JP 2008517333 A JP2008517333 A JP 2008517333A JP 2007537133 A JP2007537133 A JP 2007537133A JP 2007537133 A JP2007537133 A JP 2007537133A JP 2008517333 A JP2008517333 A JP 2008517333A
Authority
JP
Japan
Prior art keywords
channels
envelope
channel
cue
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007537133A
Other languages
English (en)
Other versions
JP4664371B2 (ja
Inventor
エリック アラマンヒェ
サッシャ ディスヒ
ユールゲン ヘレ
クリストフ フォーラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agere Systems LLC
Original Assignee
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agere Systems LLC filed Critical Agere Systems LLC
Publication of JP2008517333A publication Critical patent/JP2008517333A/ja
Application granted granted Critical
Publication of JP4664371B2 publication Critical patent/JP4664371B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

音声エンコーダで、1つ以上の音声チャネルに対しキューコードを生成する。音声チャネルの時間エンベロープの特徴を調べることにより、エンベロープキューコードを生成する。音声デコーダで、E個の送信音声チャネルを復号化し、C個の再生音声チャネルを生成する。C>=E・1である。受信したキューコードは、送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードを含んでいる。1つ以上の送信チャネルをアップミキシングし、1つ以上のアップミキシングチャネルを生成する。キューコードを1つ以上のアップミキシングチャネルに適用することにより、1つ以上の再生チャネルを合成する。エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用し、調整した時間エンベロープが基本的に、特徴を調べた時間エンベロープと整合するように、特徴を調べた時間エンベロープに基づいて、合成した信号の時間エンベロープを調整する。
【選択図】図1

Description

関連出願のクロスリファレンス
本出願は、2004年10月20日出願の米国特許仮出願第60/620,480号(代理人整理番号第Allamanche2−3−18−4)の優先権を主張するものである。この要旨は、ここに引例として組み込まれている。
また、本出願の内容は、次の米国特許出願の内容に関連し、これらの要旨すべては、ここに引例として組み込まれている。
・米国出願第09/848,877号2001年5月4日出願(代理人整理番号第Faller5)
・米国出願第10/045,458号2001年11月7日出願(代理人整理番号第Baumgarte1−6−8)。これは、2001年8月10日出願の米国仮出願第60/311,565号の優先権を主張するものである。
・米国出願第10/155,437号2002年5月24日出願(代理人整理番号第Baumgarte2−10)
・米国出願第10/246,570号2002年9月18日出願(代理人整理番号第Baumgarte3−11)
・米国出願第10/815,591号2004年4月1日出願(代理人整理番号第Baumgarte7−12)
・米国出願第10/936,464号2004年9月8日出願(代理人整理番号第Baumgarte8−7−15)
・米国出願第10/762,100号2004年1月20日出願(Faller13−1)
・米国出願第10/xxx,xxx号は、本出願(代理人整理番号第Allamanche1−2−17−3)と同日に出願したものである。
本出願の内容は、次の論文の要旨にも関連している。これらの要旨すべては、ここに引例として組み込まれている。
・C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)著、「バイノーラルキュー符号化パートI:心理音響学基礎および設計原理(Binaural Cue Coding − Part I: Psychoacoustic fundamentals and design principles)」(IEEE会報、スピーチおよび音声学会紀要第11巻第6号、2003年11月)
・C.フォーラおよびF.バウムガルテ著「バイノーラル用キュー符号化パートII:方法および応用例(Binaural Cue Coding − Part II: Schemes and applications)」(IEEE会報、オーディオおよびスピーチ学会紀要、11巻、第6号、2003年11月)
・C.フォーラ著、「異なる再生フォーマットと互換性のある空間音声符号化(Coding of spatial audio compatible with different playback formats)」(音声工学学会第117回大会予稿、2004年10月))
本発明は、音声信号を符号化して、次に符号化した音声データから聴覚情景の合成を行うことに関する。
人が特定の音源により生成した音声信号(すなわち、音)を聞く場合、この音声信号は通常、その人の左右の耳に2つの異なる時間で2つの異なる音声(例えば、デシベル)レベルで到達する。それらの異なる時間およびレベルは、音声信号が左右の耳それぞれに到達する経路の差の関数である。人の脳は、聞こえた音声信号が、その人を基準として、特定の位置(例えば、方向および距離)にある音源から生成されているという知覚をその人に与えるために、時間およびレベルのこれらの差を解釈する。聴覚情景は、その人を基準として、1つ以上の異なる位置にある1つ以上の異なる音源が生成した音声信号を同時に聞いている人の正味の影響である。
脳によるこの処理は、聴覚情景を合成するために用いられる。1つ以上の異なる音源からの音声信号は、聴取者を基準として、異なる音源が異なる位置にあるという知覚を与える左右の音声信号を生成するために、意図的に変更される。
図1は、従来のバイノーラル信号合成器100の上位ブロック図を示す。この装置は、1つの音源信号(例えば、モノラル信号)をバイノーラル信号の左右の音声信号に変換し、バイノーラル信号は、聴取者の鼓膜で受け取る2つの信号であると定義される。音源信号の他に、合成器100は、聴取者を基準として、所望の位置の音源に対応する空間キューのセットを受信する。典型的な実施例では、空間キューのセットは、チャネル間レベル差(ICLD)値(左右の音声信号の間の音声レベルの差を、それぞれ左右の耳で聞こえるように特定する値)と、チャネル間時間差(ICTD)値(左右の音声信号の間の到達時間差を、それぞれ左右の耳で聞こえるように特定する値)とを含んでいる。このほかに、または別のものとして、合成技術の中には、頭部伝達関数(HRTF)とも呼ぶ、信号源から鼓膜への音の方向依存の変換関数モデリングを必要とするものもある。例えば、J.ブラウエルト(Blauert)、「人のサウンドローカリゼーションの精神物理学(psychophysics of Human Sound Localization)」(MIT出版、1983年)を参照のこと、これは、この要旨は、ここに引例として組み込まれている。
ヘッドホンで聞いた場合に、適切な空間キューのセット(例えば、ICLD、ICTD、および/またはHRTF)を適用して、それぞれの耳に対して音声信号を生成することにより、音源を空間的に配置したように、図1のバイノーラル信号合成器100を用いて、1つの音源が生成したモノラル音声信号を処理することができる。例えば、D.R.ベゴールト(Begault)、「バーチャルリアリティーおよびマルチメディア用3−Dサウンド(3−D Sound for Virtual Reality and Multimedia)」(アカデミックプレス社マサチューセッツ州ケンブリッジ1994年)を参照のこと。
図1のバイノーラル信号合成器100は、聴取者を基準として配置された1つの音源を有する、最も単純な型の聴覚情景を生成する。基本的に、バイノーラル信号合成器の複数のインスタンスを用いて実施する聴覚情景合成器を用いることにより、聴取者を基準として、異なる位置に配置された2つ以上の音源を含むもっと複雑な聴覚情景を生成することができる。ここでは、各バイノーラル信号合成器インスタンスが、異なる音源に対応するバイノーラル信号を生成する。各異なる音源それぞれが、聴取者を基準として異なる場所にあるので、異なる空間キューのセットが、各異なる音源それぞれに対しバイノーラル音声信号を生成するために、用いられる。
米国特許出願番号第09/848,877号 米国特許出願番号第10/045,458号 米国特許出願番号第10/155,437号 米国特許出願番号第10/246,570号 米国特許出願番号第10/815,591号 米国特許出願番号第10/936,464号 米国特許出願番号第10/762,100号 C.フォーラ(Faller)、F.バウムガルテ(Baumgarte)、「バイノーラルキュー符号化パートI:心理音響学基礎および設計原理(Binaural Cue Coding − Part I: Psychoacoustic fundamentals and design principles)」、IEEE会報、スピーチおよび音声学会紀要第11巻第6号、2003年11月 C.フォーラおよびF.バウムガルテ、「バイノーラル用キュー符号化パートII:方法および応用例(Binaural Cue Coding − Part II: Schemes and applications)」、IEEE会報、オーディオおよびスピーチ学会紀要、11巻、第6号、2003年11月 C.フォーラ、「異なる再生フォーマットと互換性のある空間音声符号化(Coding of spatial audio compatible with different playback formats)」、音声工学学会第117回大会予稿、2004年10月
一実施の形態によれば、本発明は、音声チャネルを符号化する方法、装置および機械読み取り可能媒体である。1つ以上の音声チャネルに対し、1つ以上のキューコードを生成して送信する。少なくとも1つのキューコードは、1つ以上の音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより生成した、エンベロープキューコードである。
別の実施の形態によれば、本発明は、E個の送信音声チャネルを生成するために、C個の入力音声チャネルを符号化する装置である。装置は、エンベロープ分析器と、コード推定器と、ダウンミキサとを備える。エンベロープ分析器は、少なくとも1つのC個の入力チャネルの入力時間エンベロープの特徴を調べる。コード推定器は、2つ以上のC個の入力チャネルのキューコードを生成する。ダウンミキサは、C>E・・1である、E個の送信チャネルを生成するために、C個の入力チャネルをダウンミキシングする。この装置は、デコーダを有効にして、合成およびエンベロープ整形を行うために、E個の送信チャネルの復号化を行う間に、キューコードおよび特徴を調べた入力時間エンベロープの情報を送信する。
別の実施の形態によれば、本発明は、音声チャネルを符号化することにより生成した、符号化音声ビットストリームである。1つ以上の音声チャネルに対して、1つ以上のキューコードを生成する。少なくとも1つのキューコードは、1つ以上の音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより生成した、エンベロープキューコードである。1つ以上のキューコードと、E・・1である、1つ以上の音声チャネルに対応する、E個の送信音声チャネルが、符号化音声ビットストリームに符号化される。
別の実施の形態によれば、本発明は、1つ以上のキューコードおよびE個の送信音声チャネルを含む、符号化音声ビットストリームである。1つ以上の音声チャネルに対して、1つ以上のキューコードを生成する。少なくとも1つのキューコードは、1つ以上の音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより生成した、エンベロープキューコードである。E個の送信音声チャネルは、1つ以上の音声チャネルに対応している。
別の実施の形態によれば、本発明は、C>E・・1であるC個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号化する、方法、装置および機械読み取り可能媒体である。E個の送信チャネルに対応するキューコードを、受信する。キューコードは、E個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードを含む。1つ以上のE個の送信チャネルは、1つ以上のアップミキシングチャネルを生成するために、アップミキシングされる。キューコードを1つ以上のアップミキシングチャネルに適用することにより、1つ以上のC個の再生チャネルを合成する。調整した時間エンベロープが、特徴を調べた時間エンベロープと基本的に整合するように、特徴を調べた時間エンベロープに基づいて、エンベロープキューコードは、合成した信号の時間エンベロープを調整するために、アップミキシングチャネルまたは合成した信号に適用される。
以下の詳細な説明、特許請求の範囲、添付の図面から、本発明の他の側面、特徴および利点について、より完全に明らかになるであろう。類似の、または全く同じ構成要素には、同じ参照番号が付されている。
図1は、従来のバイノーラル信号合成器の上位ブロック図を示す。
図2は、一般バイノーラルキュー符号化(BCC)音声処理システムを示すブロック図である。
図3は、図2のダウンミキサに用いることができるダウンミキサのブロック図を示す。
図4は、図2のデコーダに用いることができるBCC合成器のブロック図を示す。
図5は、本発明の一実施の形態による、図2のBCC推定器のブロック図を示す。
図6は、5チャネル音声用ICTDおよびICLDデータ生成を説明する図である。
図7Aは、5チャネル音声用ICCデータを説明する図である。
図7Bは、5チャネル音声用ICCデータを説明する図である。
図8は、BCCデコーダに用いることができ、1つの送信した和信号s(n)プラス空間キューが与えられたステレオ音声信号またはマルチチャネル音声信号を生成する、図4のBCC合成器の一実施例のブロック図を示す。
図9は、周波数関数として、サブバンド内でICTDおよびICLDがどのように変化するかを説明する図である。
図10Aは、本発明の一実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる時間領域処理を示すブロック図である。
図10Bは、本発明の一実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる時間領域処理を示すブロック図である。
図11Aは、図4のBCC合成器の条件でのTP処理の一例の時間領域適用例を説明する図である。
図11Bは、図4のBCC合成器の条件でのTP処理の一例の時間領域適用例を説明する図である。
図12Aは、カットオフ周波数fTPより高い周波数にだけをエンベロープ整形が行われる、図10のTPAおよび図11のTPそれぞれの、考えられる実施例を示す。
図12Bは、カットオフ周波数fTPより高い周波数にだけエンベロープ整形が行われる、図10のTPAおよび図11のTPそれぞれの、考えられる実施例を示す。
図13Aは、本発明の別の実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる周波数領域処理のブロック図を示す。
図13Bは、本発明の別の実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる周波数領域処理のブロック図を示す。
図14Aは、図4のBCC合成器の条件でのTP処理の一例の周波数領域適用例を説明する図である。
図14Bは、図4のBCC合成器の条件でのTP処理の一例の周波数領域適用例を説明する図である。
図15は、本発明のさらに別の実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる周波数領域処理のブロック図を示す。
図16は、図4のBCC合成器の条件でのTP処理の別の一例の周波数領域適用例を説明する図である。
図17Aは、図15および図16のTPAと、図16のITPおよびTPとの考えられる実施例のブロック図を示す。
図17Bは、図15および図16のTPAと、図16のITPおよびTPとの考えられる実施例のブロック図を示す。
図17Cは、図15および図16のTPAと、図16のITPおよびTPとの考えられる実施例のブロック図を示す。
図18Aは、図16の制御ブロックを動作させる2つの一例のモードを説明する図である。
図18Bは、図16の制御ブロックを動作させる2つの一例のモードを説明する図である。
バイノーラルキュー符号化(BCC)は、C>E・・1である、音声チャネルを生成するために、エンコーダがC個の入力音声チャネルを符号化される。特に、2つ以上のC個の入力チャネルが周波数領域に提供され、周波数領域の2つ以上の入力チャネルで、1つ以上の異なる周波数帯域それぞれに1つ以上のキューコードが生成される。また、C個の入力チャネルは、E個の送信チャネルを生成するために、ダウンミキシングされる。ダウンミキシング実施例の中には、E個の送信チャネルのうちの少なくとも1つのチャネルが2つ以上のC個の入力チャネルに基づいていて、E個の送信チャネルのうちの少なくとも1つのチャネルがC個の入力チャネルのうちの1つのチャネルだけに基づいている場合もある。
一実施の形態では、BCCコーダは、2つ以上のフィルタバンク、コード推定器、およびダウンミキサを備えている。2つ以上のフィルタバンクは、2つ以上のC個の入力チャネルを時間領域から周波数領域に変換する。コード推定器は、2つ以上の変換した入力チャネルで1つ以上の異なる周波数帯域それぞれに1つ以上のキューコードを生成する。ダウンミキサは、C>E・・1である、E個の送信チャネルを生成するために、C個の入力チャネルをダウンミキシングする。
BCC復号化では、C個の再生音声チャネルを生成するために、E個の送信音声チャネルが復号化される。特に、1つ以上の異なる周波数帯域それぞれに対して、周波数領域で1つ以上のE個の送信チャネルが、C>E・・1である、周波数領域で2つ以上のC個の再生チャネルを生成するために、アップミキシングされる。周波数領域の2つ以上の再生チャネルで、1つ以上のキューコードが、2つ以上の変更チャネルを生成するために、1つ以上の異なる周波数帯域それぞれに適用され、2つ以上の変更チャネルが、周波数領域から時間領域に変換される。アップミキシングの実施例の中には、少なくとも1つのC個の再生チャネルが、E個の送信チャネルのうちの少なくとも1つのチャネルと、少なくとも1つのキューコードとに基づいていて、少なくとも1つのC個の再生チャネルが、キューコードとは無関係に、E個の送信チャネルのうちの1つのチャネルだけに基づいている場合もある。
一実施の形態では、BCCデコーダは、アップミキサ、合成器、および1つ以上の逆フィルタバンクを備える。1つ以上の異なる周波数帯域それぞれに対して、アップミキサは、C>E・・1である、周波数領域で2つ以上のC個の再生チャネルを生成するために、周波数領域で1つ以上のE個の送信チャネルをアップミキシングする。合成器は、2つ以上の変更チャネルを生成するために、周波数領域の2つ以上の再生チャネルで、1つ以上のキューコードを1つ以上の異なる周波数帯域それぞれに適用する。1つ以上の逆フィルタバンクは、2つ以上の変更チャネルを周波数領域から時間領域に変換する。
特定の実施例によるが、任意の再生チャネルは、2つ以上の送信チャネルの組み合わせよりむしろ、1つの送信チャネルに基づいている場合もある。例えば、送信チャネルが1つだけある場合、C個の再生チャネルのそれぞれは、その1つの送信チャネルに基づいている。このような状況では、アップミキシングは、送信チャネルをコピーすることに対応している。従って、送信チャネルが1つだけある適用例では、各再生チャネルに対して送信チャネルをコピーするレプリケータを用いて、アップミキサを実施してもよい。
BCCエンコーダおよび/またはデコーダを、例えば、デジタルビデオレコーダ/プレーヤ、デジタル音声レコーダ/プレーヤ、コンピュータ、衛星送信機/受信機、ケーブル送信機/受信機、地上波放送送信機/受信機、ホームエンターテインメントシステム、および映画館システム等の、多数のシステムまたは適用例に組み込むこともできる。
一般BCC処理
図2は、エンコーダ202とデコーダ204とを備える一般バイノーラルキュー符号化(BCC)音声処理システム200を示すブロック図である。エンコーダ202は、ダウンミキサ206とBCC推定器208とを含んでいる。
ダウンミキサ206は、C>E・・1である、C個の入力音声チャネルxi(n)をE個の送信音声チャネルyi(n)に変換する。この明細書では、変数nを用いて表す信号は時間領域信号であって、変数kを用いて表す信号は周波数領域信号である。特定の実施例によるが、時間領域または周波数領域のいずれかでダウンミキシングを行うことが可能である。BCC推定器208は、BCCコードをC個の入力音声チャネルから生成して、E個の送信音声チャネルを基準として、帯域内または帯域外サイド情報のいずれかとしてそれらのBCCコードを送信する。典型的なBCCコードは、1つ以上のチャネル間時間差(ICTD)と、チャネル間レベル差(ICLD)と、周波数および時間の関数として、特定の対の入力チャネル間で推定した、チャネル間相関(ICC)データとを含んでいる。特定の実施例では、どの特定の対の入力チャネルでBCCコードを推定するか要求している。
ICCデータは、音源の知覚した幅に関するバイノーラル信号のコヒーレンスに対応している。音源がより広くなると、得られるバイノーラル信号の左右のチャネル間のコヒーレンスがより低下する。例えば、ホールのステージいっぱいに広がるオーケストラに対応するバイノーラル信号のコヒーレンスは、通常、独奏している1つのバイオリンに対応するバイノーラル信号のコヒーレンスより低い。一般に、コヒーレンスが低い音声信号は通常、聴覚空間ではより広がって知覚される。従って、ICCデータは通常、明白な音源の幅と、聴取者が包み込まれた状態の度合いに関係する。すなわち、J.ブラウエルト、「人のサウンドローカリゼーションの精神物理学」(MIT出版、1983年)を参照のこと。
Figure 2008517333
図2に示すBCC処理の他に、一般BCC音声処理システムは、さらに符号化段、復号化段をさらに備え、エンコーダで音声信号を圧縮して、デコーダで音声信号を復元することもできる。これらの音声コーデックは、パルスコード変調(PCM)、差動PCM(DPCM)、または適応DPCM(ADPCM)に基づいた、従来の音声圧縮/復元技術に基づくものであってもよい。
ダウンミキサ206が1つの和信号(すなわち、E=1)を生成する場合は、BCC符号化により、モノラル音声信号を表すのに必要なものよりも若干高いビットレートでマルチチャネル音声信号を表すことが可能である。これは、チャネル対の間の推定したICTD、ICLD、およびICCデータが、音声波形よりも約2桁小さい情報を含んでいるからである。
BCC符号化は、ビットレートが低いことばかりでなく、その後方互換性の点でも関心を集めている。1つの送信した和信号は、元のステレオまたはマルチチャネル信号のモノラルダウンミキシングに対応している。ステレオまたはマルチチャネル音響再生をサポートしていない受信機にとって、送信した和信号を聴取することは、薄型モノラル再生装置で音声素材を表す有効な方法である。従って、BCC符号化を用いて、モノラル音声素材をマルチチャネル音声にすることが必要な既存のサービスを向上させることもできる。例えば、BCCサイド情報が、既存の伝送チャネルに埋め込むことができれば、ステレオまたはマルチチャネル再生が行えるように、既存のモノラル音声無線放送システムを向上させることができる。マルチチャネル音声を、ステレオ音声に対応する2つの和信号にダウンミキシングする際に、類似の能力が存在する。
BCCにより、ある時間および周波数分解能で音声信号を処理する。用いられる周波数分解能は、人間の聴覚システムの周波数分解能が主な動機となっている。心理音響学では、空間知覚は、音響入力信号の重要な帯域表現に基づいている可能性が一番高いことを示唆している。人間の聴覚システムの重要な帯域幅と同じか、または比例する帯域幅のサブバンドを有する可逆フィルタバンク(例えば、高速フーリエ変換(FFT)または直交ミラーフィルタ(QMF)に基づくもの)を用いて、この周波数分解能について考える。
一般ダウンミキシング
好適な実施例では、送信した和信号は、入力音声信号の全信号成分を含んでいる。目的は、各信号成分を完全に維持することである。音声入力チャネルを単純に加算することは、信号成分が増幅したり、減衰したりすることがよくある。言い換えれば、“単純に”加算した信号成分のパワーが、各チャネルの対応する信号成分のパワーの合計よりも大きかったり、小さかったりすることがよくある。和信号の信号成分のパワーが全入力チャネルの対応するパワーとほぼ同じになるように、和信号を等しくするダウンミキシング技術を用いることができる。
図3は、BCCシステム200のある実施例による、図2のダウンミキサ206に用いることができるダウンミキサ300を示すブロック図である。ダウンミキサ300は、各入力チャネルxi(n)のフィルタバンク(FB)302と、ダウンミキシングブロック304と、オプションのスケーリング/遅延ブロック306と、各符号化したチャネルyi(n)の逆FB(IFB)308とを備える。
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
オプションのスケーリングを行う他に、またはこの代わりに、スケーリング/遅延ブロック306は、オプションで信号を遅延してもよい。
各逆フィルタバンク308は、周波数領域の対応するスケーリング係数のセットを、対応するデジタル送信チャネルyi(n)のフレームに変換する。
図3は、C個の入力チャネルすべてを周波数領域に変換して、続いてダウンミキシングを行っているが、別の実施例として、1つ以上(しかし、C−1よりも小さい数)のC個の入力チャネルについて、図3に示す処理の一部またはすべてを省略して、同等の数の変更していない音声チャネルとして送信してもよい。特定の実施例によるが、送信BCCコードの生成に、図2のBCC推定器208がこれらの変更していない音声チャネルを用いても、用いなくてもよい。
Figure 2008517333
Figure 2008517333
係数e(k)は、次の式(5)から得られる。
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
Figure 2008517333
ここで、UECは、実数値のE×Cアップミキシング行列である。周波数領域でアップミキシングを行うことにより、異なるサブバンドそれぞれに個別にアップミキシングを行えるようになる。
各遅延406は、ICTDデータの対応するBCCコードに基づいて、遅延値di(k)を適用して、再生チャネルの特定の対の間で確実に所望のICTD値が現れるようにする。各乗算器408は、ICLDデータの対応するBCCコードに基づいて、倍率ai(k)を適用して、特定の対の再生チャネルの間で確実に所望のICLD値が現れるようにする。相関ブロック410は、ICCデータの対応するBCCコードに基づいて、非相関演算Aを行って、特定の対の再生チャネルの間で確実に所望のICC値が現れるようにする。さらに相関ブロック410の演算の記載は、米国出願第10/155,437号2002年5月24日出願(代理人整理番号第Baumgarte2−10)に記載されている。
ICLD合成を行うには、サブバンド信号のスケーリングを行うだけでよいので、ICLD値の合成は、ICTD値およびICC値の合成よりも煩わしくない。ICLDキューは最も一般的に用いられる方向キューなので、ICLD値により元の音声信号のICLDキューを近似することは、通常、さらに重要なことである。従って、ICLDデータを、全チャネル対の間で推定する場合もある。好ましくは、各再生チャネルのサブバンドパワーが、元の入力音声チャネルの対応するパワーを近似するように、各サブバンドの倍率ai(k)(1・i・C)が選択される。
目的の1つは、ICTD値およびICC値を合成するために、比較的少ない回数の信号変更を適用することである。従って、BCCデータは、全チャネル対のICTD値およびICC値を含んでいなくてもよい。その場合は、BCC合成器400は、あるチャネル対の間だけでICTD値およびICC値を合成する。
Figure 2008517333
図4は、続いてアップミキシングおよびBCC処理を行うために、E個の送信チャネルをすべて周波数領域に変換することを示しているが、別の実施例では、(すべてではないが)1つ以上のE個の送信チャネルについて、図4に示す処理の一部またはすべてを回避してもよい。例えば、1つ以上の送信チャネルが、アップミキシングを行っていない、変更していないチャネルであってもよい。1つ以上のC個の再生チャネルの他に、必ずしも行う必要はないが、これらの変更していないチャネルを順に、基準チャネルとして用いて、BCC処理を行って、1つ以上の他の再生チャネルを合成してもよい。いずれの場合でも、このような変更していないチャネルを遅延して残りの再生チャネルの生成に用いられるアップミキシングおよび/またはBCC処理に必要な処理時間を補償することもできる。
図4は、Cは元の入力チャネルの数である、C個の再生チャネルをE個の送信チャネルから合成することを示しているが、BCC合成は、再生チャネルの数に限られるわけではないことに留意されたい。一般に、再生チャネルの数を任意の数のチャネルとすることができ、Cより多い、または少ない数や、再生チャネルの数が送信チャネルの数以下である場合も考えられる。
音声チャネル間の“知覚的関連差”
1つの和信号を仮定し、ICTD、ICLD、およびICCが元の音声信号の対応するキューを近似するように、BCCは、ステレオ音声信号またはマルチチャネル音声信号を合成する。以下では、聴覚空間イメージ属性に関連したICTD、ICLD、およびICCの役割が説明される。
空間聴力の知識は、1つの聴覚イベントについて、ICTDおよびICLDは、知覚した方向に関係していることを意味している。1つの音源のバイノーラル室内インパルス応答(BRIR)を考える場合、聴覚イベントの幅、聴取者が包み込まれた状態、BRIRのはじめの部分および後の部分について推定したICCデータの間に、関係がある。しかしながら、ICCと、(単にBRIRばかりでなく)一般的な信号のこれらの特性との間の関係は、直接的なものではない。
ステレオ音声信号およびマルチチャネル音声信号は通常、アクティブな音源信号を、同時に、閉鎖空間でのレコーディングから得られる反射信号成分と重畳したもの、または、レコーディングエンジニアによって、人工的に生成した空間印象を加えられたものの、複雑な混合物を含んでいる。異なる源信号およびそれらの残響は、時間周波数平面で異なる領域を占めている。このことは、ICTD,ICLD、およびICCに反映され、時間および周波数の関数として変化する。この場合は、瞬時ICTD、ICLD、ICC、聴覚イベント方向、空間印象の間の関係は、明白でない。BCCを行うある実施の形態の手法は、元の音声信号の対応するキューを近似するように、これらのキューを盲目的に合成することである。
時間等価矩形帯域幅(ERB)の2倍と等しいサブバンドの帯域幅を持つフィルタバンクを用いる。非公式な聴き取りでは、より高い周波数分解能を選択した場合は、BCCの音声品質があまり向上しないことが明らかになっている。デコーダに送信する必要があるICTD、ICLD、およびICC値が小さくなり、従ってビットレートが低くなるので、より低い周波数分解能が望ましい。
時間分解能については、ICTD、ICLD、およびICCは、通常、通常の時間間隔で考えられている。ICTD、ICLD、およびICCを約4〜16ミリ秒毎に考える場合に、高い音効果が得られる。キューを非常に短時間の間隔で考える場合を除いて、先行音効果については直接考えないことに留意されたい。進みおよび遅れが時間間隔になり、1セットのキューが合成され、進みの局所的な優越については考えない場合は、音刺激の従来の遅れ進み対を想定する。このことにもかかわらず、BCCにより、平均で、平均MUSHRAスコアで約87(すなわち、“非常によい”音声品質)の音声品質になり、ある音声信号については100近くにまでなる。
基準信号と合成した信号との間の、しばしば見受けられる知覚的に小さな差は、通常の時間間隔でICTD、ICLD、およびICCを合成することにより、幅の広い聴覚空間イメージ属性の関するキューを暗黙的に考えることを意味している。以下では、ICTD、ICLD、およびICCが、聴覚空間イメージ属性の幅とどのように関連しているかについて、説明する。
空間キューの推定
以下では、ICTD、ICLD、およびICCをどのように推定するか、説明する。これらの(量子化および符号化)空間キューを伝送するビットレートは、わずか数キロビット/秒なので、BCCにより、1つの音声チャネルに必要なものに近いビットレートで、ステレオ音声信号およびマルチチャネル音声信号を送信することが可能である。
図5は、本発明の一実施の形態による、図2のBCC推定器208を示すブロック図である。BCC推定器208は、図3のフィルタバンク302と同じであってもよいフィルタバンク(FB)502と、フィルタバンク502によって生成されるそれぞれ異なる周波数サブバンドに対するICTD、ICLD、およびICC空間キューを生成する推定ブロック504とを備える。
Figure 2008517333
・ICTD[サンプル]
Figure 2008517333
次の式(8)から得られる正規化相互相関関数の短時間推定値による。
Figure 2008517333
ここで、
Figure 2008517333
Figure 2008517333
・ICLD[dB]:
Figure 2008517333
・ICC:
Figure 2008517333
正規化相互相関の絶対値について考慮し、c12(k)の範囲は[0,1]であることに留意されたい。
マルチチャネル音声信号に対するICTDICLD、およびICCの推定
入力チャネルが3つ以上ある場合は、通常、基準チャネル(例えば、チャネルナンバー1)と他のチャネルとの間でICTDおよびICLDを定義することで十分である。図6には、C=5チャネルの場合を示している。τ1c(k)およびΔ12(k)はそれぞれ、基準チャネル1とチャネルcとの間のICTDおよびICLDを表す。
ICTDおよびICLDとは反対に、ICCは通常、より自由度がある。定義されているICCは、考えられるすべての入力チャネル対の間で異なる値をとることができる。C個のチャネルの場合、C(C−1)/2個の考えられるチャネル対がある。例えば、5チャネルの場合は、図7(a)に示すように10個のチャネル対がある。しかしながら、このような方法では、各時間インデックスでの各サブバンドに対し、C(C−1)/2個のICC値を推定して送信することが必要になり、計算量が大きくなり、ビットレートが高くなってしまう。
また、各サブバンドに対して、ICTDおよびICLDが、サブバンドの対応する信号成分の聴覚イベントを表現する方向を求める。次に、サブバンド1つ毎に1つのICCパラメータを用いて、全音声チャネル間の全体的なコヒーレンスを記述してもよい。各時間インデックスで、各サブバンドで最もエネルギーが大きい2つのチャネルの間だけで、ICCキューを推定して送信することにより、良い結果を得ることができる。このことを、図7(b)に示す。時刻k−1およびkで、チャネル対(3、4)および(1、2)それぞれが最も強い。発見的規則を用いて、他のチャネル対の間のICCを求めてもよい。
Figure 2008517333
ICTD合成
次の式(12)により、ICTDτ1c(k)から遅延dcを求める。遅延dcの最大大きさを最小にするように、基準チャネルd1の遅延が算出される。変更するサブバンド信号が少なくなるほど、アーティファクトが発生する危険性がより少なくなる。サブバンドのサンプリングレートが、ICTD合成に対する時間分解能が十分高くならない場合は、適したオールパスフィルタを用いることにより、より正確に遅延を行うようにする。
Figure 2008517333
ICLD合成
チャネルcおよび基準チャネル1の間で出力サブバンド信号が所望のICLDΔ12(k)を有するようにするために、利得係数acは、次の式(13)を満たす必要がある。
Figure 2008517333
また、好ましくは、全出力チャネルのパワーの合計が、入力和信号のパワーと等しくなるように、出力サブバンドを正規化する。各サブバンドの元の信号パワーのすべてが和信号に保たれているので、この正規化は、各出力チャネルの絶対サブバンドパワーにおいて、元のエンコーダ入力音声信号の対応するパワーを近似することになる。これらの制約条件から、次の式(14)により、倍率acが得られる。
Figure 2008517333
ICC合成
ある実施の形態では、ICC合成の目的は、ICTDおよびICLDに影響を与えることなく、遅延およびスケーリングを行った後で、サブバンド間の相関を低減することである。平均変動が各サブバンド(聴覚的に重要な帯域)でゼロになるように、周波数の関数としてICTDおよびICLDが効果的に変化するように、図8のフィルタhcを設計することにより、このことを行うことが可能である。
図9は、周波数の関数として、ICTDおよびICLDがサブバンド内でどのように変化するかを示している。ICTDおよびICLD変動の振幅が、非相関の度合いを求め、ICCの関数として制御する。ICTDは滑らかに変化し(図9(a)に示す)、ICLDはランダムに変化する(図9(b)に示す)ことに留意されたい。ICLDを、ICTDのように滑らかに変化させることもできるが、このことにより、得られる音声信号をさらに特徴付けることになる。
マルチチャネルICC合成を行うのに特に適した、ICCを合成する別の方法は、次の文献に詳細に記載されている。C.フォーラ、「パラメトリックマルチチャネル音声符号化:コヒーレンスキューの合成(Parametric multi−channel audio coding: Synthesis of coherence cues)」(IEEE会報、スピーチおよびオーディオ学会、2003年)」(IEEE会報、スピーチおよびオーディオ学会、2003年)。この要旨は、ここに引例として組み込まれている。時間および周波数の関数として、一定量のアーティフィシャルな後期残響を出力チャネルそれぞれに加算して、所望のICCを得る。また、得られる信号のスペクトルエンベロープが元々の音声信号のスペクトルエンベロープに近づくように、スペクトル変更を行うこともできる。
ステレオ信号(または音声チャネル対)に対するICC合成技術に関係する、または関係しない他の技術が、次の文献に記載されている。E.シュイエールス(Schuijers)、W.オーメン(Oomen)、B.デン・ブリンカー(den Brinker)、J.ブレーバールト(Breebaart)、「高品質音声のためのパラメトリック符号化の進歩(Advances in parametric coding for high−quality audio)」(音声工学学会第114回大会予稿集、2003年3月)、J.エングデガールド(Engdegard)、Hプルンハーゲン(Purnhagen)、J.ローデン(Roden)、L.リルジェリド(Liljeryd)、「パラメトリックステレオ符号化における合成環境(Synthetic ambience in parametric stereo coding)」(音声工学学会第117回大会予稿集2004年5月)。これらの要旨は、ここに引例として組み込まれている。
CチャネルからEチャネルへのBCC
前述のように、2つ以上の伝送チャネルでBCCを行うことができる。BCCのバリエーションが、1つの(送信した)チャネルだけでなく、E個のチャネルとしてもC個の音声チャネルを表すことについて、説明してきたが、これを、CチャネルからEチャネルへのBCCと記載する。CチャネルからEチャネルへのBCCを行う、(少なくとも)2つの目的がある。
・1つの伝送チャネルで、BCCは、既存のモノラルシステムをグレードアップして、ステレオ音声再生またはマルチチャネル音声再生を行う後方互換性経路を提供する。グレードアップしたシステムは、既存のモノラルインフラを介してBCCダウンミキシング和信号を送信し、さらにBCCサイド情報を送信する。CチャネルからEチャネルへのBCCを、Cチャネル音声のEチャネル後方互換性符号化に適用することができる。
・CチャネルからEチャネルへのBCCは、送信チャネルの数を異なる度合いで低減するという意味で、拡張性を導入する。送信する音声チャネルの音声品質がさらに向上することが期待できる。
ICTD、ICLD、およびICCキューをどのように定義するかというような、CチャネルからEチャネルへのBCCの信号処理の詳細は、米国出願第10/762,100号01/20/042004年1月20日出願(Faller13−1)に記載されている。
個別に行うチャネル整形
ある実施の形態では、1つの伝送チャネルでのBCCと、CチャネルからEチャネルへのBCCとは両方とも、ICTD、ICLD、および/またはICC合成のアルゴリズムが必要である。通常、約4〜30ミリ秒毎にICTD、ICLD、および/またはICCキューの合成を行うことで十分である。しかしながら、先行音効果の知覚現象では、人間の聴覚システムが高い時間分解能(例えば、1〜10ミリ秒毎)でキューを評価する、特定の時刻があることを意味している。
1つの静的フィルタバンクは通常、先行音効果が有効になる時刻で十分高い時間分解能を生成することができるが、大抵の時刻に適した、十分高い周波数分解能を生成することができない。
本発明のある実施の形態は、より高い時間分解能が必要な時刻を考慮する処理をさらに加えて、比較的低い時間分解能のICTD、ICLD、および/またはICC合成を用いるシステムに向けられている。また、ある実施の形態では、このシステムにより、通常はシステムの構造に組み込むことが難しい信号適応ウィンドウ切換技術の必要性をとり除く。ある実施の形態では、1つ以上の元のエンコーダ入力音声チャネルの時間エンベロープは推定される。例えば、信号の時間構造を直接分析したり、周波数に対する信号スペクトルの自己相関を検証したりすることにより、このことを行うことができる。2つのアプローチについて、次の実施例でさらに詳細に説明する。知覚的に必要で利点がある場合は、これらのエンベロープに含まれる情報を、(エンベロープキューコードとして)デコーダに送信する。
ある実施の形態では、デコーダが、その出力音声チャネルで、これらの所望の時間エンベロープにある処理を行う。
・TP処理、例えば、時間可変振幅変更関数とともに、信号の時間領域サンプルを操作することによって、信号のエンベロープを操作することにより、このことを行うことができる。サブバンドの時間分解能が十分高い(粗い周波数分解能を犠牲にして)場合は、同様の処理をスペクトル/サブバンドサンプルに適用することができる。
・あるいは、低ビットレート音声コーダの量子化ノイズを整形するために、または、インテンシティステレオ符号化信号を向上させるために、従来技術で用いられるのと類似のやり方で、周波数に対する信号のスペクトル表現の畳み込み/フィルタを用いることができる。低い時間分解能ではなく、フィルタバンクが高い周波数分解能を有する場合は、このことは好適である。畳み込み/フィルタアプローチについては、
・エンベロープ整形方法は、インテンシティステレオから、C個からE個へのマルチチャネル符号化に拡張する。
・この技術は、エンコーダにより生成されたパラメトリック情報(例えば、バイナリフラグ)により、エンベロープ整形が制御されるセットアップを含んでいるが、実際には、デコーダから導出したフィルタ係数セットを用いて実行する。
・別のセットアップでは、例えば、知覚的に必要および/または利点がある場合に限って、フィルタ係数のセットがエンコーダから送信される。
時間領域/サブバンド領域アプローチについても、同じことが当てはまる。従って、基準(例えば、一時的現象検出および調性推定値)が、エンベロープ情報伝送をさらに制御するために、導入される。
考えられるアーティファクトを回避するために、TP処理を無効にすることが好ましい場合もある。安全な側にいるためには、(すなわち、従来のBCC方法により、BCCを行う)デフォルトにより、時間処理を無効のままにすることは、よい方法である。チャネルのより高い時間分解能により改善されると期待できる場合に限って、追加処理がさらに有効になる。例えば、先行音効果がアクティブになると期待できる場合である。
前述のように、一時的現象の検出を行うことにより、この有効/無効制御を行うことができる。すなわち、一時的現象が検出された場合は、次に、TP処理を有効にする。一時的現象に対して、先行音効果は最も効果がある。予測して一時的現象の検出を用いることにより、1つの一時的現象だけでなく、一時的現象の直前直後の信号成分についても効果的に整形することができる。一次的現象の検出を行う考えられる方法は、次の方法である。
・BCCエンコーダ入力信号または送信したBCC和信号の時間エンベロープを観察すること。パワーが急激に増加すると、次に、一時的現象が発生する。
・エンコーダまたはデコーダで推定したような線形予測符号化(LPC)利得を検証すること。LPC予測利得がある閾値を上回る場合、次に、信号が一時的現象であるか、または非常に変動していると仮定されることができる。LPC分析は、スペクトルの自己相関により算出する。
また、音色信号の考えられるアーティファクトを回避するために、好ましくは、送信した和信号の調性が高い場合は、TP処理を行わない。
本発明のある実施の形態によれば、元の音声チャネルのものと同様の(または知覚的に同様の)時間エンベロープを持つ出力チャネルを、BCCデコーダに生成させるために、個別の元の音声チャネルの時間エンベロープを、BCCエンコーダで推定する。本発明のある実施の形態は、先行音効果の現象について説明している。本発明のある実施の形態は、BCCサイド情報の一部としてのICLD、ICTD、および/またはICC等の、他のBCCコードの他に、エンベロープキューコードを送信する必要がある。
本発明のある実施の形態では、時間エンベロープキューの時間分解能は、他のBCCコード(例えば、ICLD、ICTD、ICC)の時間分解能よりも細かい。これにより、他のBCCコードを抽出する入力チャネルのブロック長に対応している合成ウィンドウにより、時間内でエンベロープ整形が可能になる。
実施例
図10は、本発明の一実施の形態による、図2のエンコーダ202等のBCCエンコーダに加えられる時間領域処理を示すブロック図である。図10(a)に示すように、一般に、任意の1つ以上の入力チャネルを分析することができるが、各時間処理分析器(TPA)1002は、異なる元の入力チャネルxc(n)の時間エンベロープを推定する。
図10(b)は、TPA1002のある考えられる時間領域ベースの実施可能なブロック図を示す。入力信号の時間エンベロープの特徴を調べるために、入力信号サンプルが二乗し(1006)、次に、ローパスフィルタされる(1008)。別の実施の形態では、自己相関/LPC方法または他の方法、例えば、ヒルベルト変換を用いて、時間エンベロープを推定することができる。
図10(a)のブロック1004は、図2のサイド情報に含まれる時間処理(TP)情報(すなわち、エンベロープキューコード)として送信する前に、推定した時間エンベロープをパラメータ化し、量子化し、符号化する。
一実施の形態では、ブロック1004内の検出器(図示せず)が、デコーダでのTP処理が、音声品質を改善するかどうか判定し、ブロック1004は、TP処理により音声品質が向上する時刻の間だけに限って、TPサイド情報を送信する。
図11は、図4のBCC合成器400の条件で、TP処理の一例の時間領域適用例を示す。この実施の形態では、1つの送信した和信号s(n)があり、その和信号を反復してC個のベース信号を生成し、異なる合成したチャネルに対してエンベロープ整形が個別に適用される。別の実施の形態では、遅延、スケーリング、および他の処理の順序が異なっていてもよい。さらに、別の実施の形態では、エンベロープ整形は、各チャネルを別々に処理することに限定されない。このことは、周波数帯域に対するコヒーレンスを利用して、信号の時間微細構造に関する情報を抽出する、畳み込み/フィルタベースの実施例に特に当てはまる。
図11(a)では、復号化ブロック1102が、BCCエンコーダから受信した、送信TPサイド情報から各出力チャネルの時間エンベロープ信号aを復元して、各TPブロック1104が、出力チャネルのエンベロープを整形するために、対応するエンベロープ情報を適用する。
図11(b)は、TP1104のある時間領域ベースの実施可能なブロック図を示す。合成した信号サンプルは、合成したチャネルの時間エンベロープbの特徴を調べるために、二乗され(1106)、次に、ローパスフィルタされる(1108)。倍率(例えば、平方根(a/b))が生成され(1110)、次に、対応する元の入力チャネルのそれに実質的に等しい時間エンベロープを有する出力信号を生成するために、合成したチャネルに適用される(1112)。
図10のTPA1002および図11のTP1104の別の実施例において、時間エンベロープは、信号サンプルをニ乗することよりむしろ、大きさの演算を使用して特徴づけられる。このような実施の形態では、比率a/bが、平方根演算を適用することなく、倍率として使用してもよい。
図11(c)のスケーリング演算は、TP処理の時間領域ベースの実施例に対応しているが、(以下に説明する)図16〜図17の実施の形態のような、周波数領域信号を用いて、TP処理(TPAおよび逆TP(ITP)処理とともに)を実施することもできる。従って、この明細書の目的において、用語「スケール関数」は、図17(b)および図17(c)のフィルタリング演算のように、時間領域または周波数領域演算のいずれかをカバーするように解釈する必要がある。
一般に、好ましくは、信号パワー(すなわち、エネルギー)を変更しないように、各TP1104は設計される。ある実施の形態に応じて、例えば、合成ウィンドウまたはパワーの他の適した測定によって定義される期間の、チャネル当たりの全体信号パワーに基づく、各チャネルにおける短時間平均信号パワーとしてもよい。従って、エンベロープ整形の前、または後で、(例えば、乗算器408を使用して)ICLD合成のためのスケーリングは、適用されることができる。
BCC出力信号の全帯域スケーリングが、アーティファクトとして発生する場合があるので、エンベロープ整形は、指定された周波数、例えば、あるカットオフ周波数fTP(例えば、500Hz)より大きい周波数だけに適用されることができる。分析する周波数範囲(TPA)が、合成(TP)の周波数範囲と異なる場合もあることに留意されたい。
図12(a)および図12(b)は、図10のTPA1002および図11のTP1104の可能な実施例を示す。エンベロープ整形は、カットオフ周波数fTPより高い周波数でのみ、適用される。特に、図12(a)にはハイパスフィルタ1202がさらに示されており、これは、時間エンベロープの特徴を調べる前に、fTPより低い周波数をフィルタする。図12(b)は、2つのサブバンドの間にfTPのカットオフ周波数を有する2帯域フィルタバンク1204がさらに示されており、高周波数部分のみ、時間的に整形する。次に、2帯域の逆フィルタバンク1206は、出力チャネルを生成するために、低周波数部分を時間的に整形される高周波数部分と再合成する。
図13は、本発明の別の実施の形態による、図2のエンコーダ202等のBCCエンコーダに加えられる、周波数領域処理のブロック図を示す。図13(a)に示すように、各TPA1302の処理は異なるサブバンドに個別に適用される。各フィルタバンク(FB)は図3の対応するFB302と同じで、ブロック1304は、図10のブロック1004と類似のサブバンド実施例である。別の実施の形態では、TPA処理に対するサブバンドが、BCCサブバンドと異なっていてもよい。図13(b)に示すように、TPA1302を、図10のTPA1002と同じように実施することができる。
図14は、図4のBCC合成器400の条件で、TP処理の一例の周波数領域適用例を示す。復号化ブロック1402は、図11の復号化ブロック1102と類似のもので、図14(b)に示すように、各TP1404は、図11の各TP1104に類似のサブバンド実施例である。
図15は、本発明のさらに別の実施の形態による、図2のエンコーダ202等のBCCエンコーダに加えられる、周波数領域処理のブロック図を示す。この方法は、次のセットアップを有している。周波数に渡りLPCを算出することにより、入力チャネル毎のエンベロープ情報を導出し(1502)、パラメータ化し(1504)、量子化し(1506)、エンコーダによりビットストリームに符号化する(1508)。図17(a)は、図15のTPA1502の実施例を示す。マルチチャネル合成器(デコーダ)に送信するサイド情報は、自己相関方法により算出したLPCフィルタ係数、得られる残響係数、または線スペクトル対などとすることもでき、あるいは、サイド情報データレートを小さくしておくために、例えば、“一時的現象がある/ない”ことを示すバイナリフラグ等のLPC予測利得から導出したパラメータとすることもできる。
図16は、図4のBCC合成器400の条件で、TP処理の別の一例の周波数領域適用例を示す。図15の符号化処理および図16の復号化処理は、エンコーダ/デコーダ構成の対応する対を構成するように実施されてもよい。復号化ブロック1602は、図14の復号化ブロック1402と類似のもので、各TP1604は、図14の各TP1404と類似のものである。このマルチチャネル合成器において、送信したTPサイド情報が復号化され、個別にチャネルのエンベロープ整形を行う制御に用いられる。また、しかしながら、合成器は、送信した和信号を分析するエンベロープ特徴分析装置段(TPA)1606と、各ベース信号の時間エンベロープを“平坦化する”逆TP(ITP)1608とを含み、エンベロープ調整装置(TP)1604が、変更エンベロープを各出力チャネルに付加する。特定の実施例によるが、アップミキシングの前又は後で、ITPを行うことができる。詳細は、この畳み込み/フィルタアプローチを用いてこれを行う。TPA、ITP、およびTP処理それぞれについて、図17(a)、図17(b)、図17(c)に示すように、周波数にわたってスペクトルにLPCベースのフィルタを適用することにより、エンベロープ整形が行われる。図16において、エンベロープ整形を行うかどうか、制御ブロック1610が判定する。その場合は、(1)送信TPサイド情報に基づくのか、または(2)TPA1606からの局所的に特徴を調べたエンベロープデータに基づくのか判定する。
図18(a)および図18(b)は、図16の制御ブロック1610を動作させる例示の2つのモードを示す。図18(a)の実施では、フィルタ係数のセットをデコーダに送信し、送信した係数に基づいて、畳み込み/フィルタによるエンベロープ整形を行う。エンコーダが、一時的現象の整形に利点がないと検出した場合は、次に、フィルタデータを送信しないで、フィルタを無効にする(図18(a)に示すように、単位フィルタ係数セット“[1,0...]”に切り換える)。
図18(b)の実施例では、“一時的現象/非一時的現象フラグ”だけを各チャネルに送信し、デコーダにおいて送信ダウンミキシング信号から算出したフィルタ係数セットに基づいて、整形を起動または停止するために、このフラグが用いられる。
さらに別の実施の形態
1つの和信号があるBCC符号化方法の条件で、本発明について説明してきたが、2つ以上の和信号があるBCC符号化方法の条件で、本発明を実施することもできる。この場合は、BCC合成を行う前に、各異なる“ベース”和信号の時間エンベロープを推定することができ、異なる出力チャネルの合成に用いた和信号により、異なる時間エンベロープに基づいて、異なるBCC出力チャネルを生成することもできる。(例えば、加重平均算出を介して)成分和チャネルの相対効果を考慮した、効果的な時間エンベロープに基づいて、2つ以上の異なる和チャネルから合成した出力チャネルを生成することもできる。
ICTD、ICLD、およびICCコードを用いるBCC符号化方法の条件で、本発明について説明してきたが、これらの3つのタイプのコードのうちの1つまたは2つだけを用いる他のBCC符号化方法(例えば、ICTDではなくICLDおよびICC)および/または1つ以上の別のタイプのコードをさらに用いる他のBCC符号化方法の条件で、本発明を実施することもできる。さらに、一連のBCC合成処理およびエンベロープ整形を、異なる実施例で変形するようにしてもよい。例えば、図14および図16に示すように、エンベロープ整形が周波数領域信号に適用される場合に、ICTD合成(ICTD合成を用いるそれらの実施の形態で)後、ICLD合成を行う前であるが、エンベロープ整形を行うこともできる。他の実施の形態において、任意の他のBCC合成が適用される前に、エンベロープ整形はアップミキシングされた信号に適用することができる。
元の入力チャネルからエンベロープキューコードを生成するBCCエンコーダの条件で、本発明について説明してきたが、別の実施の形態では、エンベロープキューコードを、元の入力チャネルに対応するダウンミキシングチャネルから生成することもできる。これは、(1)ダウンミキシングチャネルと、あるBCCコード(例えば、ICLD、ICTD、および/またはICC)とを生成するBCCエンコーダの出力を入力し、(2)エンベロープキューコードをBCCサイド情報に付加するために、1つ以上のダウンミキシングチャネルの時間エンベロープの特徴を調べる、プロセッサ(例えば、別のエンベロープキューコーダ)の実施例により、実施することができる。
他のBCCコードとともに、1つ以上の音声チャネル(すなわち、E個の送信チャネル)でエンベロープキューコードが送信されるBCC符号化方法の条件で、本発明について説明してきたが、別の実施の形態では、エンベロープキューコードは、送信チャネルと、おそらくは他のBCCコードを既に有する(例えば、デコーダまたは記憶装置)に配置するために、1つだけで、または他のBCCコードとともに送信される。
BCC符号化方法の条件で、本発明について説明してきたが、音声信号を非相関にする他の音声処理システム、または信号を非相関にする必要がある他の音声処理の条件で、本発明を実施することもできる。
エンコーダが時間領域で入力音声信号を受信し、時間領域で送信音声信号を生成し、デコーダが時間領域で送信音声信号を受信し、時間領域で再生音声信号を生成する実施例の条件で、本発明について説明してきたが、本発明はこれに限定されない。例えば、他の実施の形態において、任意の1つ以上の入力し、送信し、再生した音声信号を、周波数領域で表現することができる。
BCCエンコーダおよび/またはデコーダを、テレビまたは電子音楽配信、映画館、放送、ストリーミング、および/または受信システム等の、様々な異なる適用例またはシステムとともに用いたり、これらに組み込んで用いたりすることもできる。これらは、例えば、地上波、衛星、ケーブル、インターネット、イントラネット、または物理媒体(例えば、コンパクトディスク、デジタルバーサタイルディスク、半導体チップ、ハードドライブ、メモリカード等)を介して、符号化/復号化伝送を行うシステムを含む。BCCエンコーダおよび/またはデコーダを、ゲームおよびゲームシステムも用いることもできる。これらは、例えば、ユーザインタラクティブな娯楽用(アクションゲーム、ロールプレイングゲーム、戦略ゲーム、アドベンチャーゲーム、シミュレーションゲーム、レーシングゲーム、スポーツゲーム、ゲームセンター、カードゲーム、およびボードゲーム)および/または複数のマシン、プラットフォーム、またはメディア等に発行した教育向けの、インタラクティブなソフトウェア製品を含む。さらに、BCCエンコーダおよび/またはデコーダを、音声レコーダ/プレーヤまたはCD−ROM/DVDシステムに組み込んでもよい。BCCエンコーダおよび/またはデコーダを、デジタル復号化(例えば、プレーヤ、デコーダ)を組み込んだPCソフトウェアアプリケーション、デジタル符号化する能力(例えば、エンコーダ、リッパ、レコーダ、およびジュークボックス)を組み込んだソフトウェアアプリケーションに組み込むこともできる。
本発明を、回路ベースの処理として実施することもできる。1つの集積回路(ASICまたはFPGA等)、マルチチップモジュール、シングルカード、またはマルチカード回路パッケージ等の考えられる実施例が挙げられる。回路素子の各種の関数を、ソフトウェアプログラムの処理工程として実施できることも、当業者にとって明らかになるであろう。このようなソフトウェアを、例えば、デジタル信号プロセッサ、マイクロコントローラ、または汎用コンピュータに用いることもできる。
それらの方法を行う方法および装置の形態で、本発明を実施することができる。本発明を、フロッピー(登録商標)ディスク、CD−ROM、ハードドライブ、または任意の他の機械読み取り可能記憶媒体等の、有形媒体で、プログラムコードの形態で実施することもできる。プログラムコードをコンピュータ等のマシンにロードして実行する場合は、このマシンが本発明を実施する装置となる。本発明を、プログラムコードの形態で実施することもできる。例えば、記憶媒体に記録したり、マシンにロードしたり、マシンで実行したり、マシンにロードしてマシンで実行したり、および/またはマシンで実行したり、電子ワイヤまたはケーブル、光ファイバ、または電磁放射等の、伝送媒体またはキャリアで送信したりする。プログラムコードをコンピュータ等のマシンにロードして実行する場合は、そのマシンが本発明を実施する装置となる。汎用プロセッサ上で実施する場合は、プログラムコードセグメントをプロセッサと組み合わせて、一意のデバイスに送って、特定の論理回路と同様に動作させる。
以下の特許請求の範囲で述べる本発明の範囲を逸脱することなく、この本発明の本質を説明するために、述べ、示してきた、詳細、素材、構成について、当業者が様々に変更できることが、さらに理解できるであろう。
クレームを反復することにより、それらのステップの一部またはすべてを実行する特定のシーケンスを示さない限り、必要の場合は、次の方法クレームのステップを、対応するラベル構成で特定のシーケンスで反復するが、それらのステップを、その特定のシーケンスで実行することを、必ずしも必要としているものではない。
従来のバイノーラル信号合成器の上位ブロック図を示す。 一般バイノーラルキュー符号化(BCC)音声処理システムを示すブロック図である。 図2のダウンミキサに用いることができるダウンミキサのブロック図を示す。 図2のデコーダに用いることができるBCC合成器のブロック図を示す。 本発明の一実施の形態による、図2のBCC推定器のブロック図を示す。 5チャネル音声用ICTDおよびICLDデータ生成を説明する図である。 5チャネル音声用ICCデータを説明する図である。 5チャネル音声用ICCデータを説明する図である。 BCCデコーダに用いることができ、1つの送信した和信号s(n)プラス空間キューが与えられたステレオ音声信号またはマルチチャネル音声信号を生成する、図4のBCC合成器の一実施例のブロック図を示す。 周波数関数として、サブバンド内でICTDおよびICLDがどのように変化するかを説明する図である。 本発明の一実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる時間領域処理のブロック図を示す。 本発明の一実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる時間領域処理のブロック図を示す。 図4のBCC合成器の条件でのTP処理の一例の時間領域適用例を説明する図である。 図4のBCC合成器の条件でのTP処理の一例の時間領域適用例を説明する図である。 カットオフ周波数fTPより高い周波数にだけエンベロープ整形が行われる、図10のTPAおよび図11のTPそれぞれの、考えられる実施例を示す。 カットオフ周波数fTPより高い周波数にだけエンベロープ整形が行われる、図10のTPAおよび図11のTPそれぞれの、考えられる実施例を示す。 本発明の別の実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる周波数領域処理のブロック図を示す。 本発明の別の実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる周波数領域処理のブロック図を示す。 図4のBCC合成器の条件でのTP処理の一例の周波数領域適用例を説明する図である。 図4のBCC合成器の条件でのTP処理の一例の周波数領域適用例を説明する図である。 本発明のさらに別の実施の形態による、図2のエンコーダ等の、BCCエンコーダに加えられる周波数領域処理のブロック図を示す。 図4のBCC合成器の条件でのTP処理の別の一例の周波数領域適用例を説明する図である。 図15および図16のTPAと、図16のITPおよびTPとの考えられる実施例のブロック図を示す。 図15および図16のTPAと、図16のITPおよびTPとの考えられる実施例のブロック図を示す。 図15および図16のTPAと、図16のITPおよびTPとの考えられる実施例のブロック図を示す。 図16の制御ブロックを動作させる2つの一例のモードを説明する図である。 図16の制御ブロックを動作させる2つの一例のモードを説明する図である。

Claims (50)

  1. 音声チャネルを符号化する方法であって、
    少なくとも1つのキューコードが、1つ以上の前記音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、1つ以上のキューコードを1つ以上の音声チャネルに対し生成するステップと、
    1つ以上の前記キューコードを送信するステップとを含む方法。
  2. E・・1である、1つ以上の前記音声チャネルに対応するE個の送信音声チャネルをさらに含む、請求項1に記載の発明。
  3. 1つ以上の前記音声チャネルが、C>Eである、C個の入力音声チャネルを含み、
    前記E個の送信チャネルを生成するために、前記C個の入力チャネルをダウンミキシングする、請求項2に記載の発明。
  4. 1つ以上の前記キューコードに基づいて、E個の送信チャネルの復号化を行う間に、エンベロープ整形を行うために、デコーダを有効にするように、1つ以上の前記キューコードは送信され、E・・1である、E個の送信チャネルは、1つ以上の音声チャネルに対応する、請求項1に記載の発明。
  5. 前記エンベロープ整形は、前記特徴を調べた時間エンベロープと基本的に整合させるために、前記デコーダが生成した合成した信号の時間エンベロープを調整する、請求項4に記載の発明。
  6. 1つ以上の前記キューコードがさらに、1つ以上のチャネル間相関(ICC)コード、チャネル間レベル差(ICLD)コード、およびチャネル間時間差(ICTD)コードを含む、請求項1に記載の発明。
  7. 前記エンベロープキューコードに対応付けられた第1の時間分解能が、前記他のキューコードに対応付けられた第2の時間分解能よりも細かい、請求項6に記載の発明。
  8. 前記対応する音声チャネルの指定の周波数に対してだけ、前記時間エンベロープの特徴を調べる、請求項1に記載の発明。
  9. 指定のカットオフ周波数を超える前記対応する音声チャネルの周波数に対してだけ、前記時間エンベロープの特徴を調べる、請求項8に記載の発明。
  10. 周波数領域における前記対応する音声チャネルに対して、前記時間エンベロープの特徴を調べる、請求項1に記載の発明。
  11. 前記対応する音声チャネルの異なる信号サブバンドに対して、個別に時間エンベロープの特徴を調べる、請求項10に記載の発明。
  12. 前記周波数領域が、高速フーリエ変換(FFT)に対応している、請求項10に記載の発明。
  13. 前記周波数領域が、直交ミラーフィルタ(QMF)に対応している、請求項10に記載の発明。
  14. 時間領域における前記対応する音声チャネルに対して、前記時間エンベロープの特徴を調べる、請求項1に記載の発明。
  15. 前記特徴を調べることが、有効なのか、無効なのか判定するステップをさらに含む、請求項1に記載の発明。
  16. E・・1である、1つ以上の前記音声チャネルに対応するE個の送信チャネルを復号化する間に、エンベロープ整形を行うか否か、デコーダに指示することを判定する前記ステップに基づいて、有効/無効のフラグを生成して、送信するステップをさらに含む、請求項15に記載の発明。
  17. 前記判定ステップが、一時的現象の発生を検出した場合は、特徴を調べる前記ステップを有効にするように、音声チャネルにおける一時的現象を検出するための前記音声チャネルの分析に基づいている、請求項15に記載の発明。
  18. 音声チャネルを符号化する装置であって、
    少なくとも1つのキューコードが、1つ以上の前記音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、1つ以上のキューコードを1つ以上の音声チャネルに対し生成する手段と、
    1つ以上の前記キューコードを送信する手段とを備える装置。
  19. E個の送信音声チャネルを生成するために、C個の入力音声チャネルを符号化する装置であって、
    少なくとも1つの前記C個の入力チャネルの入力時間エンベロープの特徴を調べるエンベロープ分析器と、
    2つ以上の前記C個の入力チャネルに対してキューコードを生成するコード推定器と、
    C>E・・1である、前記E個の送信チャネルを生成するための前記C個の入力チャネルをダウンミキシングするダウンミキサとを備え、前記E個の送信チャネルの復号化を行う間に、前記装置が、前記キューコードおよび前記特徴を調べた入力時間エンベロープの情報を送信し、デコーダを有効にして、合成およびエンベロープ整形を行う、装置。
  20. 前記装置が、デジタルビデオレコーダ、デジタル音声レコーダ、コンピュータ、衛星送信機、ケーブル送信機、地上波放送送信機、ホームエンターテインメントシステム、および映画館システムからなるグループから選択されるシステムであって、
    前記システムが、前記エンベロープ分析器、前記コード推定器、および前記ダウンミキサを備える、請求項19に記載の装置。
  21. 符号化したプログラムコードを有する機械読み取り可能媒体であって、前記プログラムコードを機械で実行する場合は、前記機械は、音声チャネルを符号化する方法を実行し、前記方法が、
    少なくとも1つのキューコードが、1つ以上の前記音声チャネルのうちの1つにおける時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、1つ以上のキューコードを1つ以上の音声チャネルに対し生成するステップと、
    1つ以上の前記キューコードを送信するステップとを含む、機械読み取り可能媒体。
  22. 音声チャネルを符号化することにより生成した、符号化音声ビットストリームであって、
    少なくとも1つのキューコードが、1つ以上の前記音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、1つ以上のキューコードを1つ以上の音声チャネルに対して生成し、
    1つ以上の前記キューコードと、1つ以上の前記音声チャネルに対応する、E・・1である、E個の送信音声チャネルとが、前記符号化音声ビットストリームに符号化される、符号化音声ビットストリーム。
  23. 1つ以上のキューコードおよびE個の送信音声チャネルを含む符号化音声ビットストリームであって、
    少なくとも1つのキューコードが、1つ以上の前記音声チャネルのうちの1つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、1つ以上の前記キューコードを1つ以上の音声チャネルに対して生成し、
    前記E個の送信音声チャネルが、1つ以上の前記音声チャネルに対応している、符号化音声ビットストリーム。
  24. C>E・・1である、C個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号化する方法であって、
    キューコードが、前記E個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記E個の送信チャネルに対応する前記キューコードを受信するステップと、
    1つ以上のアップミキシングチャネルを生成するために、1つ以上の前記E個の送信チャネルをアップミキシングするステップと
    前記キューコードを前記1つ以上のアップミキシングチャネルに適用することにより、1つ以上の前記C個の再生チャネルを合成するステップとを含み、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードが、前記合成した信号の時間エンベロープを調整するために、アップミキシングチャネルまたは合成した信号に適用する方法。
  25. 前記E個の送信チャネルを生成するために、元の入力チャネルにおいて、前記エンベロープキューコードに対応している特徴を調べた時間エンベロープを用いる、請求項24に記載の発明。
  26. 前記キューコードがさらに、1つ以上のICC、ICLD、およびICTDコードを含む、請求項24に記載の発明。
  27. 前記エンベロープキューコードに対応付けられた第1の時間分解能が、前記他のキューコードに対応付けられた第2の時間分解能よりも細かい、請求項26に記載の発明。
  28. 前記合成が、後期残響ICC合成を含む、請求項26に記載の発明。
  29. ICLD合成を行う前に、前記合成した信号の前記時間エンベロープを調整する、請求項26に記載の発明。
  30. 前記合成した信号の前記時間エンベロープの特徴を調べ、
    前記エンベロープキューコードに対応する前記特徴を調べた時間エンベロープおよび前記合成した信号の前記特徴を調べた時間エンベロープの両方に基づいて、前記合成した信号の前記時間エンベロープを調整する、請求項24に記載の発明。
  31. 前記エンベロープキューコードに対応する前記特徴を調べた時間エンベロープと、前記合成した信号の前記特徴を調べた時間エンベロープとに基づいて、スケール関数を生成し、
    前記スケール関数を前記合成した信号に適用する、請求項30に記載の発明。
  32. 平坦化チャネルを生成するために、前記特徴を調べた時間エンベロープに基づいて、送信チャネルを調整するステップをさらに含み、対応する再生チャネルを生成するために、前記アップミキシングおよび合成を前記平坦化チャネルに適用する、請求項24に記載の発明。
  33. 平坦化チャネルを生成するために、前記特徴を調べた時間エンベロープに基づいて、アップミキシングチャネルを調整するステップをさらに含み、前記合成を前記平坦化チャネルに行って、対応する再生チャネルを生成する、請求項24に記載の発明。
  34. 指定の周波数に対してだけ、前記合成した信号の前記時間エンベロープを調整する、請求項24に記載の方法。
  35. 指定のカットオフ周波数を超える周波数に対してだけ、前記合成した信号の前記時間エンベロープを調整する、請求項34に記載の発明。
  36. 周波数領域で、前記合成した信号の前記時間エンベロープを調整する、請求項24に記載の発明。
  37. 前記合成した信号において異なる信号サブバンドに対して、個別に時間エンベロープを調整する、請求項36に記載の発明。
  38. 前記周波数領域がFFTに対応している、請求項36に記載の発明。
  39. 前記周波数領域がQMFに対応している、請求項36に記載の発明。
  40. 時間領域において、前記合成した信号の前記時間エンベロープを調整する、請求項24に記載の発明。
  41. 前記合成した信号の前記時間エンベロープを調整する前記ステップを有効にするか、無効にするか判定するステップをさらに含む、請求項24に記載の発明。
  42. 前記判定ステップが、前記E個の送信チャネルを生成した音声エンコーダが生成した有効/無効のフラグに基づいている、請求項41に記載の発明。
  43. 一時的現象の発生を検出した場合は、前記調整ステップを有効にするように、前記判定ステップが、一時的現象を検出するように、前記E個の送信チャネルを分析するステップに基づいている、請求項41に記載の発明。
  44. 送信チャネルの時間エンベロープの特徴を調べるステップと、
    (1)前記エンベロープキューコードに対応する前記特徴を調べた時間エンベロープを用いるか、または(2)前記合成した信号の前記時間エンベロープを調整するために、前記送信チャネルの前記特徴を調べた時間エンベロープを用いるかどうか、判定するステップとをさらに含む、請求項24に記載の発明。
  45. 前記時間エンベロープを調整した後の、前記合成した信号の指定のウィンドウ内のパワーが、前記調整ステップを行う前の、前記合成した信号の対応するウィンドウ内のパワーと、実質的に等しい、請求項24に記載の発明。
  46. 前記指定のウィンドウが、1つ以上の非エンベロープキューコードに対応付けられている合成窓に対応している、請求項45に記載の発明。
  47. C>E・・1である、C個の再生音声チャネルを生成するために、E個の送信音声チャネルを復号化する装置であって、
    キューコードが前記E個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記E個の送信チャネルに対応するキューコードを受信する手段と、
    1つ以上のアップミキシングチャネルを生成するために、1つ以上の前記E個の送信チャネルをアップミキシングする手段と、
    前記キューコードを前記1つ以上のアップミキシングチャネルに適用することにより、1つ以上の前記C個の再生チャネルを合成する手段とを備え、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用して、前記合成した信号の時間エンベロープを調整する、装置。
  48. C個の再生音声チャネルを生成するために、C>E・・1である、E個の送信音声チャネルを復号化する装置であって、
    キューコードが前記E個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記E個の送信チャネルに対応するキューコードを受信する受信機と、
    1つ以上のアップミキシングチャネルを生成するために、1つ以上の前記E個の送信チャネルをアップミキシングするアップミキサと、
    前記キューコードを前記1つ以上のアップミキシングチャネルに適用することにより、1つ以上の前記C個の再生チャネルを合成する合成器とを備え、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用して、前記合成した信号の時間エンベロープを調整する、装置。
  49. 前記装置が、デジタルビデオプレーヤ、デジタル音声プレーヤ、コンピュータ、衛星受信機、ケーブル受信機、地上波放送受信機、ホームエンターテインメントシステム、および映画館システムからなるグループから選択したシステムであって、
    前記システムが、前記受信機、前記アップミキサ、前記合成器、および前記エンベロープ調整器を備える、請求項48に記載の発明。
  50. 符号化したプログラムコードを有する機械読み取り可能媒体であって、前記プログラムコードを機械で実行する場合は、前記マシンC>E・・1である、E個の送信音声チャネルを復号化してC個の再生音声チャネルを生成する方法を実行し、前記方法が、
    キューコードが前記E個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記E個の送信チャネルに対応するキューコードを受信するステップと、
    1つ以上のアップミキシングチャネルを生成するために、1つ以上の前記E個の送信チャネルをアップミキシングするステップと、
    前記キューコードを前記1つ以上のアップミキシングチャネルに適用することにより、1つ以上の前記C個の再生チャネルを合成するステップとを備え、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用して、前記合成した信号の時間エンベロープを調整する、機械読み取り可能媒体。
JP2007537133A 2004-10-20 2005-09-07 バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形 Active JP4664371B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US62048004P 2004-10-20 2004-10-20
US11/006,482 US7720230B2 (en) 2004-10-20 2004-12-07 Individual channel shaping for BCC schemes and the like
PCT/EP2005/009618 WO2006045371A1 (en) 2004-10-20 2005-09-07 Individual channel temporal envelope shaping for binaural cue coding schemes and the like

Publications (2)

Publication Number Publication Date
JP2008517333A true JP2008517333A (ja) 2008-05-22
JP4664371B2 JP4664371B2 (ja) 2011-04-06

Family

ID=36180779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007537133A Active JP4664371B2 (ja) 2004-10-20 2005-09-07 バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形

Country Status (21)

Country Link
US (1) US7720230B2 (ja)
EP (1) EP1803117B1 (ja)
JP (1) JP4664371B2 (ja)
KR (1) KR100924576B1 (ja)
CN (1) CN101044551B (ja)
AT (1) ATE424606T1 (ja)
AU (1) AU2005299068B2 (ja)
BR (1) BRPI0516405B1 (ja)
CA (1) CA2582485C (ja)
DE (1) DE602005013103D1 (ja)
DK (1) DK1803117T3 (ja)
ES (1) ES2323275T3 (ja)
HK (1) HK1106861A1 (ja)
IL (1) IL182236A (ja)
MX (1) MX2007004726A (ja)
NO (1) NO338919B1 (ja)
PL (1) PL1803117T3 (ja)
PT (1) PT1803117E (ja)
RU (1) RU2339088C1 (ja)
TW (1) TWI318079B (ja)
WO (1) WO2006045371A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR20070056081A (ko) * 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
KR100682915B1 (ko) * 2005-01-13 2007-02-15 삼성전자주식회사 다채널 신호 부호화/복호화 방법 및 장치
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ES2623551T3 (es) * 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2006126843A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
US8208641B2 (en) * 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
US8285556B2 (en) * 2006-02-07 2012-10-09 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
EP1989920B1 (en) * 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
KR100773562B1 (ko) 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
EP2005424A2 (fr) * 2006-03-20 2008-12-24 France Télécom Procede de post-traitement d'un signal dans un decodeur audio
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8126721B2 (en) 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8041578B2 (en) 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
EP2122613B1 (en) 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
US8527282B2 (en) * 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
WO2009106147A1 (en) * 2008-02-29 2009-09-03 Telefonaktiebolaget Lm Ericsson (Publ) Channel power estimation means
WO2009125046A1 (en) * 2008-04-11 2009-10-15 Nokia Corporation Processing of signals
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
MX2012004621A (es) * 2009-10-20 2012-05-08 Fraunhofer Ges Forschung Aparato para proporcionar una representacion de una señal de conversion ascendente sobre la base de una representacion de una señal de conversion descendente, aparato para proporcionar una corriente de bits que representa una señal de audio de canales multiples, metodos, programa de computacion y corriente de bits que utiliza una señalizacion de control de distorsion.
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
SG10201604880YA (en) 2010-07-02 2016-08-30 Dolby Int Ab Selective bass post filter
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
KR101662681B1 (ko) * 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
CN110223701B (zh) 2012-08-03 2024-04-09 弗劳恩霍夫应用研究促进协会 用于从缩混信号产生音频输出信号的解码器和方法
CN110223702B (zh) * 2013-05-24 2023-04-11 杜比国际公司 音频解码系统和重构方法
EP2830333A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP3806498B1 (en) 2013-09-17 2023-08-30 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing audio signal
CN105874819B (zh) 2013-10-22 2018-04-10 韩国电子通信研究院 生成用于音频信号的滤波器的方法及其参数化装置
KR101627661B1 (ko) 2013-12-23 2016-06-07 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법, 이를 위한 파라메터화 장치 및 오디오 신호 처리 장치
CN106105269B (zh) 2014-03-19 2018-06-19 韦勒斯标准与技术协会公司 音频信号处理方法和设备
CN108307272B (zh) 2014-04-02 2021-02-02 韦勒斯标准与技术协会公司 音频信号处理方法和设备
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
KR102517867B1 (ko) 2015-08-25 2023-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 디코더 및 디코딩 방법
CA2985019C (en) 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
CN107818790B (zh) * 2017-11-16 2020-08-11 苏州麦迪斯顿医疗科技股份有限公司 一种多路音频混音方法及装置
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1051313A (ja) * 1996-03-22 1998-02-20 Lucent Technol Inc マルチチャネルオーディオ信号のジョイントステレオ符号化方法
WO2004008806A1 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
WO2004072956A1 (en) * 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Audio coding
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4236039A (en) * 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
US4815132A (en) * 1985-08-30 1989-03-21 Kabushiki Kaisha Toshiba Stereophonic voice signal transmission system
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943879B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
EP0520068B1 (en) * 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) * 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) * 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
WO1997029555A1 (en) * 1996-02-08 1997-08-14 Philips Electronics N.V. N-channel transmission, compatible with 2-channel transmission and 1-channel transmission
US5825776A (en) * 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) * 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) * 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US5860060A (en) * 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6108584A (en) * 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6021389A (en) * 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) * 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000152399A (ja) * 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) * 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) * 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) * 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) * 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) * 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
US6782366B1 (en) * 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
US6850496B1 (en) * 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) * 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) * 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
KR20040080003A (ko) 2002-02-18 2004-09-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 오디오 코딩
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
BRPI0304542B1 (pt) * 2002-04-22 2018-05-08 Koninklijke Philips Nv “Método e codificador para codificar um sinal de áudio de multicanal, sinal de áudio multicanal codificado, e, método e decodificador para decodificar um sinal de áudio de multicanal codificado”
JP4187719B2 (ja) 2002-05-03 2008-11-26 ハーマン インターナショナル インダストリーズ インコーポレイテッド マルチチャネル・ダウンミキシング装置
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
KR100981699B1 (ko) * 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
WO2004008437A2 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US7644001B2 (en) 2002-11-28 2010-01-05 Koninklijke Philips Electronics N.V. Differentially coding an audio signal
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
KR20050116828A (ko) 2003-03-24 2005-12-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 다채널 신호를 나타내는 주 및 부 신호의 코딩
US20050069143A1 (en) * 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7716043B2 (en) * 2005-10-24 2010-05-11 Lg Electronics Inc. Removing time delays in signal paths

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1051313A (ja) * 1996-03-22 1998-02-20 Lucent Technol Inc マルチチャネルオーディオ信号のジョイントステレオ符号化方法
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
WO2004008806A1 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
WO2004072956A1 (en) * 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Audio coding

Also Published As

Publication number Publication date
WO2006045371A1 (en) 2006-05-04
NO20071493L (no) 2007-05-22
BRPI0516405A8 (pt) 2018-07-31
TW200628001A (en) 2006-08-01
EP1803117A1 (en) 2007-07-04
CN101044551A (zh) 2007-09-26
CN101044551B (zh) 2012-02-08
PL1803117T3 (pl) 2009-08-31
AU2005299068B2 (en) 2008-10-30
JP4664371B2 (ja) 2011-04-06
ATE424606T1 (de) 2009-03-15
PT1803117E (pt) 2009-06-15
KR20070061872A (ko) 2007-06-14
CA2582485A1 (en) 2006-05-04
DE602005013103D1 (de) 2009-04-16
AU2005299068A1 (en) 2006-05-04
US7720230B2 (en) 2010-05-18
HK1106861A1 (en) 2008-03-20
EP1803117B1 (en) 2009-03-04
IL182236A (en) 2011-08-31
ES2323275T3 (es) 2009-07-10
NO338919B1 (no) 2016-10-31
BRPI0516405A (pt) 2008-09-02
BRPI0516405B1 (pt) 2019-09-17
MX2007004726A (es) 2007-09-07
US20060083385A1 (en) 2006-04-20
TWI318079B (en) 2009-12-01
KR100924576B1 (ko) 2009-11-02
RU2339088C1 (ru) 2008-11-20
DK1803117T3 (da) 2009-06-22
IL182236A0 (en) 2007-09-20
CA2582485C (en) 2012-05-15

Similar Documents

Publication Publication Date Title
JP4664371B2 (ja) バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形
JP4625084B2 (ja) バイノーラルキュー符号化方法等のための拡散音の整形
KR101215868B1 (ko) 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
JP5017121B2 (ja) 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7903824B2 (en) Compact side information for parametric coding of spatial audio

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100521

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101013

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110106

R150 Certificate of patent or registration of utility model

Ref document number: 4664371

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250