JP2008517333A

JP2008517333A - バイノーラルキュー符号化方法等のための個別に行うチャネル時間エンベロープ整形

Info

Publication number: JP2008517333A
Application number: JP2007537133A
Authority: JP
Inventors: エリックアラマンヒェ; サッシャディスヒ; ユールゲンヘレ; クリストフフォーラー
Original assignee: Agere Systems LLC
Current assignee: Agere Systems LLC
Priority date: 2004-10-20
Filing date: 2005-09-07
Publication date: 2008-05-22
Anticipated expiration: 2025-09-07
Also published as: WO2006045371A1; NO20071493L; BRPI0516405A8; TW200628001A; EP1803117A1; CN101044551A; CN101044551B; PL1803117T3; AU2005299068B2; JP4664371B2; ATE424606T1; PT1803117E; KR20070061872A; CA2582485A1; DE602005013103D1; AU2005299068A1; US7720230B2; HK1106861A1; EP1803117B1; IL182236A

Abstract

音声エンコーダで、１つ以上の音声チャネルに対しキューコードを生成する。音声チャネルの時間エンベロープの特徴を調べることにより、エンベロープキューコードを生成する。音声デコーダで、Ｅ個の送信音声チャネルを復号化し、Ｃ個の再生音声チャネルを生成する。Ｃ＞＝Ｅ・１である。受信したキューコードは、送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードを含んでいる。１つ以上の送信チャネルをアップミキシングし、１つ以上のアップミキシングチャネルを生成する。キューコードを１つ以上のアップミキシングチャネルに適用することにより、１つ以上の再生チャネルを合成する。エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用し、調整した時間エンベロープが基本的に、特徴を調べた時間エンベロープと整合するように、特徴を調べた時間エンベロープに基づいて、合成した信号の時間エンベロープを調整する。
【選択図】図１

Description

関連出願のクロスリファレンス
本出願は、２００４年１０月２０日出願の米国特許仮出願第６０／６２０，４８０号（代理人整理番号第Ａｌｌａｍａｎｃｈｅ２−３−１８−４）の優先権を主張するものである。この要旨は、ここに引例として組み込まれている。

また、本出願の内容は、次の米国特許出願の内容に関連し、これらの要旨すべては、ここに引例として組み込まれている。
・米国出願第０９／８４８，８７７号２００１年５月４日出願（代理人整理番号第Ｆａｌｌｅｒ５）
・米国出願第１０／０４５，４５８号２００１年１１月７日出願（代理人整理番号第Ｂａｕｍｇａｒｔｅ１−６−８）。これは、２００１年８月１０日出願の米国仮出願第６０／３１１，５６５号の優先権を主張するものである。
・米国出願第１０／１５５，４３７号２００２年５月２４日出願（代理人整理番号第Ｂａｕｍｇａｒｔｅ２−１０）
・米国出願第１０／２４６，５７０号２００２年９月１８日出願（代理人整理番号第Ｂａｕｍｇａｒｔｅ３−１１）
・米国出願第１０／８１５，５９１号２００４年４月１日出願（代理人整理番号第Ｂａｕｍｇａｒｔｅ７−１２）
・米国出願第１０／９３６，４６４号２００４年９月８日出願（代理人整理番号第Ｂａｕｍｇａｒｔｅ８−７−１５）
・米国出願第１０／７６２，１００号２００４年１月２０日出願（Ｆａｌｌｅｒ１３−１）
・米国出願第１０／ｘｘｘ，ｘｘｘ号は、本出願（代理人整理番号第Ａｌｌａｍａｎｃｈｅ１−２−１７−３）と同日に出願したものである。

本出願の内容は、次の論文の要旨にも関連している。これらの要旨すべては、ここに引例として組み込まれている。
・Ｃ．フォーラ（Ｆａｌｌｅｒ）、Ｆ．バウムガルテ（Ｂａｕｍｇａｒｔｅ）著、「バイノーラルキュー符号化パートＩ：心理音響学基礎および設計原理（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ − ＰａｒｔＩ：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｆｕｎｄａｍｅｎｔａｌｓａｎｄｄｅｓｉｇｎｐｒｉｎｃｉｐｌｅｓ）」（ＩＥＥＥ会報、スピーチおよび音声学会紀要第１１巻第６号、２００３年１１月）
・Ｃ．フォーラおよびＦ．バウムガルテ著「バイノーラル用キュー符号化パートＩＩ：方法および応用例（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ − ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ）」（ＩＥＥＥ会報、オーディオおよびスピーチ学会紀要、１１巻、第６号、２００３年１１月）
・Ｃ．フォーラ著、「異なる再生フォーマットと互換性のある空間音声符号化（Ｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏｃｏｍｐａｔｉｂｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔｐｌａｙｂａｃｋｆｏｒｍａｔｓ）」（音声工学学会第１１７回大会予稿、２００４年１０月））

本発明は、音声信号を符号化して、次に符号化した音声データから聴覚情景の合成を行うことに関する。

人が特定の音源により生成した音声信号（すなわち、音）を聞く場合、この音声信号は通常、その人の左右の耳に２つの異なる時間で２つの異なる音声（例えば、デシベル）レベルで到達する。それらの異なる時間およびレベルは、音声信号が左右の耳それぞれに到達する経路の差の関数である。人の脳は、聞こえた音声信号が、その人を基準として、特定の位置（例えば、方向および距離）にある音源から生成されているという知覚をその人に与えるために、時間およびレベルのこれらの差を解釈する。聴覚情景は、その人を基準として、１つ以上の異なる位置にある１つ以上の異なる音源が生成した音声信号を同時に聞いている人の正味の影響である。

脳によるこの処理は、聴覚情景を合成するために用いられる。１つ以上の異なる音源からの音声信号は、聴取者を基準として、異なる音源が異なる位置にあるという知覚を与える左右の音声信号を生成するために、意図的に変更される。

図１は、従来のバイノーラル信号合成器１００の上位ブロック図を示す。この装置は、１つの音源信号（例えば、モノラル信号）をバイノーラル信号の左右の音声信号に変換し、バイノーラル信号は、聴取者の鼓膜で受け取る２つの信号であると定義される。音源信号の他に、合成器１００は、聴取者を基準として、所望の位置の音源に対応する空間キューのセットを受信する。典型的な実施例では、空間キューのセットは、チャネル間レベル差（ＩＣＬＤ）値（左右の音声信号の間の音声レベルの差を、それぞれ左右の耳で聞こえるように特定する値）と、チャネル間時間差（ＩＣＴＤ）値（左右の音声信号の間の到達時間差を、それぞれ左右の耳で聞こえるように特定する値）とを含んでいる。このほかに、または別のものとして、合成技術の中には、頭部伝達関数（ＨＲＴＦ）とも呼ぶ、信号源から鼓膜への音の方向依存の変換関数モデリングを必要とするものもある。例えば、Ｊ．ブラウエルト（Ｂｌａｕｅｒｔ）、「人のサウンドローカリゼーションの精神物理学（ｐｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ）」（ＭＩＴ出版、１９８３年）を参照のこと、これは、この要旨は、ここに引例として組み込まれている。

ヘッドホンで聞いた場合に、適切な空間キューのセット（例えば、ＩＣＬＤ、ＩＣＴＤ、および／またはＨＲＴＦ）を適用して、それぞれの耳に対して音声信号を生成することにより、音源を空間的に配置したように、図１のバイノーラル信号合成器１００を用いて、１つの音源が生成したモノラル音声信号を処理することができる。例えば、Ｄ．Ｒ．ベゴールト（Ｂｅｇａｕｌｔ）、「バーチャルリアリティーおよびマルチメディア用３−Ｄサウンド（３−ＤＳｏｕｎｄｆｏｒＶｉｒｔｕａｌＲｅａｌｉｔｙａｎｄＭｕｌｔｉｍｅｄｉａ）」（アカデミックプレス社マサチューセッツ州ケンブリッジ１９９４年）を参照のこと。

図１のバイノーラル信号合成器１００は、聴取者を基準として配置された１つの音源を有する、最も単純な型の聴覚情景を生成する。基本的に、バイノーラル信号合成器の複数のインスタンスを用いて実施する聴覚情景合成器を用いることにより、聴取者を基準として、異なる位置に配置された２つ以上の音源を含むもっと複雑な聴覚情景を生成することができる。ここでは、各バイノーラル信号合成器インスタンスが、異なる音源に対応するバイノーラル信号を生成する。各異なる音源それぞれが、聴取者を基準として異なる場所にあるので、異なる空間キューのセットが、各異なる音源それぞれに対しバイノーラル音声信号を生成するために、用いられる。

米国特許出願番号第０９／８４８，８７７号米国特許出願番号第１０／０４５，４５８号米国特許出願番号第１０／１５５，４３７号米国特許出願番号第１０／２４６，５７０号米国特許出願番号第１０／８１５，５９１号米国特許出願番号第１０／９３６，４６４号米国特許出願番号第１０／７６２，１００号Ｃ．フォーラ（Ｆａｌｌｅｒ）、Ｆ．バウムガルテ（Ｂａｕｍｇａｒｔｅ）、「バイノーラルキュー符号化パートＩ：心理音響学基礎および設計原理（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ − ＰａｒｔＩ：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｆｕｎｄａｍｅｎｔａｌｓａｎｄｄｅｓｉｇｎｐｒｉｎｃｉｐｌｅｓ）」、ＩＥＥＥ会報、スピーチおよび音声学会紀要第１１巻第６号、２００３年１１月Ｃ．フォーラおよびＦ．バウムガルテ、「バイノーラル用キュー符号化パートＩＩ：方法および応用例（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ − ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ）」、ＩＥＥＥ会報、オーディオおよびスピーチ学会紀要、１１巻、第６号、２００３年１１月Ｃ．フォーラ、「異なる再生フォーマットと互換性のある空間音声符号化（Ｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏｃｏｍｐａｔｉｂｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔｐｌａｙｂａｃｋｆｏｒｍａｔｓ）」、音声工学学会第１１７回大会予稿、２００４年１０月

一実施の形態によれば、本発明は、音声チャネルを符号化する方法、装置および機械読み取り可能媒体である。１つ以上の音声チャネルに対し、１つ以上のキューコードを生成して送信する。少なくとも１つのキューコードは、１つ以上の音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより生成した、エンベロープキューコードである。

別の実施の形態によれば、本発明は、Ｅ個の送信音声チャネルを生成するために、Ｃ個の入力音声チャネルを符号化する装置である。装置は、エンベロープ分析器と、コード推定器と、ダウンミキサとを備える。エンベロープ分析器は、少なくとも１つのＣ個の入力チャネルの入力時間エンベロープの特徴を調べる。コード推定器は、２つ以上のＣ個の入力チャネルのキューコードを生成する。ダウンミキサは、Ｃ＞Ｅ・・１である、Ｅ個の送信チャネルを生成するために、Ｃ個の入力チャネルをダウンミキシングする。この装置は、デコーダを有効にして、合成およびエンベロープ整形を行うために、Ｅ個の送信チャネルの復号化を行う間に、キューコードおよび特徴を調べた入力時間エンベロープの情報を送信する。

別の実施の形態によれば、本発明は、音声チャネルを符号化することにより生成した、符号化音声ビットストリームである。１つ以上の音声チャネルに対して、１つ以上のキューコードを生成する。少なくとも１つのキューコードは、１つ以上の音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより生成した、エンベロープキューコードである。１つ以上のキューコードと、Ｅ・・１である、１つ以上の音声チャネルに対応する、Ｅ個の送信音声チャネルが、符号化音声ビットストリームに符号化される。

別の実施の形態によれば、本発明は、１つ以上のキューコードおよびＥ個の送信音声チャネルを含む、符号化音声ビットストリームである。１つ以上の音声チャネルに対して、１つ以上のキューコードを生成する。少なくとも１つのキューコードは、１つ以上の音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより生成した、エンベロープキューコードである。Ｅ個の送信音声チャネルは、１つ以上の音声チャネルに対応している。

別の実施の形態によれば、本発明は、Ｃ＞Ｅ・・１であるＣ個の再生音声チャネルを生成するために、Ｅ個の送信音声チャネルを復号化する、方法、装置および機械読み取り可能媒体である。Ｅ個の送信チャネルに対応するキューコードを、受信する。キューコードは、Ｅ個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードを含む。１つ以上のＥ個の送信チャネルは、１つ以上のアップミキシングチャネルを生成するために、アップミキシングされる。キューコードを１つ以上のアップミキシングチャネルに適用することにより、１つ以上のＣ個の再生チャネルを合成する。調整した時間エンベロープが、特徴を調べた時間エンベロープと基本的に整合するように、特徴を調べた時間エンベロープに基づいて、エンベロープキューコードは、合成した信号の時間エンベロープを調整するために、アップミキシングチャネルまたは合成した信号に適用される。

以下の詳細な説明、特許請求の範囲、添付の図面から、本発明の他の側面、特徴および利点について、より完全に明らかになるであろう。類似の、または全く同じ構成要素には、同じ参照番号が付されている。
図１は、従来のバイノーラル信号合成器の上位ブロック図を示す。
図２は、一般バイノーラルキュー符号化（ＢＣＣ）音声処理システムを示すブロック図である。
図３は、図２のダウンミキサに用いることができるダウンミキサのブロック図を示す。
図４は、図２のデコーダに用いることができるＢＣＣ合成器のブロック図を示す。
図５は、本発明の一実施の形態による、図２のＢＣＣ推定器のブロック図を示す。
図６は、５チャネル音声用ＩＣＴＤおよびＩＣＬＤデータ生成を説明する図である。
図７Ａは、５チャネル音声用ＩＣＣデータを説明する図である。
図７Ｂは、５チャネル音声用ＩＣＣデータを説明する図である。
図８は、ＢＣＣデコーダに用いることができ、１つの送信した和信号ｓ（ｎ）プラス空間キューが与えられたステレオ音声信号またはマルチチャネル音声信号を生成する、図４のＢＣＣ合成器の一実施例のブロック図を示す。
図９は、周波数関数として、サブバンド内でＩＣＴＤおよびＩＣＬＤがどのように変化するかを説明する図である。
図１０Ａは、本発明の一実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる時間領域処理を示すブロック図である。
図１０Ｂは、本発明の一実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる時間領域処理を示すブロック図である。
図１１Ａは、図４のＢＣＣ合成器の条件でのＴＰ処理の一例の時間領域適用例を説明する図である。
図１１Ｂは、図４のＢＣＣ合成器の条件でのＴＰ処理の一例の時間領域適用例を説明する図である。
図１２Ａは、カットオフ周波数ｆ_TPより高い周波数にだけをエンベロープ整形が行われる、図１０のＴＰＡおよび図１１のＴＰそれぞれの、考えられる実施例を示す。
図１２Ｂは、カットオフ周波数ｆ_TPより高い周波数にだけエンベロープ整形が行われる、図１０のＴＰＡおよび図１１のＴＰそれぞれの、考えられる実施例を示す。
図１３Ａは、本発明の別の実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる周波数領域処理のブロック図を示す。
図１３Ｂは、本発明の別の実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる周波数領域処理のブロック図を示す。
図１４Ａは、図４のＢＣＣ合成器の条件でのＴＰ処理の一例の周波数領域適用例を説明する図である。
図１４Ｂは、図４のＢＣＣ合成器の条件でのＴＰ処理の一例の周波数領域適用例を説明する図である。
図１５は、本発明のさらに別の実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる周波数領域処理のブロック図を示す。
図１６は、図４のＢＣＣ合成器の条件でのＴＰ処理の別の一例の周波数領域適用例を説明する図である。
図１７Ａは、図１５および図１６のＴＰＡと、図１６のＩＴＰおよびＴＰとの考えられる実施例のブロック図を示す。
図１７Ｂは、図１５および図１６のＴＰＡと、図１６のＩＴＰおよびＴＰとの考えられる実施例のブロック図を示す。
図１７Ｃは、図１５および図１６のＴＰＡと、図１６のＩＴＰおよびＴＰとの考えられる実施例のブロック図を示す。
図１８Ａは、図１６の制御ブロックを動作させる２つの一例のモードを説明する図である。
図１８Ｂは、図１６の制御ブロックを動作させる２つの一例のモードを説明する図である。

バイノーラルキュー符号化（ＢＣＣ）は、Ｃ＞Ｅ・・１である、音声チャネルを生成するために、エンコーダがＣ個の入力音声チャネルを符号化される。特に、２つ以上のＣ個の入力チャネルが周波数領域に提供され、周波数領域の２つ以上の入力チャネルで、１つ以上の異なる周波数帯域それぞれに１つ以上のキューコードが生成される。また、Ｃ個の入力チャネルは、Ｅ個の送信チャネルを生成するために、ダウンミキシングされる。ダウンミキシング実施例の中には、Ｅ個の送信チャネルのうちの少なくとも１つのチャネルが２つ以上のＣ個の入力チャネルに基づいていて、Ｅ個の送信チャネルのうちの少なくとも１つのチャネルがＣ個の入力チャネルのうちの１つのチャネルだけに基づいている場合もある。

一実施の形態では、ＢＣＣコーダは、２つ以上のフィルタバンク、コード推定器、およびダウンミキサを備えている。２つ以上のフィルタバンクは、２つ以上のＣ個の入力チャネルを時間領域から周波数領域に変換する。コード推定器は、２つ以上の変換した入力チャネルで１つ以上の異なる周波数帯域それぞれに１つ以上のキューコードを生成する。ダウンミキサは、Ｃ＞Ｅ・・１である、Ｅ個の送信チャネルを生成するために、Ｃ個の入力チャネルをダウンミキシングする。

ＢＣＣ復号化では、Ｃ個の再生音声チャネルを生成するために、Ｅ個の送信音声チャネルが復号化される。特に、１つ以上の異なる周波数帯域それぞれに対して、周波数領域で１つ以上のＥ個の送信チャネルが、Ｃ＞Ｅ・・１である、周波数領域で２つ以上のＣ個の再生チャネルを生成するために、アップミキシングされる。周波数領域の２つ以上の再生チャネルで、１つ以上のキューコードが、２つ以上の変更チャネルを生成するために、１つ以上の異なる周波数帯域それぞれに適用され、２つ以上の変更チャネルが、周波数領域から時間領域に変換される。アップミキシングの実施例の中には、少なくとも１つのＣ個の再生チャネルが、Ｅ個の送信チャネルのうちの少なくとも１つのチャネルと、少なくとも１つのキューコードとに基づいていて、少なくとも１つのＣ個の再生チャネルが、キューコードとは無関係に、Ｅ個の送信チャネルのうちの１つのチャネルだけに基づいている場合もある。

一実施の形態では、ＢＣＣデコーダは、アップミキサ、合成器、および１つ以上の逆フィルタバンクを備える。１つ以上の異なる周波数帯域それぞれに対して、アップミキサは、Ｃ＞Ｅ・・１である、周波数領域で２つ以上のＣ個の再生チャネルを生成するために、周波数領域で１つ以上のＥ個の送信チャネルをアップミキシングする。合成器は、２つ以上の変更チャネルを生成するために、周波数領域の２つ以上の再生チャネルで、１つ以上のキューコードを１つ以上の異なる周波数帯域それぞれに適用する。１つ以上の逆フィルタバンクは、２つ以上の変更チャネルを周波数領域から時間領域に変換する。

特定の実施例によるが、任意の再生チャネルは、２つ以上の送信チャネルの組み合わせよりむしろ、１つの送信チャネルに基づいている場合もある。例えば、送信チャネルが１つだけある場合、Ｃ個の再生チャネルのそれぞれは、その１つの送信チャネルに基づいている。このような状況では、アップミキシングは、送信チャネルをコピーすることに対応している。従って、送信チャネルが１つだけある適用例では、各再生チャネルに対して送信チャネルをコピーするレプリケータを用いて、アップミキサを実施してもよい。

ＢＣＣエンコーダおよび／またはデコーダを、例えば、デジタルビデオレコーダ／プレーヤ、デジタル音声レコーダ／プレーヤ、コンピュータ、衛星送信機／受信機、ケーブル送信機／受信機、地上波放送送信機／受信機、ホームエンターテインメントシステム、および映画館システム等の、多数のシステムまたは適用例に組み込むこともできる。

一般ＢＣＣ処理
図２は、エンコーダ２０２とデコーダ２０４とを備える一般バイノーラルキュー符号化（ＢＣＣ）音声処理システム２００を示すブロック図である。エンコーダ２０２は、ダウンミキサ２０６とＢＣＣ推定器２０８とを含んでいる。

ダウンミキサ２０６は、Ｃ＞Ｅ・・１である、Ｃ個の入力音声チャネルｘ_i（ｎ）をＥ個の送信音声チャネルｙ_i（ｎ）に変換する。この明細書では、変数ｎを用いて表す信号は時間領域信号であって、変数ｋを用いて表す信号は周波数領域信号である。特定の実施例によるが、時間領域または周波数領域のいずれかでダウンミキシングを行うことが可能である。ＢＣＣ推定器２０８は、ＢＣＣコードをＣ個の入力音声チャネルから生成して、Ｅ個の送信音声チャネルを基準として、帯域内または帯域外サイド情報のいずれかとしてそれらのＢＣＣコードを送信する。典型的なＢＣＣコードは、１つ以上のチャネル間時間差（ＩＣＴＤ）と、チャネル間レベル差（ＩＣＬＤ）と、周波数および時間の関数として、特定の対の入力チャネル間で推定した、チャネル間相関（ＩＣＣ）データとを含んでいる。特定の実施例では、どの特定の対の入力チャネルでＢＣＣコードを推定するか要求している。

ＩＣＣデータは、音源の知覚した幅に関するバイノーラル信号のコヒーレンスに対応している。音源がより広くなると、得られるバイノーラル信号の左右のチャネル間のコヒーレンスがより低下する。例えば、ホールのステージいっぱいに広がるオーケストラに対応するバイノーラル信号のコヒーレンスは、通常、独奏している１つのバイオリンに対応するバイノーラル信号のコヒーレンスより低い。一般に、コヒーレンスが低い音声信号は通常、聴覚空間ではより広がって知覚される。従って、ＩＣＣデータは通常、明白な音源の幅と、聴取者が包み込まれた状態の度合いに関係する。すなわち、Ｊ．ブラウエルト、「人のサウンドローカリゼーションの精神物理学」（ＭＩＴ出版、１９８３年）を参照のこと。

図２に示すＢＣＣ処理の他に、一般ＢＣＣ音声処理システムは、さらに符号化段、復号化段をさらに備え、エンコーダで音声信号を圧縮して、デコーダで音声信号を復元することもできる。これらの音声コーデックは、パルスコード変調（ＰＣＭ）、差動ＰＣＭ（ＤＰＣＭ）、または適応ＤＰＣＭ（ＡＤＰＣＭ）に基づいた、従来の音声圧縮／復元技術に基づくものであってもよい。

ダウンミキサ２０６が１つの和信号（すなわち、Ｅ＝１）を生成する場合は、ＢＣＣ符号化により、モノラル音声信号を表すのに必要なものよりも若干高いビットレートでマルチチャネル音声信号を表すことが可能である。これは、チャネル対の間の推定したＩＣＴＤ、ＩＣＬＤ、およびＩＣＣデータが、音声波形よりも約２桁小さい情報を含んでいるからである。

ＢＣＣ符号化は、ビットレートが低いことばかりでなく、その後方互換性の点でも関心を集めている。１つの送信した和信号は、元のステレオまたはマルチチャネル信号のモノラルダウンミキシングに対応している。ステレオまたはマルチチャネル音響再生をサポートしていない受信機にとって、送信した和信号を聴取することは、薄型モノラル再生装置で音声素材を表す有効な方法である。従って、ＢＣＣ符号化を用いて、モノラル音声素材をマルチチャネル音声にすることが必要な既存のサービスを向上させることもできる。例えば、ＢＣＣサイド情報が、既存の伝送チャネルに埋め込むことができれば、ステレオまたはマルチチャネル再生が行えるように、既存のモノラル音声無線放送システムを向上させることができる。マルチチャネル音声を、ステレオ音声に対応する２つの和信号にダウンミキシングする際に、類似の能力が存在する。

ＢＣＣにより、ある時間および周波数分解能で音声信号を処理する。用いられる周波数分解能は、人間の聴覚システムの周波数分解能が主な動機となっている。心理音響学では、空間知覚は、音響入力信号の重要な帯域表現に基づいている可能性が一番高いことを示唆している。人間の聴覚システムの重要な帯域幅と同じか、または比例する帯域幅のサブバンドを有する可逆フィルタバンク（例えば、高速フーリエ変換（ＦＦＴ）または直交ミラーフィルタ（ＱＭＦ）に基づくもの）を用いて、この周波数分解能について考える。

一般ダウンミキシング
好適な実施例では、送信した和信号は、入力音声信号の全信号成分を含んでいる。目的は、各信号成分を完全に維持することである。音声入力チャネルを単純に加算することは、信号成分が増幅したり、減衰したりすることがよくある。言い換えれば、“単純に”加算した信号成分のパワーが、各チャネルの対応する信号成分のパワーの合計よりも大きかったり、小さかったりすることがよくある。和信号の信号成分のパワーが全入力チャネルの対応するパワーとほぼ同じになるように、和信号を等しくするダウンミキシング技術を用いることができる。

図３は、ＢＣＣシステム２００のある実施例による、図２のダウンミキサ２０６に用いることができるダウンミキサ３００を示すブロック図である。ダウンミキサ３００は、各入力チャネルｘ_i（ｎ）のフィルタバンク（ＦＢ）３０２と、ダウンミキシングブロック３０４と、オプションのスケーリング／遅延ブロック３０６と、各符号化したチャネルｙ_i（ｎ）の逆ＦＢ（ＩＦＢ）３０８とを備える。

オプションのスケーリングを行う他に、またはこの代わりに、スケーリング／遅延ブロック３０６は、オプションで信号を遅延してもよい。

各逆フィルタバンク３０８は、周波数領域の対応するスケーリング係数のセットを、対応するデジタル送信チャネルｙ_i（ｎ）のフレームに変換する。

図３は、Ｃ個の入力チャネルすべてを周波数領域に変換して、続いてダウンミキシングを行っているが、別の実施例として、１つ以上（しかし、Ｃ−１よりも小さい数）のＣ個の入力チャネルについて、図３に示す処理の一部またはすべてを省略して、同等の数の変更していない音声チャネルとして送信してもよい。特定の実施例によるが、送信ＢＣＣコードの生成に、図２のＢＣＣ推定器２０８がこれらの変更していない音声チャネルを用いても、用いなくてもよい。

係数ｅ（ｋ）は、次の式（５）から得られる。

ここで、Ｕ_ECは、実数値のＥ×Ｃアップミキシング行列である。周波数領域でアップミキシングを行うことにより、異なるサブバンドそれぞれに個別にアップミキシングを行えるようになる。

各遅延４０６は、ＩＣＴＤデータの対応するＢＣＣコードに基づいて、遅延値ｄ_i（ｋ）を適用して、再生チャネルの特定の対の間で確実に所望のＩＣＴＤ値が現れるようにする。各乗算器４０８は、ＩＣＬＤデータの対応するＢＣＣコードに基づいて、倍率ａ_i（ｋ）を適用して、特定の対の再生チャネルの間で確実に所望のＩＣＬＤ値が現れるようにする。相関ブロック４１０は、ＩＣＣデータの対応するＢＣＣコードに基づいて、非相関演算Ａを行って、特定の対の再生チャネルの間で確実に所望のＩＣＣ値が現れるようにする。さらに相関ブロック４１０の演算の記載は、米国出願第１０／１５５，４３７号２００２年５月２４日出願（代理人整理番号第Ｂａｕｍｇａｒｔｅ２−１０）に記載されている。

ＩＣＬＤ合成を行うには、サブバンド信号のスケーリングを行うだけでよいので、ＩＣＬＤ値の合成は、ＩＣＴＤ値およびＩＣＣ値の合成よりも煩わしくない。ＩＣＬＤキューは最も一般的に用いられる方向キューなので、ＩＣＬＤ値により元の音声信号のＩＣＬＤキューを近似することは、通常、さらに重要なことである。従って、ＩＣＬＤデータを、全チャネル対の間で推定する場合もある。好ましくは、各再生チャネルのサブバンドパワーが、元の入力音声チャネルの対応するパワーを近似するように、各サブバンドの倍率ａ_i（ｋ）（１・ｉ・Ｃ）が選択される。

目的の１つは、ＩＣＴＤ値およびＩＣＣ値を合成するために、比較的少ない回数の信号変更を適用することである。従って、ＢＣＣデータは、全チャネル対のＩＣＴＤ値およびＩＣＣ値を含んでいなくてもよい。その場合は、ＢＣＣ合成器４００は、あるチャネル対の間だけでＩＣＴＤ値およびＩＣＣ値を合成する。

図４は、続いてアップミキシングおよびＢＣＣ処理を行うために、Ｅ個の送信チャネルをすべて周波数領域に変換することを示しているが、別の実施例では、（すべてではないが）１つ以上のＥ個の送信チャネルについて、図４に示す処理の一部またはすべてを回避してもよい。例えば、１つ以上の送信チャネルが、アップミキシングを行っていない、変更していないチャネルであってもよい。１つ以上のＣ個の再生チャネルの他に、必ずしも行う必要はないが、これらの変更していないチャネルを順に、基準チャネルとして用いて、ＢＣＣ処理を行って、１つ以上の他の再生チャネルを合成してもよい。いずれの場合でも、このような変更していないチャネルを遅延して残りの再生チャネルの生成に用いられるアップミキシングおよび／またはＢＣＣ処理に必要な処理時間を補償することもできる。

図４は、Ｃは元の入力チャネルの数である、Ｃ個の再生チャネルをＥ個の送信チャネルから合成することを示しているが、ＢＣＣ合成は、再生チャネルの数に限られるわけではないことに留意されたい。一般に、再生チャネルの数を任意の数のチャネルとすることができ、Ｃより多い、または少ない数や、再生チャネルの数が送信チャネルの数以下である場合も考えられる。

音声チャネル間の“知覚的関連差”
１つの和信号を仮定し、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣが元の音声信号の対応するキューを近似するように、ＢＣＣは、ステレオ音声信号またはマルチチャネル音声信号を合成する。以下では、聴覚空間イメージ属性に関連したＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの役割が説明される。

空間聴力の知識は、１つの聴覚イベントについて、ＩＣＴＤおよびＩＣＬＤは、知覚した方向に関係していることを意味している。１つの音源のバイノーラル室内インパルス応答（ＢＲＩＲ）を考える場合、聴覚イベントの幅、聴取者が包み込まれた状態、ＢＲＩＲのはじめの部分および後の部分について推定したＩＣＣデータの間に、関係がある。しかしながら、ＩＣＣと、（単にＢＲＩＲばかりでなく）一般的な信号のこれらの特性との間の関係は、直接的なものではない。

ステレオ音声信号およびマルチチャネル音声信号は通常、アクティブな音源信号を、同時に、閉鎖空間でのレコーディングから得られる反射信号成分と重畳したもの、または、レコーディングエンジニアによって、人工的に生成した空間印象を加えられたものの、複雑な混合物を含んでいる。異なる源信号およびそれらの残響は、時間周波数平面で異なる領域を占めている。このことは、ＩＣＴＤ，ＩＣＬＤ、およびＩＣＣに反映され、時間および周波数の関数として変化する。この場合は、瞬時ＩＣＴＤ、ＩＣＬＤ、ＩＣＣ、聴覚イベント方向、空間印象の間の関係は、明白でない。ＢＣＣを行うある実施の形態の手法は、元の音声信号の対応するキューを近似するように、これらのキューを盲目的に合成することである。

時間等価矩形帯域幅（ＥＲＢ）の２倍と等しいサブバンドの帯域幅を持つフィルタバンクを用いる。非公式な聴き取りでは、より高い周波数分解能を選択した場合は、ＢＣＣの音声品質があまり向上しないことが明らかになっている。デコーダに送信する必要があるＩＣＴＤ、ＩＣＬＤ、およびＩＣＣ値が小さくなり、従ってビットレートが低くなるので、より低い周波数分解能が望ましい。

時間分解能については、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣは、通常、通常の時間間隔で考えられている。ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣを約４〜１６ミリ秒毎に考える場合に、高い音効果が得られる。キューを非常に短時間の間隔で考える場合を除いて、先行音効果については直接考えないことに留意されたい。進みおよび遅れが時間間隔になり、１セットのキューが合成され、進みの局所的な優越については考えない場合は、音刺激の従来の遅れ進み対を想定する。このことにもかかわらず、ＢＣＣにより、平均で、平均ＭＵＳＨＲＡスコアで約８７（すなわち、“非常によい”音声品質）の音声品質になり、ある音声信号については１００近くにまでなる。

基準信号と合成した信号との間の、しばしば見受けられる知覚的に小さな差は、通常の時間間隔でＩＣＴＤ、ＩＣＬＤ、およびＩＣＣを合成することにより、幅の広い聴覚空間イメージ属性の関するキューを暗黙的に考えることを意味している。以下では、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣが、聴覚空間イメージ属性の幅とどのように関連しているかについて、説明する。

空間キューの推定
以下では、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣをどのように推定するか、説明する。これらの（量子化および符号化）空間キューを伝送するビットレートは、わずか数キロビット／秒なので、ＢＣＣにより、１つの音声チャネルに必要なものに近いビットレートで、ステレオ音声信号およびマルチチャネル音声信号を送信することが可能である。

図５は、本発明の一実施の形態による、図２のＢＣＣ推定器２０８を示すブロック図である。ＢＣＣ推定器２０８は、図３のフィルタバンク３０２と同じであってもよいフィルタバンク（ＦＢ）５０２と、フィルタバンク５０２によって生成されるそれぞれ異なる周波数サブバンドに対するＩＣＴＤ、ＩＣＬＤ、およびＩＣＣ空間キューを生成する推定ブロック５０４とを備える。

・ＩＣＴＤ［サンプル］

次の式（８）から得られる正規化相互相関関数の短時間推定値による。

ここで、

・ＩＣＬＤ［ｄＢ］：

・ＩＣＣ：

正規化相互相関の絶対値について考慮し、ｃ₁₂（ｋ）の範囲は［０，１］であることに留意されたい。

マルチチャネル音声信号に対するＩＣＴＤＩＣＬＤ、およびＩＣＣの推定
入力チャネルが３つ以上ある場合は、通常、基準チャネル（例えば、チャネルナンバー１）と他のチャネルとの間でＩＣＴＤおよびＩＣＬＤを定義することで十分である。図６には、Ｃ＝５チャネルの場合を示している。τ_1c（ｋ）およびΔ₁₂（ｋ）はそれぞれ、基準チャネル１とチャネルｃとの間のＩＣＴＤおよびＩＣＬＤを表す。

ＩＣＴＤおよびＩＣＬＤとは反対に、ＩＣＣは通常、より自由度がある。定義されているＩＣＣは、考えられるすべての入力チャネル対の間で異なる値をとることができる。Ｃ個のチャネルの場合、Ｃ（Ｃ−１）／２個の考えられるチャネル対がある。例えば、５チャネルの場合は、図７（ａ）に示すように１０個のチャネル対がある。しかしながら、このような方法では、各時間インデックスでの各サブバンドに対し、Ｃ（Ｃ−１）／２個のＩＣＣ値を推定して送信することが必要になり、計算量が大きくなり、ビットレートが高くなってしまう。

また、各サブバンドに対して、ＩＣＴＤおよびＩＣＬＤが、サブバンドの対応する信号成分の聴覚イベントを表現する方向を求める。次に、サブバンド１つ毎に１つのＩＣＣパラメータを用いて、全音声チャネル間の全体的なコヒーレンスを記述してもよい。各時間インデックスで、各サブバンドで最もエネルギーが大きい２つのチャネルの間だけで、ＩＣＣキューを推定して送信することにより、良い結果を得ることができる。このことを、図７（ｂ）に示す。時刻ｋ−１およびｋで、チャネル対（３、４）および（１、２）それぞれが最も強い。発見的規則を用いて、他のチャネル対の間のＩＣＣを求めてもよい。

ＩＣＴＤ合成
次の式（１２）により、ＩＣＴＤτ_1c（ｋ）から遅延ｄ_cを求める。遅延ｄ_cの最大大きさを最小にするように、基準チャネルｄ１の遅延が算出される。変更するサブバンド信号が少なくなるほど、アーティファクトが発生する危険性がより少なくなる。サブバンドのサンプリングレートが、ＩＣＴＤ合成に対する時間分解能が十分高くならない場合は、適したオールパスフィルタを用いることにより、より正確に遅延を行うようにする。

ＩＣＬＤ合成
チャネルｃおよび基準チャネル１の間で出力サブバンド信号が所望のＩＣＬＤΔ₁₂（ｋ）を有するようにするために、利得係数ａ_cは、次の式（１３）を満たす必要がある。

また、好ましくは、全出力チャネルのパワーの合計が、入力和信号のパワーと等しくなるように、出力サブバンドを正規化する。各サブバンドの元の信号パワーのすべてが和信号に保たれているので、この正規化は、各出力チャネルの絶対サブバンドパワーにおいて、元のエンコーダ入力音声信号の対応するパワーを近似することになる。これらの制約条件から、次の式（１４）により、倍率ａ_cが得られる。

ＩＣＣ合成
ある実施の形態では、ＩＣＣ合成の目的は、ＩＣＴＤおよびＩＣＬＤに影響を与えることなく、遅延およびスケーリングを行った後で、サブバンド間の相関を低減することである。平均変動が各サブバンド（聴覚的に重要な帯域）でゼロになるように、周波数の関数としてＩＣＴＤおよびＩＣＬＤが効果的に変化するように、図８のフィルタｈｃを設計することにより、このことを行うことが可能である。

図９は、周波数の関数として、ＩＣＴＤおよびＩＣＬＤがサブバンド内でどのように変化するかを示している。ＩＣＴＤおよびＩＣＬＤ変動の振幅が、非相関の度合いを求め、ＩＣＣの関数として制御する。ＩＣＴＤは滑らかに変化し（図９（ａ）に示す）、ＩＣＬＤはランダムに変化する（図９（ｂ）に示す）ことに留意されたい。ＩＣＬＤを、ＩＣＴＤのように滑らかに変化させることもできるが、このことにより、得られる音声信号をさらに特徴付けることになる。

マルチチャネルＩＣＣ合成を行うのに特に適した、ＩＣＣを合成する別の方法は、次の文献に詳細に記載されている。Ｃ．フォーラ、「パラメトリックマルチチャネル音声符号化：コヒーレンスキューの合成（Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ）」（ＩＥＥＥ会報、スピーチおよびオーディオ学会、２００３年）」（ＩＥＥＥ会報、スピーチおよびオーディオ学会、２００３年）。この要旨は、ここに引例として組み込まれている。時間および周波数の関数として、一定量のアーティフィシャルな後期残響を出力チャネルそれぞれに加算して、所望のＩＣＣを得る。また、得られる信号のスペクトルエンベロープが元々の音声信号のスペクトルエンベロープに近づくように、スペクトル変更を行うこともできる。

ステレオ信号（または音声チャネル対）に対するＩＣＣ合成技術に関係する、または関係しない他の技術が、次の文献に記載されている。Ｅ．シュイエールス（Ｓｃｈｕｉｊｅｒｓ）、Ｗ．オーメン（Ｏｏｍｅｎ）、Ｂ．デン・ブリンカー（ｄｅｎＢｒｉｎｋｅｒ）、Ｊ．ブレーバールト（Ｂｒｅｅｂａａｒｔ）、「高品質音声のためのパラメトリック符号化の進歩（Ａｄｖａｎｃｅｓｉｎｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｆｏｒｈｉｇｈ−ｑｕａｌｉｔｙａｕｄｉｏ）」（音声工学学会第１１４回大会予稿集、２００３年３月）、Ｊ．エングデガールド（Ｅｎｇｄｅｇａｒｄ）、Ｈプルンハーゲン（Ｐｕｒｎｈａｇｅｎ）、Ｊ．ローデン（Ｒｏｄｅｎ）、Ｌ．リルジェリド（Ｌｉｌｊｅｒｙｄ）、「パラメトリックステレオ符号化における合成環境（Ｓｙｎｔｈｅｔｉｃａｍｂｉｅｎｃｅｉｎｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ）」（音声工学学会第１１７回大会予稿集２００４年５月）。これらの要旨は、ここに引例として組み込まれている。

ＣチャネルからＥチャネルへのＢＣＣ
前述のように、２つ以上の伝送チャネルでＢＣＣを行うことができる。ＢＣＣのバリエーションが、１つの（送信した）チャネルだけでなく、Ｅ個のチャネルとしてもＣ個の音声チャネルを表すことについて、説明してきたが、これを、ＣチャネルからＥチャネルへのＢＣＣと記載する。ＣチャネルからＥチャネルへのＢＣＣを行う、（少なくとも）２つの目的がある。
・１つの伝送チャネルで、ＢＣＣは、既存のモノラルシステムをグレードアップして、ステレオ音声再生またはマルチチャネル音声再生を行う後方互換性経路を提供する。グレードアップしたシステムは、既存のモノラルインフラを介してＢＣＣダウンミキシング和信号を送信し、さらにＢＣＣサイド情報を送信する。ＣチャネルからＥチャネルへのＢＣＣを、Ｃチャネル音声のＥチャネル後方互換性符号化に適用することができる。
・ＣチャネルからＥチャネルへのＢＣＣは、送信チャネルの数を異なる度合いで低減するという意味で、拡張性を導入する。送信する音声チャネルの音声品質がさらに向上することが期待できる。
ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣキューをどのように定義するかというような、ＣチャネルからＥチャネルへのＢＣＣの信号処理の詳細は、米国出願第１０／７６２，１００号０１／２０／０４２００４年１月２０日出願（Ｆａｌｌｅｒ１３−１）に記載されている。

個別に行うチャネル整形
ある実施の形態では、１つの伝送チャネルでのＢＣＣと、ＣチャネルからＥチャネルへのＢＣＣとは両方とも、ＩＣＴＤ、ＩＣＬＤ、および／またはＩＣＣ合成のアルゴリズムが必要である。通常、約４〜３０ミリ秒毎にＩＣＴＤ、ＩＣＬＤ、および／またはＩＣＣキューの合成を行うことで十分である。しかしながら、先行音効果の知覚現象では、人間の聴覚システムが高い時間分解能（例えば、１〜１０ミリ秒毎）でキューを評価する、特定の時刻があることを意味している。

１つの静的フィルタバンクは通常、先行音効果が有効になる時刻で十分高い時間分解能を生成することができるが、大抵の時刻に適した、十分高い周波数分解能を生成することができない。

本発明のある実施の形態は、より高い時間分解能が必要な時刻を考慮する処理をさらに加えて、比較的低い時間分解能のＩＣＴＤ、ＩＣＬＤ、および／またはＩＣＣ合成を用いるシステムに向けられている。また、ある実施の形態では、このシステムにより、通常はシステムの構造に組み込むことが難しい信号適応ウィンドウ切換技術の必要性をとり除く。ある実施の形態では、１つ以上の元のエンコーダ入力音声チャネルの時間エンベロープは推定される。例えば、信号の時間構造を直接分析したり、周波数に対する信号スペクトルの自己相関を検証したりすることにより、このことを行うことができる。２つのアプローチについて、次の実施例でさらに詳細に説明する。知覚的に必要で利点がある場合は、これらのエンベロープに含まれる情報を、（エンベロープキューコードとして）デコーダに送信する。

ある実施の形態では、デコーダが、その出力音声チャネルで、これらの所望の時間エンベロープにある処理を行う。
・ＴＰ処理、例えば、時間可変振幅変更関数とともに、信号の時間領域サンプルを操作することによって、信号のエンベロープを操作することにより、このことを行うことができる。サブバンドの時間分解能が十分高い（粗い周波数分解能を犠牲にして）場合は、同様の処理をスペクトル／サブバンドサンプルに適用することができる。
・あるいは、低ビットレート音声コーダの量子化ノイズを整形するために、または、インテンシティステレオ符号化信号を向上させるために、従来技術で用いられるのと類似のやり方で、周波数に対する信号のスペクトル表現の畳み込み／フィルタを用いることができる。低い時間分解能ではなく、フィルタバンクが高い周波数分解能を有する場合は、このことは好適である。畳み込み／フィルタアプローチについては、
・エンベロープ整形方法は、インテンシティステレオから、Ｃ個からＥ個へのマルチチャネル符号化に拡張する。
・この技術は、エンコーダにより生成されたパラメトリック情報（例えば、バイナリフラグ）により、エンベロープ整形が制御されるセットアップを含んでいるが、実際には、デコーダから導出したフィルタ係数セットを用いて実行する。
・別のセットアップでは、例えば、知覚的に必要および／または利点がある場合に限って、フィルタ係数のセットがエンコーダから送信される。

時間領域／サブバンド領域アプローチについても、同じことが当てはまる。従って、基準（例えば、一時的現象検出および調性推定値）が、エンベロープ情報伝送をさらに制御するために、導入される。

考えられるアーティファクトを回避するために、ＴＰ処理を無効にすることが好ましい場合もある。安全な側にいるためには、（すなわち、従来のＢＣＣ方法により、ＢＣＣを行う）デフォルトにより、時間処理を無効のままにすることは、よい方法である。チャネルのより高い時間分解能により改善されると期待できる場合に限って、追加処理がさらに有効になる。例えば、先行音効果がアクティブになると期待できる場合である。

前述のように、一時的現象の検出を行うことにより、この有効／無効制御を行うことができる。すなわち、一時的現象が検出された場合は、次に、ＴＰ処理を有効にする。一時的現象に対して、先行音効果は最も効果がある。予測して一時的現象の検出を用いることにより、１つの一時的現象だけでなく、一時的現象の直前直後の信号成分についても効果的に整形することができる。一次的現象の検出を行う考えられる方法は、次の方法である。
・ＢＣＣエンコーダ入力信号または送信したＢＣＣ和信号の時間エンベロープを観察すること。パワーが急激に増加すると、次に、一時的現象が発生する。
・エンコーダまたはデコーダで推定したような線形予測符号化（ＬＰＣ）利得を検証すること。ＬＰＣ予測利得がある閾値を上回る場合、次に、信号が一時的現象であるか、または非常に変動していると仮定されることができる。ＬＰＣ分析は、スペクトルの自己相関により算出する。

また、音色信号の考えられるアーティファクトを回避するために、好ましくは、送信した和信号の調性が高い場合は、ＴＰ処理を行わない。

本発明のある実施の形態によれば、元の音声チャネルのものと同様の（または知覚的に同様の）時間エンベロープを持つ出力チャネルを、ＢＣＣデコーダに生成させるために、個別の元の音声チャネルの時間エンベロープを、ＢＣＣエンコーダで推定する。本発明のある実施の形態は、先行音効果の現象について説明している。本発明のある実施の形態は、ＢＣＣサイド情報の一部としてのＩＣＬＤ、ＩＣＴＤ、および／またはＩＣＣ等の、他のＢＣＣコードの他に、エンベロープキューコードを送信する必要がある。

本発明のある実施の形態では、時間エンベロープキューの時間分解能は、他のＢＣＣコード（例えば、ＩＣＬＤ、ＩＣＴＤ、ＩＣＣ）の時間分解能よりも細かい。これにより、他のＢＣＣコードを抽出する入力チャネルのブロック長に対応している合成ウィンドウにより、時間内でエンベロープ整形が可能になる。

実施例
図１０は、本発明の一実施の形態による、図２のエンコーダ２０２等のＢＣＣエンコーダに加えられる時間領域処理を示すブロック図である。図１０（ａ）に示すように、一般に、任意の１つ以上の入力チャネルを分析することができるが、各時間処理分析器（ＴＰＡ）１００２は、異なる元の入力チャネルｘ_c（ｎ）の時間エンベロープを推定する。

図１０（ｂ）は、ＴＰＡ１００２のある考えられる時間領域ベースの実施可能なブロック図を示す。入力信号の時間エンベロープの特徴を調べるために、入力信号サンプルが二乗し（１００６）、次に、ローパスフィルタされる（１００８）。別の実施の形態では、自己相関／ＬＰＣ方法または他の方法、例えば、ヒルベルト変換を用いて、時間エンベロープを推定することができる。

図１０（ａ）のブロック１００４は、図２のサイド情報に含まれる時間処理（ＴＰ）情報（すなわち、エンベロープキューコード）として送信する前に、推定した時間エンベロープをパラメータ化し、量子化し、符号化する。

一実施の形態では、ブロック１００４内の検出器（図示せず）が、デコーダでのＴＰ処理が、音声品質を改善するかどうか判定し、ブロック１００４は、ＴＰ処理により音声品質が向上する時刻の間だけに限って、ＴＰサイド情報を送信する。

図１１は、図４のＢＣＣ合成器４００の条件で、ＴＰ処理の一例の時間領域適用例を示す。この実施の形態では、１つの送信した和信号ｓ（ｎ）があり、その和信号を反復してＣ個のベース信号を生成し、異なる合成したチャネルに対してエンベロープ整形が個別に適用される。別の実施の形態では、遅延、スケーリング、および他の処理の順序が異なっていてもよい。さらに、別の実施の形態では、エンベロープ整形は、各チャネルを別々に処理することに限定されない。このことは、周波数帯域に対するコヒーレンスを利用して、信号の時間微細構造に関する情報を抽出する、畳み込み／フィルタベースの実施例に特に当てはまる。

図１１（ａ）では、復号化ブロック１１０２が、ＢＣＣエンコーダから受信した、送信ＴＰサイド情報から各出力チャネルの時間エンベロープ信号ａを復元して、各ＴＰブロック１１０４が、出力チャネルのエンベロープを整形するために、対応するエンベロープ情報を適用する。

図１１（ｂ）は、ＴＰ１１０４のある時間領域ベースの実施可能なブロック図を示す。合成した信号サンプルは、合成したチャネルの時間エンベロープｂの特徴を調べるために、二乗され（１１０６）、次に、ローパスフィルタされる（１１０８）。倍率（例えば、平方根（ａ／ｂ））が生成され（１１１０）、次に、対応する元の入力チャネルのそれに実質的に等しい時間エンベロープを有する出力信号を生成するために、合成したチャネルに適用される（１１１２）。

図１０のＴＰＡ１００２および図１１のＴＰ１１０４の別の実施例において、時間エンベロープは、信号サンプルをニ乗することよりむしろ、大きさの演算を使用して特徴づけられる。このような実施の形態では、比率ａ／ｂが、平方根演算を適用することなく、倍率として使用してもよい。

図１１（ｃ）のスケーリング演算は、ＴＰ処理の時間領域ベースの実施例に対応しているが、（以下に説明する）図１６〜図１７の実施の形態のような、周波数領域信号を用いて、ＴＰ処理（ＴＰＡおよび逆ＴＰ（ＩＴＰ）処理とともに）を実施することもできる。従って、この明細書の目的において、用語「スケール関数」は、図１７（ｂ）および図１７（ｃ）のフィルタリング演算のように、時間領域または周波数領域演算のいずれかをカバーするように解釈する必要がある。

一般に、好ましくは、信号パワー（すなわち、エネルギー）を変更しないように、各ＴＰ１１０４は設計される。ある実施の形態に応じて、例えば、合成ウィンドウまたはパワーの他の適した測定によって定義される期間の、チャネル当たりの全体信号パワーに基づく、各チャネルにおける短時間平均信号パワーとしてもよい。従って、エンベロープ整形の前、または後で、（例えば、乗算器４０８を使用して）ＩＣＬＤ合成のためのスケーリングは、適用されることができる。

ＢＣＣ出力信号の全帯域スケーリングが、アーティファクトとして発生する場合があるので、エンベロープ整形は、指定された周波数、例えば、あるカットオフ周波数ｆ_TP（例えば、５００Ｈｚ）より大きい周波数だけに適用されることができる。分析する周波数範囲（ＴＰＡ）が、合成（ＴＰ）の周波数範囲と異なる場合もあることに留意されたい。

図１２（ａ）および図１２（ｂ）は、図１０のＴＰＡ１００２および図１１のＴＰ１１０４の可能な実施例を示す。エンベロープ整形は、カットオフ周波数ｆ_TPより高い周波数でのみ、適用される。特に、図１２（ａ）にはハイパスフィルタ１２０２がさらに示されており、これは、時間エンベロープの特徴を調べる前に、ｆ_TPより低い周波数をフィルタする。図１２（ｂ）は、２つのサブバンドの間にｆ_TPのカットオフ周波数を有する２帯域フィルタバンク１２０４がさらに示されており、高周波数部分のみ、時間的に整形する。次に、２帯域の逆フィルタバンク１２０６は、出力チャネルを生成するために、低周波数部分を時間的に整形される高周波数部分と再合成する。

図１３は、本発明の別の実施の形態による、図２のエンコーダ２０２等のＢＣＣエンコーダに加えられる、周波数領域処理のブロック図を示す。図１３（ａ）に示すように、各ＴＰＡ１３０２の処理は異なるサブバンドに個別に適用される。各フィルタバンク（ＦＢ）は図３の対応するＦＢ３０２と同じで、ブロック１３０４は、図１０のブロック１００４と類似のサブバンド実施例である。別の実施の形態では、ＴＰＡ処理に対するサブバンドが、ＢＣＣサブバンドと異なっていてもよい。図１３（ｂ）に示すように、ＴＰＡ１３０２を、図１０のＴＰＡ１００２と同じように実施することができる。

図１４は、図４のＢＣＣ合成器４００の条件で、ＴＰ処理の一例の周波数領域適用例を示す。復号化ブロック１４０２は、図１１の復号化ブロック１１０２と類似のもので、図１４（ｂ）に示すように、各ＴＰ１４０４は、図１１の各ＴＰ１１０４に類似のサブバンド実施例である。

図１５は、本発明のさらに別の実施の形態による、図２のエンコーダ２０２等のＢＣＣエンコーダに加えられる、周波数領域処理のブロック図を示す。この方法は、次のセットアップを有している。周波数に渡りＬＰＣを算出することにより、入力チャネル毎のエンベロープ情報を導出し（１５０２）、パラメータ化し（１５０４）、量子化し（１５０６）、エンコーダによりビットストリームに符号化する（１５０８）。図１７（ａ）は、図１５のＴＰＡ１５０２の実施例を示す。マルチチャネル合成器（デコーダ）に送信するサイド情報は、自己相関方法により算出したＬＰＣフィルタ係数、得られる残響係数、または線スペクトル対などとすることもでき、あるいは、サイド情報データレートを小さくしておくために、例えば、“一時的現象がある／ない”ことを示すバイナリフラグ等のＬＰＣ予測利得から導出したパラメータとすることもできる。

図１６は、図４のＢＣＣ合成器４００の条件で、ＴＰ処理の別の一例の周波数領域適用例を示す。図１５の符号化処理および図１６の復号化処理は、エンコーダ／デコーダ構成の対応する対を構成するように実施されてもよい。復号化ブロック１６０２は、図１４の復号化ブロック１４０２と類似のもので、各ＴＰ１６０４は、図１４の各ＴＰ１４０４と類似のものである。このマルチチャネル合成器において、送信したＴＰサイド情報が復号化され、個別にチャネルのエンベロープ整形を行う制御に用いられる。また、しかしながら、合成器は、送信した和信号を分析するエンベロープ特徴分析装置段（ＴＰＡ）１６０６と、各ベース信号の時間エンベロープを“平坦化する”逆ＴＰ（ＩＴＰ）１６０８とを含み、エンベロープ調整装置（ＴＰ）１６０４が、変更エンベロープを各出力チャネルに付加する。特定の実施例によるが、アップミキシングの前又は後で、ＩＴＰを行うことができる。詳細は、この畳み込み／フィルタアプローチを用いてこれを行う。ＴＰＡ、ＩＴＰ、およびＴＰ処理それぞれについて、図１７（ａ）、図１７（ｂ）、図１７（ｃ）に示すように、周波数にわたってスペクトルにＬＰＣベースのフィルタを適用することにより、エンベロープ整形が行われる。図１６において、エンベロープ整形を行うかどうか、制御ブロック１６１０が判定する。その場合は、（１）送信ＴＰサイド情報に基づくのか、または（２）ＴＰＡ１６０６からの局所的に特徴を調べたエンベロープデータに基づくのか判定する。

図１８（ａ）および図１８（ｂ）は、図１６の制御ブロック１６１０を動作させる例示の２つのモードを示す。図１８（ａ）の実施では、フィルタ係数のセットをデコーダに送信し、送信した係数に基づいて、畳み込み／フィルタによるエンベロープ整形を行う。エンコーダが、一時的現象の整形に利点がないと検出した場合は、次に、フィルタデータを送信しないで、フィルタを無効にする（図１８（ａ）に示すように、単位フィルタ係数セット“［１，０．．．］”に切り換える）。

図１８（ｂ）の実施例では、“一時的現象／非一時的現象フラグ”だけを各チャネルに送信し、デコーダにおいて送信ダウンミキシング信号から算出したフィルタ係数セットに基づいて、整形を起動または停止するために、このフラグが用いられる。

さらに別の実施の形態
１つの和信号があるＢＣＣ符号化方法の条件で、本発明について説明してきたが、２つ以上の和信号があるＢＣＣ符号化方法の条件で、本発明を実施することもできる。この場合は、ＢＣＣ合成を行う前に、各異なる“ベース”和信号の時間エンベロープを推定することができ、異なる出力チャネルの合成に用いた和信号により、異なる時間エンベロープに基づいて、異なるＢＣＣ出力チャネルを生成することもできる。（例えば、加重平均算出を介して）成分和チャネルの相対効果を考慮した、効果的な時間エンベロープに基づいて、２つ以上の異なる和チャネルから合成した出力チャネルを生成することもできる。

ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣコードを用いるＢＣＣ符号化方法の条件で、本発明について説明してきたが、これらの３つのタイプのコードのうちの１つまたは２つだけを用いる他のＢＣＣ符号化方法（例えば、ＩＣＴＤではなくＩＣＬＤおよびＩＣＣ）および／または１つ以上の別のタイプのコードをさらに用いる他のＢＣＣ符号化方法の条件で、本発明を実施することもできる。さらに、一連のＢＣＣ合成処理およびエンベロープ整形を、異なる実施例で変形するようにしてもよい。例えば、図１４および図１６に示すように、エンベロープ整形が周波数領域信号に適用される場合に、ＩＣＴＤ合成（ＩＣＴＤ合成を用いるそれらの実施の形態で）後、ＩＣＬＤ合成を行う前であるが、エンベロープ整形を行うこともできる。他の実施の形態において、任意の他のＢＣＣ合成が適用される前に、エンベロープ整形はアップミキシングされた信号に適用することができる。

元の入力チャネルからエンベロープキューコードを生成するＢＣＣエンコーダの条件で、本発明について説明してきたが、別の実施の形態では、エンベロープキューコードを、元の入力チャネルに対応するダウンミキシングチャネルから生成することもできる。これは、（１）ダウンミキシングチャネルと、あるＢＣＣコード（例えば、ＩＣＬＤ、ＩＣＴＤ、および／またはＩＣＣ）とを生成するＢＣＣエンコーダの出力を入力し、（２）エンベロープキューコードをＢＣＣサイド情報に付加するために、１つ以上のダウンミキシングチャネルの時間エンベロープの特徴を調べる、プロセッサ（例えば、別のエンベロープキューコーダ）の実施例により、実施することができる。

他のＢＣＣコードとともに、１つ以上の音声チャネル（すなわち、Ｅ個の送信チャネル）でエンベロープキューコードが送信されるＢＣＣ符号化方法の条件で、本発明について説明してきたが、別の実施の形態では、エンベロープキューコードは、送信チャネルと、おそらくは他のＢＣＣコードを既に有する（例えば、デコーダまたは記憶装置）に配置するために、１つだけで、または他のＢＣＣコードとともに送信される。

ＢＣＣ符号化方法の条件で、本発明について説明してきたが、音声信号を非相関にする他の音声処理システム、または信号を非相関にする必要がある他の音声処理の条件で、本発明を実施することもできる。

エンコーダが時間領域で入力音声信号を受信し、時間領域で送信音声信号を生成し、デコーダが時間領域で送信音声信号を受信し、時間領域で再生音声信号を生成する実施例の条件で、本発明について説明してきたが、本発明はこれに限定されない。例えば、他の実施の形態において、任意の１つ以上の入力し、送信し、再生した音声信号を、周波数領域で表現することができる。

ＢＣＣエンコーダおよび／またはデコーダを、テレビまたは電子音楽配信、映画館、放送、ストリーミング、および／または受信システム等の、様々な異なる適用例またはシステムとともに用いたり、これらに組み込んで用いたりすることもできる。これらは、例えば、地上波、衛星、ケーブル、インターネット、イントラネット、または物理媒体（例えば、コンパクトディスク、デジタルバーサタイルディスク、半導体チップ、ハードドライブ、メモリカード等）を介して、符号化／復号化伝送を行うシステムを含む。ＢＣＣエンコーダおよび／またはデコーダを、ゲームおよびゲームシステムも用いることもできる。これらは、例えば、ユーザインタラクティブな娯楽用（アクションゲーム、ロールプレイングゲーム、戦略ゲーム、アドベンチャーゲーム、シミュレーションゲーム、レーシングゲーム、スポーツゲーム、ゲームセンター、カードゲーム、およびボードゲーム）および／または複数のマシン、プラットフォーム、またはメディア等に発行した教育向けの、インタラクティブなソフトウェア製品を含む。さらに、ＢＣＣエンコーダおよび／またはデコーダを、音声レコーダ／プレーヤまたはＣＤ−ＲＯＭ／ＤＶＤシステムに組み込んでもよい。ＢＣＣエンコーダおよび／またはデコーダを、デジタル復号化（例えば、プレーヤ、デコーダ）を組み込んだＰＣソフトウェアアプリケーション、デジタル符号化する能力（例えば、エンコーダ、リッパ、レコーダ、およびジュークボックス）を組み込んだソフトウェアアプリケーションに組み込むこともできる。

本発明を、回路ベースの処理として実施することもできる。１つの集積回路（ＡＳＩＣまたはＦＰＧＡ等）、マルチチップモジュール、シングルカード、またはマルチカード回路パッケージ等の考えられる実施例が挙げられる。回路素子の各種の関数を、ソフトウェアプログラムの処理工程として実施できることも、当業者にとって明らかになるであろう。このようなソフトウェアを、例えば、デジタル信号プロセッサ、マイクロコントローラ、または汎用コンピュータに用いることもできる。

それらの方法を行う方法および装置の形態で、本発明を実施することができる。本発明を、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ハードドライブ、または任意の他の機械読み取り可能記憶媒体等の、有形媒体で、プログラムコードの形態で実施することもできる。プログラムコードをコンピュータ等のマシンにロードして実行する場合は、このマシンが本発明を実施する装置となる。本発明を、プログラムコードの形態で実施することもできる。例えば、記憶媒体に記録したり、マシンにロードしたり、マシンで実行したり、マシンにロードしてマシンで実行したり、および／またはマシンで実行したり、電子ワイヤまたはケーブル、光ファイバ、または電磁放射等の、伝送媒体またはキャリアで送信したりする。プログラムコードをコンピュータ等のマシンにロードして実行する場合は、そのマシンが本発明を実施する装置となる。汎用プロセッサ上で実施する場合は、プログラムコードセグメントをプロセッサと組み合わせて、一意のデバイスに送って、特定の論理回路と同様に動作させる。

以下の特許請求の範囲で述べる本発明の範囲を逸脱することなく、この本発明の本質を説明するために、述べ、示してきた、詳細、素材、構成について、当業者が様々に変更できることが、さらに理解できるであろう。

クレームを反復することにより、それらのステップの一部またはすべてを実行する特定のシーケンスを示さない限り、必要の場合は、次の方法クレームのステップを、対応するラベル構成で特定のシーケンスで反復するが、それらのステップを、その特定のシーケンスで実行することを、必ずしも必要としているものではない。

従来のバイノーラル信号合成器の上位ブロック図を示す。一般バイノーラルキュー符号化（ＢＣＣ）音声処理システムを示すブロック図である。図２のダウンミキサに用いることができるダウンミキサのブロック図を示す。図２のデコーダに用いることができるＢＣＣ合成器のブロック図を示す。本発明の一実施の形態による、図２のＢＣＣ推定器のブロック図を示す。５チャネル音声用ＩＣＴＤおよびＩＣＬＤデータ生成を説明する図である。５チャネル音声用ＩＣＣデータを説明する図である。５チャネル音声用ＩＣＣデータを説明する図である。ＢＣＣデコーダに用いることができ、１つの送信した和信号ｓ（ｎ）プラス空間キューが与えられたステレオ音声信号またはマルチチャネル音声信号を生成する、図４のＢＣＣ合成器の一実施例のブロック図を示す。周波数関数として、サブバンド内でＩＣＴＤおよびＩＣＬＤがどのように変化するかを説明する図である。本発明の一実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる時間領域処理のブロック図を示す。本発明の一実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる時間領域処理のブロック図を示す。図４のＢＣＣ合成器の条件でのＴＰ処理の一例の時間領域適用例を説明する図である。図４のＢＣＣ合成器の条件でのＴＰ処理の一例の時間領域適用例を説明する図である。カットオフ周波数ｆ_TPより高い周波数にだけエンベロープ整形が行われる、図１０のＴＰＡおよび図１１のＴＰそれぞれの、考えられる実施例を示す。カットオフ周波数ｆ_TPより高い周波数にだけエンベロープ整形が行われる、図１０のＴＰＡおよび図１１のＴＰそれぞれの、考えられる実施例を示す。本発明の別の実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる周波数領域処理のブロック図を示す。本発明の別の実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる周波数領域処理のブロック図を示す。図４のＢＣＣ合成器の条件でのＴＰ処理の一例の周波数領域適用例を説明する図である。図４のＢＣＣ合成器の条件でのＴＰ処理の一例の周波数領域適用例を説明する図である。本発明のさらに別の実施の形態による、図２のエンコーダ等の、ＢＣＣエンコーダに加えられる周波数領域処理のブロック図を示す。図４のＢＣＣ合成器の条件でのＴＰ処理の別の一例の周波数領域適用例を説明する図である。図１５および図１６のＴＰＡと、図１６のＩＴＰおよびＴＰとの考えられる実施例のブロック図を示す。図１５および図１６のＴＰＡと、図１６のＩＴＰおよびＴＰとの考えられる実施例のブロック図を示す。図１５および図１６のＴＰＡと、図１６のＩＴＰおよびＴＰとの考えられる実施例のブロック図を示す。図１６の制御ブロックを動作させる２つの一例のモードを説明する図である。図１６の制御ブロックを動作させる２つの一例のモードを説明する図である。

Claims

音声チャネルを符号化する方法であって、
少なくとも１つのキューコードが、１つ以上の前記音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、１つ以上のキューコードを１つ以上の音声チャネルに対し生成するステップと、
１つ以上の前記キューコードを送信するステップとを含む方法。
Ｅ・・１である、１つ以上の前記音声チャネルに対応するＥ個の送信音声チャネルをさらに含む、請求項１に記載の発明。
１つ以上の前記音声チャネルが、Ｃ＞Ｅである、Ｃ個の入力音声チャネルを含み、
前記Ｅ個の送信チャネルを生成するために、前記Ｃ個の入力チャネルをダウンミキシングする、請求項２に記載の発明。
１つ以上の前記キューコードに基づいて、Ｅ個の送信チャネルの復号化を行う間に、エンベロープ整形を行うために、デコーダを有効にするように、１つ以上の前記キューコードは送信され、Ｅ・・１である、Ｅ個の送信チャネルは、１つ以上の音声チャネルに対応する、請求項１に記載の発明。
前記エンベロープ整形は、前記特徴を調べた時間エンベロープと基本的に整合させるために、前記デコーダが生成した合成した信号の時間エンベロープを調整する、請求項４に記載の発明。
１つ以上の前記キューコードがさらに、１つ以上のチャネル間相関（ＩＣＣ）コード、チャネル間レベル差（ＩＣＬＤ）コード、およびチャネル間時間差（ＩＣＴＤ）コードを含む、請求項１に記載の発明。
前記エンベロープキューコードに対応付けられた第１の時間分解能が、前記他のキューコードに対応付けられた第２の時間分解能よりも細かい、請求項６に記載の発明。
前記対応する音声チャネルの指定の周波数に対してだけ、前記時間エンベロープの特徴を調べる、請求項１に記載の発明。
指定のカットオフ周波数を超える前記対応する音声チャネルの周波数に対してだけ、前記時間エンベロープの特徴を調べる、請求項８に記載の発明。
周波数領域における前記対応する音声チャネルに対して、前記時間エンベロープの特徴を調べる、請求項１に記載の発明。
前記対応する音声チャネルの異なる信号サブバンドに対して、個別に時間エンベロープの特徴を調べる、請求項１０に記載の発明。
前記周波数領域が、高速フーリエ変換（ＦＦＴ）に対応している、請求項１０に記載の発明。
前記周波数領域が、直交ミラーフィルタ（ＱＭＦ）に対応している、請求項１０に記載の発明。
時間領域における前記対応する音声チャネルに対して、前記時間エンベロープの特徴を調べる、請求項１に記載の発明。
前記特徴を調べることが、有効なのか、無効なのか判定するステップをさらに含む、請求項１に記載の発明。
Ｅ・・１である、１つ以上の前記音声チャネルに対応するＥ個の送信チャネルを復号化する間に、エンベロープ整形を行うか否か、デコーダに指示することを判定する前記ステップに基づいて、有効／無効のフラグを生成して、送信するステップをさらに含む、請求項１５に記載の発明。
前記判定ステップが、一時的現象の発生を検出した場合は、特徴を調べる前記ステップを有効にするように、音声チャネルにおける一時的現象を検出するための前記音声チャネルの分析に基づいている、請求項１５に記載の発明。
音声チャネルを符号化する装置であって、
少なくとも１つのキューコードが、１つ以上の前記音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、１つ以上のキューコードを１つ以上の音声チャネルに対し生成する手段と、
１つ以上の前記キューコードを送信する手段とを備える装置。
Ｅ個の送信音声チャネルを生成するために、Ｃ個の入力音声チャネルを符号化する装置であって、
少なくとも１つの前記Ｃ個の入力チャネルの入力時間エンベロープの特徴を調べるエンベロープ分析器と、
２つ以上の前記Ｃ個の入力チャネルに対してキューコードを生成するコード推定器と、
Ｃ＞Ｅ・・１である、前記Ｅ個の送信チャネルを生成するための前記Ｃ個の入力チャネルをダウンミキシングするダウンミキサとを備え、前記Ｅ個の送信チャネルの復号化を行う間に、前記装置が、前記キューコードおよび前記特徴を調べた入力時間エンベロープの情報を送信し、デコーダを有効にして、合成およびエンベロープ整形を行う、装置。
前記装置が、デジタルビデオレコーダ、デジタル音声レコーダ、コンピュータ、衛星送信機、ケーブル送信機、地上波放送送信機、ホームエンターテインメントシステム、および映画館システムからなるグループから選択されるシステムであって、
前記システムが、前記エンベロープ分析器、前記コード推定器、および前記ダウンミキサを備える、請求項１９に記載の装置。
符号化したプログラムコードを有する機械読み取り可能媒体であって、前記プログラムコードを機械で実行する場合は、前記機械は、音声チャネルを符号化する方法を実行し、前記方法が、
少なくとも１つのキューコードが、１つ以上の前記音声チャネルのうちの１つにおける時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、１つ以上のキューコードを１つ以上の音声チャネルに対し生成するステップと、
１つ以上の前記キューコードを送信するステップとを含む、機械読み取り可能媒体。
音声チャネルを符号化することにより生成した、符号化音声ビットストリームであって、
少なくとも１つのキューコードが、１つ以上の前記音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、１つ以上のキューコードを１つ以上の音声チャネルに対して生成し、
１つ以上の前記キューコードと、１つ以上の前記音声チャネルに対応する、Ｅ・・１である、Ｅ個の送信音声チャネルとが、前記符号化音声ビットストリームに符号化される、符号化音声ビットストリーム。
１つ以上のキューコードおよびＥ個の送信音声チャネルを含む符号化音声ビットストリームであって、
少なくとも１つのキューコードが、１つ以上の前記音声チャネルのうちの１つの時間エンベロープの特徴を調べることにより、生成したエンベロープキューコードである、１つ以上の前記キューコードを１つ以上の音声チャネルに対して生成し、
前記Ｅ個の送信音声チャネルが、１つ以上の前記音声チャネルに対応している、符号化音声ビットストリーム。
Ｃ＞Ｅ・・１である、Ｃ個の再生音声チャネルを生成するために、Ｅ個の送信音声チャネルを復号化する方法であって、
キューコードが、前記Ｅ個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記Ｅ個の送信チャネルに対応する前記キューコードを受信するステップと、
１つ以上のアップミキシングチャネルを生成するために、１つ以上の前記Ｅ個の送信チャネルをアップミキシングするステップと
前記キューコードを前記１つ以上のアップミキシングチャネルに適用することにより、１つ以上の前記Ｃ個の再生チャネルを合成するステップとを含み、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードが、前記合成した信号の時間エンベロープを調整するために、アップミキシングチャネルまたは合成した信号に適用する方法。
前記Ｅ個の送信チャネルを生成するために、元の入力チャネルにおいて、前記エンベロープキューコードに対応している特徴を調べた時間エンベロープを用いる、請求項２４に記載の発明。
前記キューコードがさらに、１つ以上のＩＣＣ、ＩＣＬＤ、およびＩＣＴＤコードを含む、請求項２４に記載の発明。
前記エンベロープキューコードに対応付けられた第１の時間分解能が、前記他のキューコードに対応付けられた第２の時間分解能よりも細かい、請求項２６に記載の発明。
前記合成が、後期残響ＩＣＣ合成を含む、請求項２６に記載の発明。
ＩＣＬＤ合成を行う前に、前記合成した信号の前記時間エンベロープを調整する、請求項２６に記載の発明。
前記合成した信号の前記時間エンベロープの特徴を調べ、
前記エンベロープキューコードに対応する前記特徴を調べた時間エンベロープおよび前記合成した信号の前記特徴を調べた時間エンベロープの両方に基づいて、前記合成した信号の前記時間エンベロープを調整する、請求項２４に記載の発明。
前記エンベロープキューコードに対応する前記特徴を調べた時間エンベロープと、前記合成した信号の前記特徴を調べた時間エンベロープとに基づいて、スケール関数を生成し、
前記スケール関数を前記合成した信号に適用する、請求項３０に記載の発明。
平坦化チャネルを生成するために、前記特徴を調べた時間エンベロープに基づいて、送信チャネルを調整するステップをさらに含み、対応する再生チャネルを生成するために、前記アップミキシングおよび合成を前記平坦化チャネルに適用する、請求項２４に記載の発明。
平坦化チャネルを生成するために、前記特徴を調べた時間エンベロープに基づいて、アップミキシングチャネルを調整するステップをさらに含み、前記合成を前記平坦化チャネルに行って、対応する再生チャネルを生成する、請求項２４に記載の発明。
指定の周波数に対してだけ、前記合成した信号の前記時間エンベロープを調整する、請求項２４に記載の方法。
指定のカットオフ周波数を超える周波数に対してだけ、前記合成した信号の前記時間エンベロープを調整する、請求項３４に記載の発明。
周波数領域で、前記合成した信号の前記時間エンベロープを調整する、請求項２４に記載の発明。
前記合成した信号において異なる信号サブバンドに対して、個別に時間エンベロープを調整する、請求項３６に記載の発明。
前記周波数領域がＦＦＴに対応している、請求項３６に記載の発明。
前記周波数領域がＱＭＦに対応している、請求項３６に記載の発明。
時間領域において、前記合成した信号の前記時間エンベロープを調整する、請求項２４に記載の発明。
前記合成した信号の前記時間エンベロープを調整する前記ステップを有効にするか、無効にするか判定するステップをさらに含む、請求項２４に記載の発明。
前記判定ステップが、前記Ｅ個の送信チャネルを生成した音声エンコーダが生成した有効／無効のフラグに基づいている、請求項４１に記載の発明。
一時的現象の発生を検出した場合は、前記調整ステップを有効にするように、前記判定ステップが、一時的現象を検出するように、前記Ｅ個の送信チャネルを分析するステップに基づいている、請求項４１に記載の発明。
送信チャネルの時間エンベロープの特徴を調べるステップと、
（１）前記エンベロープキューコードに対応する前記特徴を調べた時間エンベロープを用いるか、または（２）前記合成した信号の前記時間エンベロープを調整するために、前記送信チャネルの前記特徴を調べた時間エンベロープを用いるかどうか、判定するステップとをさらに含む、請求項２４に記載の発明。
前記時間エンベロープを調整した後の、前記合成した信号の指定のウィンドウ内のパワーが、前記調整ステップを行う前の、前記合成した信号の対応するウィンドウ内のパワーと、実質的に等しい、請求項２４に記載の発明。
前記指定のウィンドウが、１つ以上の非エンベロープキューコードに対応付けられている合成窓に対応している、請求項４５に記載の発明。
Ｃ＞Ｅ・・１である、Ｃ個の再生音声チャネルを生成するために、Ｅ個の送信音声チャネルを復号化する装置であって、
キューコードが前記Ｅ個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記Ｅ個の送信チャネルに対応するキューコードを受信する手段と、
１つ以上のアップミキシングチャネルを生成するために、１つ以上の前記Ｅ個の送信チャネルをアップミキシングする手段と、
前記キューコードを前記１つ以上のアップミキシングチャネルに適用することにより、１つ以上の前記Ｃ個の再生チャネルを合成する手段とを備え、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用して、前記合成した信号の時間エンベロープを調整する、装置。
Ｃ個の再生音声チャネルを生成するために、Ｃ＞Ｅ・・１である、Ｅ個の送信音声チャネルを復号化する装置であって、
キューコードが前記Ｅ個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記Ｅ個の送信チャネルに対応するキューコードを受信する受信機と、
１つ以上のアップミキシングチャネルを生成するために、１つ以上の前記Ｅ個の送信チャネルをアップミキシングするアップミキサと、
前記キューコードを前記１つ以上のアップミキシングチャネルに適用することにより、１つ以上の前記Ｃ個の再生チャネルを合成する合成器とを備え、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用して、前記合成した信号の時間エンベロープを調整する、装置。
前記装置が、デジタルビデオプレーヤ、デジタル音声プレーヤ、コンピュータ、衛星受信機、ケーブル受信機、地上波放送受信機、ホームエンターテインメントシステム、および映画館システムからなるグループから選択したシステムであって、
前記システムが、前記受信機、前記アップミキサ、前記合成器、および前記エンベロープ調整器を備える、請求項４８に記載の発明。
符号化したプログラムコードを有する機械読み取り可能媒体であって、前記プログラムコードを機械で実行する場合は、前記マシンＣ＞Ｅ・・１である、Ｅ個の送信音声チャネルを復号化してＣ個の再生音声チャネルを生成する方法を実行し、前記方法が、
キューコードが前記Ｅ個の送信チャネルに対応する音声チャネルの特徴を調べた時間エンベロープに対応するエンベロープキューコードである、前記Ｅ個の送信チャネルに対応するキューコードを受信するステップと、
１つ以上のアップミキシングチャネルを生成するために、１つ以上の前記Ｅ個の送信チャネルをアップミキシングするステップと、
前記キューコードを前記１つ以上のアップミキシングチャネルに適用することにより、１つ以上の前記Ｃ個の再生チャネルを合成するステップとを備え、前記調整した時間エンベロープが基本的に前記特徴を調べた時間エンベロープと整合するように、前記特徴を調べた時間エンベロープに基づいて、前記エンベロープキューコードを、アップミキシングチャネルまたは合成した信号に適用して、前記合成した信号の時間エンベロープを調整する、機械読み取り可能媒体。