JP7842798B2

JP7842798B2 - パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システム

Info

Publication number: JP7842798B2
Application number: JP2024021214A
Authority: JP
Inventors: ファン、シェン; スン、シュエジン; プルンハーゲン、ヘイコ
Original assignee: ドルビーインターナショナルアクチボラグ; ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-07-05
Filing date: 2024-02-15
Publication date: 2026-04-08
Anticipated expiration: 2034-07-02
Also published as: US20160148618A1; EP3017447A1; EP3017447B1; JP2016528535A; JP7004773B2; CN105378834B; JP2024054347A; US10224040B2; CN104282309A; JP2020170191A; JP7440547B2; CN105378834A; JP2018116283A; JP6728255B2; JP2022043289A; WO2015003027A1

Description

本明細書は全般に、音声信号処理に関する。本明細書の実施形態は、パケット交換ネットワーク上での音声伝送過程で起こる空間音声パケット損失から生じるアーチファクトの補償に関する。さらに詳細には、本明細書の実施形態は、パケット損失補償装置、パケット損失補償方法、およびパケット損失補償装置を備える音声処理システムに関する。

音声通信は、様々な質の問題にさらされることがある。例えば、音声通信がパケット交換ネットワーク上で実行される場合、ネットワーク内で起きる遅延ジッタが原因で、あるいはフェージング（fading）またはＷＩＦＩ干渉などのチャネルの悪条件が原因で、いくつかのパケットが損失することがある。損失したパケットはクリックやポップまたはその他のアーチファクトになり、これは、受信器側で知覚されるスピーチの質を著しく低下させる。パケット損失の不都合な影響に対抗するために、フレーム消去補償アルゴリズムとしても知られているパケット損失補償（packet loss concealment : ＰＬＣ）アルゴリズムが提案されている。このようなアルゴリズムは通常、受信したビットストリームで損失データ（消去箇所）をカバーするために合成音声信号を生成することによって、受信器側で動作する。これらのアルゴリズムは、時間領域及び周波数領域のいずれかで主にモノラル信号に対して提案される。補償が復号化の前に起こるか後に起こるかに基づいて、モノラルチャネルのＰＬＣは、符号化分野、復号化分野、またはその混合分野の方法に分類できる。モノラルチャネルのＰＬＣをマルチチャネル信号に直接適用すると、望ましくないアーチファクトが生じるおそれがある。例えば、各チャネルを復号化した後に、復号化された領域のＰＬＣを各チャネルに対して別々に実施してよい。このような手法の１つの欠点は、チャネルどうしの相関を考慮していないために、空間的に歪んだアーチファクトだけでなく不安定な信号レベルも観測されることがあるという点である。不正確な角度および拡散性などの空間アーチファクトが、空間音声の知覚面での質を著しく低下させることがある。したがって、マルチチャネルの空間フィールドまたは音場を符号化した音声信号に対するＰＬＣアルゴリズムの必要性がある。

本明細書の一実施形態によれば、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償装置であって、各音声パケットが、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含むパケット損失補償装置が提供される。パケット損失補償装置は、損失パケット中の損失フレームに対して少なくとも１つのモノラル成分を作成するための第１の補償部と、その損失フレームに対して少なくとも１つの空間成分を作成するための第２の補償部とを備えている。

上記のパケット損失補償装置は、サーバなどの中間装置、例えば音声会議ミキシングサーバ、または末端ユーザに使用される通信端末のいずれかに適用されてよい。
本明細書は、上記のパケット損失補償装置を備えるサーバおよび／または上記のパケット損失補償装置を備える通信端末を備える音声処理システムも提供する。

本明細書のもう１つの実施形態は、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含むパケット損失補償方法を提供する。パケット損失補償方法は、損失パケット中の損失フレームに対して少なくとも１つのモノラル成分を作成すること、および／または、その損失フレームに対して少なくとも１つの空間成分を作成することを含む。

本明細書は、コンピュータプログラム命令が記録されているコンピュータ可読媒体であって、プロセッサによって実行された際に、その命令によりプロセッサが前述したようなパケット損失補償方法を実行できるコンピュータ可読媒体も提供する。

本明細書を、添付の図面に限定的ではなく例として説明しており、図面では、同じ符号は同様の要素を指している。

本明細書の実施形態を適用できる例示的な音声通信システムを示す概略図である。本明細書の実施形態を適用できるもう１つの例示的な音声通信システムを示す概略図である。本明細書の一実施形態によるパケット損失補償装置を示す図である。図３のパケット損失補償装置の特定の例を示す図である。図３の実施形態の一変形例による図３の第１の補償部４００を示す図である。図５のパケット損失補償装置の変形例を示す図である。図３の実施形態のもう１つの変形例による図３の第１の補償部４００を示す図である。図７に示した変形例の原理を示す図である。図３の実施形態のさらに別の変形例による図３の第１の補償部４００を示す図である。図３の実施形態のさらに別の変形例による図３の第１の補償部４００を示す図である。図９Ａのパケット損失補償装置の変形例の特定の例を示す図である。本明細書のもう１つの実施形態による通信端末内の第２の変換器を示す図である。本明細書の実施形態によるパケット損失補償装置の適用を示す図である。本明細書の実施形態によるパケット損失補償装置の適用を示す図である。本明細書の実施形態によるパケット損失補償装置の適用を示す図である。本明細書の実施形態を実施するための例示的なシステムを示すブロック図である。本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。例示的な音場符号化システムのブロック図である。例示的な音場符号化器のブロック図である。例示的な音場復号化器のブロック図である。音場信号を符号化するための例示的な方法のフローチャートである。音場信号を復号化するための例示的な方法のフローチャートである。

本明細書の実施形態を、図面を参照して以下に説明する。明瞭にするために、当業者に知られているが本明細書を理解するのに必要ないような要素およびプロセスに関する表現および記載は、図面および説明文で省略されている点に注意されたい。

当業者に理解されるように、本明細書の態様は、システム、デバイス（例えば携帯電話、ポータブルメディアプレーヤ、パーソナルコンピュータ、サーバ、テレビジョンセットトップボックス、もしくはデジタルビデオレコーダ、またはその他の任意のメディアプレーヤ）、方法またはコンピュータプログラム製品として具体化されてよい。したがって、本明細書の態様は、ハードウェアの実施形態、ソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなど）またはソフトウェアとハードウェアの態様を両方組み合わせた実施形態の形態であってよく、これらすべてを本明細書では全般に、「回路、」「モジュール」または「システム」と称することがある。さらに、本明細書の態様は、１つ以上のコンピュータ可読媒体に組み込まれたコンピュータプログラム製品の形態であってよく、コンピュータ可読媒体は、そこに組み込まれたコンピュータ可読プログラムコードを含む。

１つ以上のコンピュータ可読媒体を任意に組み合わせたものを使用してよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってよい。コンピュータ可読記憶媒体は、例えば、電子式、磁気式、光学式、電磁気式、赤外線式、もしくは半導体式のシステム、装置、もしくはデバイス、または前述のものを任意に適切に組み合わせたものであってよいが、これに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非排他的な列挙）には以下のものがあるであろう：１つ以上のワイヤを含む電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラム式の読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光学式格納デバイス、磁気式格納デバイス、または前述のものを任意に適切に組み合わせたもの。本明細書の文脈では、コンピュータ可読記憶媒体は、命令を実行するシステム、装置またはデバイスによって、あるいはこれに接続して使用するためのプログラムを含むかまたは格納できる任意の有形媒体であってよい。

コンピュータ可読信号媒体は、この媒体に組み込まれたコンピュータ可読プログラムコードとともに伝搬されるデータ信号を、例えばベースバンド内に、または搬送波の一部として含んでいてよい。このように伝搬される信号は多様な形態をとることができ、それには電磁気信号もしくは光信号、またはこれらを任意に適切に組み合わせたものなどがあるが、これに限定されない。

コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではないもので、命令を実行するシステム、装置またはデバイスによって、あるいはこれに接続して使用するためのプログラムを通信、伝搬または伝送できる任意のコンピュータ可読媒体であってよい。

コンピュータ可読媒体に組み込まれたプログラムコードは、任意の適当な媒体を使用して伝送されてよく、このような媒体には、無線ケーブル、有線ケーブル、光ファイバケーブル、ＲＦなど、または前述のものを任意に適切に組み合わせたものなどがあるが、これに限定されない。

本明細書の態様に対する動作を実行するためのコンピュータプログラムコードは、１つ以上のプログラミング言語を任意に組み合わせたもので書かれてよく、このようなプログラミング言語には、ＪＡＶＡ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語やこれと同様のプログラミング言語などの従来の手続き型プログラミング言語などがある。プログラムコードは、スタンドアローンソフトウェアパッケージとしてユーザのコンピュータ上で全体的に実行してもよいし、ユーザのコンピュータ上で部分的に、かつリモートコンピュータ上で部分的に実行してもよいし、あるいはリモートコンピュータまたはサーバ上で全体的に実行してもよい。最後の事例の背景では、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）などの任意の種類のネットワークを介してユーザのコンピュータに接続されてもよいし、あるいは接続は、（例えば、インターネットサービスプロバイダを使用するインターネットを介して）外部コンピュータに対して行われてもよい。

本明細書の実施形態による方法、装置（システム）およびコンピュータプログラム製品のフローチャート図および／またはブロック図を参照して、本明細書の態様を以下に説明する。フローチャート図および／またはブロック図の各ブロック、ならびにフローチャート図および／またはブロック図にあるブロックを組み合わせたものは、コンピュータプログラム命令によって実行可能なものであることは理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特殊目的コンピュータ、またはマシンを製造するためのその他のプログラム可能なデータ処理装置のプロセッサに提供されてよく、その結果、コンピュータのプロセッサまたはその他のプログラム可能なデータ処理装置を介して実行する命令は、フローチャートおよび／またはブロック図の１つまたは複数のブロックに指定された機能／作用を実行するための手段を作成する。

これらのコンピュータプログラム命令は、コンピュータ可読媒体に記憶されてもよく、このコンピュータ可読媒体は、コンピュータ、その他のプログラム可能なデータ処理装置、または特定の方式で機能するその他のデバイスを誘導でき、それによってコンピュータ可読媒体に記憶された命令が、フローチャートおよび／またはブロック図の１つまたは複数のブロックに指定された機能／作用を実行する命令を含む製造物品を生産するようにする。

コンピュータプログラム命令は、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードされて、そのコンピュータ、その他のプログラム可能なデータ処理装置またはその他のデバイス上で一連の動作ステップを実行させて、コンピュータに実装されたプロセスを生み出すこともでき、このようにして、コンピュータまたはその他のプログラム可能な装置上で実行される命令が、フローチャートおよび／またはブロック図の１つまたは複数のブロックに明記した機能／行為を実施するためのプロセスを提供するようにする。

総合的な解決法
図１は、本明細書の実施形態を適用できる一例の音声通信システムを示す概略図である。

図１に示したように、ユーザＡは通信端末Ａを操作し、ユーザＢは通信端末Ｂを操作する。音声通信セッションでは、ユーザＡおよびユーザＢは、それぞれの通信端末ＡおよびＢを介して互いに会話する。通信端末ＡおよびＢは、データリンク１０を介して接続されている。データリンク１０は、ポイントツーポイント接続または通信ネットワークとして実現されてよい。ユーザＡおよびユーザＢのいずれの側でも、パケット損失検出（図示せず）は、他方の側から伝送された音声パケット上で実行される。パケット損失が検出された場合、パケット損失補償（ＰＬＣ）を実行してパケット損失を補償でき、それによって再生された音声信号が、より完全に聞こえ、かつパケット損失によって生じたアーチファクトがより少ない状態で聞こえるようにする。

図２は、本明細書の実施形態を適用できるもう１つの例の音声通信システムの概略図である。この例では、ユーザどうしで音声会議を行うことができる。
図２に示したように、ユーザＡは通信端末Ａを操作し、ユーザＢは通信端末Ｂを操作し、ユーザＣは通信端末Ｃを操作する。音声会議セッションでは、ユーザＡ、ユーザＢおよびユーザＣは、それぞれの通信端末Ａ、ＢおよびＣを介して互いに会話する。図２に示した通信端末は、図１に示したものと同じ機能を有する。ただし、通信端末Ａ、Ｂ、およびＣは、共通のデータリンク２０または別々のデータリンク２０を介してサーバに接続されている。データリンク２０は、ポイントツーポイント接続または通信ネットワークとして実現されてよい。ユーザＡ、ユーザＢ、およびユーザＣのいずれの側でも、パケット損失検出（図示せず）は、他の一人または二人の側から伝送された音声パケット上で実行される。パケット損失が検出された場合、パケット損失補償（ＰＬＣ）を実行してパケット損失を補償でき、それによって再生された音声信号がより完全に聞こえ、かつパケット損失によって生じたアーチファクトがより少ない状態で聞こえるようにする。

パケット損失は、送信元通信端末からサーバまでの経路、かつ送信元通信端末から送信先通信端末までの経路のどこにでも発生し得る。したがって、その代わりに、またはそれに加えて、パケット損失検出（図示せず）およびＰＬＣをサーバで実行することもできる。パケット損失検出およびＰＬＣをサーバで実行するために、サーバに受信されたパケットは、デパケット化（de-packetized）されてよい（図示せず）。次に、ＰＬＣの後、パケット損失を補償された音声信号は、再びパケット化され（図示せず）、送信先通信端末に伝送されてよい。同時に会話しているユーザが２人いる場合（これは音声区間検出（Voice Activity Detection : ＶＡＤ）技術を用いて判断できる）、２人のユーザのスピーチ信号を送信先通信端末に伝送する前に、ミキサ８００でミキシング動作を行ってスピーチ信号の２つのストリームを１つに混合する必要がある。これは、ＰＬＣの後に行われてよいが、パケット化動作の前に行われる。

３つの通信端末を図２に示しているが、システムにはこれよりも適度に多い通信端末が接続されていてよい。
本明細書は、音場信号に適用される適当な変換技術によって得られるモノラル成分と空間成分とのそれぞれに異なる補償方法を適用することによって、音場信号のパケット損失問題を解決しようとするものである。具体的には、本明細書は、パケット損失が起きた際に、空間音声伝送中に人工信号を構築することに関する。

図３に示したように、１つの実施形態では、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償（ＰＬＣ）装置を設け、各音声パケットは、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含む。ＰＬＣ装置は、損失パケット中の損失フレームに対して少なくとも１つのモノラル成分を作成するための第１の補償部４００と、その損失フレームに対して少なくとも１つの空間成分を作成するための第２の補償部６００とを備えていてよい。作成された少なくとも１つのモノラル成分および作成された少なくとも１つの空間成分は、作成フレームとなって損失フレームに取って代わる。

先行技術で公知のように、伝送に対応するために、音声ストリームが変換され、「伝送形式（transmission format）」と呼んでよいフレーム構造に格納され、送信元通信端末で音声パケットにパケット化され、その後、サーバまたは送信先通信端末で受信器１００に受信される。ＰＬＣを実行するために、第１のデパケット化部（de-packetizing unit）２００を設けて、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む少なくとも１つのフレームに各音声パケットをデパケット化でき、パケット損失検出器３００を設けてストリーム中のパケット損失を検出できる。パケット損失検出器３００をＰＬＣ装置の一部と考えてもよいし、考えなくともよい。送信元通信端末の場合、音声ストリームを任意の適切な伝送形式に変換するために、どのような技術を採用してもよい。

伝送形式の一例は、適応直交変換（adaptive orthogonal transform）のような適応変換（adaptive transform）を用いて得ることができ、これによって複数のモノラル成分および空間成分が得られる。例えば、音声フレームは、パラメータによる固有分解に基づいて符号化されたパラメータ固有信号であってよく、少なくとも１つのモノラル成分は、（少なくとも主要固有チャネル成分のような）少なくとも１つの固有チャネル成分を含み、少なくとも１つの空間成分は、少なくとも１つの空間パラメータを含む。さらに例を挙げると、音声フレームは、主成分分析（principle component analysis : ＰＣＡ）によって分解されてよく、少なくとも１つのモノラル成分は、少なくとも１つの主成分に基づく信号を含んでいてよく、少なくとも１つの空間成分は、少なくとも１つの空間パラメータを含んでいる。

したがって、送信元通信端末には、入力音声信号をパラメータ固有信号に変換するための変換器を備えてよい。「入力形式（input format）」と呼んでよい入力音声信号の形式に応じて、変換器は様々な技術で実現されてよい。

例えば、入力音声信号は、アンビソニックスによるＢ形式信号であってよく、それに対応する変換器は、ＫＬＴ（Ｋａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換）のような適応変換をＢ形式信号に対して実行して、固有チャネル成分（これを回転した音声信号と呼んでもよい）と空間パラメータとで構成されるパラメータ固有信号を得ることができる。通常は、ＬＲＳ（Left, Right and Surround）信号またはその他の人工的にアップミキシングした信号を、一次アンビソニックス形式（Ｂ形式）、つまりＷＸＹ音場信号（これはＷＸＹＺ音場信号であってもよいが、ＬＲＳの取り込みを伴う音声通信では水平のＷＸＹのみが考慮される）に変換でき、適応変換は、音場信号の３つのチャネルＷ、ＸおよびＹをすべて合わせて、情報の重要性が高い順に新たな一連の固有チャネル成分（回転音声信号）Ｅｍ（ｍ＝１、２、３）（つまりＥ１、Ｅ２、Ｅ３であり、ｍの数字はこれより多くても少なくてもよい）に符号化できる。変換は、固有信号の数が３の場合は通常３ｘ３の変換行列（共分散行列など）によって、サイド情報として送られる３つの空間サイドパラメータのセット（ｄ、φおよびθ）で記述でき、このようにして復号化器が逆変換を適用して元の音場信号を再構築できるようにする。パケット損失が伝送中に起きた場合は、固有チャネル成分（回転した音声信号）も空間サイドパラメータも、復号化器に取得されることはできない点に注意されたい。

このようにする代わりに、ＬＲＳ信号は、パラメータ固有信号に直接変換されてもよい。
前述した符号化構造を適応変換符号化と呼んでよい。前述したように、符号化はＫＬＴなどの任意の適応変換、またはＬＲＳ信号からパラメータ固有信号への直接変換などの任意のその他の枠組で実行されてよいが、本明細書では、具体的なアルゴリズムの一例を提供して入力音声信号をパラメータ固有信号に変換する。詳細については、本明細書内の「音声信号の順方向適応変換および逆適応変換」の部を参照されたい。

上記で考察した適応変換符号化では、帯域幅が十分であれば、Ｅ１、Ｅ２およびＥ３のすべてがフレーム内で符号化された後、パケットストリーム内でパケット化され、これを独立符号化（discrete coding）と称する。逆に、帯域幅が限られていれば、別の手法を検討してよいが、Ｅ１は、知覚的に意味のある／最適化された元の音場のモノラル表現であるのに対し、Ｅ２、Ｅ３は、擬似的な無相関信号を計算して再構築できるものである。実際の実施形態では、Ｅ１とＥ１の無相関バージョンとに重み付けした組合わせが好ましく、この場合の無相関バージョンは、単にＥ１の遅延コピーであってよく、重み係数は、Ｅ１対Ｅ２、およびＥ１対Ｅ３の帯域エネルギーの割合に基づいて計算されてよい。この手法を予測符号化と呼んでよい。詳細については、本明細書内の「音声信号の順方向適応変換および逆適応変換」の部を参照されたい。

次に、入力された音声ストリームでは、各フレームは、モノラル成分の（Ｅ１、Ｅ２およびＥ３に対する）周波数領域係数のセットと、量子化されたサイドパラメータとを含み、これを空間成分または空間パラメータと呼んでよい。サイドパラメータは、予測符号化が適用された場合は予測パラメータを含んでいてよい。パケット損失が起きると、独立符号化では、Ｅｍ（ｍ＝１、２、３）と空間パラメータとの両方が伝送過程で損失するが、予測符号化では、損失したパケットは、予測パラメータ、空間パラメータおよびＥ１の損失につながる。

第１のデパケット化部２００の動作は、送信元通信端末でのパケット化部の逆の動作であり、それについての詳細な説明はここでは省略する。
パケット損失検出器３００では、任意の既存の技術を採用してパケット損失を検出してよい。一般的な手法は、第１のデパケット化部２００によって受信したパケットからパケット／フレームをデパケット化した連続番号を検出することであり、連続番号の不連続は、脱落した連続番号のパケット／フレームが損失したことを指している。連続番号は通常、リアルタイム転送プロトコル（Real-time Transport Protocol : ＲＴＰ）形式などのＶｏＩＰパケット形式で必須のフィールドである。現時点では、１パケットは一般に１つのフレーム（一般に２０ｍｓ）を含んでいるが、１パケットが２つ以上のフレームを含むことも可能であり、あるいは１つのフレームが複数のパケットに及んでいてもよい。１パケットが損失した場合、そのパケット内の全フレームが損失する。１フレームが損失した場合、１つ以上のパケットが損失した結果であるはずであり、パケット損失補償は一般にフレーム単位で実施される。つまり、ＰＬＣは、損失したパケットが原因で損失した（１つまたは複数の）フレームを復元するためのものである。したがって、本明細書の文脈では、パケット損失は一般にフレーム損失と同じことであり、解決策は一般に、例えば損失したパケット内で損失したフレーム数を強調するためにパケットに言及しなければならない場合でない限り、フレームに関して記述される。また、請求項では、「少なくとも１つの音声フレームを含む各音声パケット」という表記は、１つのフレームが２つ以上のパケットに及ぶ状況も範囲に含めると解釈すべきであり、それに対応して、「損失したパケット内で損失したフレーム（a lost frame in a lost packet）」という表記は、少なくとも１つの損失パケットが原因で「２つ以上のパケットに及んでいる少なくとも部分的に損失したフレーム（at least partially lost frame spanning more than one packet）」も範囲に含めると解釈すべきである。

本明細書では、モノラル成分および空間成分に対して別々のパケット損失補償動作を実施することを提案し、そのため、第１の補償部４００および第２の補償部６００をそれぞれ設ける。第１の補償部４００の場合、隣接フレーム内で対応するモノラル成分を複製することによって、損失フレームに対して少なくとも１つのモノラル成分を作成するように構成されてよい。

本明細書の文脈では、「隣接フレーム（adjacent frame）」とは、現在フレーム（損失したフレームであってよい）の直前または直後にあるか、（１つまたは複数の）フレームを間に挟んでいるフレームを意味する。つまり、損失フレームを復元するために、未来フレームか過去フレームのいずれかを使用でき、一般には直近の未来フレームまたは過去フレームを使用できる。直近の過去フレームを「最後のフレーム（the last frame）」と呼んでよい。変形例では、対応するモノラル成分を複製する際に、減衰係数を使用できる。

損失した少なくとも２つの連続フレームがある場合、第１の補償部４００は、少なくとも２つの連続フレームのうちの前の方または後の方の損失フレームに対して、（１つまたは複数の）過去フレームまたは（１つまたは複数の）未来フレームをそれぞれ複製するように構成されてよい。つまり、第１の補償部は、減衰係数を用いるか又は用いずに、隣接の過去フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの前の方の損失フレームに対して少なくとも１つのモノラル成分を作成でき、減衰係数を用いるか又は用いずに、隣接の未来フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの後の方の損失フレームに対して少なくとも１つのモノラル成分を作成できる。

第２の補償部６００の場合、（１つまたは複数の）隣接フレームの少なくとも１つの空間成分の値を平滑化することによって、あるいは最後のフレーム内の対応する空間成分を複製することによって、損失フレームに対して少なくとも１つの空間成分を作成するように構成されてよい。変形例として、第１の補償部４００および第２の補償部は、異なる補償方法を採用してよい。

遅延が許され得るまたは許容され得るいくつかの背景では、損失フレームの空間成分を算出するのに役立てるために未来フレームを使用してもよい。例えば、補間アルゴリズムを使用できる。つまり、第２の補償部６００は、少なくとも１つの隣接の過去フレームおよび少なくとも１つの隣接の未来フレームの中の対応する空間成分の値に基づき、補間アルゴリズムを介して損失フレームに対して少なくとも１つの空間成分を作成するように構成されてよい。

少なくとも２つのパケットまたは少なくとも２つのフレームが損失した場合、全損失フレームの空間成分は、補間アルゴリズムに基づいて判断されてよい。
前述したように、考えられる様々な入力形式および伝送形式がある。図４は、パラメータ固有信号を伝送形式として使用する一例を示している。図４に示したように、音声信号は、モノラル成分としての固有チャネル成分および空間成分としての空間パラメータを含むパラメータ固有信号として符号化され、伝送される（符号化側に関する詳細については、「音声信号の順方向適応変換および逆適応変換」の部を参照）。具体的には、例では３つの固有チャネル成分Ｅｍ（ｍ＝１、２、３）、およびそれに対応する空間パラメータ、例えば拡散性ｄ（Ｅ１の方向性）、方位角φ（Ｅ１の水平方向）、およびθ（３Ｄ空間でＥ２、Ｅ３がＥ１周りを回る回転）などがある。正常に伝送されたパケットの場合、固有チャネル成分および空間パラメータは両方とも（パケット内で）正常に伝送されるのに対し、損失したパケット／フレームの場合、固有チャネル成分および空間パラメータは両方とも損失し、新たな固有チャネル成分および空間パラメータを作成して損失したパケット／フレームの固有チャネル成分および空間パラメータに取って代わるためにＰＬＣが実行される。送信先通信端末で、正常に伝送されるか作成された固有チャネル成分および空間パラメータを直接（例えばバイノーラル音（binaural sound）として）再生できるか、最初に適切な中間出力形式に変換できる場合、この中間出力形式はさらに別の変換を受けるか、あるいは直接再生されてよい。入力形式と同じく、中間出力形式は、任意の実行可能な形式、例えばアンビソニックス（ambisonic）のＢ形式（ＷＸＹまたはＷＸＹＺ音場信号）、ＬＲＳまたはその他の形式などであってよい。中間出力形式での音声信号は、直接再生されてもよいし、再生デバイスに適応するようにさらに別の変換を受けてもよい。例えば、パラメータ固有信号は、逆のＫＬＴなどの逆適応変換を介してＷＸＹ音場信号に変換されてよく（本明細書の「音声信号の順方向適応変換および逆適応変換」の部を参照）、その後、バイノーラルの再生が要求されればバイノーラル音声信号にさらに変換されてよい。これに伴い、本明細書のパケット損失補償装置は、（可能なＰＬＣを受ける）音声パケットに対して逆適応変換を実行して逆変換された音場信号を得るために、第２の逆変換器を備えていてよい。

図４では、第１の補償部４００（図３）は、前述したように、かつ下記に示したように、減衰係数を用いるまたは用いない複製などの従来のモノラルＰＬＣを使用できる。

変形例では、連続する損失フレームが複数ある場合、隣接の過去フレームおよび未来フレームを複製することによってその損失フレームを復元できる。最初の損失フレームがフレームｐで、最後の損失フレームがフレームｑであると仮定すると、前半の損失フレームは、

であり、式中ａ＝０、１、…Ａ－１であり、Ａは前半の損失フレームの数である。また、後半の損失フレームは、

であり、式中ｂ＝０，１、…Ｂ－１であり、Ｂは後半の損失フレームの数である。ＡはＢと同じであっても異なっていてもよい。上記の２つの式では、減衰係数ｇは全損失フレームに対して同じ値を採用しているが、異なる損失フレームには異なる値を採用してもよい。

チャネル補償の他に、空間補償も重要である。図４に図示した例では、空間パラメータは、ｄ、φ、およびθで構成されてよい。空間パラメータの安定性は、知覚による連続性を維持する際に極めて重要である。そのため、第２の補償部６００（図３）は、空間パラメータを直接平滑化するように構成されてよい。平滑化は、どのような平滑化の手法で実施してもよく、例えば過去の平均値を計算することによって実施できる。

平滑化動作のその他の例には、移動ウィンドウを用いて移動平均値を計算する方法があってよく、この移動ウィンドウは、過去フレームのみをカバーしていてもよいし、過去フレームと未来フレームとの両方をカバーしていてもよい。換言すれば、空間パラメータの値は、隣接フレームに基づいて補間アルゴリズムを介して得ることができる。このような状況では、複数の隣接の損失フレームを同じ補間動作と同時に復元できる。

空間パラメータの安定性が比較的高い、例えば現在フレームｐのｄ_ｐが大きな値で検知されたといういくつかの背景では、空間パラメータの単純な複製も効果的となり得るが、ＰＬＣの背景ではさらに効果的な手法であり、

マルチチャネルの信号をモノラル成分と空間成分とに分解することで、伝送に柔軟性が加わり、これによってパケット損失への耐性をいっそう向上させることができる。１つの実施形態では、通常モノラル信号成分よりも帯域幅の消費が少ない空間パラメータは、冗長データとして送ることができる。例えば、パケットｐの空間パラメータは、パケットｐが損失した際にその空間パラメータを隣接のパケットから抽出できるように、パケットｐ－１またはｐ＋１にピギーバック（piggybacked）されてよい。さらにもう１つの実施形態では、空間パラメータは、冗長データとして送られず、単にモノラル信号成分とは異なるパケットで送られる。例えば、ｐ番目のパケットの空間パラメータは、（ｐ－１）番目のパケットによって伝送される。そのようにする際に、パケットｐが損失すれば、その空間パラメータは、パケットｐ－１が損失していなければこのパケットから回復できる。欠点は、パケットｐ＋１の空間パラメータも損失することである。

上記の実施形態および例では、固有チャネル成分が何の空間情報も含んでいないため、不適切な補償によって生じる空間のゆがみのリスクが少なくなる。
モノラル成分に対するＰＬＣ
図４では、描かれているのは、独立符号化されたビットストリーム内で符号化された領域ＰＬＣの一例であり、この場合、全固有チャネル成分Ｅ１、Ｅ２およびＥ３、全空間パラメータすなわちｄ、φ、およびθを伝送する必要があり、必要であればＰＬＣのために復元する必要がある。

独立符号化された領域の補償は、符号化Ｅ１、Ｅ２およびＥ３に対して帯域幅が十分にある場合に限って検討される。そうでなければ、フレームは、予測符号化の枠組によって符号化されてよい。予測符号化では、１つの固有チャネル成分のみ、つまり主要固有チャネルＥ１が実際に伝送される。復号化側では、Ｅ２およびＥ３などの他の固有チャネル成分は、予測パラメータを用いて予測され、例えばＥ２にはａ２、ｂ２、Ｅ３にはａ３およびｂ３が用いられる（予測符号化の詳細については、本明細書の「音声信号の順方向適応変換および逆適応変換」の部を参照）。図６に示したように、この背景では、Ｅ２とＥ３に対して別々の種類の無相関器を設ける（ＰＬＣ用に伝送または復元される）。したがって、Ｅ１が（ＰＬＣで）無事に伝送または復元されている限り、他の２つのチャネルＥ２およびＥ３は、無相関器を組み合わせたものを介して直接予測／構築できる。この予測ＰＬＣのプロセスは、予測パラメータの計算を１回追加するだけで、計算負荷のほぼ３分の２をなくせるものである。その上、Ｅ２およびＥ３を伝送する必要はないため、ビットレートの効率が改善される。図６の他の部分は、図４のものと同様である。

したがって、図５に示したような第１の補償部４００の特徴であるパケット損失補償装置の実施形態の変形例では、フレーム内の少なくとも１つのモノラル成分、フレーム内の少なくとも１つの他のモノラル成分に基づいて、予測するために使用される少なくとも１つの予測パラメータを各音声フレームがさらに含んでいる場合、第１の補償部４００は、モノラル成分および予測パラメータに対してそれぞれＰＬＣを実行するためのサブ補償部を２つ備えていてよく、この２つはつまり、損失フレームに対して少なくとも１つのモノラル成分を作成するための主補償部４０８と、損失フレームに対して少なくとも１つの予測パラメータを作成するための第３の補償部４１４である。

主補償部４０８は、上記で考察した第１の補償部４００と同じように作用できる。換言すれば、主補償部４０８は、損失フレームに対して何らかのモノラル成分を作成するための第１の補償部４００の核部分とみなしてよく、ここでは主要モノラル成分を作成するためだけに構成される。

第３の補償部４１４は、第１の補償部４００または第２の補償部６００と同様に作用できる。つまり、第３の補償部は、減衰係数を用いるか用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは、（１つまたは複数の）隣接フレームの対応する予測パラメータの値を平滑化することによって、損失フレームに対して少なくとも１つの予測パラメータを作成するように構成される。フレームｉ＋１、ｉ＋２、…、ｊ－１が損失したと仮定すると、フレームｋ内で喪失している予測パラメータを以下のように平滑化できる。

ここで、ａおよびｂは予測パラメータである。

サーバ内の場合で、かつ音声ストリームが１つのみある場合、ミキシング動作は不要なため、予測復号化をサーバ内で必ずしも実施する必要はなく、そのため、作成されたモノラル成分および作成された予測パラメータを直接パケット化して送信先通信端末に転送でき、この場合、予測復号化はデパケット化の後に実施されるが、例えば図６の逆ＫＬＴよりも前に実施される。

送信先通信端末の場合、または複数の音声ストリームに対するミキシング動作がサーバ内で必要な場合、予測復号化器４１０（図５）は、主補償部４０８によって作成された（１つまたは複数の）モノラル成分、および第３の補償部４１４によって作成された予測パラメータに基づいて他のモノラル成分を予測できる。実際、予測復号化器４１０は、正常に伝送された（損失していない）フレームに対する正常に伝送された（１つまたは複数の）モノラル成分および（１つまたは複数の）予測パラメータにも作用できる。

一般に、予測復号化器４１０は、同じフレーム内の主要モノラル成分およびその無相関バージョンに基づいて、もう１つのモノラル成分を予測パラメータを用いて予測できる。具体的に損失フレームの場合、予測復号化器は、作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分およびその無相関バージョンに基づいて、損失フレームに対する少なくとも１つの他のモノラル成分を予測できる。この動作を以下のように表せる。

または

ここでは、モノラル成分の連続数に基づいて算出された過去フレームを使用し、これはつまり、固有チャネル成分（固有チャネル成分は、その重要性に基づいて配列される）などの重要性の低いモノラル成分に対しては前の方のフレームが使用されるということである点に注意されたい。ただし、本明細書はこれに限定されない。

予測復号化器４１０の動作は、Ｅ２およびＥ３の予測符号化とは逆のプロセスである点に注意されたい。予測復号化器４１０の動作に関するこれ以上の詳細については、本明細書の「音声信号の順方向適応変換および逆適応変換」の部を参照されたいが、本明細書はこれに限定されない。

式（１）で前述したように、損失フレームの場合、主要モノラル成分は、単に最後のフレーム内の主要モノラル成分を複製することによって作成されてよく、つまり、

である。式（１’）は、ｍ＝１のときの式（１）であり、以下の考察を簡易化する目的で、最後のフレームに対する主要モノラル成分も正常に伝送されたのではなく作成されたものと仮定する点に注意されたい。

式（１’）と式（５’）とを組み合わせた解決法は、ある程度有効である可能性があるが、いくつかの欠点がある。式（１’）および式（５’）から、以下を導くことができる。

であり、

である。つまり、

上式に基づいて、以下のようになる。

この再相関を回避するためには、反復または複製を回避しなければならない。このようにするために、本明細書では、図７の実施形態に示し、図８に示した例に示したように、時間領域のＰＬＣを設ける。

図７に示したように、第１の補償部４００は、損失フレームよりも前の少なくとも１つの過去フレームにある少なくとも１つのモノラル成分を時間領域信号に変換するための第１の変換器４０２と、時間領域信号に関するパケット損失を補償して、パケット損失を補償した時間領域信号にするための時間領域補償部４０４と、パケット損失を補償した時間領域信号を少なくとも１つのモノラル成分の形式に変換して、損失フレーム内の少なくとも１つのモノラル成分に対応する作成後のモノラル成分にするための第１の逆変換器４０６とを備えていてよい。

時間領域補償部４０４は、過去フレームまたは未来フレーム内の時間領域信号を単純に複製するなどの多くの既存の技術で実現されてよく、これについてはここでは省略する。

上記の例では、損失フレームの補償には、符号化の枠組が重複変換（ＭＤＣＴ）のため、２つの以前のフレームが必要である。非重複変換を用いる場合、時間領域フレームと周波数領域フレームは、１対１で対応する。そのため、損失フレームの補償には、１つ前のフレームで十分である。

Ｅ２およびＥ３の場合、同様のＰＬＣ動作を実施してよいが、本明細書ではいくつかの他の解決策も提供し、これについては以下の部分で考察していく。
上記で考察したＰＬＣアルゴリズムの計算負荷は比較的大きい。したがって、いくつかの事例では、計算負荷を軽くするための措置を講じてよい。１つは、後に考察するように、Ｅ１に基づいてＥ２およびＥ３を予測することであり、もう１つは、時間領域ＰＬＣを他のより簡易な方法と組み合わせることである。

例えば、複数の連続するフレームが損失した場合、いくつかの損失フレーム、一般には前半の損失フレームは、時間領域ＰＬＣを用いて補償できるのに対し、残りの損失フレームは、伝送形式の周波数領域を複製するなどのより簡易な方法で補償できる。したがって、第１の補償部４００は、隣接する未来フレーム内に対応するモノラル成分を、減衰係数を用いるか用いずに複製することによって、少なくとも１つの後の損失フレームに対する少なくとも１つのモノラル成分を作成するように構成されてよい。

上記の説明では、重要性の低い固有チャネル成分の予測符号化／復号化と、いずれか任意の１つの固有チャネル成分に対して使用できる時間領域ＰＬＣとの両方について考察した。時間領域ＰＬＣは、予測符号化（予測ＫＬＴ符号化など）を採用している音声信号に対する複製系のＰＬＣで再相関が起きるのを回避するために提案されるが、他の背景で適用されてもよい。例えば、非予測（独立）符号化を採用している音声信号に対する場合であっても、時間領域ＰＬＣを使用してもよい。

モノラル成分に対する予測ＰＬＣ
図９Ａ、図９Ｂおよび図１０に示した一実施形態では、独立符号化が採用されるため、各音声フレームは、Ｅ１、Ｅ２およびＥ３などのモノラル成分を少なくとも２つ含んでいる（図１０）。図４と同様に、損失フレームの場合、パケット損失が原因で固有チャネル成分はすべて損失していて、ＰＬＣプロセスを受ける必要がある。図１０の例に示したように、主要固有チャネル成分Ｅ１などの主要モノラル成分は、複製などの通常の補償の枠組または上記で考察した時間領域ＰＬＣなどの他の枠組で作成／復元できるが、重要性の低い固有チャネル成分Ｅ２およびＥ３などの他のモノラル成分は、上記の部で考察した予測復号化と同様の手法で、（図１０の破線矢印で示したように）主要モノラル成分に基づいて作成／復元でき、よってこの手法を「予測ＰＬＣ」と呼んでよい。図１０の他の部分は図４のものと同様のため、これについての詳細な説明はここでは省略する。

具体的には、式（５）、（５’）および（５’’）の以下の変形式を用いて、減衰係数ｇを加えるか加えずに、重要性の低いモノラル成分を予測できる。

１つの方法が、損失フレームに対して作成された１つのモノラル成分に該当する過去フレーム内のモノラル成分を、作成された１つのモノラル成分の無相関バージョンとみなすことであり、過去フレーム内のモノラル成分が正常に伝送されたかどうか、あるいは主補償部４０８によって作成されたかどうかは問題ではない。つまり、

または

非予測／独立符号化の問題は、正常に伝送された隣接フレームに対してであっても予測パラメータがないことである。したがって、予測パラメータは他の方法で得る必要がある。本明細書では、過去フレーム、一般には最後のフレームのモノラル成分に基づいて予測パラメータを計算でき、過去フレームまたは最後のフレームが正常に伝送されたかどうか、またはＰＬＣで復元されたかどうかは問題ではない。

したがって、実施形態によれば、第１の補償部４００は、図９に示したように、損失フレームに対する少なくとも２つのモノラル成分のうちの１つを作成するための主補償部４０８と、過去フレームを用いて損失フレームに対する少なくとも１つの予測パラメータを計算するための予測パラメータ計算器４１２と、作成された少なくとも１つの予測パラメータを用いて作成された１つのモノラル成分に基づいて、損失フレームの少なくとも２つのモノラル成分の少なくとも１つのもう一方のモノラル成分を予測するための予測復号化器４１０とを備えていてよい。

主補償部４０８および予測復号化器４１０は、図５のものと同様であり、その詳細な説明はここでは省略する。
予測パラメータ計算器４１２は、どのような技術で実現してもよいが、実施形態の一変形例では、損失フレーム以前の最後のフレーム（the last frame before the lost frame）を用いることによって予測パラメータを計算することを提案する。以下の式は具体的な例を示しているが、これは本明細書を限定するものではない。

ここで、記号は、以前と同じ意味であり、ｎｏｒｍ（）はＲＭＳ（根平均二乗）演算を指し、上付き文字Ｔは転置行列を表す。式（９）は、「音声信号の順方向適応変換および逆適応変換」の部の式（１９）および（２０）に対応し、式（１０）は、同部の式（２１）および（２２）に対応していることに注意されたい。相違点は、式（１９）～（２２）は符号化側で使用され、それによって予測パラメータは同じフレームの固有チャネル成分に基づいて計算されるのに対し、式（９）および（１０）は、予測ＰＬＣに対して、具体的には作成／復元された主要固有チャネル成分から重要性の低い固有チャネル成分を「予測する」ために、復号化側で使用され、したがって、予測パラメータは、以前のフレームの固有チャネル成分から計算され（正常に伝送されたかどうか、またはＰＬＣ過程で作成／復元されたかに関わらず）、

が使用される点である。いずれにしても、基本原理である式（９）および（１０）ならびに式（１９）～（２２）はほぼ同じであり、その詳細およびその変形例については、以下で言及する「ダッカー（ducker）」スタイルのエネルギー調整（energy adjustment）を含め、「音声信号の順方向適応変換および逆適応変換」の部を参照されたい。式どうしの相違点に関して前述したのと同じ規則に基づいて、「音声信号の順方向適応変換および逆適応変換」の部に記載した他の解決法または式を、この部で記載した予測ＰＬＣに適用できる。単純に言えば、その規則とは、前のフレーム（最後のフレームなど）に対する（１つまたは複数の）予測パラメータを生成し、それを予測パラメータとして使用して、損失フレームに対する重要性の低い（１つまたは複数の）モノラル成分（固有チャネル成分）を予測することである。

換言すれば、予測パラメータ計算器４１２は、パラメータ符号化部１０４と同じように実現されてよく、これについては後述する。
推定されたパラメータの急激な変動を避けるため、上記で推定された予測パラメータは、何らかの技術を用いて平滑化されてよい。具体的な例では、「ダッカー」スタイルのエネルギー調整を行うことができ、これを以下の式ではｄｕｃｋ（）で表し、このようにして、特に音声と無音との間、またはスピーチと音楽との間の移行領域で、補償された信号のレベルが急速に変化するのを避ける。

式（１１）は、簡易バージョン（式（３６）および（３７）に対応）に置き換えられてもよい。

上記で考察した実施形態では、各損失フレームに対して（１つまたは複数の）予測パラメータを、予測復号化器４１０に使用される予測パラメータ計算器４１２で計算でき、使用した過去フレームである予測パラメータ計算器４１２で計算するための基礎（basis）が、正常に伝送されたフレームであるか、または損失してから復元（作成）されたフレームであるかどうかは問題ではない。

予測パラメータの計算に関して上記に簡潔な説明を挙げたが、本明細書はこれに限定されない。実際、「音声信号の順方向適応変換および逆適応変換」の部で考察したようなアルゴリズムを参照して、さらに多くの変形例を検討できる。

一変形例では、図９Ａに示したように、前の部で考察したものと同様の第３の補償部で、予測符号化の枠組で損失した予測パラメータを補償するのに使用した第３の補償部４１４をさらに備えてよい。そのため、損失フレーム以前の最後のフレームに対して少なくとも１つの予測パラメータが計算された場合、第３の補償部４１４は、最後のフレームに対する少なくとも１つの予測パラメータに基づいて、損失フレームに対する少なくとも１つの予測パラメータを作成できる。図９Ａに示した解決法は、予測符号化の枠組にも適用できることに注意されたい。つまり、図９Ａの解決法は一般に、予測符号化の枠組みにも非予測符号化の枠組にも両方適用可能ということである。予測符号化の枠組の場合（よって正常に伝送された過去フレーム内には（１つまたは複数の）予測パラメータが存在する）、第３の補償部４１４は、第１の損失フレームに対して（予測パラメータを含む隣接した過去フレームなしで）非予測符号化の枠組で動作し、予測パラメータ計算器４１２は、第１の損失フレームに続く（１つまたは複数の）損失フレームに対して非予測符号化の枠組で動作するが、予測パラメータ４１２か第３の補償部４１４のいずれかが動作できる。

したがって、図９Ａでは、予測パラメータ計算器４１２は、予測パラメータが含まれていない、あるいは損失フレーム以前の最後のフレームに対して作成／計算されていない場合に、以前のフレームを用いて損失フレームに対する少なくとも１つの予測パラメータを計算するように構成されてよく、予測復号化器４１０は、計算または作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて損失フレームに対して少なくとも２つのモノラル成分のうちの少なくとも１つのもう一方のモノラル成分を予測するように構成されてよい。

上記で考察したように、第３の補償部４１４は、減衰係数を用いるか又は用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは（１つまたは複数の）隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、損失フレームに対する少なくとも１つの予測パラメータを作成するように構成されていてよい。

図９Ｂに示したようなさらに別の変形例では、この部で考察した予測ＰＬＣと、非予測ＰＬＣ（図７を参照して考察した単純な複製またはＰＬＣの枠組などを含め、「総合的な解決法」の部で考察したものなど）とを組み合わせることができる。つまり、重要性の低いモノラル成分に対して、非予測ＰＬＣと予測ＰＬＣとの両方を実行でき、得られた結果を組み合わせて、２つの結果を重み付けした平均値など、最終的に作成されたモノラル成分を得る。このプロセスを、一方の結果をもう一方の結果と調整するものとみなしてもよく、重み係数は、どちらが優勢かを判断し、具体的な背景に応じて設定されてよい。

したがって、図９Ｂに示したように、第１の補償部４００では、主補償部４０８は、少なくとも１つのもう一方のモノラル成分を作成するようにさらに構成されてよく、第１の補償部４００は、予測復号化器４１０によって予測された少なくとも１つのもう一方のモノラル成分を、主補償部４０８によって作成された少なくとも１つのもう一方のモノラル成分と調整するための調整部４１６をさらに備えている。

空間成分に対するＰＬＣ
「総合的な解決法」の部では、空間パラメータｄ、φ、θなどの空間成分に対するＰＬＣについて考察した。空間パラメータの安定性は、知覚による連続性を維持する際に極めて重要である。これは、「総合的な解決法」の部で直接パラメータを平滑化することで達成される。もう１つの独立した解決法として、または「総合的な解決法」の部で考察したＰＬＣを補足する態様として、空間パラメータへの平滑化動作を符号化側で実施できる。このように、空間パラメータは符号化側で平滑化されているため、次に復号化側では、空間パラメータに関するＰＬＣの結果がさらに平滑かつ安定する。

同様に、平滑化動作は、空間パラメータへ直接実行されてよい。しかし本明細書では、空間パラメータに由来する変換行列の要素を平滑化することによって、空間パラメータを平滑化することをさらに提案する。

「総合的な解決法」の部で考察したように、モノラル成分および空間成分は、適応変換を用いて導き出すことができ、１つの重要な例が、すでに考察したＫＬＴである。このような変換では、入力形式（ＷＸＹやＬＲＳなど）は、ＫＬＴで符号化する際の共分散行列などの変換行列を介して、回転した音声信号（ＫＬＴで符号化する際の固有チャネル成分など）に変換されてよい。また、空間パラメータｄ、φ、θは、変換行列から導き出される。そのため、変換行列が平滑化されている場合、空間パラメータは平滑化される。

ここでまた、以下に示す移動平均または過去平均などの様々な平滑化動作を適用できる。

ここで、Ｒｘｘ＿ｓｍｏｏｔｈ（ｐ）は、平滑化後のフレームｐの変換行列であり、Ｒｘｘ＿ｓｍｏｏｔｈ（ｐ－１）は、平滑化後のフレームｐ－１の変換行列であり、Ｒｘｘ（ｐ）は、平滑化前のフレームｐの変換行列である。αは重み係数で、（０．８，１］の範囲を有するか、あるいはフレームｐの拡散性などのその他の物理的特性に基づいて適応するように生成される。

したがって、図１１に示したように、入力形式の空間音声信号を伝送形式のフレームに変換するための第２の変換器１０００を設ける。ここでは、各フレームは、少なくとも１つのモノラル成分および少なくとも１つの空間成分を備えている。第２の変換器は、入力形式の空間音声信号の各フレームを、変換行列を介して入力形式の空間音声信号のフレームに関連付けられた少なくとも１つのモノラル成分に分解するための適応型変換器１００２と、変換行列の各要素の値を平滑化して、現在フレームに対して平滑化した変換行列にするための平滑化部１００４と、平滑化した変換行列から少なくとも１つの空間成分を導き出すための空間成分抽出器１００６とを備えていてよい。

共分散行列を平滑化すると、空間パラメータの安定性を大幅に改善できる。これによって、「総合的な解決法」の部で考察したように、ＰＬＣの文脈において効果的かついっそう効率的な手法として、空間パラメータの単純な複製が可能になる。

共分散行列を平滑化してそこから空間パラメータを導き出すことについてのこれ以上の詳細は、「音声信号の順方向適応変換および逆適応変換」の部に記載する。
音声信号の順方向適応変換および逆適応変換
この部は、本明細書の目的に対処する例の音声信号としての役割を果たす、パラメータ固有信号などの伝送形式でどのように音声フレームを得て、対応する音声の符号化器および復号化器を得るかについてのいくつかの例を挙げるためのものである。ただし、本明細書は、明確にこれに限定されるものではない。上記で考察したＰＬＣの装置および方法は、音声復号化器よりも前にサーバなどに配置または実現されてもよいし、送信先通信端末などにある音声復号化器に組み込まれてもよい。

この部をさらに明瞭に説明するため、いくつかの用語は前の部で使用した用語と完全に同じではないが、その対応関係を必要に応じて以下で取り挙げる。２次元空間の音場は、通常３つのマイクロフォンアレイ（「ＬＲＳ」）で取り込まれ、その後、２次元のＢ形式（「ＷＸＹ」）で表される。２次元のＢ形式（「ＷＸＹ」）は、音場信号の一例であり、特に３チャネルの音場信号の一例である。２次元のＢ形式は通常、Ｘ方向およびＹ方向の音場を表すが、Ｚ方向（高さ）の音場は表さない。このような３チャネルの空間音場信号は、独立したパラメータによる手法を用いて符号化できる。独立的手法は、比較的高い動作ビットレートで効果的であることがわかっているのに対し、パラメータによる手法は、比較的低いレート（例えば１チャネルあたり２４ｋビット／秒以下）で効果的であることがわかっている。この部では、パラメータによる手法を用いる符号化システムを説明する。

パラメータによる手法は、音場信号の階層化伝送の点で新たな利点を有する。パラメータ符号化の手法は通常、ダウンミックス信号（down-mix signal）の生成および１つ以上の空間信号を記述する空間パラメータの生成を伴う。空間信号のパラメータによる記述は、一般に、独立符号化の背景で必要なビットレートよりも低いビットレートを必要とする。したがって、所定のビットレートには制約があるため、パラメータによる手法の場合、ダウンミックス信号の独立符号化のためにさらに多くのビットを費やすことができ、空間パラメータのセットを用いてダウンミックス信号から音場信号を再構築できる。したがって、ダウンミックス信号は、音場信号の各チャネルを別々に符号化するのに使用されるビットレートよりも高いビットレートで符号化できる。その結果、ダウンミックス信号は、知覚面の質（perceptual quality）が高いことがある。空間信号のパラメータ符号化のこの特徴は、階層化符号化を伴う適用例で、遠隔会議システムでモノラルのクライアント（または端末）と空間のクライアント（または端末）とが共存する場合に有益である。例えば、モノラルのクライアントの場合、ダウンミックス信号は、モノラルの出力をレンダリングするのに使用できる（完全な音場信号を再構築するのに使用される空間パラメータは無視する）。換言すれば、モノラルのクライアントに対するビットストリームは、空間パラメータに関連する完全な音場のビットストリームからビットを取り除くことで得ることができる。

パラメータによる手法の背後にある考えは、モノラルのダウンミックス信号に、知覚的に適切な（３チャネルの）音場信号の近似を復号化器で再構築できる空間パラメータのセットを加えて送ることである。ダウンミックス信号は、非適応ダウンミキシング手法および／または適応ダウンミキシング手法を用いて、符号化されることになっている音場信号から導き出すことができる。

ダウンミックス信号を導き出すための非適応方法は、固定された可逆変換を使用することを含んでいてよい。このような変換の一例が、「ＬＲＳ」の表記を２次元のＢ形式（「ＷＸＹ」）に変換する行列である。この場合、成分Ｗは、成分Ｗの物理的特性が理由で、ダウンミックス信号には合理的な選択である可能性がある。音場信号の「ＬＲＳ」の表現は、３つのマイクロフォンのアレイによって取り込まれたものであり、各々のアレイは、カージオイドの極性パターン（cardioid polar pattern）を有すると仮定できる。このような場合、Ｂ形式の表現のＷ成分は、（仮想の）無指向性マイクロフォンによって取り込まれた信号に相当する。仮想の無指向性マイクロフォンは、音源の空間位置に対して実質的に反応しない信号を提供し、よってロバストで安定したダウンミックス信号を提供する。例えば、音場信号によって表現される主要音源の角度位置は、Ｗ成分に影響を及ぼさない。Ｂ形式への変換は可逆的であり、「Ｗ」および他の２つの成分、すなわち「Ｘ」および「Ｙ」があれば、音場の「ＬＲＳ」表現を再構築できる。したがって、（パラメータによる）符号化は、「ＷＸＹ」領域で実施されてよい。さらに一般的に言えば、前述した「ＬＲＳ」領域を、取り込まれた領域と呼んでよく、すなわちこれは、（マイクロフォンアレイを用いて）その中で音場信号が取り込まれる領域であることに注意すべきである。

非適応ダウンミキシングを用いたパラメータ符号化の利点は、ダウンミックス信号には安定性とロバスト性があるため、そのような非適応手法は、「ＷＸＹ」領域で実施された予測アルゴリズムに対してロバストな基盤となるという事実によるものである。非適応ダウンミキシングを用いたパラメータ符号化に生じ得る欠点は、非適応ダウンミキシングは通常、雑音が多く、多くの反響音を伴うという点である。そのため、「ＷＸＹ」領域で実施される予測アルゴリズムは性能が低くなることがある。なぜなら、「Ｗ」信号は通常、「Ｘ」信号および「Ｙ」信号とは異なる特徴を有するからである。

ダウンミックス信号の作成に対する適応手法は、音場信号の「ＬＲＳ」表現の適応型変換を実施することを含んでいてよい。このような変換の一例がＫａｒｈｕｎｅｎ－Ｌｏeｖｅ変換（ＫＬＴ）である。この変換は、音場信号のチャネル間の共分散行列の固有値分解を実施することによって導き出される。考察した事例では、「ＬＲＳ」領域におけるチャネル間の共分散行列を使用してよい。次に適応変換を使用して信号の「ＬＲＳ」表現を固有チャネルのセットに変換でき、このセットを「Ｅ１Ｅ２Ｅ３」と表記できる。高い符号化利得は、「Ｅ１Ｅ２Ｅ３」表現に符号化を適用することによって達成できる。パラメータ符号化手法の事例では、「Ｅ１」成分は、モノラルのダウンミックス信号としての役割を果たすことができる。

このような適応型ダウンミキシングの枠組の利点は、固有領域が符号化に好都合である点である。原則的に、固有チャネル（または固有信号）を符号化する際に、レートと歪みとの最適なトレードオフを達成できる。理想的な事例では、固有チャネルは、完全に無相関化されていて、互いに独立して符号化されることができ、（組み合わせた符号化と比較して）性能の損失がない。その上、信号Ｅ１は通常、「Ｗ」信号よりも雑音が少なく、通常は含まれる反響音が少ない。しかしながら、適応型ダウンミキシングの対策にも欠点がある。第１の欠点は、適応型ダウンミキシングの変換が符号化器および復号化器に認識されていなければならず、したがって、適応型ダウンミキシングの変換の指標であるパラメータが符号化されて伝送されなければならないということに関連している。固有信号Ｅ１、Ｅ２およびＥ３の無相関化に対する目標を達成するために、適応変換を比較的高い頻度で更新する必要がある。適応伝送を定期的に更新すると、計算上の複雑さが増すことになり、変換の記述を復号化器に伝送するためのビットレートが必要になる。

適応手法に基づくパラメータ符号化の第２の欠点は、Ｅ１系のダウンミックス信号の不安定性に起因していることがある。不安定性は、ダウンミックス信号Ｅ１を提供する基盤となる変換が信号適応型であり、したがって変換が時間によって変化するということに起因していることがある。ＫＬＴの変形例は通常、信号源の空間特性によって異なる。このように、入力信号の種類によっては、複合的に話者が音場信号で表現される複数の話者がいる背景などでは特に困難になることがある。適応手法が不安定になるもう１つの原因は、音場信号の「ＬＲＳ」表現を取り込むのに使用されるマイクロフォンの空間特徴に起因していることがある。通常、極性パターン（例えばカージオイド）を有する指向性マイクロフォンアレイを使用して音場信号を取り込む。このような場合、「ＬＲＳ」で表現されている音場信号のチャネル間の共分散行列は、（例えば複数の話者がいる背景で）信号源の空間特性が変化した場合は、著しく変化することがあり、ＫＬＴによる結果も同様である。

本明細書では、前述した適応型ダウンミキシング手法の安定性の問題に対処するダウンミキシング手法について記載している。記載したダウンミキシングの枠組では、非適応ダウンミキシング方法の利点と適応ダウンミキシング方法の利点とを組み合わせる。特に、適応ダウンミックス信号、例えば「ビーム形成された（beamformed）」信号を明らかにすることを提案し、この信号は、主に音場信号の優勢成分を含み、非適応ダウンミキシング方法を用いて導き出されたダウンミックス信号の安定性を維持する。

「ＬＲＳ」表現から「ＷＸＹ」表現への変換は可逆的なものだが、正規直交のものではないことに注意すべきである。したがって、符号化の文脈では（例えば量子化が理由で）、「ＬＲＳ」領域でのＫＬＴの適用と「ＷＸＹ」領域領域でのＫＬＴの適用とは常に同じではない。ＷＸＹ表現の利点は、音源の空間特性の観点からロバストである成分「Ｗ」を含んでいるということに関連している。「ＬＲＳ」表現では、全成分が、音源の空間的な変化性に対して通常等しく反応する。逆に、ＷＸＹ表現の「Ｗ」成分は通常、音場信号内の主要音源の角度位置とは無関係である。

さらに、音場信号の表現に関わらず、音場信号の少なくとも１つの成分が空間的に安定している変換後の領域でＫＬＴを適用することが有益であると言える。このように、音場の表現を、音場信号の少なくとも１つの成分が空間的に安定している領域に変換することが有益となり得る。続いて、少なくとも１つの成分信号が空間的に安定している領域で適応変換（ＫＬＴなど）を用いてよい。換言すれば、音場アレイを取り込むのに使用されるマイクロフォンアレイのマイクロフォンの極性パターンの特性のみに左右される非適応型変換の使用法は適応変換と組み合わせられ、この変換は、非適応変換領域の音場信号の、チャネル間で時間に応じて変化する共分散行列に左右される。いずれの変換も（すなわち非適応型変換および適応型変換）可逆的であることに注意する。換言すれば、提案した２つの変換を組み合わせたものから得る利益は、この２つの変換が両方ともいかなる場合でも可逆的であることが保証され、したがってこの２つの変換によって音場信号の効果的な符号化が可能になる点である。

このように、取り込まれた領域（例えば「ＬＲＳ」領域）から取り込まれた音場信号を非適応変換領域（例えば「ＷＸＹ」領域）に変換することを提案する。続いて、非適応変換領域内の音場信号に基づいて適応変換（例えばＫＬＴ）を算出できる。音場信号は、適応変換（例えばＫＬＴ）を用いて適応変換領域（例えば「Ｅ１Ｅ２Ｅ３」領域）に変換されてよい。

以下では、パラメータ符号化の様々な枠組を記載する。符号化の枠組では、予測系および／またはＫＬＴ系のパラメータ化を使用できる。パラメータ符号化の枠組を、前述したダウンミキシングの枠組と組み合わせ、コーデックのレートと質との全体的なトレードオフを改善することを狙いとする。

図２２は、例示的な符号化システム１１００のブロック図である。図示したシステム１１００は、符号化システム１１００の符号化器内部に通常備わっている構成要素１２０と、符号化システム１１００の復号化器内部に通常備わっている構成要素１３０とを備えている。符号化システム１１００は、「ＬＲＳ」領域から「ＷＸＹ」領域への（可逆的かつ／または非適応）変換部１０１を備え、その後に、エネルギーが集中する正規直交（適応）変換（例えばＫＬＴ変換）部１０２を備える。取り込み用マイクロフォンアレイ（例えば「ＬＲＳ」領域）の領域にある音場信号１１０は、安定したダウンミックス信号（例えば「ＷＸＹ」領域内の信号「Ｗ」）を備えている領域で、非適応変換１０１によって音場信号１１１に変換される。続いて、音場信号１１１は、無相関変換部１０２を用いて、無相関化されたチャネルまたは信号（例えばチャネルＥ１、Ｅ２、Ｅ３）を含む音場信号１１２に変換される。

第１の固有チャネルＥ１１１３を使用して、他の固有チャネルＥ２およびＥ３をパラメータによって符号化できる（パラメータ符号化であり、前段の部では「予測符号化」とも呼んだ）。しかし、本明細書はこれに限定されない。もう１つの実施形態では、Ｅ２およびＥ３は、パラメータによって符号化できず、Ｅ１と同じように符号化されるだけである（独立手法であり、前段の部では「非予測／独立符号化」とも呼んだ）。ダウンミックス信号Ｅ１は、ダウンミキシング符号化部１０３を用いて、単一チャネルの音声および／またはスピーチ符号化の枠組を用いて符号化されてよい。復号化されたダウンミックス信号１１４（これは対応する復号化器でも利用可能である）を用いて、固有チャネルＥ２およびＥ３をパラメータによって符号化できる。パラメータ符号化は、パラメータ符号化部１０４で実施されてよい。パラメータ符号化部１０４は、予測パラメータのセットを提供でき、このセットは、復号化された信号Ｅ１１１４から信号Ｅ２およびＥ３を再構築するために使用されてよい。この再構築は通常、対応する復号化器で実施される。さらに、復号化動作は、再構築されたＥ１信号と、パラメータによって復号化されたＥ２およびＥ３信号（符号１１５）とを使用することを含むほか、逆の正規直交変換（例えば逆ＫＬＴ）１０５を実施して、再構築された音場信号１１６を非適応変換領域（例えば「ＷＸＹ」領域）にもたらすことを含む。逆の正規直交変換１０５に続いて変換１０６（例えば逆の非適応変換）を行って、再構築された音場信号１１７を、取り込まれた領域（例えば「ＬＲＳ」領域）にもたらす。変換１０６は通常、変換１０１の逆変換に相当する。再構築された音場信号１１７は、音場信号をレンダリングするように構成されているテレビ会議システムの端末によってレンダリングされてよい。テレビ会議システムのモノラルの端末は、再構築されたダウンミックス信号Ｅ１１１４を（音場信号１１７を再構築する必要なく）直接レンダリングできる。

高質な符号化を達成するためには、サブ帯域領域でパラメータ符号化を適用することが有益である。時間領域信号は、時間－周波数（Ｔ－Ｆ）変換、例えばＭＤＣＴ（修正離散コサイン変換）などの重複したＴ－Ｆ変換などを用いてサブ帯域領域に変換できる。変換１０１、１０２は線形のため、Ｔ－Ｆ変換は、原則として、取り込まれた領域（例えば「ＬＲＳ」領域）、非適応変換領域（例えば「ＷＸＹ」領域）または適応変換領域（例えば「Ｅ１Ｅ２Ｅ３」領域）に等しく適用できる。このように、符号化器は、Ｔ－Ｆ変換を実施するように構成されたユニット（例えば図２３Ａのユニット２０１）を備えていてよい。

符号化システム１１００を使用して生成される３チャネル音場信号１１０のフレームの記述は、例えば２つの成分を含んでいる。１つの成分は、少なくともフレーム単位で適応されるパラメータを含んでいる。もう１つの成分は、１チャネルの、モノラルコーダ（例えば変換に基づいた音声および／またはスピーチコーダ）を用いることによって、ダウンミックス信号１１３（例えばＥ１）に基づいて得られるモノラルの波形の記述を含んでいる。

復号化動作は、１チャネルのモノラルのダウンミックス信号（例えばＥ１ダウンミックス信号）を復号化することを含む。そのため、再構築されたダウンミックス信号１１４は、パラメータ化のパラメータを用いて（例えば予測パラメータを用いて）残りのチャネル（例えばＥ２およびＥ３信号）を再構築するのに使用される。続いて、再構築された固有信号Ｅ１、Ｅ２およびＥ３１１５は、変換１０２の無相関化を記述している伝送されたパラメータを用いて（例えばＫＬＴパラメータを用いて）、非適応変換領域（例えば「ＷＸＹ」領域）に交代で戻る。取り込まれた領域内の再構築された音場信号１１７は、「ＷＸＹ」信号１１６を元の「ＬＲＳ」領域１１７に変換することによって得られてよい。

図２３Ａおよび図２３Ｂは、例示的な符号化器１２００および例示的な復号化器２５０それぞれのさらに詳細なブロック図である。図示した例では、符号化器１２００は、非適応変換領域内にある音場信号１１１（のチャネル）を周波数領域に変換するように構成されたＴ－Ｆ変換部２０１を備え、これによって、音場信号１１１に対してサブ帯域信号２１１をもたらす。このように、図示した例では、音場信号１１１の適応変換領域への変換２０２は、音場信号１１１の異なるサブ帯域信号２１１で実施される。

以下では、符号化器１２００および復号化器２５０の様々な構成要素について説明する。
上記で述べたように、符号化器１２００は、取り込まれた領域（例えば「ＬＲＳ」領域）から得た音場信号１１０を非適応変換領域（例えば「ＷＸＹ」領域）内で音場信号１１１に変換するように構成された第１の変換部１０１を備えていてよい。「ＬＲＳ」領域から「ＷＸＹ」領域への変換は、変換［ＷＸＹ］^Ｔ＝Ｍ（ｇ）［ＬＲＳ］^Ｔによって実施されてよく、変換行列Ｍ（ｇ）は以下によって求められ、

ここで、ｇ＞０は有限定数である。ｇ＝１であれば、適正な「ＷＸＹ」表現が得られるが（すなわち２次元のＢ形式の定義に従って）、他の値ｇを検討してよい。

ＫＬＴ１０２は、それが適用されている信号の時間とともに変化する統計特性に対して十分頻繁に適応できる場合に、レート歪み率を提供する。しかしながら、ＫＬＴを頻繁に適応させると、符号化アーチファクトが生じるおそれがあり、これは知覚面での質を低下させる。レート歪み率と生じたアーチファクトとの良好なバランスは、（上記ですでに述べたように）ＫＬＴ変換を「ＬＲＳ」領域で音場信号１１０に適用する代わりに、ＫＬＴ変換を「ＷＸＹ」領域で音場信号１１１に適用することによって得られることが実験から明らかになった。

変換行列Ｍ（ｇ）のパラメータｇは、ＫＬＴを安定化させるという意味で有用であることがある。上記に述べたように、ＫＬＴは実質的に安定していることが望ましい。ｇ≠ｓｑｒｔ（２）を選択することにより、変換行列Ｍ（ｇ）は直交せず、Ｗ成分は（ｇ＞ｓｑｒｔ（２）の場合に）際立つ、あるいは（ｇ＜ｓｑｒｔ（２）の場合に）際立たなくなる。これは、ＫＬＴに対して安定効果を有する可能性がある。ｇ≠０であればいかなる場合も、変換行列Ｍ（ｇ）は常に可逆的であり、よって符号化が容易になる（逆行列Ｍ^－１（ｇ）が存在し、これを復号化器２５０で使用できることによる）点に注意すべきである。しかしながら、ｇ≠ｓｑｒｔ（２）であれば、（変換行列Ｍ（ｇ）が直交していないため）（レートと歪みのトレードオフの点での）符号化の効率は通常低下する。したがって、符号化の効率とＫＬＴの安定性との間のトレードオフを改善するために、パラメータｇを選択すべきである。実験の過程では、ｇ＝１（よって「ＷＸＹ」領域への「適正な」変換）で、符号化の効率とＫＬＴの安定性との間のトレードオフが妥当なものになることが明らかになった。

次のステップでは、「ＷＸＹ」領域の音場信号１１１が分析される。まず、チャネル間の共分散行列は、共分散推定部２０３を用いて推定されてよい。この推定は、（図２３Ａに示したように）サブ帯域領域で実施されてよい。共分散推定器２０３は、チャネル間の共分散の推定を改善すること、および推定が実質的に時間に応じて変化可能であることによって起こり得る問題を削減する（例えば最小にする）ことを狙いとする平滑化処理を含んでいてよい。このように、共分散推定部２０３は、音場信号１１１のフレームの共分散行列の平滑化をタイムラインに沿って実施するように構成されてよい。

さらに、共分散推定部２０３は、共分散行列を対角化する正規直交変換Ｖをもたらす固有値分解（EVD : eigen value decomposition）を用いてチャネル間の共分散行列を分解するように構成されてよい。変換Ｖにより、「ＷＸＹ」チャネルを、固有チャネル「Ｅ１Ｅ２Ｅ３」を含む固有領域に回転させるのが容易になり、これは下式によるものである。

変換Ｖは信号適応性であり、復号化器２５０で逆になるため、変換Ｖは、効率的に符号化される必要がある。変換Ｖを符号化するために、以下のパラメータ化を提案する。

提案したパラメータ化は、変換Ｖの（１，１）要素の符号に制約を課すことに注意されたい（すなわち（１，１）要素は常に正である必要がある）。このような制約を導入することが有利であり、このような制約で性能損失が起こることは一切ない（達成した符号化利得の点で）ことを示すことができる。パラメータｄ、φ、θで記述される変換Ｖ（ｄ，φ，θ）は、符号化器１２００の変換部２０２内部（図２３Ａ）および復号化器２５０の対応する逆変換部１０５（図２３Ｂ）内部で使用される。通常、パラメータｄ、φ、θは、共分散推定部２０３によって変換パラメータ符号化部２０４に提供され、この変換パラメータ符号化部は、変換パラメータｄ、φ、θを量子化して（ハフマン）符号化するように構成される２１２。符号化された変換パラメータ２１４は、空間ビットストリーム２２１に挿入されてよい。符号化された変換パラメータ２１３の復号化バージョン（これは、復号化器２５０で復号化された変換パラメータ２１３

に相当する）は無相関部２０２に提供され、この無相関部は、以下の変換を実施するように構成される。

その結果、無相関化された領域または固有値領域または適応変換領域の音場信号１１２が得られる。

原則的に、変換

は、サブ帯域単位で適用されてパラメータによる音場信号１１０のコーダを提供できる。第１の固有信号Ｅ１は、定義上、エネルギーを最も多く有し、固有信号Ｅ１は、モノラル符号化器１０３を用いて符号化された変換であるダウンミックス信号１１３として使用されてよい。Ｅ１信号を符号化すること１１３のもう１つの利益は、ＫＬＴ領域から取り込み後の領域へ変換して戻った際に、同様の量子化誤差が、復号化器２５０で音場信号１１７の３つのチャネルすべてに拡散されることである。これによって、潜在的な空間量子化の雑音を曝露する作用が低減する。

ＫＬＴ領域でのパラメータ符号化は、以下のように実施されてよい。波形符号化を固有信号Ｅ１に適用できる（単一のモノラル符号化器１０３）。さらに、パラメータ符号化は、固有信号Ｅ２およびＥ３に適用されてよい。特に、無相関化方法を用いて（例えば固有信号Ｅ１の遅延バージョンを用いて）固有信号Ｅ１から２つの無相関化された信号を生成できる。固有信号Ｅ１の無相関バージョンのエネルギーは、エネルギーが対応する固有信号Ｅ２およびＥ３それぞれのエネルギーに合致するように調整されてよい。エネルギー調整の結果、エネルギー調整の（固有信号Ｅ２に対する）利得ｂ２および（固有信号Ｅ３に対する）利得ｂ３を得ることができる。これらのエネルギー調整利得（これをａ２とともに予測パラメータとみなしてもよい）は、以下で述べるように算出されてよい。エネルギー調整利得ｂ２およびｂ３は、パラメータ推定部２０５で算出されてよい。

例えば、「Ｅ１Ｅ２Ｅ３」領域内の音場信号１１２のサブ帯域を記述するためには、三（３）つのパラメータを使用してＫＬＴを記述する。すなわち、ｄ、φ、θのほか、これに加えて２つの利得調整パラメータｂ２およびｂ３が使用される。したがって、パラメータの合計数は、１サブ帯域あたりの五（５）つのパラメータである。音場信号を記述するチャネルがさらに多くある場合、ＫＬＴ系の符号化は、ＫＬＴを記述するための遙かに多数の変換パラメータを必要とする。例えば、ＫＬＴを４次元空間で特定するのに必要な変換パラメータの最低数は６である。このほか、３つの調整利得パラメータを用いて、固有信号Ｅ１から固有信号Ｅ２、Ｅ３およびＥ４を算出する。したがって、パラメータの合計数は、１サブ帯域あたり９である。一般的な場合、Ｍチャネルを含む音場信号があると、ＫＬＴ変換パラメータを記述するのにはＯ（Ｍ^２）パラメータが求められ、固有信号で実施されるエネルギー調整を記述するのにはＯ（Ｍ）パラメータが求められる。したがって、各サブ帯域に対して（ＫＬＴを記述するための）変換パラメータ２１２のセットの算出には、相当多数のパラメータを符号化する必要がある可能性がある。

本明細書では、効率的なパラメータ符号化の枠組を説明し、音場信号を符号化するために使用されるパラメータの数は、（とりわけ、サブ帯域の数Ｎがチャネルの数Ｍよりも実質的に大きいかぎり）常にＯ（Ｍ）である。特に、本明細書では、複数のサブ帯域に対して（例えば全サブ帯域に対して、または開始帯域内に含まれる周波数よりも高い周波数を含む全サブ帯域に対して）ＫＬＴ変換パラメータ２１２を算出することを提案する。複数のサブ帯域に基づいて算出され、かつ複数のサブ帯域に適用されるこのようなＫＬＴを広帯域ＫＬＴと呼んでよい。広帯域ＫＬＴは、複数のサブ帯域に対応する組み合わさった信号に対して、完全に無相関化された固有ベクトルＥ１、Ｅ２、Ｅ３のみを提供し、これに基づいて広帯域ＫＬＴが決定されている。その一方で、広帯域ＫＬＴが個々のサブ帯域に適用された場合、この個々のサブ帯域の固有ベクトルは、通常完全には無相関化されない。換言すれば、広帯域ＫＬＴは、固有信号の全帯域バージョンを検討している場合に限って、相互に無相関化された固有信号を生成する。しかしながら、サブ帯域単位で存在する相当量の相関性（冗長性）が残っていることがわかる。サブ帯域単位での固有ベクトルＥ１、Ｅ２、Ｅ３どうしのこの相関性（冗長性）は、予測の枠組によって効率的に利用できるものである。したがって、主要固有ベクトルＥ１に基づいて固有ベクトルＥ２およびＥ３を予測するために、予測の枠組を適用してよい。このように、「ＷＸＹ」領域の音場信号１１１に対して実施された広帯域ＫＬＴを用いて得られた音場信号の固有チャネル表現に予測符号化を適用することを提案する。

予測に基づいた符号化の枠組（またはただ単に「予測符号化」）は、パラメータ化された信号Ｅ２、Ｅ３を、完全に相関化した（予測された）成分と、ダウンミックス信号Ｅ１に由来する無相関化（予測されていない）成分とに分割するパラメータ化を提供できる。パラメータ化は、適当なＴ－Ｆ変換２０１の後に周波数領域で実施されてよい。音場信号１１１の変換された時間フレームの特定の周波数ビンが組み合わさって、単一のベクトル（すなわちサブ帯域信号）として一緒に処理される周波数帯を形成することができる。通常、この周波数帯は、知覚面で刺激を与えるものである。周波数ビンの帯域は、音場信号の全周波数範囲に対して１つまたは２つの周波数帯のみに誘導できる。

さらに詳細には、（例えば２０ｍｓの）各時間フレームｐにおいて、かつ各周波数帯ｋに対して、固有ベクトルＥ１（ｐ，ｋ）をダウンミックス信号１１３として使用でき、および固有ベクトルＥ２（ｐ，ｋ）およびＥ３（ｐ，ｋ）を次式のように再構築でき、

ａ２、ｂ２、ａ３、ｂ３はパラメータ化のパラメータであり、ｄ（Ｅ１（ｐ，ｋ））は、Ｅ１（ｐ，ｋ）の無相関バージョンだがＥ２およびＥ３に対しては異なっていてよく、ｄ２（Ｅ１（ｐ，ｋ））およびｄ３（Ｅ１（ｐ，ｋ））と表してよい。

ここで、Ｔはベクトル転置を指す。このように、固有信号Ｅ２およびＥ３の予測された成分は、予測パラメータａ２およびａ３を用いて算出できる。

固有信号Ｅ２およびＥ３の無相関成分の算出は、無相関器ｄ２（）およびｄ３（）を用いてダウンミックス信号Ｅ１の２つの非相関バージョンの算出を利用するものである。通常、無相関信号ｄ２（Ｅ１（ｐ，ｋ））およびｄ３（Ｅ１（ｐ，ｋ））の質（性能）は、提案した符号化の枠組の全体的な知覚面での質に影響を及ぼすものである。様々な無相関化方法を用いてよい。例を挙げると、ダウンミックス信号Ｅ１のフレームは、無相関信号ｄ２（Ｅ１（ｐ，ｋ））およびｄ３（Ｅ１（ｐ，ｋ））の対応するフレームをもたらすためにフィルタリングされたオールパスであってよい。

無相関信号が、モノラルで符号化された残りの信号に入れ替わった場合、それによって生じるシステムは波形符号化を再び達成する。これは、予測利得が高ければ有利となり得る。例えば、残りの信号ｒｅｓＥ２（ｐ，ｋ）＝Ｅ２（ｐ，ｋ）－ａ２（ｐ，ｋ）＊Ｅ１（ｐ，ｋ））、およびｒｅｓＥ３（ｐ，ｋ）＝Ｅ３（ｐ，ｋ）－ａ３（ｐ，ｋ）＊Ｅ１（ｐ，ｋ））を明示的に算出することを検討してよく、これらの信号は、（少なくとも式（１７）および（１８）によって得られた仮定モデルの観点から）無相関信号の特性を有する。これらの信号ｒｅｓＥ２（ｐ，ｋ）およびｒｅｓＥ３（ｐ，ｋ）の波形符号化を、合成無相関信号を使用する代替案として検討してよい。残りの信号ｒｅｓＥ２（ｐ，ｋ）およびｒｅｓＥ３（ｐ，ｋ）の明示的な符号化を実施するために、モノラルコーデックのその他のインスタンスを使用してよいが、残りの信号を復号化器に送るのに必要なビットレートは比較的高いため、これは不利になるであろう。その一方で、このような手法の利点は、割り当てられたビットレートは大きくなるため、復号化器の再構築が容易になって完璧な再構築に近づく点である。

無相関器に対するエネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）は、以下のように計算できる。

式（１７）および（１８）によって得られた信号モデル、および式（２１）および（２２）によって得られたエネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）を算出するための推定手順では、無相関信号ｄ２（Ｅ１（ｐ，ｋ））およびｄ３（Ｅ１（ｐ，ｋ））のエネルギーがダウンミックス信号Ｅ１（ｐ，ｋ）のエネルギーと（少なくとも概ね）一致していると仮定することに注意すべきである。使用した無相関器によっては、これは当てはまらないことがある（例えばＥ１（ｐ，ｋ）の遅延バージョンを用いた場合、Ｅ１（ｐ－１，ｋ）およびＥ１（ｐ－２，ｋ）のエネルギーは、Ｅ１（ｐ，ｋ）のエネルギーとは異なることがある）。

上記に述べたように、無相関器ｄ２（）およびｄ３（）は、１つのフレーム遅延および２つのフレーム遅延としてそれぞれ実装されてよい。この場合、前述したエネルギーの不一致が通常生じる（とりわけ信号が一過性の場合）。式（１７）および（１８）によって得られた信号モデルの正確さを確実にするため、かつ、適当な量の無相関信号ｄ２（Ｅ１（ｐ，ｋ））およびｄ３（Ｅ１（ｐ，ｋ））を再構築過程で挿入するため、（符号化器１２００および／または復号化器２５０で）さらに他のエネルギー調整を実施する必要がある。

一例では、さらに他のエネルギー調整は、以下のように動作できる。符号化器１２００は、（量子化して符号化したバージョンでよい）エネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）（式（２１）および（２２）を用いて算出されたもの）を、空間ビットストリーム２２１に挿入していてよい。

このほか、復号化器２５０は、復号化されたダウンミックス信号ＭＤ（ｐ，ｋ）２６１に基づいて、例えば１つまたは２つのフレーム遅延（ｐ－１およびｐ－２と表記）を用いて、無相関信号２６４を（無相関器部２５２で）生成するように構成されてよく、これを以下のように記載できる。

Ｅ２およびＥ３の再構築は、更新されたエネルギー調整利得を用いて実施されてよく、これをｂ２ｎｅｗ（ｐ，ｋ）およびｂ３ｎｅｗ（ｐ，ｋ）と表記できる。更新されたエネルギー調整利得ｂ２ｎｅｗ（ｐ，ｋ）およびｂ３ｎｅｗ（ｐ，ｋ）は、次式に従って計算できる。

例えば

改善されたエネルギー調整方法を「ダッカー（ダッカー）」調整と呼んでよい。「ダッカー」調整は、次式を用いて更新されたエネルギー調整利得を計算できる。

例えば

これは、以下のように書くこともできる。

例えば

「ダッカー」調整の場合、エネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）は、ダウンミックス信号ＭＤ（ｐ，ｋ）の現在フレームのエネルギーがダウンミックス信号ＭＤ（ｐ－１，ｋ）および／またはＭＤ（ｐ－２，ｋ）の以前のフレームのエネルギーよりも低い場合のみに更新される。換言すれば、更新されたエネルギー調整利得は、元のエネルギー調整利得以下である。更新されたエネルギー調整利得は、元のエネルギー調整利得に対して増加していない。これは、現在フレームＭＤ（ｐ，ｋ）内でアタック（attack）（すなわち低エネルギーから高エネルギーへの移行）が起きた状況で有益となり得る。このような場合、無相関信号ＭＤ（ｐ－１，ｋ）およびＭＤ（ｐ－２，ｋ）は通常雑音を含んでおり、この雑音は、エネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）に１よりも大きい係数を適用することによって際立つ。その結果、前述した「ダッカー」調整を用いると、再構築された音場信号を知覚する質を向上させることができる。

前述したエネルギー調整方法は、現在フレームおよび２つの以前のフレーム、すなわちｐ、ｐ－１、ｐ－２に対して、サブ帯域ｆ（パラメータ帯域ｋとも称する）ごとに復号化されたダウンミックス信号ＭＤのエネルギーのみを入力として必要とする。

更新されたエネルギー調整利得ｂ２ｎｅｗ（ｐ，ｋ）およびｂ３ｎｅｗ（ｐ，ｋ）は、符号化器１２００で直接算出されてもよく、復号化されて（エネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）の代わりに）空間ビットストリーム２２１に挿入されてよいことに注意すべきである。これは、エネルギー調整利得の効率的な符号化という点で有益となり得る。

このように、音場信号１１０のフレームは、ダウンミックス信号Ｅ１１１３と、適応変換を記述する変換パラメータ２１３の１つ以上のセット（この場合、変換パラメータ１１３の各セットは、複数のサブ帯域に対して使用された適応変換を記述する）と、サブ帯域ごとの１つ以上の予測パラメータａ２（ｐ，ｋ）およびａ３（ｐ，ｋ）と、サブ帯域ごとの１つ以上のエネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）とを用いて記述されてよい。予測パラメータａ２（ｐ，ｋ）およびａ３（ｐ，ｋ）ならびにエネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）（前部で言及したように、これを合わせて予測パラメータとする）のほか、変換パラメータの１つ以上のセット（これは、前部で言及した空間パラメータ）２１３も、空間ビットストリーム２２１に挿入されてよく、この空間ビットストリームのみがテレビ会議システムの端末で復号化されてよく、同端末は、音場信号をレンダリングするように構成される。さらに、ダウンミックス信号Ｅ１１１３は、（変換に基づく）モノラルの音声および／またはスピーチ符号化器１０３を用いて符号化されてよい。符号化されたダウンミックス信号Ｅ１は、ダウンミキシングビットストリーム２２２に挿入されてよく、このダウンミキシングビットストリームは、テレビ会議システムの端末で復号化されてもよく、同端末は、モノラル信号をレンダリングするようにのみ構成される。

上記で指摘したように、本明細書では、無相関変換２０２を算出して複数のサブ帯域に対して合わせて適用することを提案する。特に、広帯域ＫＬＴ（例えばフレームごとの単一のＫＬＴ）を使用できる。広帯域ＫＬＴを使用することは、ダウンミックス信号１１３の知覚特性に関して有益となり得る（したがって、階層化したテレビ会議システムを実施することが可能になる）。上記に述べたように、パラメータ符号化は、サブ帯域領域で実施される予測に基づくものであってよい。こうすることによって、音場信号を記述するのに使用されるパラメータの数を、狭帯域ＫＬＴを使用するパラメータ符号化よりも少なくすることができ、この場合、複数のサブ帯域の各々に対して異なるＫＬＴが別々に算出される。

上記に述べたように、予測パラメータは、量子化され、符号化されてよい。予測に直接関係するパラメータは、周波数の差分量子化に続いてハフマン符号化を用いて、都合よく符号化されてよい。したがって、音場信号１１０のパラメータによる記述は、可変ビットレートを用いて符号化されてよい。全体的に動作しているビットレートの制約が設定される場合、特定の音場信号のフレームをパラメータにより符号化するのに必要なレートは、利用可能な全ビットレートから差し引くことができ、残り２１７は、ダウンミックス信号１１３の１チャネルのモノラル符号化に費やされてよい。

図２３Ａおよび図２３Ｂは、例示的な符号化器１２００および例示的な復号化器２５０のブロック図である。図示した音声符号化器１２００は、複数の音声信号（または音声チャネル）を含む音場信号１１０のフレームを符号化するように構成される。図示した例では、音場信号１１０は、取り込まれた領域から非適応変換領域（すなわちＷＸＹ領域）にすでに変換されている。音声符号化器１２００は、音場信号１１１を時間領域からサブ帯域領域に変換するように構成されたＴ－Ｆ変換部２０１を備え、これによって、音場信号１１１の様々な音声信号に対してサブ帯域信号２１１をもたらす。

音声符号化器１２００は、変換算出部２０３、２０４を備え、この変換算出部は、非適応変換領域内の音場信号１１１のフレームに基づいて（特に、サブ帯域信号２１１に基づいて）エネルギーを圧縮する直交変換Ｖ（例えばＫＬＴ）を算出するように構成される。変換算出部２０３、２０４は、共分散推定部２０３および変換パラメータ符号化部２０４を備えていてよい。さらに、音声符号化器１２００は、変換部２０２（無相関部とも称する）を備え、この変換部は、音場信号のフレームから（例えば非適応変換領域内の音場信号１１１のサブ帯域信号２１１に）導き出したフレームに、エネルギーを圧縮する直交変換Ｖを適用するように構成される。こうすることによって、複数の回転音声信号Ｅ１、Ｅ２、Ｅ３を含む回転した音場信号１１２の対応するフレームを得ることができる。回転した音場信号１１２を、適応変換領域内の音場信号１１２と称することもある。

さらに、音声符号化器１２００は、波形符号化部１０３（モノラル符号化器またはダウンミキシング符号化器とも称する）を備え、この波形符号化部は、回転した複数の音声信号Ｅ１、Ｅ２、Ｅ３の最初に回転した音声信号Ｅ１（すなわち主要固有信号Ｅ１）を符号化するように構成される。このほか、音声符号化器１２００は、パラメータ符号化（ｅｎｃｏｄｉｎｇ）部１０４（パラメータ符号化（ｃｏｄｉｎｇ）部とも称する）を備え、このパラメータ符号化部は、予測パラメータのセットａ２、ｂ２を算出して、最初に回転した音声信号Ｅ１に基づいて、回転した複数の音声信号Ｅ１、Ｅ２、Ｅ３のうち２番目に回転した音声信号Ｅ２を算出するように構成される。パラメータ符号化部１０４は、さらに他の１セット以上の予測パラメータのａ３、ｂ３を算出して、回転した複数の音声信号Ｅ１、Ｅ２、Ｅ３のうちさらに他の１つ以上の回転した音声信号Ｅ３を算出するように構成されてよい。パラメータ符号化部１０４は、予測パラメータのセットを推定して符号化するように構成されたパラメータ推定部２０５を備えていてよい。さらに、パラメータ符号化部１０４は、２番目に回転した音声信号Ｅ２の（かつ、さらに他の１つ以上の回転した音声信号Ｅ３の）相関成分および無相関成分を、例えば本明細書に記載した式を用いて算出するように構成された予測部２０６を備えていてよい。

図２３Ｂの音声復号化器２５０は、空間ビットストリーム２２１（１セット以上の予測パラメータ２１５、２１６および変換Ｖを記述している１つ以上の変換パラメータ（空間パラメータ）２１２、２１３、２１４を示している）ならびにダウンミキシングビットストリーム２２２（最初に回転した音声信号Ｅ１１１３またはその再構築バージョン２６１を示している）を受信するように構成される。音声復号化器２５０は、複数の再構築された音声信号を含む再構築された音場信号１１７のフレームを、空間ビットストリーム２２１から、かつダウンミキシングビットストリーム２２２から提供するように構成される。

前述したパラメータ符号化の枠組の様々な変形形態を実施してよい。例えば、パラメータ符号化の枠組の別の動作形態は、無相関の完全な畳み込みを追加の遅延なしに可能にするものであり、エネルギー調整利得ｂ２（ｐ，ｋ）およびｂ３（ｐ，ｋ）をダウンミックス信号Ｅ１に適用することによって、まず２つの中間信号をパラメータ領域で生成するというものである。続いて、この２つの中間信号に逆Ｔ－Ｆ変換を実施して、２つの時間領域信号をもたらすことができる。次に、２つの時間領域信号を無相関化してよい。これらの無相関化された時間領域信号は、再構築された予測信号Ｅ２およびＥ３に適切に加えられてよい。このように、代替の実施では、無相関信号は時間領域に生成される（サブ帯域領域ではない）。

上記に述べたように、適応変換１０２（例えばＫＬＴ）は、非適応変換領域内の音場信号１１１に対するフレームのチャネル間の共分散行列を用いて算出されてよい。ＫＬＴパラメータ符号化をサブ帯域単位で適用することの利点は、チャネル間の共分散行列を復号化器２５０で正確に再構築できるという点である。ただしこれには、変換Ｖを特定するために、Ｏ（Ｍ^２）変換パラメータの符号化および／または伝送が必要になる。

前述したパラメータ符号化の枠組では、チャネル間の共分散行列の正確な再構築にならない。それにもかかわらず、本明細書に記載したパラメータ符号化の枠組を用いて、２次元の音場信号に対して知覚面で良好な質を達成できることが観察された。しかしながら、再構築された固有信号の全ペアに対して正確なコヒーレンスを再構築することが有益となり得る。これは、前述したパラメータ符号化の枠組を拡張することによって達成できる。

特に、固有信号Ｅ２とＥ３との間の正規の相関を記述するために、さらに別のパラメータγを算出して伝送してよい。これによって、２つの予測誤差の元の共分散行列を、復号化器２５０で元に戻すことが可能になる。その結果、３次元信号の全共分散を元に戻せる。復号化器２５０でこれを実施する１つの方法が、次式で得られる２ｘ２行列によって２つの無相関信号ｄ２（Ｅ１（ｐ，ｋ））およびｄ３（Ｅ１（ｐ，ｋ））を事前にミキシングし、

正規相関γに基づいて無相関信号をもたらすというものである。相関パラメータγは、量子化され、符号化され、空間ビットストリーム２２１に挿入されてよい。

パラメータγは、復号化器２５０が無相関信号を生成できるように復号化器２５０に伝送され、この無相関信号は、元の固有信号Ｅ２とＥ３との間の正規相関γを再構築するために使用される。その代わりに、以下に示すように、ミキシング行列Ｇを復号化器２５０で固定値に設定でき、これによって、Ｅ２とＥ３との間の相関の再構築を概ね改善する。

この最後の手法は、相関パラメータγの符号化および／または伝送を必要としないという点で、有益である。その一方で、この最後の手法は、元の固有信号Ｅ２およびＥ３の正規相関γが平均値に維持されることのみを実現する。

パラメータによる音場符号化の枠組を、音場の固有表現の選択されたサブ帯域にわたって、マルチチャネルの波形符号化の枠組と組み合わせて、混合した符号化の枠組をもたらしてよい。特に、Ｅ２およびＥ３の低周波数帯に対して波形符号化を実施し、残りの周波数帯でパラメータ符号化を実施することを検討してよい。特に、符号化器１２００（および復号化器２５０）は、開始帯域を算出するように構成されてよい。開始帯域よりも低いサブ帯域の場合、固有信号Ｅ１、Ｅ２、Ｅ３は、個別に波形符号化されてよい。サブ帯域が開始帯域にある場合、および開始帯域よりも上の場合、固有信号Ｅ２およびＥ３は、（本明細書で記載したように）パラメータによって符号化されてよい。

図２４Ａは、複数の音声信号（または音声チャネル）を含む音場信号１１０のフレームを符号化するための例示的な方法１３００のフローチャートである。方法１３００は、エネルギーを圧縮する直交変換Ｖ（例えばＫＬＴ）を音場信号１１０のフレームに基づいて算出するステップ３０１を含む。本明細書で述べたように、非適応変換を用いて、取り込まれた領域（例えばＬＲＳ領域）内の音場信号１１０を非適応変換領域（例えばＷＸＹ領域）内の音場信号１１１に変換することが好ましいことがある。このような場合、エネルギーを圧縮する直交変換Ｖは、非適応変換領域内の音場信号１１１に基づいて算出されてよい。方法３００は、エネルギーを圧縮する直交変換Ｖを音場信号１１０のフレーム（またはこのフレームから導かれた音場信号１１１）に適用するステップ３０２をさらに含んでいてよい。こうすることによって、複数の回転音声信号Ｅ１、Ｅ２、Ｅ３を含む回転した音場信号１１２のフレームが得られる（ステップ３０３）。回転した音場信号１１２は、適応変換領域（例えばＥ１Ｅ２Ｅ３領域）内の音場信号１１２に相当する。方法３００は、回転した複数の音声信号Ｅ１、Ｅ２、Ｅ３のうち最初に回転した音声信号Ｅ１を（例えば１つのチャネル波形符号化器１０３を用いて）符号化するステップ３０４を備えていてよい。さらに、方法３００は、予測パラメータのセットａ２、ｂ２を算出して、最初に回転した音声信号Ｅ１に基づいて、回転した複数の音声信号Ｅ１、Ｅ２、Ｅ３のうち２番目に回転した音声信号Ｅ２を算出するステップ３０５を備えていてよい。

図２４Ｂは、複数の再構築された音声信号を含む再構築された音場信号１１７のフレームを、空間ビットストリーム２２１から、かつダウンミキシングビットストリーム２２２から復号化するための例示的な方法３５０のフローチャートである。

本明細書では、音場信号を符号化するための方法およびシステムを説明してきた。特に、ビットレートを低減できると同時に、一定の知覚的品質を維持できるという、音場信号に対するパラメータ符号化の枠組を説明してきた。さらに、パラメータ符号化の枠組は、低ビットレートで高質のダウンミックス信号を提供し、これは、階層化したテレビ会議システムを実施するのに有益である。

実施形態の組み合わせおよび適用背景
上記で考察した実施形態およびその変形例はすべて、そのどのような組み合わせて実施されてもよく、異なる部／実施形態で言及されるが同じまたは同様の機能を有する構成要素は、同じまたは別々の構成要素として実装されてよい。

例えば、モノラル成分のＰＬＣに対する第１の補償部４００の異なる実施形態および変形例は、空間成分のＰＬＣに対する第２の補償部６００および第２の変換器１０００の異なる実施形態および変形例とランダムに組み合わされてよい。また、図９Ａおよび図９Ｂでは、主要なモノラル成分と重要性の低いモノラル成分との両方の非予測ＰＬＣに対する主補償部４０８の異なる実施形態および変形例は、重要性の低いモノラル成分の予測ＰＬＣに対する予測パラメータ計算器４１２、第３の補償部４１４、予測復号化器４１０および調整部４１６の異なる実施形態および変形例とランダムに組み合わされてよい。

上記で考察したように、パケット損失は、送信元通信端末からサーバ（ある場合）までの経路、かつそこから送信先通信端末までの経路のどこにでも発生し得る。したがって、本明細書が提案するＰＬＣ装置は、サーバまたは通信端末のいずれかに適用されてよい。図１２に示したようなサーバに適用される場合、パケット損失を補償された音声信号は、パケット化部９００によって再びパケット化されて送信先通信端末に伝送されてよい。同時に会話するユーザが複数いる場合（これは音声区間検出（ＶＡＤ）技術を用いて判断できる）、複数ユーザのスピーチ信号を送信先通信端末に伝送する前に、ミキサ８００でミキシング動作を行ってスピーチ信号の複数のストリームを１つに混合する必要がある。これは、ＰＬＣ装置のＰＬＣ動作の後に行われてよいが、パケット化部９００のパケット化動作の前に行われる。

図１３に示したような通信端末に適用される場合、作成されたフレームを中間出力形式の空間音声信号に変換するために、第２の逆変換器７００Ａを設けてよい。あるいは、図１４に示したように、作成されたフレームをバイノーラル音声信号などの時間領域内の空間音声信号に復号化するために、第２の復号化器７００Ｂを設けてよい。図１２～図１４にある他の要素は図３と同じであるため、その詳細な説明は省略する。

したがって、本明細書は、音声通信システムのような音声処理システムも提供し、同システムは、上記で考察したようなパケット損失補償装置を備えるサーバ（音声会議のミキシングサーバなど）および／または上記で考察したようなパケット損失補償装置を備える通信端末を備える。

図１２～図１４に示したようなサーバおよび通信端末は、送信先側または復号化側にあることがわかり得る。なぜなら提供したようなＰＬＣ装置は、（サーバおよび送信先通信端末を含めた）送信先に到達する前に起きたパケット損失を補償するためのものだからである。逆に、図１１を参照して考察したような第２の変換器１０００は、送信元側または符号化側の送信元通信端末またはサーバのいずれかに使用されるようになっている。

したがって、上記で考察した音声処理システムは、送信元通信端末としての通信端末をさらに備えていてよく、この通信端末は、入力形式の空間音声信号を伝送形式のフレームに変換するための第２の変換器１０００を備え、各フレームは、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含んでいる。

本明細書の発明を実施するための形態の冒頭で考察したように、本明細書の実施形態は、ハードウェアまたはソフトウェアのいずれか、あるいはこの両方で実現されてよい。図１５は、本明細書の態様を実施するための例示的なシステムを示すブロック図である。

図１５では、中央処理装置（ＣＰＵ）８０１が、読み出し専用メモリ（ＲＯＭ）８０２に記憶されたプログラムまたは記憶セクション８０８からランダムアクセスメモリ（ＲＡＭ）８０３へロードされたプログラムに従って、様々なプロセスを実施する。ＲＡＭ８０３では、ＣＰＵ８０１が様々なプロセスを実施する場合などに必要とされるデータも必要に応じて記憶される。

ＣＰＵ８０１、ＲＯＭ８０２およびＲＡＭ８０３は、バス８０４を介して互いに接続している。入力／出力インターフェース８０５もバス８０４に接続している。
以下の要素は、入力／出力インターフェース８０５に接続している：キーボード、マウスなどを含む入力セクション８０６；陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などのディスプレイ、および拡声器などを含む出力セクション８０７；ハードディスクなどを含む記憶セクション８０８；ならびに、ＬＡＮカード、モデムなどのネットワークインターフェースカードを含む通信セクション８０９。通信セクション８０９は、インターネットなどのネットワークを介して通信プロセスを実施する。

ドライブ８１０も必要に応じて入力／出力インターフェース８０５に接続される。磁気ディスク、光学ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体８１１が必要に応じてドライブ８１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて位記憶セクション８０８にインストールされる。

前述した構成要素がソフトウェアによって実施される場合、ソフトウェアを構成するプログラムは、インターネットなどのネットワークまたはリムーバブル媒体８１１などの記憶媒体からインストールされる。

パケット損失補償方法
上記の実施形態のパケット損失補償装置を説明する過程において、いくつかのプロセスまたは方法も明らかに開示する。以下では、これらの方法の要約を、上記ですでに考察した詳細の一部を繰り返さずに記載するが、同方法は、パケット損失補償装置を説明する過程で開示されているが、同方法は、記載したような構成要素を必ずしも採用する必要はなく、あるいは、必ずしもそのような構成要素によって実行される必要はないことに注意すべきである。例えば、パケット損失補償装置の実施形態は、ハードウェアおよび／またはファームウェアを用いて部分的または完全に実現されてよく、以下で考察するパケット損失補償方法も、コンピュータで実行可能なプログラムによって全面的に実現されてよい可能性があるが、本方法は、パケット損失補償装置のハードウェアおよび／またはファームウェアを採用してもよい。

本明細書の一実施形態によれば、音声パケットのストリーム中のパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含むパケット損失補償方法が提供される。本明細書では、音声フレーム内の異なる成分に対して異なるＰＬＣを行うことが提案される。つまり、損失パケット中の損失フレームの場合、損失フレームに対して少なくとも１つのモノラル成分を作成するための１つの動作、および、損失フレームに対して少なくとも１つの空間成分を作成するためのもう１つの動作を実行する。ここで、２つの動作は、必ずしも同じ損失フレームに対して同時に実行される必要はないことに注意されたい。

（伝送形式の）音声フレームは、適応変換に基づいて符号化されていてよく、この適応変換は、伝送中に音声信号（ＬＲＳ信号またはアンビソニックスＢ形式（ＷＸＹ）信号などの入力形式で）をモノラル成分および空間成分に変換できる。適応変換の一例がパラメータによる固有分解であり、モノラル成分は、少なくとも１つの固有チャネル成分を含んでいてよく、空間成分は、少なくとも１つの空間パラメータを含んでいてよい。適応変換のその他の例には、主成分分析（ＰＣＡ）などがあってよい。パラメータによる固有分解について、一例がＫＬＴ符号化であり、この符号化で、固有チャネル成分としての複数の回転音声信号、および複数の空間パラメータを得ることができる。一般に、空間パラメータは、入力形式の音声信号を伝送形式の音声フレームに変換するため、例えば、アンビソニックスＢ形式の音声信号を複数の回転音声信号に変換するために、変換行列から導き出される。

空間音声信号の場合、空間パラメータの連続性は極めて重要である。したがって、損失フレームを補償するために、損失フレームに対する少なくとも１つの空間成分を、（１つまたは複数の）過去フレームおよび／または（１つまたは複数の）未来フレームなどの（１つまたは複数の）隣接フレームの少なくとも１つの空間成分の値を平滑化することによって作成できる。もう１つの方法は、損失フレームに対する少なくとも１つの空間成分を、少なくとも１つの隣接の過去フレームおよび少なくとも１つの隣接の未来フレーム内の対応する空間成分の値に基づく補間アルゴリズムを介して作成するというものである。複数の連続するフレームがある場合、全損失フレームを単一の補間動作を介して作成できる。このほか、さらに簡易な方法が、最後のフレーム内の対応する空間成分を複製することによって、損失フレームに対する少なくとも１つの空間成分を作成するというものである。最後の事例では、空間パラメータの安定性を実現するために、空間パラメータ自体を直接平滑化するか、空間パラメータを導くのに使用される共分散行列などの変換行列（の要素）を平滑化して、空間パラメータを符号化側で事前に平滑化できる。

モノラル成分の場合、損失フレームが補償されるようになっていれば、隣接フレーム内の対応するモノラル成分を複製することによってモノラル成分を作成できる。ここで、隣接フレームとは、直近または（１つまたは複数の）他のフレームを間に挟んでいる過去フレームまたは未来フレームを意味する。変形例では、減衰係数を用いてよい。適用背景によっては、損失フレームに対していくつかのモノラル成分を作成できず、単に少なくとも１つのモノラル成分だけが複製によって作成されることがある。具体的には、固有チャネル成分（回転した音声信号）などのモノラル成分は、１つの主要モノラル成分と、異なるが重要性の低いいくつかの他のモノラル成分を備えていてよい。そのため、主要モノラル成分または最初の２つの重要なモノラル成分のみを複製できるが、これに限定されない。

複数の連続するフレームが損失している損失パケットなどは、複数の音声フレームを含んでいるか、複数のパケットが損失している可能性がある。このような背景では、減衰係数を用いるか又は用いずに、隣接した過去フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの前の方の損失フレームに対して少なくとも１つのモノラル成分を作成し、減衰係数を用いるか又は用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの後の方の損失フレームに対して少なくとも１つのモノラル成分を作成することが合理的である。つまり、損失フレームのうち、前の方の（１つまたは複数の）フレームに対するモノラル成分は、過去フレームを複製して作成され、後の方の（１つまたは複数の）フレームに対するモノラル成分は、未来フレームを複製して作成されるということである。

直接の複製に加えて、もう１つの実施形態では、時間領域内の損失したモノラル成分の補償を行うことが提案される。まず、損失フレームよりも前の少なくとも１つの過去フレームにある少なくとも１つのモノラル成分を時間領域信号に変換し、その後、その時間領域信号に対してパケット損失を補償することにより、パケット損失を補償した時間領域信号が生じる。最後に、パケット損失を補償した時間領域信号を少なくとも１つのモノラル成分の形式に変換して、損失フレーム内の少なくとも１つのモノラル成分に対応して作成されたモノラル成分が生じることができる。ここで、音声フレーム内のモノラル成分が、重複していない枠組で復号化される場合は、最後のフレーム内のモノラル成分のみを時間領域に変換すれば十分である。音声フレーム内のモノラル成分が、ＭＤＣＴ変換などの重複している枠組で符号化される場合は、少なくとも２つの直前のフレームを時間領域に変換することが好ましい。

このようにする代わりに、さらに多くの連続する損失フレームがあれば、さらに効率的な双方向の手法で、時間領域ＰＬＣでいくつかの損失フレームを補償し、周波数領域内でいくつかの損失フレームを補償できる。一例が、前の方の損失フレームが時間領域ＰＬＣで補償され、後の方の損失フレームが単純な複製によって、つまり、隣接した（１つまたは複数の）未来フレーム内の対応するモノラル成分を複製することによって補償されるというものである。複製には、減衰係数を用いても用いなくてもよい。

符号化率およびビットレート率を向上させるため、パラメータ符号化／予測符号化を採用してよく、この場合、音声ストリーム内の各音声フレームは、空間パラメータおよび少なくとも１つのモノラル成分（一般には主要モノラル成分）のほかに、フレーム内の少なくとも１つのモノラル成分に基づいて、そのフレームに対する少なくとも１つの他のモノラル成分を予測するのに使用される少なくとも１つの予測パラメータをさらに含む。このような音声ストリームの場合、（１つまたは複数の）予測パラメータに対してもＰＬＣを実行してよい。図１６に示したように、損失フレームの場合、伝送されるはずである少なくとも１つのモノラル成分（一般には主要モノラル成分）は、時間領域ＰＬＣ、双方向ＰＬＣまたは減衰係数を用いるか用いない複製などを含む、既存の任意の方法または上記で考察したような方法を介して作成される（動作１６０２）。これに加えて、主要モノラル成分に基づいて（１つまたは複数の）他のモノラル成分（一般には重要性の低い（１つまたは複数の）モノラル成分）を予測するための（１つまたは複数の）予測パラメータを作成できる（動作１６０４）。

予測パラメータの作成は、空間パラメータの作成と同様の方法で、例えば、減衰係数を用いるか用いずに、最後のフレーム内の対応する予測パラメータを複製して、あるいは（１つまたは複数の）隣接フレームの対応する予測パラメータの値を平滑化して、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって実施できる。独立符号化した音声ストリーム（図１８～図２１）に対する予測ＰＬＣの場合、作成動作は同様に実施されてよい。

作成された主要モノラル成分および予測パラメータを用いて、それに基づいて他のモノラル成分を予測でき（動作１６０８）、作成された主要モノラル成分および（空間パラメータとともに）予測された他の（１つまたは複数の）モノラル成分は、作成されたフレーム補償パケット／フレーム損失（created frame concealment the packet/frame loss）を構成する。ただし、予測動作１６０８は、必ずしも作成動作１６０２および１６０４の直後に実施される必要はない。サーバ内で、ミキシングが必要ではない場合、作成された主要モノラル成分および作成された予測パラメータは送信先通信端末に直接転送されてよく、その場合、予測動作１６０８および（１つまたは複数の）さらに他の動作が実施される。

予測ＰＬＣにおける予測動作は、（予測ＰＬＣが非予測／独立符号化された音声ストリームに対して実施されたとしても）予測符号化における予測動作と同様である。つまり、損失フレームの少なくとも１つの他のモノラル成分は、減衰係数を用いるか又は用いずに作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分およびその無相関バージョンに基づいて予測されてよい。一例として、損失フレームに対して作成された１つのモノラル成分に対応する過去フレーム内のモノラル成分は、作成された１つのモノラル成分の無相関バージョンとみなしてよい。独立符号化された音声ストリームに対する予測ＰＬＣの場合（図１８～図２１）、予測動作は同様に実施されてよい。

予測ＰＬＣは、非予測／独立符号化された音声ストリームに適用されてもよく、この場合、各音声フレームは、少なくとも２つのモノラル成分、一般には主要モノラル成分および少なくとも１つの重要性の低いモノラル成分を備えている。予測ＰＬＣでは、上記で考察したような予測符号化と同様の方法を用いて、重要性の低いモノラル成分を、損失フレームを補償するためにすでに作成された主要モノラル成分に基づいて予測する。独立符号化された音声ストリームの場合はＰＬＣ内にあるため、利用可能な予測パラメータがなく、現在フレームから計算することはできない（現在フレームは損失していて作成／復元される必要があるため）。したがって、予測パラメータは、過去フレームから導き出されてよく、その過去フレームが正常に伝送されたか、ＰＬＣのために作成／復元されたかは問題ではない。次に、図１７に示したような１つの実施形態では、少なくとも１つのモノラル成分を作成することは、損失フレームに対する少なくとも２つのモノラル成分の一方を作成すること（動作１６０２）と、過去フレームを用いて損失フレームに対する少なくとも１つの予測パラメータを計算すること（動作１６０６）と、作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、損失フレームの少なくとも２つのモノラル成分の少なくとも１つのもう一方のモノラル成分を予測すること（動作１６０８）とを含む。

独立して符号化された音声ストリームの場合、各損失フレームに対して予測ＰＬＣが常に実施されれば、特に損失パケットが比較的多いときは効率が低くなることがある。このような背景では、独立して符号化された音声ストリームに対する予測ＰＬＣと、予測して符号化された音声ストリームに対する通常のＰＬＣとを組み合わせてよい。つまり、前の方の損失フレームに対して予測パラメータが計算されてしまえば、それに続く損失フレームは、上記で考察したような通常のＰＬＣ動作、例えば複製、平滑化、補間などを介して、計算された予測パラメータを利用できる。

そのため、図１８に示したように、複数の連続する損失フレームの場合、第１の損失フレームに関しては（動作１６０３の「Ｙ」）、次に、（正常に伝送された）最後のフレームに基づいて予測パラメータが計算され（動作１６０６）、他のモノラル成分を予測するのに使用される（動作１６０８）。第２の損失フレームから始まって、第１の損失フレームに対して計算された予測パラメータを使用して（図１８の破線矢印を参照）通常のＰＬＣを実施して予測計器を作成できる（動作１６０４）。

さらに一般的には、適応型のＰＬＣ方法を提案でき、この方法は、予測符号化の枠組または非予測／独立符号化の枠組のいずれかに適応して使用できるものである。独立符号化の枠組での第１の損失フレームの場合、予測ＰＬＣが実行されるが、独立符号化の枠組でのそれに続く（１つまたは複数の）損失フレームに対して、または予測符号化の枠組に対しては、通常のＰＬＣが実行される。具体的には、図１９に示したように、どの損失フレームに対しても、主要モノラル成分などの少なくとも１つのモノラル成分は、上記で考察したどのＰＬＣ手法で作成されてもよい（動作１６０２）。他の一般的に重要性の低いモノラル成分の場合、異なる方法で作成／復元されてよい。少なくとも１つの予測パラメータが損失フレーム以前の最後のフレームに含まれている場合（動作１６０１の「予測符号化」の分岐）、あるいは少なくとも１つの予測パラメータが損失フレーム以前の最後のフレームに対して計算されている場合（最後のフレームも損失フレームだが、その予測パラメータは動作１６０６で計算されているということ）、あるいは少なくとも１つの予測パラメータが損失フレーム以前の最後のフレームに対して作成されている場合（最後のフレームも損失フレームだが、その予測パラメータは動作１６０４で作成されているということ）、現在の損失フレームに対する少なくとも１つの予測パラメータは、最後のフレームに対する少なくとも１つの予測パラメータに基づいて、通常のＰＬＣ手法を介して作成されてよい（動作１６０４）。その場合、損失フレーム以前の最後のフレームに予測パラメータが含まれておらず（動作１６０１の「非予測符号化」の分岐）、かつ、損失フレーム以前の最後のフレームに対して作成され／計算された予測パラメータがない場合のみに、つまり、損失フレームが、複数の連続する損失フレームのうちの第１の損失フレームである場合に（動作１６０３における「Ｙ」）、損失フレームに対して少なくとも１つの予測パラメータを以前のフレームを用いて計算できる（動作１６０６）。次に、損失フレーム少なくとも２つのモノラル成分の少なくとも１つのもう一方のモノラル成分は、（動作１６０６から）計算された少なくとも１つの予測パラメータまたは（動作１６０４から）作成された少なくとも１つの予測パラメータを用いて、（動作１６０２から）作成された１つのモノラル成分に基づいて予測されてよい（動作１６０８）。

変形例では、独立符号化された音声ストリームに対して、予測ＰＬＣを通常のＰＬＣと組み合わせて、結果をさらにランダムにしてパケット損失を補償した音声ストリームの音をより自然にできる。次に、図２０に示したように（図１８に相当）、予測動作１６０８と作成動作１６０９とが両方実行され、その結果が組み合わされて（動作１６１２）最終結果を得る。組み合わせ動作１６１２は、任意の方法で１つを残りに調整する動作であるとみなしてよい。例として、調整動作は、予測された少なくとも１つのもう一方のモノラル成分と、作成された少なくとも１つのもう一方のモノラル成分との重み付き平均値を、少なくとも１つのもう一方のモノラル成分の最終結果として計算することを含んでいてよい。重み係数は、予測結果と作成結果のいずれが優勢であるかを判断し、具体的な適用背景に応じて算出されてよい。図１９を参照して説明した実施形態の場合、図２１に示したように組み合わせ動作１６１２を追加してもよく、詳細な説明はここでは省略する。実際、図１７に示した解決法に対して、組み合わせ動作１６１２も可能だが、これは図示していない。

（１つまたは複数の）予測パラメータの計算は、予測／パラメータ符号化プロセスと同様である。予測符号化プロセスでは、現在フレームの（１つまたは複数の）予測パラメータは、同じフレームの最初に回転した音声信号（Ｅ１）（主要モノラル成分）と、少なくとも２番目に回転した音声信号（Ｅ２）（少なくとも１つの重要性の低いモノラル成分）とに基づいて計算されてよい（式（１９）および（２０））。具体的には、予測パラメータは、２番目に回転した音声信号（Ｅ２）（少なくとも１つの重要性の低いモノラル成分）と、２番目に回転した音声信号（Ｅ２）の相関成分との予測残差の平均二乗誤差が小さくなるように算出されてよい。予測パラメータは、エネルギー調整利得をさらに含んでいてよく、このエネルギー調整利得は、予測残差の振幅と、最初に回転した音声信号（Ｅ１）（主要モノラル成分）の振幅との比に基づいて計算されてよい。変形例では、この計算は、予測残差の二乗平均平方根と、最初に回転した音声信号（Ｅ１）の二乗平均平方根との比に基づいていてよい（主要モノラル成分）（（式（２１）および（２２））。計算したエネルギー調整利得の急激な変動を避けるため、ダッカー調整動作を適用でき、この動作には、最初に回転した音声信号（Ｅ１）（主要モノラル成分）に基づいて無相関信号を算出すること、無相関信号のエネルギーの第２の指標および最初に回転した音声信号（Ｅ１）（主要モノラル成分）のエネルギー第１の指標を算出すること、第２の指標が第１の指標よりも大きい場合に、無相関信号に基づいてエネルギー調整利得を算出すること（式（２６）～（３７））、などがある。

予測ＰＬＣでは、（１つまたは複数の）予測パラメータの計算も同様であり、相違点は現在フレーム（損失フレーム）にあり、（１つまたは複数の）予測パラメータは、（１つまたは複数の）以前のフレームに基づいて計算される。換言すれば、（１つまたは複数の）予測パラメータは、損失フレーム以前の最後のフレームに対して計算され、その後、損失フレームを補償するために使用される。

したがって、予測ＰＬＣでは、損失フレームに対する少なくとも１つの予測パラメータは、損失フレームに対して作成された１つのモノラル成分に対応する、損失フレーム以前の最後のフレームにあるモノラル成分と、損失フレームに対して予測されることになっているモノラル成分に対応する最後のフレーム内のモノラル成分とに基づいて計算されてよい（式（９））。具体的には、損失フレームに対する少なくとも１つの予測パラメータは、損失フレームに対して予測されることになっているモノラル成分に対応する最後のフレーム内のモノラル成分と、その相関成分との予測残差の平均二乗誤差が小さくなるように算出されてよい。

少なくとも１つの予測パラメータは、エネルギー調整利得をさらに含んでいてよく、このエネルギー調整利得は、予測残差の振幅と、損失フレームに対して作成された１つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分の振幅との比に基づいて計算されてよい。変形例では、第２のエネルギー調整利得は、予測残差の二乗平均平方根と、損失フレームに対して作成された１つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分の二乗平均平方根との比に基づいて計算されてよい（式（１０））。

エネルギー調整利得が急激に変動しないようにするために、ダッカーアルゴリズムを実施してもよい（式（１１）および（１２））。つまり、損失フレームに対して作成された１つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分に基づいて無相関信号を算出すること、無相関信号のエネルギーの第２の指標と、損失フレームに対して作成された１つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分のエネルギーの第１の指標とを算出すること、および第２の指標が第１の指標よりも大きい場合に、無相関信号に基づいて第２のエネルギー調整利得を算出すること、などである。

ＰＬＣの後、損失パケットに代わるために新たなパケットが作成されている。次に、正常に伝送された音声パケットと一緒に、作成されたパケットは、逆適応変換を受けて、ＷＸＹ信号などの逆変換された音場信号に変換されてよい。逆適応変換の一例が、逆Ｋａｒｈｕｎｅｎ－Ｌｏeｖｅ（ＫＬＴ）変換であってよい。

パケット損失補償装置の実施形態と同様に、ＰＬＣ方法の実施形態とその変形形態をどのように組み合わせたものでも可能である。
本明細書に記載した方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてよい。特定の要素は、例えば、デジタルシグナルプロセッサまたはマイクロプロセッサ上で稼働するソフトウェアとして実装されてよい。その他の要素は、例えば、ハードウェアとして、および／または特定用途向け集積回路として実装されてもよい。記載した方法およびシステムにみられる信号は、ランダムアクセスメモリまたは光学記憶媒体などの媒体に記憶されてよい。信号は、ラジオネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、例えばインターネットなどのネットワークを介して伝送されてよい。本明細書に記載した方法およびシステムを利用した典型的な装置は、携帯型電子機器または音声信号を記憶し、かつ／またはレンダリングするのに使用されるその他の民生機器である。

本明細書で使用した用語は、特定の実施形態を説明することのみを目的としており、本明細書を限定する意図はない点に注意されたい。本明細書で使用したように、単数形の「ａ（１つの）」、「ａｎ（１つの）」および「ｔｈｅ（その）」は、本文で特に別途明記しない限り、複数形も含むことを意図している。「ｃｏｍｐｒｉｓｅｓ（含む）」および／または「ｃｏｍｐｒｉｓｉｎｇ（含んでいる）」という用語は、本明細書で使用されている場合、記載されている特徴、完全性、ステップ、動作、要素、および／または構成要素の存在を特定するものだが、１つ以上の他の特徴、完全性、ステップ、動作、要素、および／または構成要素、および／またはその群の存在あるいはその追加を排除するものではないこともさらに理解されるであろう。

対応する構造、材料、行為、およびあらゆる手段またはステップの均等物のほか、以下の特許請求の範囲にある機能要素は、その機能を実施するためのあらゆる構造、材料、または行為を、具体的に特許請求したその他の請求項要素と合わせて含むことを意図している。本明細書の記載は、説明および記載を目的として提示したものであり、開示した形態での適用に徹底したり限定したりすることを意図するものではない。本明細書および趣旨を逸脱しない限り、当業者には多くの修正および変形形態が明らかであろう。実施形態は、本明細書の原理および実用的な応用を最良の形で説明するため、かつ、構想された特定の使用法に適した様々な修正を加えた様々な実施形態に対する適用を当業者が理解できるようにするために選定され記載されている。
以下に、上記各実施形態から把握できる技術思想を記載する。
（付記１）
音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償装置であって、各音声パケットが、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含む、前記パケット損失補償装置において、
損失パケットの損失フレームに対して前記少なくとも１つのモノラル成分を作成するための第１の補償部と、
前記損失フレームに対して少なくとも１つの空間成分を作成するための第２の補償部とを備えるパケット損失補償装置。
（付記２）
前記音声フレームは、適応直交変換に基づいて符号化されている、付記１に記載のパケット損失補償装置。
（付記３）
前記音声フレームは、パラメータによる固有分解に基づいて符号化され、
前記少なくとも１つのモノラル成分は、少なくとも１つの固有チャネル成分を含み、
前記少なくとも１つの空間成分は、少なくとも１つの空間パラメータを含む、付記１に記載のパケット損失補償装置。
（付記４）
前記第１の補償部は、減衰係数を用いるか又は用いずに、隣接フレーム内の対応するモノラル成分を複製することによって、前記損失フレームに対して前記少なくとも１つのモノラル成分を作成するように構成される、付記１～３のうちいずれか一項に記載のパケット損失補償装置。
（付記５）
少なくとも２つの連続するフレームが損失しており、
前記第１の補償部は、減衰係数を用いるか又は用いずに、隣接した過去フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの前の方の損失フレームに対して前記少なくとも１つのモノラル成分を作成し、減衰係数を用いるか用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの後の方の損失フレームに対して前記少なくとも１つのモノラル成分を作成するように構成される、付記１～４のうちいずれか一項に記載のパケット損失補償装置。
（付記６）
前記第１の補償部は、
前記損失フレームよりも前の少なくとも１つの過去フレームにある前記少なくとも１つのモノラル成分を時間領域信号に変換するための第１の変換器と、
前記時間領域信号に関する前記パケット損失を補償して、パケット損失を補償した時間領域信号にするための時間領域補償部と、
前記パケット損失を補償した時間領域信号を前記少なくとも１つのモノラル成分の形式に変換して、前記損失フレーム内の前記少なくとも１つのモノラル成分に対応する作成後のモノラル成分にするための第１の逆変換器とを含む、付記１に記載のパケット損失補償装置。
（付記７）
少なくとも２つの連続するフレームが損失しており、
前記第１の補償部は、減衰係数を用いるか又は用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの後の方の損失フレームに対して前記少なくとも１つのモノラル成分を作成するようにさらに構成される、付記６に記載のパケット損失補償装置。
（付記８）
各音声フレームは、前記音声フレーム内の前記少なくとも１つのモノラル成分、前記音声フレーム内の少なくとも１つの他のモノラル成分に基づいて、予測するために使用される少なくとも１つの予測パラメータをさらに備え、
前記第１の補償部は、
前記損失フレームに対して前記少なくとも１つのモノラル成分を作成するための主補償部と、
前記損失フレームに対して前記少なくとも１つの予測パラメータを作成するための第３の補償部とを含む、付記１～７のうちいずれか一項に記載のパケット損失補償装置。
（付記９）
前記第３の補償部は、減衰係数を用いるか又は用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは１つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも１つの予測パラメータを作成するように構成される、付記８に記載のパケット損失補償装置。
（付記１０）
作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、前記損失フレームに対する前記少なくとも１つの他のモノラル成分を予測するための予測復号化器をさらに備える、付記８に記載のパケット損失補償装置。
（付記１１）
前記予測復号化器は、減衰係数を用いるか又は用いずに、作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分およびその無相関バージョンに基づいて、前記損失フレームに対する前記少なくとも１つの他のモノラル成分を予測するように構成される、付記１０に記載のパケット損失補償装置。
（付記１２）
前記予測復号化器は、前記損失フレームに対する作成された１つのモノラル成分に対応する過去フレーム内の前記モノラル成分を、作成された１つのモノラル成分の前記無相関バージョンとして取り込むように構成される、付記１１に記載のパケット損失補償装置。
（付記１３）
各音声フレームは、少なくとも２つのモノラル成分を含み、
前記第１の補償部は、
前記損失フレームに対して前記少なくとも２つのモノラル成分のうちの１つを作成するための主補償部と、
過去フレームを用いて前記損失フレームに対する少なくとも１つの予測パラメータを計算するための予測パラメータ計算器と、
作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、前記損失フレームの前記少なくとも２つのモノラル成分の少なくとも１つのもう一方のモノラル成分を予測するための予測復号化器とを含む、付記１～７のうちいずれか一項に記載のパケット損失補償装置。
（付記１４）
前記第１の補償部は、
少なくとも１つの予測パラメータが、前記損失フレーム以前の最後のフレームに含まれるか該最後のフレームに対して作成および計算のうちのいずれか一方を実施されている場合、前記最後のフレームに対する前記少なくとも１つの予測パラメータに基づいて、前記損失フレームに対する前記少なくとも１つの予測パラメータを作成するための第３の補償部をさらに備え、
前記予測パラメータ計算器は、予測パラメータが含まれていないか、あるいは前記損失フレーム以前の最後のフレームに対して作成および計算のうちのいずれか一方を実施されていない場合に、前記以前のフレームを用いて前記損失フレームに対する前記少なくとも１つの予測パラメータを計算するように構成され、
前記予測復号化器は、計算または作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、前記損失フレームの少なくとも２つのモノラル成分のうちの少なくとも１つのもう一方のモノラル成分を予測するように構成される、付記１３に記載のパケット損失補償装置。
（付記１５）
前記主補償部は、前記少なくとも１つのもう一方のモノラル成分を作成するようにさらに構成され、
前記第１の補償部は、前記予測復号化器によって予測された前記少なくとも１つのもう一方のモノラル成分を、前記主補償部によって作成された前記少なくとも１つのもう一方のモノラル成分と調整するための調整部をさらに含む、付記１３に記載のパケット損失補償装置。
（付記１６）
前記調整部は、前記予測復号化器によって予測された前記少なくとも１つのもう一方のモノラル成分と、前記主補償部によって作成された前記少なくとも１つのもう一方のモノラル成分との重み付き平均値を、前記少なくとも１つのもう一方のモノラル成分の最終結果として計算するように構成される、付記１５に記載のパケット損失補償装置。
（付記１７）
前記第３の補償部は、減衰係数を用いるか又は用いずに、前記最後のフレーム内の対応する予測パラメータを複製することによって、あるいは１つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも１つの予測パラメータを作成するように構成される、付記１４に記載のパケット損失補償装置。
（付記１８）
前記予測復号化器は、減衰係数を用いるか又は用いずに、作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分およびその無相関バージョンに基づいて、前記損失フレームの前記少なくとも１つのもう一方のモノラル成分を予測するように構成される、付記１３に記載のパケット損失補償装置。
（付記１９）
前記予測復号化器は、前記損失フレームに対する作成された１つのモノラル成分に対応する過去フレーム内の前記モノラル成分を、作成された１つのモノラル成分の前記無相関バージョンとして取り込むように構成される、付記１８に記載のパケット損失補償装置。
（付記２０）
前記予測パラメータ計算器は、前記損失フレームに対して作成された１つのモノラル成分に対応する前記損失フレーム以前の最後のフレーム内の前記モノラル成分と、前記損失フレームに対して予測されることになっている前記モノラル成分に対応する前記最後のフレーム内の前記モノラル成分とに基づいて、前記損失フレームに対する前記少なくとも１つの予測パラメータを計算するように構成される、付記１３に記載のパケット損失補償装置。
（付記２１）
前記予測パラメータ計算器は、前記損失フレームに対して予測されることになっている前記モノラル成分に対応する前記最後のフレーム内の前記モノラル成分と、その相関成分との予測残差の平均二乗誤差が小さくなるように、前記損失フレームに対する前記少なくとも１つの予測パラメータを計算するように構成される、付記２０に記載のパケット損失補償装置。
（付記２２）
前記少なくとも１つの予測パラメータは、エネルギー調整利得を含み、
前記予測パラメータ計算器は、予測残差の振幅と、前記損失フレームに対して作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分の振幅との比に基づいて前記エネルギー調整利得を計算するように構成される、付記２１に記載のパケット損失補償装置。
（付記２３）
前記予測パラメータ計算器は、前記予測残差の二乗平均平方根と、前記損失フレームに対して前記作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分の二乗平均平方根との比に基づいて前記エネルギー調整利得を計算するように構成される、付記２２に記載のパケット損失補償装置。
（付記２４）
前記少なくとも１つの予測パラメータは、エネルギー調整利得を含み、
前記予測パラメータ計算器は、
前記損失フレームに対して作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分に基づいて無相関信号を算出し、
前記無相関信号のエネルギーの第２の指標と、前記損失フレームに対して作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分のエネルギーの第１の指標とを算出し、
前記第２の指標が前記第１の指標よりも大きい場合に、前記無相関信号に基づいて前記エネルギー調整利得を算出するように構成される、付記２０に記載のパケット損失補償装置。
（付記２５）
前記第２の補償部は、１つまたは複数の隣接フレームの前記少なくとも１つの空間成分の値を平滑化することによって、前記損失フレームに対して前記少なくとも１つの空間成分を作成するように構成される、付記１に記載のパケット損失補償装置。
（付記２６）
前記第２の補償部は、少なくとも１つの隣接した過去フレームおよび少なくとも１つの隣接した未来フレーム内の対応する空間成分の値に基づいて、補間アルゴリズムを介して前記損失フレームに対する前記少なくとも１つの空間成分を作成するように構成される、付記１に記載のパケット損失補償装置。
（付記２７）
少なくとも２つの連続するフレームが損失しており、
前記第２の補償部は、少なくとも１つの隣接した過去フレームおよび少なくとも１つの隣接した未来フレーム内の対応する空間成分の値に基づいて、前記損失フレームのすべてに対して前記少なくとも１つの空間成分を作成するように構成される、付記２５または２６に記載のパケット損失補償装置。
（付記２８）
前記第２の補償部は、最後のフレーム内の対応する空間成分を複製することによって、前記損失フレームに対して前記少なくとも１つの空間成分を作成するように構成される、付記１に記載のパケット損失補償装置。
（付記２９）
音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含む、前記パケット損失補償方法において、
損失パケットの損失フレームに対して前記少なくとも１つのモノラル成分を作成すること、
前記損失フレームに対して前記少なくとも１つの空間成分を作成すること、を備えるパケット損失補償方法。
（付記３０）
前記音声フレームは、適応直交変換に基づいて符号化されている、付記２９に記載のパケット損失補償方法。
（付記３１)
前記音声フレームは、パラメータによる固有分解に基づいて符号化され、
前記少なくとも１つのモノラル成分は、少なくとも１つの固有チャネル成分を含み、
前記少なくとも１つの空間成分は、少なくとも１つの空間パラメータを含む、付記２９に記載のパケット損失補償方法。
（付記３２)
前記少なくとも１つのモノラル成分を作成することは、減衰係数を用いるか又は用いずに、隣接フレーム内の対応するモノラル成分を複製することによって、前記損失フレームに対して前記少なくとも１つのモノラル成分を作成することを含む、付記２９～３１のうちいずれか一項に記載のパケット損失補償方法。
（付記３３)
少なくとも２つの連続するフレームが損失しており、前記少なくとも１つのモノラル成分を作成することは、減衰係数を用いるか又は用いずに、隣接した過去フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの前の方の損失フレームに対して前記少なくとも１つのモノラル成分を作成すること、減衰係数を用いるか用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの後の方の損失フレームに対して前記少なくとも１つのモノラル成分を作成することを含む、付記２９～３２のうちいずれか一項に記載のパケット損失補償方法。
（付記３４)
前記少なくとも１つのモノラル成分を作成することは、
前記損失フレームよりも前の少なくとも１つの過去フレームにある前記少なくとも１つのモノラル成分を時間領域信号に変換すること、
前記時間領域信号に関する前記パケット損失を補償して、パケット損失を補償した時間領域信号にすること、
前記パケット損失を補償した時間領域信号を前記少なくとも１つのモノラル成分の形式に変換して、前記損失フレーム内の前記少なくとも１つのモノラル成分に対応する作成後のモノラル成分にすることを含む、付記２９に記載のパケット損失補償方法。
（付記３５)
少なくとも２つの連続するフレームが損失しており、前記少なくとも１つのモノラル成分を作成することは、減衰係数を用いるか又は用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも１つの後の方の損失フレームに対して前記少なくとも１つのモノラル成分を作成することをさらに備える、付記３４に記載のパケット損失補償方法。
（付記３６)
各音声フレームは、前記音声フレーム内の前記少なくとも１つのモノラル成分、前記音声フレーム内の少なくとも１つの他のモノラル成分に基づいて、予測するために使用される少なくとも１つの予測パラメータをさらに備え、
前記少なくとも１つのモノラル成分を作成することは、
前記損失フレームに対して前記少なくとも１つのモノラル成分を作成すること、
前記損失フレームに対して前記少なくとも１つの予測パラメータを作成することを含む、付記２９～３５のうちいずれか一項に記載のパケット損失補償方法。
（付記３７)
前記少なくとも１つの予測パラメータを作成することは、減衰係数を用いるか又は用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは１つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも１つの予測パラメータを作成することを含む、付記３６に記載のパケット損失補償方法。
（付記３８)
作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、前記損失フレームに対する前記少なくとも１つの他のモノラル成分を予測することをさらに含む、付記３６に記載のパケット損失補償方法。
（付記３９)
予測した動作は、減衰係数を用いるか又は用いずに、作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分およびその無相関バージョンから、前記損失フレームに対する前記少なくとも１つの他のモノラル成分を予測することを含む、付記３８に記載のパケット損失補償方法。
（付記４０)
予測した動作は、前記損失フレームに対する作成された１つのモノラル成分に対応する過去フレーム内の前記モノラル成分を、作成された１つのモノラル成分の前記無相関バージョンとして取り込む、付記３９に記載のパケット損失補償方法。
（付記４１)
各音声フレームは、少なくとも２つのモノラル成分を含み、
前記少なくとも１つのモノラル成分を作成することは、前記損失フレームに対して前記少なくとも２つのモノラル成分のうちの１つを作成すること、
過去フレームを用いて前記損失フレームに対する少なくとも１つの予測パラメータを計算すること、
作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、前記損失フレームの前記少なくとも２つのモノラル成分の少なくとも１つのもう一方のモノラル成分を予測することを含む、付記２９～３５のうちいずれか一項に記載のパケット損失補償方法。
（付記４２)
前記少なくとも１つのモノラル成分を作成することは、
少なくとも１つの予測パラメータが、前記損失フレーム以前の最後のフレームに含まれるか該最後のフレームに対して作成および計算のうちのいずれか一方を実施されている場合、前記最後のフレームに対する前記少なくとも１つの予測パラメータに基づいて、前記損失フレームに対する前記少なくとも１つの予測パラメータを作成することをさらに含み、
計算動作は、予測パラメータが含まれていないか、あるいは前記損失フレーム以前の最後のフレームに対して作成および計算のうちのいずれか一方を実施されていない場合に、前記以前のフレームを用いて前記損失フレームに対する前記少なくとも１つの予測パラメータを計算することを含み、
予測動作は、前記計算または作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分に基づいて、前記損失フレームの少なくとも２つのモノラル成分のうちの少なくとも１つのもう一方のモノラル成分を予測することを含む、付記４１に記載のパケット損失補償方法。
（付記４３)
前記少なくとも１つのもう一方のモノラル成分を作成すること、
予測動作によって予測された前記少なくとも１つのもう一方のモノラル成分を、作成された少なくとも１つのもう一方のモノラル成分と調整することをさらに含む、付記４１に記載のパケット損失補償方法。
（付記４４)
調整動作は、予測された前記少なくとも１つのもう一方のモノラル成分と、作成された前記少なくとも１つのもう一方のモノラル成分との重み付き平均値を、前記少なくとも１つのもう一方のモノラル成分の最終結果として計算することを含む、付記４３に記載のパケット損失補償方法。
（付記４５)
前記少なくとも１つの予測パラメータを作成することは、減衰係数を用いるか又は用いずに、前記最後のフレーム内の対応する予測パラメータを複製することによって、あるいは１つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも１つの予測パラメータを作成することを含む、付記４２に記載のパケット損失補償方法。
（付記４６)
予測動作は、減衰係数を用いるか又は用いずに、作成された少なくとも１つの予測パラメータを用いて、作成された１つのモノラル成分およびその無相関バージョンに基づいて、前記損失フレームの前記少なくとも１つのもう一方のモノラル成分を予測することを含む、付記４１に記載のパケット損失補償方法。
（付記４７)
予測動作は、前記損失フレームに対する作成された１つのモノラル成分に対応する過去フレーム内のモノラル成分を、作成された１つのモノラル成分の前記無相関バージョンとして取り込む、付記４６に記載のパケット損失補償方法。
（付記４８)
計算動作は、前記損失フレームに対して作成された１つのモノラル成分に対応する前記損失フレーム以前の最後のフレーム内のモノラル成分と、前記損失フレームに対して予測されることになっている前記モノラル成分に対応する前記最後のフレーム内のモノラル成分とに基づいて、前記損失フレームに対する前記少なくとも１つの予測パラメータを計算することを含む、付記４１に記載のパケット損失補償方法。
（付記４９)
計算動作は、前記損失フレームに対して予測されることになっているモノラル成分に対応する前記最後のフレーム内のモノラル成分と、その相関成分との予測残差の平均二乗誤差が小さくなるように、前記損失フレームに対する前記少なくとも１つの予測パラメータを計算することを含む、付記４８に記載のパケット損失補償方法。
（付記５０)
前記少なくとも１つの予測パラメータは、エネルギー調整利得を含み、
計算動作は、予測残差の振幅と、前記損失フレームに対して作成された１つのモノラル成分に対応する、損前記失フレーム以前の最後のフレーム内のモノラル成分の振幅との比に基づいて前記エネルギー調整利得を計算することを含む、付記４９に記載のパケット損失補償方法。
（付記５１)
計算動作は、前記予測残差の二乗平均平方根と、前記損失フレームに対して作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内のモノラル成分の二乗平均平方根との比に基づいて前記エネルギー調整利得を計算することを含む、付記５０に記載のパケット損失補償方法。
（付記５２)
前記少なくとも１つの予測パラメータは、エネルギー調整利得を含み、
計算動作は、
前記損失フレームに対して作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分に基づいて無相関信号を算出すること、
前記無相関信号のエネルギーの第２の指標と、前記損失フレームに対して作成された１つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内のモノラル成分のエネルギーの第１の指標とを算出すること、
前記第２の指標が前記第１の指標よりも大きい場合に、前記無相関信号に基づいて前記エネルギー調整利得を算出することを含む、付記４８に記載のパケット損失補償方法。
（付記５３)
前記少なくとも１つの空間成分を作成することは、１つまたは複数の隣接フレームの前記少なくとも１つの空間成分の値を平滑化することによって、前記損失フレームに対して前記少なくとも１つの空間成分を作成することを含む、付記２９に記載のパケット損失補償方法。
（付記５４)
前記少なくとも１つの空間成分を作成することは、少なくとも１つの隣接した過去フレームおよび少なくとも１つの隣接した未来フレーム内の対応する空間成分の値に基づいて、補間アルゴリズムを介して前記損失フレームに対する前記少なくとも１つの空間成分を作成することを含む、付記２９に記載のパケット損失補償方法。
（付記５５)
少なくとも２つの連続するフレームが損失しており、前記少なくとも１つの空間成分を作成することは、少なくとも１つの隣接した過去フレームおよび少なくとも１つの隣接した未来フレーム内の対応する空間成分の値に基づいて、前記損失フレームのすべてに対して前記少なくとも１つの空間成分を作成することを含む、付記５３または５４に記載のパケット損失補償方法。
（付記５６)
前記少なくとも１つの空間成分を作成することは、最後のフレーム内の対応する空間成分を複製することによって、前記損失フレームに対して前記少なくとも１つの空間成分を作成することを含む、付記２９に記載のパケット損失補償方法。
（付記５７)
計算動作は、下式に基づいて前記予測パラメータを計算することを含み、

式中、ｎｏｒｍ（）はＲＭＳ（根平均二乗）演算を指し、上付き文字Ｔは転置行列を表し、ｐはフレーム数であり、ｋは周波数ビンであり、Ｅ１（ｐ－１，ｋ）は前記最後のフレーム内の主要モノラル成分であり、Ｅｍ（ｐ－１，ｋ）は、前記最後のフレーム内の重要性の低いモノラル成分であり、ｍは、前記最後のフレーム内の重要性の低いモノラル成分の連続番号であり、

は、前記損失フレームｐに対する作成された主要モノラル成分Ｅ１（ｐ，ｋ）に基づいて、前記損失フレームｐに対して重要性の低いモノラル成分Ｅｍ（ｐ，ｋ）を予測するための予測パラメータである、付記４８に記載のパケット損失補償方法。
（付記５８)
前記計算動作は、下式に基づいて前記パラメータ

を調整することを含み、

付記５７に記載のパケット損失補償方法。
（付記５９)
前記損失フレームに対する前記少なくとも１つのモノラル成分は、第１の補償方法で作成され、前記損失フレームに対する前記少なくとも１つの空間成分は、第２の補償方法で作成され、前記第１の補償方法は前記第２の補償方法とは異なる、付記２９～５８のうちいずれか一項に記載のパケット損失補償方法。
（付記６０)
前記音声パケットに対して逆適応変換を実施して逆変換した音場信号を得ることをさらに含む、付記２９～５９のうちいずれか一項に記載のパケット損失補償方法。
（付記６１)
前記逆適応変換は、逆のＫａｒｈｕｎｅｎ－Ｌｏeｖｅ変換（ＫＬＴ）を含む、付記６０に記載のパケット損失補償方法。
（付記６２)
前記予測パラメータ計算器は、下式に基づいて前記予測パラメータを計算するように構成され、

式中、ｎｏｒｍ（）はＲＭＳ（根平均二乗）演算を指し、上付き文字Ｔは転置行列を表し、ｐはフレーム数であり、ｋは周波数ビンであり、Ｅ１（ｐ－１，ｋ）は前記最後のフレーム内の主要モノラル成分であり、Ｅｍ（ｐ－１，ｋ）は、前記最後のフレーム内の重要性の低いモノラル成分であり、ｍは、前記最後のフレーム内の重要性の低いモノラル成分の連続番号であり、

は、前記損失フレームｐに対する作成された主要モノラル成分Ｅ１（ｐ，ｋ）に基づいて、前記損失フレームｐに対して重要性の低いモノラル成分Ｅｍ（ｐ，ｋ）を予測するための予測パラメータである、付記２０に記載のパケット損失補償方法。
（付記６３)
前記予測パラメータ計算器は、下式に基づいて前記パラメータ

を調整するように構成され、

付記６２に記載のパケット損失補償装置。
（付記６４)
前記第１の補償部は、第１の補償方法を用いて前記損失フレームに対する前記少なくとも１つのモノラル成分を作成するように構成され、
前記第２の補償部は、第２の補償方法を用いて前記損失フレームに対する前記少なくとも１つの空間成分を作成するように構成され、
前記第１の補償方法は前記第２の補償方法とは異なる、付記１～２８、６２および６３のうちいずれか一項に記載のパケット損失補償装置。
（付記６５)
前記音声パケットに逆適応変換を実施して逆変換した音場信号を得るための第２の逆変換器をさらに備える、付記１～２８、６２～６４のうちいずれか一項に記載のパケット損失補償装置。
（付記６６)
前記逆適応変換は、逆のＫａｒｈｕｎｅｎ－Ｌｏeｖｅ変換（ＫＬＴ）を含む、付記６５に記載のパケット損失装置。
（付記６７)
付記１～２８および６２～６６のうちいずれか一項に記載のパケット損失補償装置を備えるサーバと、付記１～２８および６２～６６のうちいずれか一項に記載のパケット損失補償装置とのうちの少なくとも一方を備える通信端末を備える音声処理システム。
（付記６８)
入力音声信号に適応変換を実施して前記少なくとも１つのモノラル成分および前記少なくとも１つの空間成分を抽出するための第２の変換器を備える通信端末をさらに備える、付記６７に記載の音声処理システム。
（付記６９)
前記適応変換は、Ｋａｒｈｕｎｅｎ－Ｌｏeｖｅ変換（ＫＬＴ）を含む、付記６８に記載の音声処理システム。
（付記７０)
前記第２の変換器は、
前記入力音声信号の各フレームを前記少なくとも１つのモノラル成分に分解するための適応変換器であって、該モノラル成分は、変換行列を介して前記入力音声信号の前記フレームと関連付けられる、前記適応変換器と、
前記変換行列の各成分の値を平滑化して、現在フレームに対する平滑化した変換行列にする平滑化部と、
前記平滑化した変換行列から前記少なくとも１つの空間成分を導き出すための空間成分抽出器とをさらに備える、付記６８に記載の音声処理システム。
（付記７１)
コンピュータプログラム命令が記録されているコンピュータ可読媒体であって、
プロセッサによって実行されると、前記コンピュータプログラム命令により前記プロセッサが音声パケットのストリーム内のパケット損失を補償するためのパケット損失補償方法を実行でき、
各音声パケットが、少なくとも１つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含み、
前記パケット損失補償方法が、
損失パケット内の損失フレームに対して前記少なくとも１つのモノラル成分を作成すること、
前記損失フレームに対して前記少なくとも１つの空間成分を作成することを備える、コンピュータ可読媒体。

Claims

音声パケットのストリーム内でパケット損失を補償するパケット損失補償装置であって、各音声パケットが、少なくとも２つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含み、
前記パケット損失補償装置は、
損失パケットの損失フレームに対して前記少なくとも２つのモノラル成分を作成する第１の補償部と、
１つまたは複数の隣接フレームのうちの最後のフレーム内の対応する空間成分を複製することにより、または少なくとも１つの隣接の過去フレーム及び少なくとも１つの隣接の未来フレーム内の対応する空間成分の値に基づく補間アルゴリズムにより、前記損失フレームに対して前記少なくとも１つの空間成分を作成する第２の補償部と、を備え、
前記第１の補償部は、
前記損失フレームに対する前記少なくとも２つのモノラル成分のうちの少なくとも１つを作成する主補償部と、
過去フレームを用いて前記損失フレームに対する少なくとも１つの予測パラメータを計算する予測パラメータ計算器と、
作成された前記少なくとも１つのモノラル成分、および前記少なくとも１つの予測パラメータに基づいて、前記損失フレームの前記少なくとも２つのモノラル成分のうちの残りの各モノラル成分を予測する予測復号化器と、を含む、パケット損失補償装置。
前記第１の補償部は、１つまたは複数の隣接フレームの前記少なくとも１つのモノラル成分を複製することにより、前記損失フレームに対して前記少なくとも１つのモノラル成分を作成するように構成されている、請求項１に記載のパケット損失補償装置。
前記第１の補償部は、前記予測復号化器によって予測された少なくとも１つの残りのモノラル成分を、前記主補償部によって作成された少なくとも１つの残りのモノラル成分で調整する調整部をさらに含む、請求項１または２に記載のパケット損失補償装置。
前記調整部は、前記予測復号化器によって予測された少なくとも１つの残りのモノラル成分と、前記主補償部によって作成された少なくとも１つの残りのモノラル成分との重み付き平均値を算出するように構成されている、請求項３に記載のパケット損失補償装置。
音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも２つのモノラル成分および少なくとも１つの空間成分を含む伝送形式で少なくとも１つの音声フレームを含み、
前記パケット損失補償方法は、
損失パケットの損失フレームに対して前記少なくとも２つのモノラル成分を作成することと、
１つまたは複数の隣接フレームのうちの最後のフレーム内の対応する空間成分を複製することにより、または少なくとも１つの隣接の過去フレーム及び少なくとも１つの隣接の未来フレーム内の対応する空間成分の値に基づく補間アルゴリズムにより、前記損失フレームに対して前記少なくとも１つの空間成分を作成することと、を備え、
前記少なくとも２つのモノラル成分を作成することは、
前記損失フレームに対する前記少なくとも２つのモノラル成分のうちの少なくとも１つを作成することと、
過去フレームを用いて前記損失フレームに対する少なくとも１つの予測パラメータを計算することと、
作成された前記少なくとも１つのモノラル成分、および前記少なくとも１つの予測パラメータに基づいて、前記損失フレームの前記少なくとも２つのモノラル成分のうちの残りの各モノラル成分を予測することと、を含む、パケット損失補償方法。
１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、請求項５に記載の方法の動作を実行させる複数のコンピュータプログラム命令を記憶するコンピュータ可読媒体。
音声パケットのストリーム内でパケット損失を補償するパケット損失補償装置であって、各音声パケットが、少なくとも２つのモノラル成分および少なくとも１つの空間成分を含む少なくとも１つの音声フレームを表し、
前記パケット損失補償装置は、
損失パケットの損失フレームに対して前記少なくとも２つのモノラル成分を作成する第１の補償部と、
１つまたは複数の隣接フレームのうちの最後のフレーム内の対応する空間成分を複製することにより、または少なくとも１つの隣接の過去フレーム及び少なくとも１つの隣接の未来フレーム内の対応する空間成分の値に基づく補間アルゴリズムにより、前記損失フレームに対して前記少なくとも１つの空間成分を作成する第２の補償部と、を備え、
前記第１の補償部は、
前記損失フレームに対する前記少なくとも２つのモノラル成分のうちの少なくとも１つを作成する主補償部と、
過去フレームを用いて前記損失フレームに対する少なくとも１つの予測パラメータを計算する予測パラメータ計算器と、
作成された前記少なくとも１つのモノラル成分、および前記少なくとも１つの予測パラメータに基づいて、前記損失フレームの前記少なくとも２つのモノラル成分のうちの残りの各モノラル成分を予測する予測復号化器と、を含む、パケット損失補償装置。
音声パケットのストリーム内でパケット損失を補償するパケット損失補償装置であって、各音声パケットが、少なくとも２つのモノラル成分および少なくとも１つの空間成分を含む伝送形式を使用して空間音声の少なくとも１つのフレームを表し、
前記パケット損失補償装置は、
損失パケットの損失フレームに対して前記伝送形式の前記少なくとも２つのモノラル成分を作成する第１の補償部と、
１つまたは複数の隣接フレームのうちの最後のフレーム内の対応する空間成分を複製することにより、または少なくとも１つの隣接の過去フレーム及び少なくとも１つの隣接の未来フレーム内の対応する空間成分の値に基づく補間アルゴリズムにより、前記損失フレームに対して前記伝送形式の前記少なくとも１つの空間成分を作成する第２の補償部と、を備え、
前記第１の補償部は、
前記損失フレームに対する前記伝送形式の前記少なくとも２つのモノラル成分のうちの少なくとも１つを作成する主補償部と、
過去フレームを用いて前記損失フレームに対する少なくとも１つの予測パラメータを計算する予測パラメータ計算器と、
作成された前記少なくとも１つのモノラル成分、および前記少なくとも１つの予測パラメータに基づいて、前記損失フレームの前記伝送形式の前記少なくとも２つのモノラル成分のうちの残りの各モノラル成分を予測する予測復号化器と、を含む、パケット損失補償装置。
少なくとも１つの音声フレームの代わりに置換フレームを作成するために、前記第１の補償部によって作成された前記少なくとも２つのモノラル成分を、前記第２の補償部によって作成された前記少なくとも１つの空間成分と組み合わせるコンバイナをさらに備える請求項８に記載のパケット損失補償装置。