JP4485123B2

JP4485123B2 - 複数チャネル信号の符号化及び復号化

Info

Publication number: JP4485123B2
Application number: JP2002527492A
Authority: JP
Inventors: トール，ビョルンミンデ，; アルネステイナーソン，; ヨナススヴェドベリ，; トマスルンドベリ，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2000-09-15
Filing date: 2001-09-05
Publication date: 2010-06-16
Anticipated expiration: 2021-09-05
Also published as: DE60128711T2; AU2001284588A1; SE519981C2; WO2002023528A1; US20040109471A1; JP2004509366A; SE0003285L; DE60128711D1; SE0003285D0; EP1320849A1; US7283957B2; EP1320849B1; ATE363710T1

Description

【０００１】
【発明の属する技術分野】
本発明は、ステレオ音響信号等の複数チャネル信号の符号化と復号化に関する。
【０００２】
【従来の技術及び発明が解決しようとする課題】
従来の音声符号化方法は、単一チャネルの音声信号を基本としているのが一般的である。常設の電話機と移動電話機との間の接続において利用される音声符号化はその一例である。音声符号化は、周波数が制限された空中電波インタフェース上で帯域幅利用を縮減するために無線リンク上で利用される。よく知られた音声符号化の例としては、ＰＣＭ（Pulse Code Modulation）、ＡＤＰＣＭ(Adaptive Differential Pulse Code Modulation)、サブ−バンド符号化（sub-band coding）、変換符号化（transform coding）、ＬＰＣ(Linear Predictive Coding)の音声作動符号化、及びハイブリッド符号化、例えばＣＥＬＰ(Code-Excited Linear Predictive)符号化のようなものなどがある（参考文献[１]−[２]）。
【０００３】
例えばステレオのスピーカと２つのマイクロホン（ステレオ・マイクロホン）を有するコンピュータ・ワークステーションのように、音響／音声通信で一入力信号より多くの入力信号を使う環境においては、ステレオ信号を伝送するために２つの音響／音声チャネルが必要とされる。複数チャネルを使う環境の他の例としては、２チャネル、３チャネル若しくは４チャネルの入力／出力を備えた会議室が挙げられることになろう。この種のアプリケーションは、インターネット上や第３世代の移動電話システムにおいて利用されることが予想されている。
【０００４】
複数チャネルの線形予測合成分析（ＬＰＥＳ）信号符号化／復号化のための一般的な原則が参考文献[３]に記載されている。しかし、これらに記載された原則は、チャネル間相関が強い場合またはチャネル間相関が可変的である場合には、常に最適であるとは限らない。例えば、一定距離離れているマイクロフォンまたは近距離に位置しあう方向付けされたマイクロフォンとともに、複数チャネルＬＰＡＳ符号器が使用される場合がある。複数音源が共通でチャネル間相関が軽減されるような設定もあれば、一音が支配的な設定もある。各マイクロフォンのための音響設定が同一の場合もあるし、または、反射面に近いマイクロフォンがある一方でそうではないマイクロフォンもある場合もある。チャネル間およびチャネル内の信号相関の種類と程度は、これらの設定において、様々に変化しがちである。参考文献[３]に記載の符号器は、これらの異なる状況への対応に必ずしも十分に適しているわけではない。
【０００５】
本発明は、複数チャネル線形予測合成分析音声符号器／復号器を、変化するチャネル間相関に容易に適応させることを目的とする。
【０００６】
【課題を解決するための手段】
本発明の中心的な目的は、変化するソース信号相関をよりよく活用する効率的な複数チャネルＬＰＡＳ音声符号化構造を見出すことである。Ｍチャネル音声信号について、任意の平均ビットレートで同一またはより良い音質を維持しつつ、平均して、単一チャネル音声符号器のビットストリームよりも明らかにＭ倍少ないビットストリームを作成することができる符号器を作成することを目標としている。
【０００７】
他の課題は、合理的実施と、該構造の中で符号器を実現するための計算の複雑性である。
【０００８】
上記の目的は、付属の請求項により解決される。
【０００９】
簡潔にいえば、本発明は、符号化ビットが複数チャネルＬＰＡＳ符号器の異なる部分の間で再割り当てされるように、複数モードの間を変換可能な符号器に関する。これにより、ソース信号制御複数モード複数チャネル分析合成音声符号化が可能になり、該音声符号化は、ビットレートを平均して下降させ、高い音質を維持するために使用することができる。
【００１０】
以下の添付図面と共に述べられる説明を参照すれば、本発明を最もよく理解することができる。また、これと同時に、本発明のさらなる目的と有効性についても、以下の添付図面と共に述べられる説明を参照することによって最もよく理解することができる。
【００１１】
以下の説明において、同等または類似の要素には同一の参照番号を付した。
【００１２】
【発明の実施の形態】
従来の単一チャネルの線形予測合成分析（ＬＰＡＳ）音声符号器と一般的な複数チャネル線形予測合成分析音声符号器（参考文献[３]）の説明を通じて本発明を説明していく。
【００１３】
図１は、従来の単一チャネルＬＰＡＳ音声符号器のブロック図である。この符号器は、２つの部分、すなわち、合成部と分析部とを具備している（これに対応する復号器は、合成部のみを有する）。
【００１４】
合成部は、ＬＰＣ合成フィルタ１２を具備しており、そのＬＰＣ合成フィルタ１２は、励振信号ｉ（ｎ）を受けて合成音声信号ｓ＾（ｎ）を出力する（ここで、「ｓ＾（ｎ）」は、上に＾を付したｓと（ｎ）とを併記した図中の符号を指す）。励振信号ｉ（ｎ）は、２つの信号ｕ（ｎ）とｖ（ｎ）を加算器２２で加算することによって形成される。信号ｕ（ｎ）は、固定コードブック（fixed codebook）１６からの信号ｆ（ｎ）をゲイン要素２０におけるゲインｇＦでスケーリングすることによって形成される。信号ｖ（ｎ）は、適応コードブック（adaptive codebook）１４からの励振信号ｉ（ｎ）の（遅延“ｌａｇ”で）遅延されたものをゲイン要素１８におけるゲインｇＡでスケーリングすることによって形成される。適応コードブックは、遅延要素２４を含むフィードバック・ループによって形成され、その遅延要素２４が励振信号ｉ（ｎ）を一サブフレームの長さＮだけ遅延させるものとなっている。これにより、適応コードブックは、コードブック内にシフトされた過去の励振信号ｉ（ｎ）を有することになる（最も古い励振はコードブック外へシフトされて破棄される）。ＬＰＣ合成フィルタのパラメータは、一般に２０ｍｓ〜４０ｍｓのフレーム毎にアップデートされるのに対し、適応コードブックは、５ｍｓ〜１０ｍｓのサブフレーム毎にアップデートされる。
【００１５】
ＬＰＡＳ符号器の分析部は、入来する音声信号ｓ（ｎ）のＬＰＣ分析を実行し、かつ、励振分析も実行する。
【００１６】
ＬＰＣ分析はＬＰＣ分析フィルタ１０によって実行される。このフィルタは、音声信号ｓ（ｎ）を受け、その信号のパラメトリック・モデル（parametric model）をフレームベースで構築する。モデルのパラメータは、実際の音声フレームのベクトルとモデルによって生成される対応信号のベクトルとの差で形成される残差ベクトルのエネルギーを最小とするように選択される。モデルの各パラメータは、分析フィルタ１０のフィルタ係数によって表される。それらのフィルタ係数は、フィルタの伝達関数Ａ（ｚ）を定める。合成フィルタ１２の伝達関数は少なくとも近似的には１／Ａ（ｚ）に等しいため、それらのフィルタ係数はさらに、破線の制御線で示したように、合成フィルタ１２を制御するものとなっている。
【００１７】
励振分析は、音声信号ベクトル｛ｓ（ｎ）｝と最も適した合成信号ベクトル｛ｓ＾（ｎ）｝を生じさせる、固定コードブックベクトル（コードブックのインデックス）、ゲインｇＦ、適応コードブックベクトル（遅延）及びゲインｇＡの、最良の組合せを決定するために実行される（ここで、｛｝は、ベクトルないしフレームを形成するサンプルを収集したものを表す）。これは、それらのパラメータのすべての可能な組合せをテストする全数探索においてなされる（いくつかのパラメータを他のパラメータとは独立して定め、かつ、残ったパラメータの探索中それらを固定しておく準最適（sub-optimal）探索方式を採ることも可能である）。合成ベクトル｛ｓ＾（ｎ）｝が対応する音声ベクトル｛ｓ（ｎ）｝にどのくらい近いかをテストするため、（加算器２６で形成された）差ベクトル｛ｅ（ｎ）｝のエネルギーをエネルギー計算器３０で計算することとしてもよい。しかし、重み付けされた誤差信号のベクトル｛ｅｗ（ｎ）｝においては、大きい誤差を大きい振幅の周波数帯域（large amplitude frequency bands）によってマスクするような形態で誤差が再配分（re-distribute）されており、この重み付けされた誤差信号のベクトル｛ｅｗ（ｎ）｝のエネルギーを考慮する方がより効率的である。これは、重み付けフィルタ２８で行われる。
【００１８】
次に、図１の単一チャネルＬＰＡＳ符号器を参考文献[３]の記載に基づいて複数チャネルＬＰＡＳ符号器とする変形について、図２〜図３を参照して説明する。音声信号として２つのチャネルの（ステレオの）音声信号を想定して説明を行うが、２つより多くのチャネルについて同様の原理を利用することとしてもよい。
【００１９】
図２は、参考文献[３]に記載の複数チャネルＬＰＡＳ音声符号器の分析部の一実施形態を示したブロック図である。図２においては、入力信号が信号成分ｓ１（ｎ）、ｓ２（ｎ）で示されているように複数チャネルの信号となっている。図１におけるＬＰＣ分析フィルタ１０は、マトリクス値伝達関数行列Ａ（ｚ）を有するＬＰＣ分析フィルタ・ブロック１０Ｍで置き換えられている。同様に、加算器２６、重み付けフィルタ２８、エネルギー計算器３０は、それぞれ対応する複数チャネル用のブロック２６Ｍ、２８Ｍ、３０Ｍによって置き換えられている。
【００２０】
図３は、参考文献[３]に記載の複数チャネルＬＰＡＳ音声符号器の合成部の一実施形態を示したブロック図である。複数チャネルの復号器もまた、このような合成部によって構成することとしてもよい。ここでは、図１におけるＬＰＣ合成フィルタ１２が、マトリクス値伝達関数行列Ａ^−１（ｚ）を有するＬＰＣ合成フィルタ・ブロック１２Ｍで置き換えられている。この伝達関数行列Ａ−１（ｚ）は、（その表記文字記号が示すように）少なくとも近似的には行列Ａ（ｚ）の逆行列に等しいものとなっている。同様に、加算器２２、固定コードブック１６、ゲイン要素２０、遅延要素２４、適応コードブック１４、ゲイン要素１８は、それぞれ対応する複数チャネル用のブロック２２Ｍ、１６Ｍ、２４Ｍ、１４Ｍ、１８Ｍによって置き換えられている。
【００２１】
上記の従来の複数チャネル符号器の問題点は、マイクロフォンの環境が変化することに起因する可変的なチャネル間相関に対してあまり柔軟性を有しない点である。例えば、複数のマイクロフォンが一人の話者から音声を拾う場合がある。そのような場合、異なるマイクロフォンからの信号は、原則的に、遅延しおよびスケーリングされた形の同一信号によって形成されうる。つまりチャネルは強固に相関付けられている。他の状況では、個別のマイクロフォンに異なる話者が同時に存在する場合がある。この場合、チャネル間の相関はほとんど存在しない。各マイクロフォンのための音響設定が同一の場合もあるし、または、反射面に近いマイクロフォンがある一方でそうではないマイクロフォンもある場合もある。チャネル間およびチャネル内の信号相関の種類と程度は、これらの設定において、様々に変化しがちである。このようなわけで、ビットがチャネル間相関の種類と程度に最も適合するように複数チャネルＬＰＡＳ符号器の異なる部分の間で再割当されうるような、複数のモード間で切り替え可能な符号器が必要とされている。固定の質閾値と時間によって変化する信号特性（単数話者、複数話者、バックグラウンドノイズの有無等）のため、可変総ビットレートを有する複数チャネルＣＥＬＰ符号器が必要とされている。また、ビットを再割り当てするだけで符号化と感知されるエンドユーザの品質が改善される場合は、固定総ビットレートを使用することができる。
【００２２】
本発明に従って組み込まれた複数チャネルＬＰＡＳ符号器のついての以下の記載により、様々なブロックにおいて符号化の柔軟性がどのように改善されたかが明らかにされている。しかし、全てのブロックを記載された方法で構成しなくてはならないわけではない。符号化の柔軟性と複雑性とのバランスは個別の符号器の態様に応じて定められなくてはならない。
【００２３】
図４は、本発明の複数チャネルＬＰＡＳ音声符号器の合成部の実施態様の一例を示したブロック図である。
【００２４】
本発明の本質的特徴は、マルチパート固定コードブックの構造である。本発明によると、該構造は、各チャネルのための個別の固定コードブックＦＣ１、ＦＣ２と共有固定コードブックＦＣＳをともに含んでいる。共有固定コードブックＦＣＳは全チャネルに共通であるが（これは、同一のコードブックインデックスが全チャネルに使用されることを意味する）、該チャネルは、図４に図示されたように個別の遅延Ｄ１、Ｄ２と関連している。さらに、個別の固定コードブックＦＣ１、ＦＣ２は個別のゲインｇＦ１、ｇＦ２に関連しており、個別の遅延Ｄ１、Ｄ２（整数または分数であってもよい）は個別のゲインｇＦｓ１、ｇＦｓ２に関連している。個別の固定コードブックＦＳ１、ＦＳ２からの励振は、共有固定コードブックＦＣＳからのこれに対応する励振（共通のコードブックベクトルであるが、各チャネルの個別の遅延とゲイン）に加算器ＡＦ１、ＡＦ２において付加される。典型的には、固定コードブックは、代数的なコードブックを具備し、該コードブックにおいて励振ベクトルは、ある規則に従ってそれぞれのベクトルに配分されたユニットパルスにより形成される（これは当業者にとって周知であるから、本書ではさらに詳述しない）。
【００２５】
マルチパート固定コードブックは非常に柔軟性が高い。例えば、個別の固定コードブックでビットをより多く用いる符号器がある一方で、共有固定コードブックでビットをより多く用いる符号器もある。さらに、符号器は、チャネル間相関に応じて、個別のコードブックと共有コードブックとの間のビットの配分を動的に変更できる。
各チャネルが同一信号をスケーリングし変換したチャネルからなる理想的な場合（エコーがない空間）、先頭チャネルの共有コードブックが必要とされるのみであり、遅延値Ｄは、音伝搬時間に直接対応している。チャネル間の相互相関が非常に低い、上記と反対の場合では、後続チャネルのための個別の固定コードブックが必要とされる。各チャネルが同一信号をスケーリングし変換したチャネルからなる理想的な場合（エコーがない空間）、共有コードブックが必要とされるのみであり、遅延値は、音伝搬時間に直接対応している。チャネル間の相互相関が非常に低い、上記と反対の場合では、個別の固定コードブックのみが必要とされる。
ある信号については、他のチャネルよりも１個の独立チャネルにより多くのビットを割り当てることが適している場合がありうる（ビットの非対称分配）。
【００２６】
図４は、２チャネル固定コードブック構造を図示しているが、各コードブックの数と遅延及びチャネル間のゲインの数を増加させることによって、この概念はより多くのチャネルに対して容易に一般化できることが理解されなければならない。
【００２７】
先頭チャネルと後続チャネルの固定コードブックは、典型的には連続して順番に調べられる。好適な順序としては、第一に先頭チャネル固定コードブック励振ベクトル、遅延及びゲインを決定し、その後、後続チャネルの個別の固定コードブックベクトルとゲインを決定する。
【００２８】
マルチパート固定コードブックの探索方法を図５と図６を参照しながら説明する。
【００２９】
図５は、本発明のマルチパート固定コードブックの実施態様のフローチャートである。ステップＳ１は（最大のフレームエネルギーを有するチャネル）第一ないしは先頭チャネル、典型的には最も強いチャネルを判断し符号化する。ステップＳ２は、所定の間隔（例えば完全な一フレームの一部分）の各第二ないしは後続チャネルと第一チャネルの間の相互相関を判断する。ステップＳ３は、各第二チャネルについての遅延候補を記憶する。これらの遅延候補は、多数の最高の相互相関のピークの位置と、各第二チャネルについての各ピークのまわりの最も近傍の位置によって定義される。例えば３つの最高ピークを選択し、各ピークの両側の最も近い位置を付加することによって、総計９つの遅延候補を与えることになる。高分解（分数）遅延を使用した場合は、各ピークのまわりの候補数を、例えば５ないし７に増加できる。より高い分解は入力信号のアップサンプリングによって得ることができる。最も単純な実施態様での第一のチャネルの遅延は、ゼロと見なすことができる。しかし、コードブックのパルスは典型的には任意の位置を有することができないので、ある符号化ゲインは第一チャネルにも遅延を割り当てることによって得られうる。このことは高分解遅延が使用される場合に特に該当する。ステップＳ４では、各記憶された遅延候補組み合わせのための一時的な共有固定コードブックベクトルが形成される。ステップＳ５は、最高の仮コードブックベクトルに対応した遅延組み合わせを選択する。ステップＳ６は、最適なチャネル間ゲインを判断する。最後に、ステップＳ７は、チャネル特定（非共有）励振とゲインを判断する。
【００３０】
該アルゴリズムの変形例では、全てのまたは最高の仮コードブックベクトル、対応遅延及びチャネル間ゲインが保持されている。それぞれの保持された組み合わせについて、ステップＳ７に従ってチャネル特定探索が実行される。最後に、共有コードブック励振と個別コードブック励振の組み合わせが選択される。
【００３１】
該方法の複雑性を軽減するために、仮コードブックの励振ベクトルをわずか数パルスまで制限することができる。例えば、ＧＳＭシステムでは、拡張されたフルレートチャネルの完全固定コードブックは、１０パルスを含む。この場合、３ないし５仮コードブックパルスが合理的である。概して、全パルス数の２５ないし５０％が合理的数字でありうる。最高の遅延組み合わせが選択されると、完全なコードブックはこの組み合わせだけのために探索される（典型的にはすでに位置決めされたパルスは変更されず、完全コードブックの残りのパルスだけが位置決めされなくてはならない）。
【００３２】
図６は、本発明に係るマルチパート固定コードブック探索方法の他の実施態様を示すフローチャートである。該実施態様では、ステップＳ１、Ｓ６、Ｓ７は、図５の実施態様の場合と同じである。ステップＳ１０は、許可された遅延組み合わせのそれぞれのために最適な位置に新規な励振ベクトルパルスを位置付ける（該ステップが実行される最初の時には全ての遅延組み合わせが許可される）。ステップＳ１１では、全パルスが使用されたか否かがテストされる。そうでない場合は、ステップＳ１２は、許可遅延組み合わせを最高の残りの組み合わせに制限する。その後、さらなるパルスが残りの許可組み合わせに付加される。最後に、全てのパルスが使用されると、ステップＳ１３は最高の残りの遅延組み合わせと、それに対応する共有固定コードブックベクトルを選択する。
【００３３】
ステップＳ１２に関しては可能性がいくつかある。一つには、それぞれの反復時に、一定の割合（例えば２５％）だけ、最高の遅延組み合わせを維持することが可能である。しかし、全パルスが使用される前に１組しか残っていないということを回避するために、反復が終わるごとに、一定数の組み合わせを確実に残すことができる。また、残されたパルスに１を加えた数と少なくとも同数の組み合わせを常に確実に残すことができる。このように、反復ごとに選択候補となる組み合わせが複数常に存在することとなる。
【００３４】
固定コードブックにクロスチャネルブランチが１つだけの場合、第一のチャネルと第二のチャネルはフレームごとに定められなければならない。ここでは、第二のチャネルのための固定コードブック部分以上よりも多くのパルスを使用するために第一のチャネルのための固定コードブック部分を割り当てる可能性がある。
【００３５】
固定コードブックゲインについては、各チャネルは、共有固定コードブックに対して１ゲインを必要とし、個別コードブックについては１ゲインを必要とする。これらのゲインは、典型的にはチャネル間で著しい相関関係を有している。これらはまた適応コードブックのゲインと相関付けられる。従ってこれらのゲインのチャネル間予測が可能であり、これらを符号化するためにベクトル量子化を使用してもよい。
【００３６】
図４に戻り、適応コードブックは、各チャネルにつき１つの適応コードブックＡＣ１、ＡＣ２を含む。マルチパート適応コードブックは複数チャネル符号器において多数の方法で構成されうる。
【００３７】
一つには、全チャネルに共通ピッチ遅延を共有させることが可能である。これは、チャネル間相関が強い時に実行可能である。ピッチ遅延が共有されている時でさえ、チャネルは別個のピッチゲインｇ_Ａ１１，ｇ_Ａ２２を依然として有しうる。共有ピッチ遅延は、閉ループの方法で全チャネルにおいて同時に探索される。
【００３８】
さらには、それぞれのチャネルに個別のピッチ遅延Ｐ_１１，Ｐ_１２を持たせることも可能である。これは、チャネル間相関が弱い時に実行可能である（チャネルは独立している）。ピッチ遅延は、異なるように又は絶対的に符号化されうる。
【００３９】
さらには、励振履歴をチャネル横断の様態で使用することができる。例えば、チャネル間遅延Ｐ_１２においてチャネル１の励振履歴からチャネル２を予測することができる。これは、チャネル間相関が強い時に実行可能である。
【００４０】
固定コードブックに関する場合のように、記載された適応コードブックの構造は非常に柔軟で、マルチモード操作に適している。共有ピッチ遅延または個別のピッチ遅延を使用するか否かの選択は残差信号エネルギーに基づいてもよい。第一のステップでは、最適な共有ピッチ遅延の残差エネルギーが決定される。第二のステップでは、最適な個別のピッチ遅延の残差エネルギーが決定される。共有ピッチ遅延の場合の残差エネルギーが個別のピッチ遅延の場合の残差エネルギーよりも所定量超過している場合、個別のピッチ遅延が使用される。そうでない場合は、共有ピッチ遅延が使用される。希望であれば、決定を円滑にするためにエネルギー差の平均移動を用いてもよい。
【００４１】
この方策は、共有ピッチ遅延か個別のピッチ遅延かを決定するための「閉ループ」方法と考えることができる。あるいは、チャネル間相関等に基づく「開ループ」方法も可能である。この場合、チャネル間相関が所定の閾値を越える場合、共有ピッチ遅延が使用される。そうでない場合は、個別のピッチ遅延が使用される。
【００４２】
チャネル間のピッチ遅延を使用するか否かを決定するために同様の方法を使用することができる。
【００４３】
さらに、異なるチャネル間の適応コードブックゲインの間で重要な相関が期待されている。これらのゲインは、チャネルの内部ゲイン履歴から、他のチャネルに属する同一フレームのゲインから、及び固定コードブックゲインからも予測されうる。固定コードブックの場合と同様に、ベクトル量子化も可能である。
【００４４】
図４のＬＰＣ合成フィルタ・ブロック１２Ｍでは、各チャネルは個別のＬＰＣ（線形予測符号化）フィルタを使用する。これらのフィルタは、単一チャネルの場合と同様の方法で個別に駆動することができる。しかし、チャネルの一部または全部が同一ＬＰＣフィルタを共有することもできる。これによって、ＬＰＣスペクトル間のスペクトル距離等の信号特性に応じて、複数フィルタモードと単一フィルタモードとを切り替えることができる。チャネル間予測をＬＳＰ（線スペクトル対）パラメータのために使用すると、該予測は低相関モードのために停止されるかまたは低減される。
【００４５】
図７は、本発明の複数チャネルＬＰＡＳ音声符号器の分析部の実施態様の一例を示すブロック図である。図１と図２を参照しながらすでに説明したブロックに加えて、図７に記載の分析部は、複数モード分析ブロック４０を含む。ブロック４０は、共有固定コードブックＦＣＳ、遅延Ｄ１、Ｄ２およびゲインｇ_ＦＳ１ｇ_ＦＳ２のみを使用した符号化を正当化するのにチャネル間に十分な相関があるか否かを判断するために、チャネル間の相関を判断する。もしそうでない場合は、個別の固定コードブックＦＣ１、ＦＣ２とゲインｇ_Ｆ１ｇ_Ｆ２を使用することが必要となるであろう。該相関は、時間ドメインにおける通常の相関、つまり、第二のチャネル信号を第一の信号に最も良く適合するまでシフトすることによって判断することができる。２つ以上のチャネルが存在する場合には、最小相関値が所定の閾値を超過したときに共有固定コードブックが使用されることになる。あるいは、第一のチャネルに対する相関が所定の閾値を超過するチャネルのために共有固定コードブックを使用し、残りのチャネルのために個別の固定コードブックを使用してもよい。正確な閾値はリスニングテストによって判断される。
【００４６】
分析部はさらに、各チャネルについてスケール要素ｅ１、ｅ２を決定する相対的エネルギー計算器４２を含みうる。これらのスケール要素は以下の式に従って決定することができる。
【数式１】

ここで、Ｅｉはフレームｉのエネルギーを示す。これらのスケール要素を使用して、それぞれのチャネルのための重み付けされた残差エネルギーＲ１、Ｒ２を、図７に図示されたように、チャネルの相対的強さに従ってリスケールすることができる。各チャネルのための残差エネルギーのリスケーリングは、各チャネルの絶対的エラーに関する最適化よりもむしろ、各チャネルにおける相対的エラーに関する最適化のほうに効果を有する。
【００４７】
スケール要素は、相対的チャネル強さｅｉのより一般的な関数であってもよく、例えば以下の数式で示される。
【数式２】

ここで、αは、インターバル４−７における定数であり、例えばαは５にほぼ等しい。スケーリング関数の正確な形は、主観的なリスニングテストによって判断することができる。
【００４８】
本発明の上記に記載の実施態様の様々な要素の機能は、典型的には一または複数のマイクロプロセッサまたはマイクロ／信号プロセッサの組合せ、及びこれに対応するソフトウェアによって実行される。
【００４９】
図面において、幾つかのブロック及びパラメータは任意のものであり、複数チャネル信号の特性及び音声品質の全体的な要求基準に応じて使用することができる。符号器のビットは、それらが最も必要とされている所に割り当てることができる。符号器は、フレームごとに選択してＬＰＣ部分、適応及び固定コードブックの間に様々にビットを分配する。これは、チャネル内マルチモード操作の一例である。
【００５０】
マルチモード操作のさらなる例は、符号器のビットをチャネル間に分配するということ（非対称符号化）である。これは、チャネル間マルチモード操作と称される。ここでの一例は、一／複数のチャネルまたは一チャネルにおける複数のビットで符号化された符号器ゲインのためのより大きな固定コードブックであろう。ソース信号特性を効率的に活用するために該２つのマルチモード操作例を組み合わせることができる。
【００５１】
レートが可変的な操作においては、全体的なビットレートは、フレームベースで変化しうる。全チャネルにおける同様のバックグラウンドノイズを有するセグメントは、例えば、複数チャネル内のわずかに異なる地点で現れる無音声から有音声への伝送を有するセグメントよりもより少ないビットを要求する。複数の話者が互いに重複するかもしれない電話会議等の場合、異なる音は連続フレームの間、異なるチャネルを支配しうる。このことも、よい高いビットレートを直ちに増加させたいと希望する動機である。
【００５２】
該マルチモード操作は、閉ループ態様で、または開ループ方法で制御することができる。閉ループ方法は、各モードについての残差符号化エラーに応じてモードを判断する。これは計算上、コストのかかる方法である。開ループ方法では、符号化モードは入力信号特性に基づいて決定される。チャネル内の場合は、参考文献４に記載されたように、可変レートモードは、例えば、音声、スペクトル特性及び信号エネルギーに基づいて決定される。チャネル間モードを決定する場合には、チャネル間相互相関関数またはスペクトル距離関数を使用することにより決定される。ノイズまたは無声符号化の場合には、周波数ドメインにおける複数チャネル相関特性を使用することがより適切である。開ループと閉ループ技術の組み合わせも可能である。開ループ分析は、複数の候補モードに基づいて決定され、符号化され、そして閉ループ決定時に最終残差エラーが使用される。
【００５３】
音源とマイクロフォンの位置の間の距離の違いに関係する遅延において、チャネル間相関はより強くなる。そのようなチャネル間遅延は、提案する複数チャネルＬＰＡＳ符号器の適応コードブックと固定コードブックと関連して活用される。チャネル間マルチモード操作に関して、低い相関モードの場合この特徴は停止させられることになり、チャネル間遅延にビットは全く費やされない。
【００５４】
複数チャネル予測と量子化は、複数チャネルＬＰＡＳゲイン及びＬＰＣパラメータのために必要なビット数を減らすための高チャネル間相関モードのために使用することができる。低チャネル間予測モードのために、使用されるチャネル間予測および量子化はより少ないであろう。チャネル内予測および量子化のみで十分であるかもしれない。
【００５５】
図７を参照して記載された複数チャネルエラー重み付けは、チャネル間相関に応じて開始または停止されうる。
【００５６】
符号化方法を決定するためにブロック４０によって実行されたアルゴリズムの例を、図８を参照しながら以下に説明する。しかし、まず、多くの実施態様と仮定について説明する。
【００５７】
マルチモード分析ブロック４０は、開ループまたは閉ループで、または両原則を組み合わせて実行することができる。開ループの実施態様では、チャネルからの入力信号を分析し、現在のフレームのための適切な符号化方法、適切なエラー重み付け、および現在のフレームに使用されるべき基準を決定する。
【００５８】
以下の実施例では、ＬＰＣパラメータ量子化は、開ループ方法で決定されており、他方で、適応コードブックと固定コードブックの最終パラメータは、有音声が符号化されるべき場合、閉ループ方法で判断される。
【００５９】
固定コードブック探索のためのエラー基準は、個別のチャネル音声分類の出力に応じて変化させられる。
【００６０】
各チャネルのための音声分類が、サブクラス（ＶＥＲＹ＿ＮＯＩＳＹ，ＮＯＩＳＹ，ＣＬＥＡＮ）を有する（ＶＯＩＣＥ，ＵＮＶＯＩＣＥＤ，ＴＲＡＮＳＩＥＮＴ，ＢＡＣＫＧＲＯＵＮＤ）であると仮定する。該サブクラスは、入力信号に雑音があるか否かを示し、最終エラー基準を精確に調整するためにも使用することができる音声分類に信頼性のある指示を与えている。
【００６１】
チャネル内のフレームがＵＮＶＯＩＣＥＤまたはＢＡＣＫＧＲＯＵＮＤと分類された場合、固定コードブック・エラー基準は、該チャネルのためにエネルギーおよび周波数ドメイン・エラー基準に変更される。音声分類に関するさらなる情報については、参考文献[４]を参照されたい。
【００６２】
ＬＰＣパラメータが、２つの異なる方法で符号化できると仮定する：
１．フレームのための共通の１組のＬＰＣパラメータ。
２．各チャネルのための独立組のＬＰＣパラメータ。
【００６３】
ロング・ターム・プレディクタ（ＬＴＰ）が適応コードブックとして実行される。
【００６４】
ＬＴＰ-遅延パラメータが様々な方法で符号化できると仮定する：
１．いずれのチャネルにおいてもＬＴＰ-遅延パラメータはない。
２．チャネル１だけのためのＬＴＰ-遅延パラメータ。
３．チャネル２だけのためのＬＴＰ-遅延パラメータ。
４．チャネル１とチャネル２のための別個のＬＴＰ-遅延パラメータ。
【００６５】
ＬＴＰ-ゲインパラメータは、各遅延パラメータのために個別に符号化される。
【００６６】
１チャネルのための固定コードブックパラメータは、５つの方法で符号化されうると仮定する：
・（無声／バックグラウンドノイズ符号化のために、周波数ドメインで探索された）個別の小サイズのコードブック。
・個別の中間サイズのコードブック。
・個別の大サイズのコードブック。
・共通の共有コードブック。
・共通の共有コードブックと個別の中間サイズのコードブック。
【００６７】
各チャネルとコードブックのためのゲインは、別個に符号化される。
【００６８】
図８は、符号化方法を決定するための方法の一実施例を図示するフローチャートである。
【００６９】
マルチモード分析によって、複数チャネル入力を、３つの主要な量子化方法：（ＭＵＬＴＩ‐ＴＡＬＫ，ＳＩＮＧＬＥ‐ＴＡＬＫ，ＮＯ‐ＴＡＬＫ）へ事前に分類できる。その流れは図８に図示されている。
【００７０】
適切な方法を選択するために、各チャネルは、その独自のチャネル内活動検出を有し、チャネル内音声分類は、ステップＳ２０、Ｓ２１である。両音声分類Ａ、ＢがＢＡＣＫＧＲＯＵＮＤを示すならば、複数チャネル識別ステップＳ２２における出力はＮＯ‐ＴＡＬＫであり、そうでない場合には、出力はＴＡＬＫである。ステップＳ２３は、ステップ２３からの出力がＴＡＬＫを示すのか否かをテストする。そうでない場合には、アルゴリズムは、ステップＳ２４へ進み、ｎｏ‐ｔａｌｋ方法を実行する。
【００７１】
他方で、ステップＳ２３がＴＡＬＫを示すならば、アルゴリズムはステップＳ２５へ進み、複数／単数話者の状況を識別する。ステップＳ２５においてこの決定をするために、この実施例では２つのチャネル間特性、つまりチャネル間時間相関とチャネル間周波数相関が使用される。
【００７２】
この実施例におけるチャネル間時間相関値は修正され、その後、２つの不連続値（ＬＯＷ＿ＴＩＭＥ＿ＣＯＲＲとＨＩＧＨ＿ＴＩＭＥ＿ＣＯＲＲ）へと閾値化される（ステップＳ２６）。
【００７３】
チャネル間周波数相関は、各チャネルのための汎用化されたスペクトルエンベロップを抽出し、その後、チャネル間の修正された差を合計することによって実行される（ステップＳ２７）。合計値は次いで２つの不連続値（ＬＯＷ＿ＦＲＥＱ＿ＣＯＲＲＨＩＧＨ＿ＦＲＥＱ＿ＣＯＲＲ）に閾値化され、ここで、修正差の合計が閾値より大きい場合には、ＬＯＷ＿ＦＲＥＱ＿ＣＯＲＲが設定される（つまり、簡単なスペクトル（エンベロップ）として差測定を使用して、チャネル間周波数相関を見積もる）。スペクトル差は、例えば、Ｎ‐ＰｏｉｎｔＦＦＴからの振幅を使用するか、またはＬＳＦドメインにおいて計算することができる。（スペクトル差は、低周波数差よりも重要性を付与するために重み付けされた周波数であってもよい。）
【００７４】
ステップＳ２５では、両方の音声分類（Ａ、Ｂ）がＶＯＩＣＥＤを示し、ＨＩＧＨ＿ＴＩＭＥ＿ＣＯＲＲが設定されるならば、出力はＳＩＮＧＬＥである。
【００７５】
両方の音声分類（Ａ、Ｂ）がＵＮＶＯＩＣＥＤを示し、ＨＩＧＨ＿ＦＲＥＱ＿ＣＯＲＲが設定されるならば、出力はＳＩＮＧＬＥである。
【００７６】
音声分類（Ａ、Ｂ）の一方がＶＯＩＣＥＤを示し、前主力がＳＩＮＧＬＥで、ＨＩＧＨ＿ＴＩＭＥ＿ＣＯＲＲが設定されるならば、出力はＳＩＮＧＬＥのままである。
【００７７】
それ以外では、出力はＭＵＬＴＩである。
【００７８】
ステップＳ２８は、ステップＳ２５からの出力がＳＩＮＧＬＥかＭＵＬＴＩかをテストする。ＳＩＮＧＬＥであるならば、アルゴリズムは、ステップＳ２９へ進み、ｓｉｎｇｌｅ‐ｔａｌｋ方法を実行する。そうでない場合には、それはステップＳ３０へ進み、ｍｕｌｔｉ‐ｔａｌｋ方法を実行する。
【００７９】
ステップＳ２４、Ｓ２９およびＳ３０において実行された３つの方法をそれぞれ説明する。固定コードブックおよび適応コードブックを示すために、省略語ＦＣＢとＡＣＢがそれぞれ使用されている。
【００８０】
ステップＳ２４（ｎｏ‐ｔａｌｋ）では、２つの可能性がある：
ＨＩＧＨ＿ＦＲＥＱ＿ＣＯＲＲ：
・共通ビットが使用される（低いスペクトル距離）。
・ＬＰＣ低いビットレートが使用される。
・ＡＣＢロングターム相関が低いならば、スキップされる。
・ＦＣＢ非常に低いビットレート・コードブックが使用される。
ＬＯＷ＿ＦＲＥＱ＿ＣＯＲＲ：
・各チャネルについて別個のビット割り当てが使用される（スペクトル距離は高い）。
・ＬＰＣ低いビットレートが使用される。
・ＡＣＢロングターム相関が低いならば、スキップされる。
・ＦＣＢ非常に低いビットレート・コードブックが使用される。
【００８１】
ステップＳ２９（ｓｉｎｇｌｅ‐ｔａｌｋ）では、以下の方法が使用される。概要：可能であれば共通ビットが使用される。閉ループ選択と音声分類がビット割り当てを完成させるために使用される。
・ＬＰＣ共通
・ＡＣＢ共通または個別
１．ＶＯＩＣＥＤとして分類されたチャネル：音声フレームのために閉ループ方法で選択されたＡＣＢ、共通ＡＣＢまたは２つの別個のＡＣＢ。
２．１つのチャネルはｎｏｎ‐ＶＯＩＣＥＤとして分類され、他はＶＯＩＣＥＤとして分類される：各チャネルのための個別のＡＣＢ。
３．いずれのチャネルもＶＯＩＣＥＤとして分類されない：そしてＡＣＢは全く使用されない。
・ＦＣＢ共通または個別：
１．両チャネルがＶＯＩＣＥＤに分類された場合、共通ＦＣＢが使用される。
２．両チャネルがＶＯＩＣＥＤに分類され、各チャネルからの前フレームの少なくとも１つがｎｏｎ‐ＶＯＩＣＥＤである場合、共通ＦＣＢ＋２つの別個の中間サイズのＦＣＢが使用される（これは、想定されるスタートアップ状態である）。
３．チャネルの１つがｎｏｎ‐ＶＯＩＣＥＤである場合、個別ＦＣＢが使用される。
４．別個ＦＣＢの大きさは、該チャネルのために音声分類を使用して制御される。
留意点：チャネルの１つがバックグラウンドクラスに分類されたならば、他方のチャネルＦＣＢは、利用可能なビットの大半を使用することが許される（つまり、一のチャネルが待機しているときの大きいサイズのＦＣＢコードブック）。
【００８２】
ステップＳ３０（ｍｕｌｔｉ‐ｔａｌｋ）では、以下の方法が使用される。概要：別個のチャネルを想定、共通ビットが少ないまたは皆無。
・ＬＣＰ別個に符号化される。
・ＡＣＢ別個に符号化される。
・ＦＣＢ別個に符号化され、共通のＦＣＢはない。各チャネルのための該ＦＣＢのサイズは音声分類を使用して決定され、音声フレームのためのＦＣＢの最終サイズを判断するために、最低限重み付けされたＳＮＲターゲットを有する閉ループアプローチも音声フレームで使用される。
【００８３】
一般化されたＬＰＡＳ（参考文献[５]参照）としてすでに知られている技術を本発明の複数チャネルＬＰＡＳ符号器に使用することもできる。簡単にいうと、この技術は実際の符号化前のフレームごとの入力信号の前処理に関係している。複数の可能性ある修正信号を検査し、最小の歪みで符号化されうる信号が符号化されるべき信号として選択される。
【００８４】
上記の説明は主として符号器を対象としている。これに対応する復号器は、このような符号器の合成部を含むのみでありうる。典型的には、符号器／復号器の組み合わせは、帯域幅制限通信チャネル上で符号化信号を伝送／受信する端末において使用される。端末は、携帯電話または基地局の無線端末であってもよい。そのような端末は、アンテナ、増幅器、イコライザ、チャネル符号器／復号器等の他の様々な要素も含みうる。しかし、これらの要素は、本発明を説明するために重要ではないので、その説明は省略されている。
【００８５】
本発明の範囲から逸脱することなく、本発明に対して様々な変形や変更がなされ得るのは、当業者に理解されるところであり、本発明の範囲は特許請求の範囲の記載によって定められる。
【００８６】
参考文献
[１] A. Gersho, “Advances in Speech and Audio Compression”, Proc. of the IEEE, Vol. 82, No. 6, pp 900-918, June 1994,
[２] A. S. Spanias, “Speech Coding: A Tutorial Review”, Proc. of the IEEE, Vol 82, No. 10, pp 1541-1582, Oct 1994.
[３] WO00/19413(Telefonaktiebolaget LM Ericsson).
[４] Allen Gersho et.al, "Variable rate speech coding for cellular networks", page 77-84, Speech and audio coding for wireless and network applications, Kluwer Academic Press, 1993.
[５] Bastiaan Kleijn et.al, "Generalized analysis-by-synthesis coding and its application to pitch prediction", page 337-340, In Proc. IEEE Int. Conf. Acoust., Speech and Signal Processing, 1992.
【図面の簡単な説明】
【図１】従来の単一チャネルＬＰＡＳ音声符号器のブロック図である。
【図２】従来の複数チャネルＬＰＡＳ音声符号器の分析部の一実施態様を示したブロック図である。
【図３】従来の複数チャネルＬＰＡＳ音声符号器の合成部の一実施態様を示したブロック図である。
【図４】本発明の複数チャネルＬＰＡＳ音声符号器の分析部の実施態様の一例を示したブロック図である。
【図５】マルチパート固定コードブックの探索方法の実施態様の一例のフローチャートである。
【図６】マルチパート固定コードブックの探索方法の実施態様のさらなる例を示すフローチャートである。
【図７】本発明の複数チャネルＬＰＡＳ音声符号器の分析部の実施態様の一例を示したブロック図である。
【図８】符号化方法を判断するための方法の実施態様の一例を図示したフローチャートである。

Claims

各チャネルの信号が、特定固定コードブックと共有固定コードブックとを用いて符号化される、複数チャネル線形予測合成分析信号の符号化方法であって、
チャネル間相関を検出するステップと；該検出されたチャネル間相関に基づいて符号化モードを選択するステップと；該選択された符号化モードに基づいて、チャネル特定固定コードブックと共有固定コードブックの間に適応的にビットを分配するステップを含み、チャネル間相関が高い符号化モードでは、より多いビットが共有固定コードブックに、より少ないビットが個別固定コードブックに割り振られ、チャネル間相関が低い符号化モードでは、より少ないビットが共有固定コードブックに、より多いビットが個別固定コードブックに割り振られる、複数チャネル線形予測合成分析信号符号化方法。
前記選択可能な符号化モードが、全体的なビットレートがフレームベースで固定であることを特徴とする、請求項１に記載の方法。
前記選択可能な符号化モードが、全体的なビットレートがフレームベースで変化するものを含むことを特徴とする、請求項１に記載の方法。
チャネル間相関をタイムドメインで判断することを特徴とする、請求項１ないし３のいずれか１項に記載の方法。
チャネル間相関を周波数ドメインで判断することを特徴とする、請求項１ないし４のいずれか１項に記載の方法。
チャネル間相関が低い場合には、チャネル特定ＬＰＣフィルタを使用することと；チャネル間相関が高い場合には、共有ＬＰＣフィルタを使用することを特徴とする、請求項１ないし５のいずれか１項に記載の方法。
チャネル間相関が低い場合には、チャネル特定固定コードブックを使用することと；チャネル間相関が高い場合には、共有固定コードブックを使用することを特徴とする、請求項１ないし６のいずれか１項に記載の方法。
チャネル間相関が低い場合には、チャネル特定適応コードブックによる量子化と、ピッチ遅延処理を行うことと；チャネル間相関が高い場合には、共有適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項１ないし７のいずれか１項に記載の方法。
チャネル間適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項１ないし８のいずれか１項に記載の方法。
チャネル間相関が低い場合には、それぞれのチャネルの相対的チャネル強さに従って残差エネルギーの重み付けをする、すなわち、強いチャネルの残差エネルギーは大きく、弱いチャネルの残差エネルギーは小さくすることを特徴とする、請求項１ないし９のいずれか１項に記載の方法。
音声分類に基づいて、個別の固定コードブックのサイズを判断する、すなわち、一つのタイプの音声が他のタイプの音声より小さな個別の固定コードブックに関連付けられることを特徴とする、請求項７ないし１０のいずれか１項に記載の方法。
各チャネルの信号が、特定固定コードブックと共有固定コードブックとを用いて符号化される、複数チャネル線形予測合成分析信号符号器であって、
チャネル間相関を検出する手段（４０）と；該検出されたチャネル間相関に基づいて符号化モードを選択するための手段（４０）と；該選択された符号化モードに基づいて、チャネル特定固定コードブックと共有固定コードブックの間に適応的にビットを分配する手段が、チャネル間相関が高い符号化モードでは、より多いビットが共有固定コードブックに、より少ないビットが個別固定コードブックに割り振られ、チャネル間相関が低い符号化モードでは、より少ないビットが共有固定コードブックに、より多いビットが個別固定コードブックに割り振られる手段（４０）を含む、複数チャネル線形予測合成分析信号符号器。
チャネル間相関をタイムドメインで判断するための手段を特徴とする、請求項１２に記載の符号器。
チャネル間相関を周波数ドメインで判断するための手段を特徴とする、請求項１２または１３に記載の符号器。
チャネル間相関が低い場合には、チャネル特定ＬＰＣフィルタが；チャネル間相関が高い場合には、共有ＬＰＣフィルタが使用されることを特徴とする、請求項１２ないし１４のいずれか１項に記載の符号器。
チャネル間相関が低い場合には、チャネル特定固定コードブックが；チャネル間相関が高い場合には、共有固定コードブックが使用されることを特徴とする、請求項１２ないし１５のいずれか１項に記載の符号器。
チャネル間相関が低い場合には、チャネル特定適応コードブックによる量子化と、ピッチ遅延処理を；チャネル間相関が高い場合には、共有適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項１２ないし１６のいずれか１項に記載の符号器。
チャネル間適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項１２ないし１７のいずれか１項に記載の符号器。
チャネル間相関が低い場合には、それぞれのチャネルの相対的チャネル強さに従って残差エネルギーの重み付けをする、すなわち、強いチャネルの残差エネルギーは大きく、弱いチャネルの残差エネルギーは小さくするための手段（４２，ｅ１，ｅ２）を特徴とする、請求項１２ないし１８のいずれか１項に記載の符号器。
音声分類に基づいて、個別の固定コードブックのサイズを判断する、すなわち、一つのタイプの音声が他のタイプの音声より小さな個別の固定コードブックに関連付けられる手段（４０）を特徴とする、請求項１６ないし１９のいずれか１項に記載の符号器。
各チャネルの信号が、特定固定コードブックと共有固定コードブックとを用いて符号化される、複数チャネル線形予測合成分析信号符号器を含む端末であって、
チャネル間相関を検出する手段（４０）と；該検出されたチャネル間相関に基づいて符号化モードを選択するための手段（４０）と；該選択された符号化モードに基づいて、チャネル特定固定コードブックと共有固定コードブックの間に適応的にビットを分配する手段が、チャネル間相関が高い符号化モードでは、より多いビットが共有固定コードブックに、より少ないビットが個別固定コードブックに割り振られ、チャネル間相関が低い符号化モードでは、より少ないビットが共有固定コードブックに、より多いビットが個別固定コードブックに割り振られる手段（４０）を含む、複数チャネル線形予測合成分析信号符号器を含む端末。
チャネル間相関をタイムドメインで判断するための手段を特徴とする、請求項２１に記載の端末。
チャネル間相関を周波数ドメインで判断するための手段を特徴とする、請求項２１または２２に記載の端末。
チャネル間相関が低い場合には、チャネル特定固定コードブックが；チャネル間相関が高い場合には、共有固定コードブックが使用されることを特徴とする、請求項２１ないし２３のいずれか１項に記載の端末。