JP2003533902A5

JP2003533902A5 -

Info

Publication number: JP2003533902A5
Application number: JP2001508063A
Authority: JP
Filing date: 2000-06-30
Publication date: 2004-12-24

Description

【書類名】明細書
【発明の名称】符号化されたドメインのエコーの制御
【特許請求の範囲】
【請求項１】第１のパラメータを包含する複数のパラメータを有する圧縮のコードを使用して近接終端のデジタル信号を送信する通信システムであって該パラメータは複数のオーディオの特徴を有する１つのオーディオの信号をあらわし該圧縮のコードは複数の復号の段階により復号されることが可能であり該通信システムは圧縮のコードを使用して遠隔の終端の信号を送信するものにおける、近接終端のデジタル信号におけるエコーを減少させる装置であって、該装置は１つのプロセッサを具備し、該プロセッサは、該近接の終端のデジタルの信号に応答して該複数のパラメータの少なくとも該第１のパラメータを読取り、該複数の復号の段階の少なくとも１つを該近接の終端のデジタルの信号および該遠隔の終端のデジタルの信号について実行し、少なくとも部分的に復号された近接の終端の信号および少なくとも部分的に復号された遠隔の終端の信号を発生させ、および、該少なくとも部分的に復号された近接の終端の信号および少なくとも部分的に復号された遠隔の終端の信号に応答して該第１のパラメータを調節し、調節された第１のパラメータを発生させおよび該第１のパラメータを該近接の終端のデジタルの信号における該調節された第１のパラメータで置換するものである、エコーを減少させる装置。
【請求項２】該第１のパラメータは量子化された第１のパラメータであり、該プロセッサは、調節された第１のパラメータを該近接の終端のデジタルの信号へ書込む前に、該調節された第１のパラメータを量子化することにより該調節された第１のパラメータを部分的に発生させる、請求項１記載の装置。
【請求項３】該プロセッサは、該少なくとも部分的に復号された近接終端の信号および該少なくとも部分的に復号された遠隔終端の信号に応答し該少なくとも部分的に復号された近接終端の信号に存在するエコーの量をあらわすエコーの公算の信号を発生させ、および該プロセッサは、該エコーの公算の信号に応答し該第１のパラメータを調節する、請求項１記載の装置。
【請求項４】該特徴はスペクトルの形状を有し、該第１のパラメータはフィルタ係数を表現するものを有し、該プロセッサは該エコーの公算の信号に応答し該フィルタ係数を表現するものをマグニチュード周波数応答へ向かって調節する、請求項３記載の装置。
【請求項５】該フィルタ係数を表現するものはラインのスペクトルの周波数を有する、請求項４記載の装置。
【請求項６】該フィルタ係数を表現するものはログの面積の比を有する、請求項４記載の装置。
【請求項７】該マグニチュード周波数応答は背景雑音に対応する、請求項４記載の装置。
【請求項８】該特徴は該オーディオ信号の全体のレベルを有し、該第１のパラメータはコードブックの利得を有する、請求項１記載の装置。
【請求項９】該第１のパラメータはコードブックのベクトルのパラメータを有する、請求項１記載の装置。
【請求項１０】該特徴はロングタームの相関の期間を有し、該第１のパラメータはピッチ期間のパラメータを有する、請求項１記載の装置。
【請求項１１】該特徴はロングタームの相関の強度を有し、該第１のパラメータはピッチ利得のパラメータを有する、請求項１記載の装置。
【請求項１２】該特徴はスペクトルの形状を有し、該第１のパラメータはフィルタ係数を表現するものを有する、請求項１記載の装置。
【請求項１３】該フィルタ係数を表現するものはログの面積の比を有する、請求項１２記載の装置。
【請求項１４】該フィルタ係数を表現するものはラインのスペクトルの周波数を有する、請求項１２記載の装置。
【請求項１５】該フィルタ係数を表現するものはリニアプレディクティブの符号化合成のフィルタを有する、請求項１２記載の装置。
【請求項１６】該第１のパラメータは該複数のオーディオの第１の特徴に対応し、該複数の復号の段階は該第１の特徴を実質的に変化させることを回避する少なくとも１つの復号の段階を有し、該プロセッサは該少なくとも１つの復号の段階を実行することを回避する、請求項１記載の装置。
【請求項１７】該オーディオの特徴はパワーを有し、該第１の特徴はパワーを有する、請求項１６記載の装置。
【請求項１８】該少なくとも１つの復号の段階はポストフィルタ作動を有する、請求項１６記載の装置。
【請求項１９】該圧縮のコードは線形プレディクティブのコードを有する、請求項１記載の装置。
【請求項２０】該圧縮のコードは規則的なパルスの励起対ロングタームのプレディクティブのコードを有する、請求項１記載の装置。
【請求項２１】該圧縮のコードはコード励起される線形のプレディクションのコードを有する、請求項１記載の装置。
【請求項２２】該第１のパラメータは時間にわたり受信される一連の第１のパラメータを有し、該プロセッサは該近接終端のデジタルの信号に応答して該一連の第１のパラメータを読取り、該プロセッサは該少なくとも部分的に復号された近接および遠隔の終端の信号および少なくとも複数の該一連の第１のパラメータに応答して該調節された第１のパラメータを発生させる、請求項１記載の装置。
【請求項２３】該圧縮のコードは該デジタル信号のフレーム内に配置され、該フレームは複数のサブフレームを有し、該サブフレームの各々は該第１のパラメータを有し、該プロセッサは該圧縮のコードに応答して該複数のサブフレームの各々から少なくとも該第１のパラメータを読取り、該プロセッサは該第１のパラメータを、該複数のサブフレームの各々における該調節された第１のパラメータで置換する、請求項１記載の装置。
【請求項２４】該プロセッサは該サブフレームの第１のものから該第１のパラメータを読取り、該第１のサブフレームの間、該近接終端のデジタル信号について少なくとも複数の該復号の段階を実行することを開始し、第１のサブフレームに後続する１つのサブフレームを処理する前により小なる遅延を実現するよう該第１のパラメータを該調節された第１のパラメータで置換する、請求項２３記載の装置。
【請求項２５】該圧縮のコードは該デジタル信号のフレーム内に配置され、該フレームは複数のサブフレームを有しこのサブフレームの各々は該第１のパラメータを有し、該プロセッサは、該サブフレームの第１のものの期間に少なくとも複数の該復号の段階を実行して該少なくとも部分的に復号された近接終端および遠隔終端の信号を発生させ、該第１のパラメータを該第１のサブフレームに後続して出現する該サブフレームの第２のものから読取り、該少なくとも部分的に復号された近接終端および遠隔終端の信号および該第１のパラメータに応答して該調節された第１のパラメータを発生させ、および、該第２のサブフレームの第１のパラメータを該調節された第１のパラメータで置換する、請求項１記載の装置。
【請求項２６】コードのサンプルを有する近接終端のデジタル信号を送信する通信システムであって、該コードのサンプルは圧縮のコードを使用する第１のビットおよび線形のコードを使用する第２のビットを有し、該コードのサンプルはオーディオの信号を表わし該オーディオの信号は複数のオーディオの特徴を有し、該システムはまた遠隔終端のデジタルの信号を送信するシステムにおける、該圧縮のコードを符号化することなく近接終端のデジタル信号における該圧縮のコードを復号することなく該近接終端のデジタル信号におけるエコーを減少させる装置であって、該装置は該近接終端のデジタル信号および該遠隔終端のデジタル信号に応答して該第１のビットおよび該第２のビットを調節するものを具備するエコーを減少させる装置。
【請求項２７】圧縮のコードを復号することなく近接終端のデジタル信号におけるエコーを減少させる装置であって、近接終端のデジタル信号および遠隔終端のデジタル信号に応答して第１のビットおよび第２のビットを調節するプロセッサを具備する、請求項２６記載の装置。
【請求項２８】該線形のコードはパルスコード変調（ＰＣＭ）のコードを有する、請求項２６記載の装置。
【請求項２９】該圧縮のコードのサンプルは、移動可能の通信の標準のためにグローバルのシステムのタンデムフリーの作動に合致する、請求項２６記載の装置。
【請求項３０】該第１のビットは該サンプルの２つの最下位のビットを有し、該第２のビットは該サンプルの６個の最上位のビットを有する、請求項２６記載の装置。
【請求項３１】該６個の最上位のビットはＰＣＭコードを有する、請求項２９記載の装置。
【請求項３２】第１のパラメータを包含する複数のパラメータを有する圧縮のコードを使用して近接終端のデジタル信号を送信する通信システムであって、該パラメータは複数のオーディオの特徴を有するオーディオの信号を表わし、該圧縮のコードは複数の復号の段階により復号可能であり、該通信システムはまた圧縮のコードを使用して遠隔終端の信号を送信するもの、における該近接終端のデジタル信号におけるエコーを減少させる方法であって、該方法は、
該近接終端のデジタル信号に応答して該複数のパラメータの少なくとも第１のパラメータを読取る段階、
該近接終端のデジタル信号および該遠隔終端のデジタル信号について該複数の復号の段階の少なくとも１つを実行し、少なくとも部分的に復号された近接終端の信号および少なくとも部分的に復号された遠隔終端の信号を発生させる段階、
該少なくとも部分的に復号された近接終端の信号および少なくとも部分的に復号された遠隔終端の信号に応答して該第１のパラメータを調節し、調節された第１のパラメータを発生させる段階、および、
該第１のパラメータを該近接終端の信号における該調節された第１のパラメータで置換する段階、
を具備するエコーを減少させる方法。
【請求項３３】該第１のパラメータは量子化された第１のパラメータであり、該調節は該調節された第１のパラメータを量子化することにより該調節された第１のパラメータを部分的に発生させる過程を有する、請求項３１記載の方法。
【請求項３４】該調節は、該少なくとも部分的に復号された近接終端の信号および該少なくとも部分的に復号された遠隔終端の信号に応答して該部分的に復号された近接終端の信号に存在するエコーの量を表わすエコーの公算の信号を発生させる過程を有し、該調節は該エコーの公算の信号に応答して該第１のパラメータを調節する過程をさらに有する、請求項３１記載の方法。
【請求項３５】該特徴はスペクトルの形状を有し、該第１のパラメータはフィルタ係数を表わすものを有し、該調節は該エコーの公算の信号に応答して該フィルタ係数をマグニチュード周波数応答へ向かって調節する過程を有する、請求項３３記載の方法。
【請求項３６】該フィルタ係数を表わすものは、ラインスペクトルの周波数を有する、請求項３４記載の方法。
【請求項３７】該フィルタ係数を表わすものは、ログの面積の比を有する、請求項３４記載の方法。
【請求項３８】該マグニチュード周波数の応答は、背景の雑音に対応する、請求項３４記載の方法。
【請求項３９】該特徴は、該オーディオの信号の全体的なレベルを有し、該第１のパラメータは、コードブットの利得を有する、請求項３１記載の方法。
【請求項４０】該第１のパラメータは、コードブックのベクトルのパラメータを有する、請求項３１記載の方法。
【請求項４１】該特徴は、ロングタームの相関の期間を有し、該第１のパラメータは、ピッチ期間のパラメータを有する、請求項３１記載の方法。
【請求項４２】該特徴は、ロングタームの相関の強度を有し、該第１のパラメータはピッチ利得のパラメータを有する、請求項３１記載の方法。
【請求項４３】該特徴は、スペクトルの形状を有し、該第１のパラメータはフィルタ係数を表わすものを有する、請求項３１記載の方法。
【請求項４４】該フィルタ係数を表わすものは、ログの面積の比を有する、請求項４２記載の方法。
【請求項４５】該フィルタ係数を表わすものは、ラインスペクトルの周波数を有する、請求項４２記載の方法。
【請求項４６】該フィルタ係数を表わすものは、線形のプレディクティブの符号化合成のフィルタを有する、請求項４２記載の方法。
【請求項４７】該第１のパラメータは該複数のオーディオの特徴の第１の特徴に対応し、該複数の復号の段階は、該第１の特徴の実質的な変化を回避する少なくとも１つの復号の段階を有し、該少なくとも複数の該復号の段階の該実行は、該少なくとも１つの復号の段階の実行を回避する過程を有する、請求項３１記載の方法。
【請求項４８】該オーディオの特徴は、パワーを有し、該第１の特徴はパワーを有する、請求項４６記載の方法。
【請求項４９】該少なくとも１つの復号の段階は、ポストフィルタの過程を有する、請求項４６記載の方法。
【請求項５０】該圧縮のコードは、線形のプレディクティブコードを有する、請求項３１記載の方法。
【請求項５１】該圧縮のコードは、規則的なパルスの励起−ロングタームのプレディクションのコードを有する、請求項３１記載の方法。
【請求項５２】該圧縮のコードは、コード−励起された線形のプレディクションのコードを有する、請求項３１記載の方法。
【請求項５３】該第１のパラメータは、時間にわたり受信された一連の第１のパラメータを有し、該読取りは、該一連の第１のパラメータを読取る過程を有し、該調節は、該少なくとも部分的に復号された近接終端および遠隔終端の信号に、および少なくとも複数の該一連の第１のパラメータに応答して、該調節された第１のパラメータを発生させる過程を有する、請求項３１記載の方法。
【請求項５４】該圧縮のコードは、該デジタル信号のフレーム内に配置され、該フレームは、複数のサブフレームであって各々が該第１のパラメータを有するものを有し、該読取りは、該圧縮のコードに応答して該複数のサブフレームの各々から少なくとも該第１のパラメータを読取る過程を有し、該置換は、該第１のパラメータを該複数のサブフレームの各々における該調節された第１のパラメータで置換する過程を有する、請求項３１記載の方法。
【請求項５５】該読取りは、該第１のパラメータを該サブフレームの第１のものから読取る過程を有し、該実行は、該第１のサブフレームの期間に該近接終端のデジタル信号について少なくとも複数の該復号の段階を実行することを開始する過程を有し、該置換は、より小なる遅延を実現するよう第１のサブフレームに後続する１つのサブフレームを処理する前に該第１のパラメータを該調節された第１のパラメータで置換する過程を有する、請求項５３記載の方法。
【請求項５６】該圧縮のコードは、該デジタル信号のフレーム内に配置され、該フレームは複数のサブフレームを有しこのサブフレームの各々は該第１のパラメータを有し、該実行は該サブフレームの第１のものの期間に少なくとも複数の該復号の段階を実行し、該少なくとも部分的に復号された近接終端および遠隔終端の信号を発生させる過程を有し、該読取りは、該第１のパラメータを該第１のサブフレームに後続して出現する該サブフレームの第２のものから読取る過程を有し、該調節は、該少なくとも部分的に復号された近接終端および遠隔終端の信号および該第１のパラメータに応答して、該調節された第１のパラメータを発生させる過程を有し、該置換は、該第２のサブフレームの該第１のパラメータを該調節された第１のパラメータで置換する過程を有する、請求項３１記載の方法。
【請求項５７】コードのサンプルを有する近接終端のデジタルの信号を送信するシステムであって、該コードのサンプルは圧縮のコードを使用する第１のビットおよび線形のコードを使用する第２のビットを有し、該コードのサンプルはオーディオの信号を表わし該オーディオの信号は複数のオーディオの特徴を有し、該システムはまた遠隔終端のデジタルの信号を送信するもの、における、該圧縮のコードを復号することなく該近接端のデジタルの信号におけるエコーを減少させる方法であって、該方法は、
該近接終端のデジタルの信号および該遠隔終端のデジタル信号に応答して該第１のビットおよび該第２のビットを調節する段階、
を具備する、エコーを減少させる方法。
【請求項５８】該線形のコードは、パルスコード変調の（ＰＣＭ）コードを有する、請求項５６記載の方法。
【請求項５９】該圧縮のコードのサンプルは、移動可能の通信の標準用のグローバルのシステムのタンデムフリーの作動に一致している、請求項５６記載の方法。
【請求項６０】該第１のビットは該サンプルの２つの最下位桁のビットを有し、該第２のビットは該サンプルの６つの最上位桁のビットを有する、請求項５６記載の方法。
【請求項６１】該６つの最上位桁のビットはＰＣＭコードを有する、請求項５９記載の方法。
【発明の詳細な説明】
【０００１】
関連出願に関する記載
これは、１９９０年７月２日提出の、名称「圧縮音声の符号化ドメインエンハンスメント」と題した仮出願第６０／１４２，１３６号に対応するユーティリティアプリケーションである。
【０００２】
連邦政府支援の研究開発に関する宣言
適用されるものなし
【０００３】
発明の背景
本発明は、圧縮された音声の符号化されたドメインのエンハンスメントに関するもので、特に、符号化されたドメインのエコーの制御に関するものである。
【０００４】
本明細書は下記参考文献を参考とする。
［１］ＧＳＭ０６．１０「ディジタルセルラー通信システム（フェーズ２）；フルレート音声；パート２：トランス符号化」、ＥＴＳ３００５８０−２、１９９８年３月、第２版。
［２］ＧＳＭ０６．６０「ディジタルセルラー通信システム（フェーズ２）；エンハンスド・フルレート（ＥＦＲ）音声トランス符号化」、１９９８年６月。
［３］ＧＳＭ０８．６２「ディジタルセルラー通信システム（フェーズ２＋）；音声符号器のインバンド・タンデムフリーオペレーション（ＴＦＯ）」、ＥＴＳＩ、２０００年３月。
［４］Ｊ．Ｒ．Ｄｅｌｌｅｒ，Ｊ．Ｇ．Ｐｒｏａｋｉｓ，Ｊ．Ｈ．Ｌ．Ｈａｎｓｅｎ「音声信号の個別時間処理」、第７章、
Ｐｒｅｎｔｉｃｅ−ＨａｌｌＩｎｃ．，１９８７。
［５］ＧＳＭ０６．１２「欧州ディジタルセルラー通信システム（フェーズ２）；フルレート音声トラフィックチャネルにとって好適なノイズ面」、ＥＴＳＩ、１９９４年。
【０００５】
ＧＳＭディジタルセルラーネットワークでは、移動局（送受器）と基地局の間の音声伝送が圧縮された形または符号化された形で行われる。ＧＳＭＦＲ［１］やＥＦＲ［２］などの音声符号化技術が、音声を圧縮するのに使用される。音声の圧縮に使用されるデバイスは、ボコーダと呼ばれる。符号化された音声が必要とするビット数は、サンプル当たり２ビット未満である。この状況が図１に描かれている。基地局相互間では、音声は符号化されていない形で伝送される（サンプル当たり８ビットを必要とするＰＣＭコンパンディングを使って）。
【０００６】
符号化音声および非符号化音声という用語は、次の通り説明することができる。
非符号化音声：電話において代表的に使用されるディジタル音声信号サンプルを指す。これらのサンプルは、サンプル当たり線形１３ビットの形か、サンプル当たり８ビットのμ法則またはＡ法則のＰＣＭなどのコンパンドされた形かのどちらかで、代表的なビットレートは６４ｋｂｐｓである。
【０００７】
符号化音声：ＧＳＭＦＲの場合１３ｋｂｐｓ、ＧＳＭＥＦＲの場合１２．２ｋｂｐｓなどと、代表的に６４ｋｂｐｓよりはるかに低いビットレートを使用する圧縮オン信号信号パラメータを指す（符号化パラメータとも呼ばれる）。圧縮方法は、単純なＰＣＭコンパンディング方式より費用がかかる。例を挙げると、圧縮方法は線形予測符号化、符号励起式線形予測およびマルチバンド励起符号化である［４］。
【０００８】
タンデムフリー・オペレーション（ＴＦＯ）標準［３］が、近い将来、ＧＳＭディジタルセルラーネットワークにおいて展開される。ＴＦＯ標準は、移動体相互呼出しに適用される。ＴＦＯのもとで、音声信号は、短いネゴシエーション周期の後に圧縮された形で移動体間を移送される。これは、移動体相互呼出しの間のタンデムボイスコードを無くする。タンデムコードが無くされることは、オリジナル信号が明瞭である場合に音声の質を良くすることが知られている。注意すべきキーポイントは、音声伝送が移動体送受器の間で符号化されたまま残ることで、図２に描かれている通りである。
【０００９】
ＴＦＯのもとで、送受器と基地局の間の伝送は符号化され、必要とするビット数は音声サンプル当たり２ビット未満である。しかしながら、音声サンプル当たり８ビットが依然、基地局間の伝送に使用可能である。基地局では、音声が復号されてから、Ａ法則コンパンドされるので、サンプル当たり８ビットが必要である。それでも、オリジナルの符号化音声ビットは、Ａ法則コンパンドされた各８ビットサンプルの中の２つの最下位ビット（ＬＳＢ）に取って代わるのに使用される。ＴＦＯが送受器間に一度確立されると、基地局は各８ビットサンプルの中の２つのＬＳＢをそれぞれの送受器に送り、６つの最上位ビットを捨てるだけとなる。これで、ボコーダのタンデム化は回避されることになる。このプロセスは図３に描かれている。
【００１０】
エコー問題とその伝統的解決は図４に示されている。有線ネットワークでは、４線式対２線式ハイブリッドにおけるインピーダンス不整合によってエコーが発生する。不整合は、結果的に遠端信号の一部を近端信号の中に電気的に反映させることになる。ネットワーク遅延とエンド経路のチャネルインパルス応答次第で、エコーは、遠端聴取者の耳障りになることがある。エンド経路のインパルス応答は、ネットワークのエコーキャンセラ（ＥＣ）によって評価され、エコー信号の評価を作るのに使用される。評価結果は、次に、エコーを除去するために近端信号から差し引かれる。ＥＣ処理の後、いかなる残留エコーも非線形プロセッサ（ＮＬＰ）によって除去される。
【００１１】
ディジタルセルラー送受器の場合、エコーは、スピーカ（送話口）からマイクロホン（受話口）へのフィードバックによって発生する。音響フィードバックは重大であり得るし、特にハンドフリー型電話の場合、エコーが耳障りになり得る。
【００１２】
図５は、ディジタルセルラー送受器におけるスピーカからマイクロホンへのフィードバック経路を示す。図示された送受器は、送受器で実現したエラーキャンセル機能を持たない。
【００１３】
ＧＳＭネットワークにおけるＴＦＯのもとで、エコーキャンセル機能をネットワーク内で実現させる場合は、伝統的アプローチのために符号化音声の復号、結果的に生じる非符号化音声の処理、そして、その再符号化が必要となる。このような復号と再符号化が必要であるのは、伝統的なエコーキャンセラが非符号化音声信号にしか働きかけないからである。このアプローチを図６に示す。このアプローチの欠点をいくつか挙げるならば、下記の通りである。
【００１４】
１．このアプローチは、２個の復号器と１個の符号器を必要とするので、かなりの計算量となる。代表的には、符号器は復号器より計算の複雑さが１桁分大きい。よって、符号器の存在は特にコンピュータにとって大きな負担となる。
２．復号と再符号化のプロセスによって導入される遅延は望ましくない。
３．ボコーダ・タンデム（すなわち直列に置かれた２対の符号器／復号器）がこのアプローチに導入され、周知の通り、これが量子化効果のゆえに音声の質を低下させることになる。
【００１５】
もうひとつの直進的アプローチでは、コンフォートノイズ発生を使ってエコーをマスクしてよい。コンフォートノイズ発生は、無音抑制または断続伝送の目的に使用される（例えば［５］）。このような技術を使って、エコーを検出し次第完全にマスクすることが可能である。しかしながら、このような技術は、特にダブルトーク状態の間の“変動性（ｃｈｏｐｐｉｎｅｓｓ）”、ならびに、背景の透明度の低さと不自然さという欠点を有する。
【００１６】
提案された技術は、符号化音声に対して直接（すなわち、符号化パラメータの直接修正によって）エコーコントロールを実行することができる。計算の複雑さと遅延が僅少に抑えられる。タンデム化効果は回避され、または最小限に抑えられ、エコーコントロール後により良い音質が知覚される結果となる。また、すぐれた背景透明度も達成される。
【００１７】
音声圧縮は、損失を伴うソースコーディングの範疇に属するもので、一般に音声符号化と呼ばれる。音声符号化は、音声伝送に必要な帯域幅を最小にするために行われる。これは、帯域幅が乏しい無線電話において特に重要である。相対的に帯域幅が豊かなパケットネットワークでは、音声符号化は依然、ネットワークの遅延およびジッタを最小限に抑える上で重要である。それは、音声通信がデータ通信と違って遅延をほとんど許容し得ないからである。従って、パケットサイズが小さいほど、パケットネットワーク経由の伝送は容易となる。関連の４つのＥＴＳＩＧＳＭ標準をテーブル１に挙げる。
【００１８】
テーブル１：ＧＳＭ音声コーデック

【００１９】
音声符号化では、１組の連続的なディジタル音声サンプルが音声フレームと呼ばれる。ＧＳＭ符号器は、２０ｍｓのフレームサイズに働きかける（サンプリング速度８ｋＨｚで１６０サンプル）。音声フレームが１つあるとすれば、音声符号器が、音声合成モデルに関して小さい１組のパラメータを決定する。この音声パラメータと音声合成モデルをもってすれば、オリジナルの音声フレームに酷似した形で現れ、酷似した音を発する音声フレームを再構築することができる。この再構築は、音声復号器によって行われる。上に挙げたＧＳＭボコーダでは、符号化プロセスは復号プロセスよりはるかに計算が集約的である。
【００２０】
音声符号器によって決定される音声パラメータは、使用する音声合成モデルによって異なる。テーブル１に記載のＧＳＭ符号器は、線形予測符号化（ＬＰＣ）モデルを利用する。総称ＬＰＣ音声合成モデルの単純化した形のブロック図を図７に示す。このモデルは、モデルパラメータを適宜指定することによって音声に似た信号を発生させるのに使用することができる。本例の音声合成モデルでは、パラメータは、時変フィルタ係数、ピッチ周期、コードブック・ベクトルおよび利得係数を含む。合成音声は次の通り発生させられる。コードブック・ベクトルｃ（ｎ）は、先ずコードブック利得係数Ｇによって適当な大きさに定められる。ここで、ｎはサンプル時間を表す。
【００２１】
決められたコードブック・ベクトルは、次にピッチ合成フィルタによって濾過される。このフィルタのパラメータは、ピッチ利得ｇおよびピッチ周期Ｔを含む。濾過結果は、時折、合計励起べクトルｕ（ｎ）と呼ばれる。その名が表す通り、ピッチ合成フィルタは、発せられた音声の調波音質をもたらす。合計励起べクトルは、次に、音声フレームのブロードスペクトル形状と対応する可聴周波信号のブロードスペクトル形状とを指定するＬＰＣ合成フィルタによって濾過される。
【００２２】
音声フレームごとに、パラメータは通常２回以上更新される。例えばＧＳＭＦＲ符号器やＥＦＲ符号器では、コードブック・ベクトル、コードブック利得およびピッチ合成フィルタパラメータがサブフレーム（５ｍｓ）ごとに決められる。ＬＰＣ合成フィルタパラメータは、ＥＦＲではフレーム当たり２回（１０ｍｓごと）、ＦＲではフレーム当たり１回決められる。
【００２３】
音声符号器において使用されるステップの代表的シーケンスは次の通りである。
１．音声サンプルのフレームを獲得する。
２．サンプルのフレームにウィンドウ（例えばハミング・ウィンドウ）を掛け、ラグＭまで自己相関関数を決定する。
３．自己相関関数から反射係数および／またはＬＰＣ係数を決定する。（注記するならば、反射係数はＬＰＣフィルタ係数のもうひとつの言い表し方である。）
【００２４】
４．反射係数、すなわちＬＰＣフィルタ係数を、量子化に適した別の形に変換する（例えばログ・エリア比または線スペクトル周波数）。
５．変換されたＬＰＣ係数をベクトル量子化技術を使って量子化する。
【００２５】
６．何らかの補助的なエラー修正／検出ビット、フレーム指示ビットなどを追加する。
７．符号化されたパラメータを伝送する。
【００２６】
下記の動作シーケンスが、代表的にサブフレームごとに音声符号器によって行われる。
１．ピッチ周期を決める。
２．対応するピッチ利得を決める。
３．ピッチ周期とピッチ利得を量子化する。
【００２７】
４．量子化ＬＰＣ合成フィルタを通じてオリジナル音声信号を逆濾過し、ＬＰＣ残留信号を獲得する。
５．ピッチ合成フィルタを通じてＬＰＣ残留信号を逆濾過し、ピッチ残留分を獲得する。
６．最良のコードブック・ベクトルを決める。
【００２８】
７．最良のコードブック利得を決める。
８．コードブック利得とコードブック・ベクトルを量子化する。
９．フィルタメモリを適宜更新する。
【００２９】
音声復号器において使用されるステップの代表的シーケンスは下記の通りである。
先ず、何らかのエラー修正／検出およびフレーム指示を実行する。
次に、サブフレームごとに下記を実行する。
【００３０】
１．受け取られたすべての符号化パラメータ（ＬＰＣ係数、ピッチ周期、ピッチ利得、コードブック・ベクトル、コードブック利得）を脱量子化する。
２．コードブック・ベクトルの大きさをコードブック利得によって定め、これをピッチ合成フィルタで濾過し、ＬＰＣ励起信号を獲得する。
３．ＬＰＣ励起信号をＬＰＣ合成フィルタで濾過し、予備音声信号を獲得する。
【００３１】
４．ポストフィルタを構築する（通常はＬＰＣ係数をベースとする）。
５．予備音声信号を濾過することによって量子化ノイズを減じ、それで、最終の合成音声を獲得する。
【００３２】
符号器によって伝送されたビットストリームにおける符号化パラメータの配置の一例として、ＧＳＭＦＲボコーダを考慮する。ＧＳＭＦＲボコーダについては、フレームを８ｋＨｚでサンプリングされた音声のサンプル１６０個分と定義する。すなわち、フレームは長さ２０ｍｓである。Ａ法則ＰＣＭコンパンディングをもってすれば、１６０個のサンプルの伝送のために１２８０ビットが必要ということになる。符号器は１６０個のサンプルを２６０ビットに圧縮する。各フレームの２６０ビットの中の様々な符号化パラメータの配置を図８に示す。
【００３３】
符号化された各フレームの最初の３６ビットは、ＬＰＣ合成フィルタに相当するログ・エリア比からなる。残りの２２４ビットは、各々５６ビットの４つのサブフレームに分類することができる。各サブフレームの内部では、符号化パラメータビットに先ずピッチ合成フィルタ関連のパラメータが含まれ、その後にコードブック・ベクトル関連のパラメータおよびコードブック利得関連のパラメータが続く。
【００３４】
発明の概要
好適な実施例は、第１パラメータを含む複数のパラメータからなる圧縮コードを使って近端ディジタル信号を伝送するための通信システムにおいて有用である。パラメータが表すのは、複数の可聴周波特性を有する可聴周波信号である。圧縮コードは、複数の復号ステップによって復号できる。通信システムはまた、圧縮コードを使って遠端ディジタル信号も送信する。このような環境においては、近端ディジタル信号におけるエコーは、複数のパラメータのうち少なくとも第１パラメータを近端ディジタル信号に応答して読取ることによって減じることができる。複数の復号ステップのうち少なくとも１つが、近端ディジタル信号と遠端ディジタル信号において行われ、これで、少なくとも部分的に復号された近端信号と少なくとも部分的に復号された遠端信号が作成されることになる。
【００３５】
第１パラメータは、少なくとも部分的に復号された近端信号と少なくとも部分的に復号された遠端信号に応答して調整され、これで、調整済み第１パラメータが作成されることになる。第１パラメータは、近端ディジタル信号において調整済み第１パラメータに取って代わられる。読取り、作成および調整は、望ましくは、１つのプロセッサによって行われる。
【００３６】
本発明の他の１つの実施例は、さらに、圧縮コードを使用する第１ビットと線形コードを使用する第２ビットからなるコードサンプルを使って近端ディジタル信号を伝送するための通信システムにおいて有用である。コードサンプルが表すのは、複数の可聴周波特性を有する可聴周波信号である。通信システムはまた、遠端ディジタル信号も送信する。このような環境においては、近端ディジタル信号におけるいかなるエコーも、圧縮コードなしに、第１ビットと第２ビットを近端ディジタル信号と遠端ディジタル信号に応答して調整することによって減じることができる。
【００３７】
好適な実施例の詳細な説明
本発明の優先実施例を下記の略語を参考にして説明する。
ＡＣＥＬＰＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ（代数コード励起線形予測）
ＡＥＡｕｄｉｏＥｎｈａｎｃｅｒ（可聴周波エンハンサ）
ＡＬＣＡｄａｐｔｉｖｅｏｒＡｕｔｏｍａｔｉｃＬｅｖｅｌＣｏｎｔｒｏｌ（適応レベル制御または自動レベル制御）
ＣＤＣｏｄｅｄＤｏｍａｉｎｏｒＣｏｍｐｒｅｓｓｅｄＤｏｍａｉｎ（符号化ドメインまたは圧縮ドメイン）
【００３８】
ＣＤＥＣＣｏｄｅｄＤｏｍａｉｎＥｃｈｏＣｏｎｔｒｏｌ（符号化ドメインエコーコントロール）
ＥＦＲＥｎｈａｎｃｅｄＦｕｌｌＲａｔｅ（エンハンスド・フルレート）
ＥＴＳＩＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（欧州電気通信標準化協会）
ＦＲＦｕｌｌＲａｔｅ（フルレート）
【００３９】
ＧＳＭＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ（汎欧州ディジタル移動電話方式）
ＩＴＵＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎ（国際電気通信連合）
ＭＲ−ＡＣＥＬＰＭｕｌｔｉ−ＲａｔｅＡＣＥＬＰ（ＡＣＥＬＰマルチレート）
ＰＣＭＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ（ＩＴＵＧ．７１１）（パルス符号変調）
【００４０】
ＲＰＥ−ＬＴＰＲｅｇｕｌａｒＰｕｌｓｅＥｘｃｉｔａｔｉｏｎ − ＬｏｎｇＴｅｒｍＰｒｅｄｉｃｔｉｏｎ（規則パルス励起−長期予測）
ＴＦＯＴａｎｄｅｍＦｒｅｅＯｐｅｒａｔｉｏｎ（タンデムフリーオペレーション）
ＶＳＥＬＰＶｅｃｔｏｒＳｕｍＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ（ベクトル総和励起線形予測）
【００４１】
音声合成の伝達関数
デコーダにおける音声合成には多くの非線形性とヒューリスティックスとが関与しているが、下記の近似的な伝達関数がその合成プロセスに特性づけられることが可能である。
【数１】

【００４２】
コードブックベクトルｃ（ｎ）がＨ（ｚ）によってフィルタリングされ、合成音声が得られる。音声復号化のためのこの汎用ＬＰＣ音声合成またはデコーダモデルに関して留意すべきキイポイントは、エコー制御を実現するために変更されることが可能な使用可能な符号化されたパラメータは、
１．ｃ（ｎ）：コードブックベクトル、
２．Ｇ：コードブック利得、
３．ｇ_ｐ：ピッチ利得、
４．Ｔ：ピッチ周期
５．｛ａ_ｋ，ｋ＝１，．．．，Ｍ｝：ＬＰＣ係数
であるということである。
【００４３】
殆どのＬＰＣベースのボコーダは、上述のセットに類似したパラメータ、上述の形式に変化されてもよいパラメータ、または、上述の形式に関係したパラメータを使用する。例えば、ＬＰＣベースのボコーダのＬＰＣ係数は、ログ−エリア比率（ｌｏｇ−ａｒｅａｒａｔｉｏ）（例えば、ＧＳＭＦＲ）または線スペクトル周波数（例えば、ＧＳＭＥＦＲ）を使用して表現されてもよい。これらの形式の両方がＬＰＣ係数に変換されることが可能である。パラメータが上述の形式に関係付けられている事例が、ＧＳＭＦＲボコーダにおけるブロック最大パラメータである。ブロック最大は、式（１）によって記述されているモデルにおけるコードブック利得に正比例していると見なされることが可能である。
【００４４】
したがって、符号化パラメータ変更方法の説明は主として汎用音声デコーダモデルに限定されているが、こうした方法をあらゆるＬＰＣベースのボコーダとおそらくはさらに他のモデルとに適合させることは比較的容易である。
【００４５】
さらに、エコー制御のために非符号化音声と共に使用されるセンタークリッピング（ｃｅｎｔｅｒ−ｃｌｉｐｐｉｎｇ）のような非線形処理方法が、音声信号の符号化パラメータ表現が著しく異なっているので、符号化パラメータには使用不可能であるということも明らかなはずである。コードブックベクトル信号ｃ（ｎ）でさえ、関与している大幅な量子化のためにセンタークリッピングに対して応答しない。ボコーダの多くでは、コードブックベクトルサンプルの大多数がすでにゼロであり、一方、非ゼロのパルスが高度に量子化される。したがって、こうした非線形処理アプローチは適用不可能であるか無効である。
【００４６】
本明細書および本請求項の範囲では、術語「線形コード」と「圧縮コード」は次の意味を有する。
線形コード：線形コードとは、オーディオ信号の各サンプルに関する１つの符号化パラメータすなわち符号化サンプルを結果的にもたらす方法を意味する。線形コードの例は、ＰＣＭ（Ａ−ｌａｗおよびμ−ｌａｗ）、ＡＤＰＣＭ（適応差分パルス符号変調）、および、デルタ変調である。
【００４７】
圧縮コード：圧縮コードとは、オーディオ信号の各サンプルに関する１つ未満の符号化パラメータを結果的にもたらす圧縮方法を意味する。典型的には、圧縮コードは、オーディオ信号サンプルの各ブロックすなわち各フレームに関する小さなセットの符号化パラメータを結果的にもたらす。圧縮コードの例は、ＧＳＭボコーダ（ＨＲ、ＦＲ、ＥＦＲ）のような線形予測符号化ベースのボコーダである。
【００４８】
符号化されたドメインのエコーの制御
概観
図９は、音響エコーが存在する状況に関する符号化ドメインエコー制御（ＣＤＥＣ）の新規の具体例を示す。通信システム１０は、テーブル１に示したコーデックによって使用されるコードのいずれかのような圧縮コードを使用してネットワーク２４を経由して近接終端符号化ディジタル信号（ｎｅａｒｅｎｄｃｏｄｅｄｄｉｇｉｔａｌｓｉｇｎａｌｓ）を伝送する。圧縮コードは、近接終端スピーカヘッドセット１２内の近接終端マイクロホン１４によって生成された線形オーディル信号からエンコーダ１６によって生成される。圧縮コードは、図８に示すパラメータのようなパラメータを含む。このパラメータは、オーディオレベルと電力を含む複数のオーディオ特性を含むオーディオ信号を表現する。圧縮コードは様々な復号化ステップによって復号化可能である。後述するように、システム１０は、ネットワーク３２を経由してシステム１０によって伝送される遠隔終端ディジタル信号（ｆａｒｅｎｄｄｉｇｉｔａｌｓｉｇｎａｌｓ）の存在を原因とする近接終端ディジタル信号中のエコーを制御する。このエコーは、図８に示す圧縮コードパラメータの最小限の遅延と（復号化を行う場合には）最小限の復号化とによって制御される。
【００４９】
圧縮コードを使用する遠隔終端ディジタル信号は近接終端端子２０によって受け取られ、調整圧縮コードを使用するディジタル信号は、近接終端端子２２によってネットワーク２４を経由して、調整圧縮コードのデコーダ（図示されていない）を含む遠隔終端ハンドセット（図示されていない）に伝送される。調整圧縮コードがオリジナルの圧縮コードと互換性があるということに留意されたい。言い換えると、符号化パラメータが変更または調整されている時に、この符号化パラメータを調整圧縮コードと呼ぶが、この調整圧縮コードは依然としてオリジナルの圧縮コードに対応する標準デコーダを使用して復号化可能である。線形遠隔終端オーディオ信号が、デコーダ１８と互換性がある圧縮コードを使用して遠隔終端ディジタル信号を生成するために遠隔終端エンコーダ（図示されていない）によって符号化され、ネットワーク３２を経由して遠隔終端端子３４に伝送される。近接終端ハンドセット１２のデコーダ１８が遠隔終端ディジタル信号を復号化する。図９に示されているように、遠隔終端信号からのエコー信号は音響フィードバックを介して近接終端ハンドセット１２のエンコーダ１６に進むだろう。
【００５０】
プロセッサ４０は近接終端圧縮コードと遠隔終端圧縮コードとに対して様々な操作を行う。プロセッサ４０はマイクロプロセッサ、マイクロコントローラ、ディジタル信号プロセッサ、または、算術的および論理的操作が可能な他のタイプの論理ユニットであってよい。
【００５１】
各タイプのコーデックに関して、ＴＦＯおよび非ＴＦＯの際に、圧縮モードおよび線形モードにおいて、異なった符号化ドメインエコー制御アルゴリズム４４が常にプロセッサ４０によって実行される。部分デコーダ４８が、端子２０で受け取られたパラメータの少なくとも最初のパラメータを読み取るためにプロセッサ４０によって実行される。別の部分デコーダ４６が、少なくとも部分的に復号化された遠端信号を生成するためにプロセッサ４０によって実行される。デコーダ４８は少なくとも部分的に復号化された近接終端信号を生成する。（近接終端信号と遠隔終端信号とによって使用される圧縮コードは互いに異なっていてもよく、したがって部分デコーダも互いに異なっていてもよいということに留意されたい。）
【００５２】
部分復号化に基づいて、アルゴリズム４４が、近接終端ディジタル信号中のエコーの量を少なくとも推定するエコー公算（尤度）信号（ｅｃｈｏｌｉｋｅｌｉｈｏｏｄｓｉｇｎａｌ）を生成する。エコー尤度信号は、エコーの量が遠隔終端音声信号に依存するので時間の経過に応じて変化する。エコー尤度信号は、アルゴリズム４４によって読み取られる１つまたは複数のパラメータを調整するためにアルゴリズム４４によって使用される。調整されたパラメータは、端子２２からネットワーク２４に伝送される調整された近接終端ディジタル信号を形成するために、近接終端ディジタル信号中に書き込まれる。言い換えると、その調整されたパラメータは、当初に読み取られたパラメータの代わりに使用される。ネットワークＡＬＣ装置内に示されている部分デコーダ４６、４８は、プロセッサ４０によって実行されるアルゴリズムであり、コーデックに依存している。
【００５３】
部分デコーダは、圧縮コードを使用して圧縮された信号を操作する。プロセッサ４０がＴＦＯ環境において実装される場合には、部分デコーダ４６は圧縮コードではなく線形コードを復号化するだろう。さらに、この場合には、部分デコーダ４８が線形コードを復号化し、圧縮コードからオーディオ信号を実際に合成することなしに圧縮コードから符合化パラメータを求めるだけだろう。
さらに、ブロック４４、４６、４８は直結（ｈａｒｄｗｉｒｅｄ）回路として実現されてもよい。
【００５４】
図１０は、図９の実施形態が、エコーが４ワイヤ−２ワイヤハイブリッド（４−ｗｉｒｅ−ｔｏ−２−ｗｉｒｅｈｙｂｒｉｄ）のために生じるシステムのために使用可能であることを示す。
【００５５】
ＣＤＥＣ装置／アルゴリズムが、近接終端から受け取ったビットストリーム中の符号化パラメータを直接変更することによって、近接終端符号化音声からエコー効果を取り除く。近接終端信号および遠隔終端信号の復号化は、近接終端に存在するエコーの尤度を求めるために行われる。この尤度値を求めるために、復号化された信号から幾つかの統計値が測定される。
【００５６】
部分的な復号
近接終端信号および遠隔終端信号の復号化は、符号化操作および復号化操作のために使用されるボコーダに応じて部分的復号化であっても完全復号化であってもよい。部分復号化で十分である状況の幾つかの例を下記に示す。
１．符号励起線形予測（ＣＥＬＰ）ボコーダでは、後フィルタリング処理が、ＬＰＣベースのモデルを使用して復号化された信号に対して行われる。この後フィルタリング処理は量子化ノイズを減少させる。しかし、後フィルタリング処理はエコーの尤度を求めるために必要な統計値の測定に大きな悪影響は与えないので、後フィルタリング段階を経済性のために省略することが可能である。
【００５７】
２．ＧＳＭネットワークにおけるＴＦＯでは、ＣＤＥＣ装置が基地局とスイッチ（Ａ−インタフェースとして知られている）との間または２つのスイッチの間に置かれてもよい。図３に示されているように、音声信号の各８ビットサンプルの６つのＭＳＢがＰＣＭコードに対応するので、この状況では、符号化音声をすべて符号化することを回避することが可能である。Ａ−ｌａｗコンパンディングテーブルを使用して８ビット圧伸サンプルを１３ビット線形音声サンプルに変換するためには簡単なテーブルルックアップで十分である。このことが、適切なデコーダを呼び出すことなしに音声信号の１つのバージョン（ｖｅｒｓｉｏｎ）を得るための経済的な方法を提供する。この方法で得られた音声信号は幾分かノイズを含むが、エコー尤度を求めるために必要な統計値の測定にとっては十分であることが発見されている。
【００５８】
エコー尤度の決定
遠隔終端信号および近接終端信号の幾つかの（完全復号化または部分復号化された）非符号化バージョンが利用可能であると想定すると、幾つかの統計値が測定され、近端信号中に存在するエコーの尤度を求めるために使用される。エコー尤度が各音声サブフレーム毎に推定され、この場合にサブフレームの持続時間は使用ボコーダに依存している。好ましいアプローチをこのセクションで説明する。
【００５９】
エンドパス（ｅｎｄ−ｐａｔｈ）の単純化されたモデルが図１１に示されている通りであると想定する。このエンドパスは、サンプルτ個分の一様な遅延とエコー反射減衰量（ＥＲＬ）λとから成ると想定する。
【００６０】
このモデルでは、ｓ_ＮＥ（ｎ）が近端非符号化信号であり、ｓ_ＦＥ（ｎ）とが遠端非符号化信号である。τの範囲がＣＤＥＣの特定の具体化にとって既知であり、下記のように特定される。
【数２】

【００６１】
この想定は妥当であるが、これは最大エンドパス遅延と最小エンドパス遅延とが主として音声符号化と音声復号化とチャネル符号化とチャネル復号化と他の既知の伝送遅延とに依存するからである。ＥＲＬ範囲は、
【数３】

であると仮定される。
【００６２】
エコーの公算（尤度）の推定のプロセスは次の変数を使用する。
Ｐ_ＮＥは近端信号の現在サブフレームの電力である。
Ｐ_ＦＥ（０）は遠端信号の現在サブフレームの電力である。
Ｐ_ＦＥ（ｍ）は遠端信号の現在サブフレームの前のｍ番目のサブフレームの電力である。言い換えると、遠端サブフレーム電力値の過去値のバッファが維持される。可能最大エンドパス遅延までの遠端信号のサブフレーム電力が使用可能であるように、バッファサイズはＢ_ｍａｘ＝［τ_ｍａｘ／Ｎ］である。ここでＮはサブフレーム中のサンプルの数である。
【００６３】
Ｒが近端サブフレーム電力の遠端サブフレーム電力に対する比率である。
ρ_１が事前エコー公算（尤度）である。
ρが、事前エコー公算（尤度）を平滑化することによって得られるエコー尤度である。
【００６４】
後述のステップを使用して各サブフレームに関してエコー公算（尤度）を推定する。幾つかのボコーダ、特にＧＳＭＨＲのような特に低いビットレートのボコーダでは、この処理がサブフレーム単位ではなくフレーム単位においてより適切に行われることがある。
【００６５】
現在サブフレームに関するｓ_ＮＥ（ｎ）の電力を
【数４】

として求める。
【００６６】
現在サブフレームに関するｓ_ＦＥ（ｎ）の電力を
【数５】

として求める。
【００６７】
近端電力の遠端電力に対する比率を
【数６】

ここにＢ_ｍｉｎ＝［τ_ｍｉｎ／Ｎ］、として求める。分母は、本質的に、予想エンドパス遅延時間期間中に測定された最大遠端サブフレーム電力である。
【００６８】
バッファ内の遠端電力値をシフトし、すなわち、
Ｐ_ＦＥ（Ｂ_ｍａｘ）＝Ｐ_ＦＥ（Ｂ_ｍａｘ−１）；．．．；Ｐ_ＦＥ（１）＝Ｐ_ＦＥ（０）である。
【００６９】
事前エコー公算（尤度）を
【数７】

として求める。
【００７０】
ρ＝０．９ρ＋０．１ρ_１を使用して、事前エコー公算（尤度）を平滑化し、エコー公算（尤度）を得る。
【００７１】
近端サブフレーム電力の遠端サブフレーム電力に対する比率の関数としての事前エコー公算（尤度）のグラフを図１２に示す。
【００７２】
符号化パラメータの変更
このセクションでは、エコー尤度に基づいた符号化パラメータの直接変更のための好ましい方法を説明する。図７の汎用音声デコーダモデルの各符号化パラメータの直接変更を最初に説明する。その次に、標準ベースのボコーダに関するパラメータ変更のための対応する方法を説明する。標準ベースのボコーダの一例として、ＧＳＭＦＲボコーダを考察する。標準にしたがって各パラメータを変更し量子化した後に、ビットストリーム中の適切なパラメータを適切に変更する。このプロセス全体の好ましい実施形態を図１３に示す。
【００７３】
コードブック利得の変更
各サブフレームに関するコードブック利得パラメータＧが、そのサブフレームに関するエコー尤度ρに依存する基準化因子によって減少させられる。Ｇ_ｎｅｗによって表される変更されたコードブック利得パラメータが次式によって与えられる。
Ｇ_ｎｅｗ＝（１−ρ）Ｇ（４）
【００７４】
その次に、このパラメータをボコーダ標準にしたがって再量子化する。図７の音声デコーダモデルでは、コードブック利得が合成信号の総レベルを制御し、したがって対応するオーディオ信号の総レベルを制御するということに留意されたい。一方、コードブック利得を減衰させることがエコーの減衰を結果的に生じさせる。
【００７５】
ＧＳＭＦＲの場合には、ブロック最大パラメータＸ_ｍａｘは、図７の汎用モデルのコードブック利得パラメータに正比例している。したがって、変更されたブロック最大パラメータは、
Ｘ_{ｍａｘ，ｎｅｗ}＝（１−ρ）Ｘ_ｍａｘ（５）
として計算される。
【００７６】
その次に、標準において規定されている方法によってＸ_{ｍａｘ，ｎｅｗ}が再量子化される。その結果として得られる６ビット値がビットストリーム中の適切な位置に再挿入される。
【００７７】
コードブックベクトルの変更
コードブックベクトルｃ（ｎ）はパルスの位置および振幅をランダム化することによって変更される。コードブックベクトルのランダム化は結果的にエコーの相関特性を消滅させる。これはエコーの「音声に似た」性質の多くを消滅させる効果を有する。エコーの公算（尤度）が高いと判定される時には何時でも、好ましくはρ＞０．８である時には、ランダム化が行われる。このランダム化は、あらゆる適切な疑似ランダムビット生成方法を使用して行われることが可能である。
【００７８】
ＧＳＭＦＲの場合には、各サブフレームに関するコードブックベクトルは、ＲＰＥグリッド位置パラメータ（２ビット）と１３個のＲＰＥパルス（各パルスは３ビット）とによって決定される。疑似ランダムビット発生器を使用して、これらの４１個のビットが４１個のランダムビットで置き換えられる。
【００７９】
ピッチ合成フィルタの変更
ピッチ合成フィルタは音声信号のあらゆる周期の長期相関を実現し、有声音化音声の高調波をモデル化するために特に重要である。図７で説明したこのフィルタのモデルは、２つのパラメータ、すなわち、ピッチ周期Ｔとピッチ利得ｇ_ｐだけを使用する。有声音化音声中は、ピッチ周期は幾つかのサブフレームまたはフレームにわたって比較的一定不変である。大半のボコーダにおけるピッチ利得はゼロから１または１よりわずかに大きな値（例えばＧＳＭＥＦＲでは１．２）までの範囲内である。強い有声音化音声中は、ピッチ利得はその最大値であるかまたはそれに近い値である。
【００８０】
エコーが近端信号中だけに存在する場合には、そのエコーの有声音化された高調波は一般的にピッチ合成フィルタによって適切にモデル化され、エコーの尤度が高いことが検出される（ρ＞０．８）。
【００８１】
フレーム周期中にエコーと近端音声の両方が近端信号中に存在する場合には、エコーの尤度は適度なレベルにある（０．５≦ρ≦０．８）。こうした状況では、符号化プロセスは一般的にこれら２つの信号のうちのより強い方の信号をモデル化するということになる。大半の場合に近端音声がエコーよりも強いと想定することが妥当である。これが当てはまる場合には、符号化プロセスは、その性質のために、ピッチ合成フィルタによって主として近端音声高調波をモデル化し、エコーの高調波はわずかしかモデル化しないかまたは全くモデル化しない傾向がある。
【００８２】
有声音化エコーを除去またはマスキングするために、エコーの高調波性が消滅させられる。これは、次のようにピッチ合成フィルタパラメータを変更することによって実現される。
【００８３】
エコーにおける長期相関が除去されるようにピッチ周期がランダム化され、したがって、エコーの有声音化性質が消滅させられる。エコーの尤度が高い時だけ、好ましくはρ＞０．８である時だけ、こうしたランダム化が行われる。
【００８４】
オーディオ信号における高調波の強さまたは長期相関の強さを制御するために、ピッチ利得が減少させられる。こうした利得の減衰が、エコーの尤度が少なくとも適度である（ρ＞０．５）時にだけ行われることが好ましい。
【００８５】
新たなピッチ利得が下記の通りに得られる。
【数８】

【００８６】
このアプローチによって、適度なエコー尤度の際にはピッチ周期がランダム化されないが、信号の有声音化品質が強くないようにピッチ利得が減衰させられてもよいということに留意されたい。
【００８７】
図１４は、ピッチ周期Ｔ＝１４を有するピッチ合成フィルタの大きさ周波数応答（ｍａｇｎｉｔｕｄｅｆｒｅｑｕｅｎｃｙｒｅｓｐｏｎｓｅ）を示す。点線が高ピッチ利得（ｇ_ｐ＝０．７５）に関する応答であり、実線が、ｇ_ｐ＝０．３にピッチ利得が減衰させられる時に生じる状態を示す。オーディオ信号の高調波と長期相関の強さは、このパラメータをこの仕方で変更することによって制御されることが可能である。
【００８８】
ＧＳＭＦＲボコーダでは、Ｎ_ｊで表されている、サブフレームｊのＬＴＰ遅れパラメータが図７のモデルのピッチ周期Ｔに対応する。Ｎ_ｊはビットストリーム中の７つのビットを取り上げ、４０から１２０までの範囲内であることが可能である。したがって、Ｎ_ｊをランダム化する時には、この範囲内にある乱数でＮ_ｊが置き換えられなければならない。
【００８９】
ｂ_ｊによって表されている、ＧＳＭＦＲボコーダのサブフレームｊのＬＴＰ利得パラメータが、図７のピッチ利得ｇ_ｐに対応する。変更されたＬＴＰ利得パラメータが、下記のように式（６）に類似した仕方で得られる。
【数９】

【００９０】
ＬＰＣ合成フィルタの変更
図７の汎用音声デコーダモデルでは、ＬＰＣ合成フィルタ変換関数は
【数１０】

である。このフィルタは、合成信号のための広域整形を実現する。このフィルタの大きさ周波数応答は、係数｛ａ_ｋ｝を｛β^ｋａ_ｋ｝で置換することによって平坦化され、ここで０≦β≦１である。βは「スペクトラルモーフィングファクタ（ｓｐｅｃｔｒａｌｍｏｒｐｈｉｎｇｆａｃｔｏｒ）」と呼ばれる。言い換えると、変更された変換関数は
【数１１】

である。β＝０である時に、オリジナルのＬＰＣ合成フィルタが全通過フィルタの形に変形され、β＝１である時には、オリジナルのフィルタは不変のままであるということに留意されたい。０から１までのβの全ての値の場合に、オリジナルのフィルタの大きさ周波数応答は幾らかの平坦化を被り、β→０としてより大きな平坦化を被る。フィルタの安定性がこの変形において維持されることに留意されたい。
【００９１】
エコーに対するこうしたスペクトラルモーフィングの効果は、信号中に存在するあらゆるフォルマント構造を減少させるかまたは除去することである。エコーはバックグラウンドノイズのように聞こえるようにブレンドまたはモーフィングされる。一例として、有声音化音声セグメントに関するＬＰＣ合成フィルタの大きさ周波数応答と、幾つかの異なるβ値の場合のその平坦化された変形とを図１５に示す。
【００９２】
この好ましい実施形態では、スペクトラルモーフィングファクタβは次のように求められる。
【数１２】

【００９３】
同様のスペクトラルモーフィング方法が、反射係数、ログ−エリア比率、逆サイン関数、および、線スペクトル周波数のような、ボコーダで一般的に使用されるＬＰＣフィルタ係数の他の表現のために得られる。
【００９４】
例えば、ＧＳＭＦＲボコーダはＬＰＣ合成フィルタを表現するためにログ−エリア比率を使用する。ＬＡＲ（ｉ）、ｉ＝１，２，．．．，８として表される、フレームに対応する８つのログ−エリア比率の場合に、スペクトラルモーフィングされたログ−エリア比率は下記の式を使用して得られ、
【数１３】

ここでβは式（８）によって求められる。
【００９５】
この方法はＬＰＣフィルタの大きさ周波数応答をスペクトル的に平坦化する。あるいは、ＬＡＲ_{ｎｏｉｓｅ}（ｉ）によって表される１組のログ−エリア比率によって表現されたバックグラウンドノイズのスペクトルのような予め決められたスペクトルまたは大きさ周波数応答に対してログ−エリア比率をモーフィングするためには、適切なモーフィング式は下記の通りである。
【数１４】

【００９６】
その次に、変更されたログ−エリア比率を、標準における仕様にしたがって量子化する。ログ−エリア比率の変更に対するこうしたアプローチがＬＰＣ合成フィルタの安定性を維持することに留意されたい。
【００９７】
バックグラウンドノイズのスペクトル予測と、ボコーダおよびＬＰＣフィルタに対応するログ−エリア比率を含むフィルタ係数の表現とのためのアプローチの典型的な一例が、快適ノイズ発生標準［５］とその中の引例とに示されている。
【００９８】
線スペクトル周波数がＬＰＣ合成フィルタ（例えば、ＧＳＭＥＦＲ）を表現するために使用される時には、ログ−エリア比率に関するアプローチに類似したアプローチも適切である。線スペクトル周波数をｆ_ｉ、ｉ＝１，．．．，Ｍで表し、ここでＭは、一様（典型的）であると想定されているＬＰＣ合成フィルタの次数である。線スペクトル周波数が０からサンプリング周波数の１／２まで均一に間隔が空けられている時には、その結果として得られるＬＰＣ合成フィルタは全通過だろう（すなわち、平坦な大きさ周波数応答）。こうしたスペクトル的に平坦なＬＰＣフィルタに対応する線スペクトル周波数の組をｆ_{ｉ，ｆｌａｔ}、ｉ＝１，．．．，Ｍと表す。
【００９９】
そのとき、スペクトル的にモーフィングされた線スペクトル周波数が、下記の式を使用して得られ、
【数１５】

ここでβは式（８）によって求められる。
【０１００】
この方法はＬＰＣ合成フィルタの大きさ周波数応答をスペクトル的に平坦化する。あるいは、ｆ_{ｉ，ｎｏｉｓｅ}によって表される１組の線スペクトル周波数によって表現されたバックグラウンドノイズスペクトルのような予め決められたスペクトルまたは大きさ周波数応答に対して線スペクトル周波数をモーフィングするためには、適切なモーフィング式は下記の通りである。
【数１６】

【０１０１】
次いで、変更された線スペクトル周波数を標準における仕様にしたがって量子化する。線スペクトル周波数の変更に対するこうしたアプローチがＬＰＣ合成フィルタの安定性を維持することに留意されたい。バックグラウンドノイズスペクトル予測と線スペクトル周波数を含むフィルタ係数の表現とのための適切な方法が、快適ノイズ発生に関する対応するボコーダ標準に示されている。
【０１０２】
最小遅延の技術
バッファリングと処理と伝送とにおける大きな遅延が、ネットワーク音声品質増強処理を全く伴わないセルラネットワークにおいてすでに存在している。音声増強のための符号化音声のさらに別のネットワーク処理が追加の遅延を付加するだろう。この遅延を最小限にすることが音声品質にとって重要である。このセクションでは、この遅延を最小限にするための新規のアプローチを説明する。使用する事例はＧＳＭＦＲボコーダである。
【０１０３】
図８は、ＧＳＭＦＲエンコーダからの符号化パラメータが受け取られる順序を示す。単純なアプローチは、各フレーム毎に２６０ビット全体をバッファリングすることと、その次に符号化ドメインエコー制御のためにこれらのバッファリングされたビットを処理することとを含む。しかし、このことは、処理遅延に加えて約２０ミリ秒のバッファリング遅延を生じさせる。
【０１０４】
次のようにしてこのバッファリング遅延を最小限にすることが可能である。最初に、ビット９２が受け取られた直後に第１のサブフレーム全体が復号化されることが可能であるということに留意されたい。したがって、この第１のサブフレームが、約７．１ミリ秒（２０ミリ秒×９２／２６０）のバッファリング遅延の後に処理されるだろう。したがって、バッファリング遅延は約１３ミリ秒だけ減少させられる。
【０１０５】
この新規の低遅延アプローチを使用すると、符号化ＬＰＣ合成フィルタパラメータが、フレームの第１のサブフレームの終点で利用可能な情報に基づいて変更される。言い換えると、そのフレーム全体が、第１のサブフレームに基づいて計算されたエコー尤度による影響を受ける。実施した実験では、この「早期の」判断に起因した顕著なアーチファクトが発見されなかったが、これは、特に、エコー尤度が幾つかの先行サブフレームと現在フレームとに効果的に基づいて平滑化された量であるからである。
【０１０６】
誤り訂正／検出ビットおよびフレーム指示ビットの更新
本明細書で説明したエコー除去のための新規の符号化ドメイン処理方法を適用する時には、符号化パラメータに対応するビットの一部または全部がビットストリーム中で変更される。これは、ビットストリーム中に埋め込まれているかも知れない他の誤り訂正または検出ビットに悪影響を与える可能性もある。例えば、音声エンコーダは、誤りのないフレームが受け取られることを確実にするようにデコーダが検査を行うための幾つかのチェックサムをビットストリーム中に埋め込むかも知れない。こうしたチェックサムと、あらゆるパリティチェックビットと、誤り訂正または検出ビットと、フレーム指示ビットとが、必要に応じて適切な標準にしたがって更新される。
【０１０７】
ＧＳＭタンデムフリーオペレーション標準による動作
符号化パラメータだけが使用可能である場合には、部分的復号化または完全復号化が上述のように行われてよく、それによって符号化パラメータがオーディオ信号のバージョンを再構築するために使用される。しかし、ＧＳＭＴＦＯ環境のような状況下で操作する時には、符号化パラメータに加えて追加の情報が使用可能である。この追加の情報はオーディオ信号のＡ−ｌａｗＰＣＭサンプルの６つのＭＳＢである。この場合には、これらのＰＣＭサンプルが、符号化パラメータを使用することなしに遠端と近端の両方に関してオーディオ信号のバージョンを再構築するために使用されてよい。このことが計算上の節約を結果的にもたらす。
【０１０８】
通信技術の専門家は、これらの好ましい実施形態が、添付した請求の範囲に規定される本発明の真の精神と範囲から逸脱することなく修飾および変形されることができることを認識するであろう。
【図面の簡単な説明】
【図１】
図１は、ＧＳＭディジタルセルラーネットワークにおける音声伝送のためのシステムの概略的ブロック図である。
【図２】
図２は、タンデムフリーオペレーション（ＴＦＯ）のもとでのＧＳＭネットワークにおける音声伝送のためのシステムの概略的ブロック図である。
【図３】
図３は、タンデムフリーオペレーション（ＴＦＯ）のもとでの音声伝送を図解するグラフである。
【図４】
図４は、有線ネットワークにおけるエコー問題に対する伝統的解決の概略的ブロック図である。
【図５】
図５は、ディジタルセルラーネットワークにおけるスピーカからマイクロホンへの音響フィードバックを図解する概略的ブロック図である。
【図６】
図６は、符号化音声に対する伝統的なエコーキャンセルのアプローチの概略的ブロック図である。
【図７】
図７は、総称線形予測コード（ＬＰＣ）音声合成モデルまたは音声復号モデルの概略的ブロック図である。
【図８】
図８は、ＧＳＭＦＲのためのビットストリームにおける符号化パラメータの配置の図解である。
【図９】
図９は、本発明に従って作られた音響エコー環境に対する符号化ドメインエコーコントロールの優先形態の概略的ブロック図である。
【図１０】
図１０は、本発明に従って作られた４線式対２線式ハイブリッドに起因するエコーに対する符号化ドメインエコーコントロールのもうひとつの優先形態の概略的ブロック図である。
【図１１】
図１１は、フラットな遅延および減衰を伴う単純化されたエンド経路モデルの概略的ブロック図である。
【図１２】
図１２は、予備エコー尤度対比である近端サブフレーム対遠端サブフレームの電力比を示すグラフである。
【図１３】
図１３は、符号化ドメインエコーコントロール方法の優先形態を示すフローチャートである。
【図１４】
図１４は、ピッチ合成フィルタの振幅−周波数レスポンスの一例を示すグラフである。
【図１５】
図１５は、オリジナルのＬＰＣ合成フィルタおよびこのようなフィルタの平板化バージョンの振幅−周波数レスポンスの一例を示すグラフである。