JP2003533902A5 - - Google Patents

Download PDF

Info

Publication number
JP2003533902A5
JP2003533902A5 JP2001508063A JP2001508063A JP2003533902A5 JP 2003533902 A5 JP2003533902 A5 JP 2003533902A5 JP 2001508063 A JP2001508063 A JP 2001508063A JP 2001508063 A JP2001508063 A JP 2001508063A JP 2003533902 A5 JP2003533902 A5 JP 2003533902A5
Authority
JP
Japan
Prior art keywords
parameter
signal
echo
speech
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001508063A
Other languages
English (en)
Other versions
JP2003533902A (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/US2000/018104 external-priority patent/WO2001003316A1/en
Publication of JP2003533902A publication Critical patent/JP2003533902A/ja
Publication of JP2003533902A5 publication Critical patent/JP2003533902A5/ja
Pending legal-status Critical Current

Links

Images

Description

【書類名】明細書
【発明の名称】符号化されたドメインのエコーの制御
【特許請求の範囲】
【請求項1】第1のパラメータを包含する複数のパラメータを有する圧縮のコードを使用して近接終端のデジタル信号を送信する通信システムであって該パラメータは複数のオーディオの特徴を有する1つのオーディオの信号をあらわし該圧縮のコードは複数の復号の段階により復号されることが可能であり該通信システムは圧縮のコードを使用して遠隔の終端の信号を送信するものにおける、近接終端のデジタル信号におけるエコーを減少させる装置であって、該装置は1つのプロセッサを具備し、該プロセッサは、該近接の終端のデジタルの信号に応答して該複数のパラメータの少なくとも該第1のパラメータを読取り、該複数の復号の段階の少なくとも1つを該近接の終端のデジタルの信号および該遠隔の終端のデジタルの信号について実行し、少なくとも部分的に復号された近接の終端の信号および少なくとも部分的に復号された遠隔の終端の信号を発生させ、および、該少なくとも部分的に復号された近接の終端の信号および少なくとも部分的に復号された遠隔の終端の信号に応答して該第1のパラメータを調節し、調節された第1のパラメータを発生させおよび該第1のパラメータを該近接の終端のデジタルの信号における該調節された第1のパラメータで置換するものである、エコーを減少させる装置。
【請求項2】該第1のパラメータは量子化された第1のパラメータであり、該プロセッサは、調節された第1のパラメータを該近接の終端のデジタルの信号へ書込む前に、該調節された第1のパラメータを量子化することにより該調節された第1のパラメータを部分的に発生させる、請求項1記載の装置。
【請求項3】該プロセッサは、該少なくとも部分的に復号された近接終端の信号および該少なくとも部分的に復号された遠隔終端の信号に応答し該少なくとも部分的に復号された近接終端の信号に存在するエコーの量をあらわすエコーの公算の信号を発生させ、および該プロセッサは、該エコーの公算の信号に応答し該第1のパラメータを調節する、請求項1記載の装置。
【請求項4】該特徴はスペクトルの形状を有し、該第1のパラメータはフィルタ係数を表現するものを有し、該プロセッサは該エコーの公算の信号に応答し該フィルタ係数を表現するものをマグニチュード周波数応答へ向かって調節する、請求項3記載の装置。
【請求項5】該フィルタ係数を表現するものはラインのスペクトルの周波数を有する、請求項4記載の装置。
【請求項6】該フィルタ係数を表現するものはログの面積の比を有する、請求項4記載の装置。
【請求項7】該マグニチュード周波数応答は背景雑音に対応する、請求項4記載の装置。
【請求項8】該特徴は該オーディオ信号の全体のレベルを有し、該第1のパラメータはコードブックの利得を有する、請求項1記載の装置。
【請求項9】該第1のパラメータはコードブックのベクトルのパラメータを有する、請求項1記載の装置。
【請求項10】該特徴はロングタームの相関の期間を有し、該第1のパラメータはピッチ期間のパラメータを有する、請求項1記載の装置。
【請求項11】該特徴はロングタームの相関の強度を有し、該第1のパラメータはピッチ利得のパラメータを有する、請求項1記載の装置。
【請求項12】該特徴はスペクトルの形状を有し、該第1のパラメータはフィルタ係数を表現するものを有する、請求項1記載の装置。
【請求項13】該フィルタ係数を表現するものはログの面積の比を有する、請求項12記載の装置。
【請求項14】該フィルタ係数を表現するものはラインのスペクトルの周波数を有する、請求項12記載の装置。
【請求項15】該フィルタ係数を表現するものはリニアプレディクティブの符号化合成のフィルタを有する、請求項12記載の装置。
【請求項16】該第1のパラメータは該複数のオーディオの第1の特徴に対応し、該複数の復号の段階は該第1の特徴を実質的に変化させることを回避する少なくとも1つの復号の段階を有し、該プロセッサは該少なくとも1つの復号の段階を実行することを回避する、請求項1記載の装置。
【請求項17】該オーディオの特徴はパワーを有し、該第1の特徴はパワーを有する、請求項16記載の装置。
【請求項18】該少なくとも1つの復号の段階はポストフィルタ作動を有する、請求項16記載の装置。
【請求項19】該圧縮のコードは線形プレディクティブのコードを有する、請求項1記載の装置。
【請求項20】該圧縮のコードは規則的なパルスの励起対ロングタームのプレディクティブのコードを有する、請求項1記載の装置。
【請求項21】該圧縮のコードはコード励起される線形のプレディクションのコードを有する、請求項1記載の装置。
【請求項22】該第1のパラメータは時間にわたり受信される一連の第1のパラメータを有し、該プロセッサは該近接終端のデジタルの信号に応答して該一連の第1のパラメータを読取り、該プロセッサは該少なくとも部分的に復号された近接および遠隔の終端の信号および少なくとも複数の該一連の第1のパラメータに応答して該調節された第1のパラメータを発生させる、請求項1記載の装置。
【請求項23】該圧縮のコードは該デジタル信号のフレーム内に配置され、該フレームは複数のサブフレームを有し、該サブフレームの各々は該第1のパラメータを有し、該プロセッサは該圧縮のコードに応答して該複数のサブフレームの各々から少なくとも該第1のパラメータを読取り、該プロセッサは該第1のパラメータを、該複数のサブフレームの各々における該調節された第1のパラメータで置換する、請求項1記載の装置。
【請求項24】該プロセッサは該サブフレームの第1のものから該第1のパラメータを読取り、該第1のサブフレームの間、該近接終端のデジタル信号について少なくとも複数の該復号の段階を実行することを開始し、第1のサブフレームに後続する1つのサブフレームを処理する前により小なる遅延を実現するよう該第1のパラメータを該調節された第1のパラメータで置換する、請求項23記載の装置。
【請求項25】該圧縮のコードは該デジタル信号のフレーム内に配置され、該フレームは複数のサブフレームを有しこのサブフレームの各々は該第1のパラメータを有し、該プロセッサは、該サブフレームの第1のものの期間に少なくとも複数の該復号の段階を実行して該少なくとも部分的に復号された近接終端および遠隔終端の信号を発生させ、該第1のパラメータを該第1のサブフレームに後続して出現する該サブフレームの第2のものから読取り、該少なくとも部分的に復号された近接終端および遠隔終端の信号および該第1のパラメータに応答して該調節された第1のパラメータを発生させ、および、該第2のサブフレームの第1のパラメータを該調節された第1のパラメータで置換する、請求項1記載の装置。
【請求項26】コードのサンプルを有する近接終端のデジタル信号を送信する通信システムであって、該コードのサンプルは圧縮のコードを使用する第1のビットおよび線形のコードを使用する第2のビットを有し、該コードのサンプルはオーディオの信号を表わし該オーディオの信号は複数のオーディオの特徴を有し、該システムはまた遠隔終端のデジタルの信号を送信するシステムにおける、該圧縮のコードを符号化することなく近接終端のデジタル信号における該圧縮のコードを復号することなく該近接終端のデジタル信号におけるエコーを減少させる装置であって、該装置は該近接終端のデジタル信号および該遠隔終端のデジタル信号に応答して該第1のビットおよび該第2のビットを調節するものを具備するエコーを減少させる装置。
【請求項27】圧縮のコードを復号することなく近接終端のデジタル信号におけるエコーを減少させる装置であって、近接終端のデジタル信号および遠隔終端のデジタル信号に応答して第1のビットおよび第2のビットを調節するプロセッサを具備する、請求項26記載の装置。
【請求項28】該線形のコードはパルスコード変調(PCM)のコードを有する、請求項26記載の装置。
【請求項29】該圧縮のコードのサンプルは、移動可能の通信の標準のためにグローバルのシステムのタンデムフリーの作動に合致する、請求項26記載の装置。
【請求項30】該第1のビットは該サンプルの2つの最下位のビットを有し、該第2のビットは該サンプルの6個の最上位のビットを有する、請求項26記載の装置。
【請求項31】該6個の最上位のビットはPCMコードを有する、請求項29記載の装置。
【請求項32】第1のパラメータを包含する複数のパラメータを有する圧縮のコードを使用して近接終端のデジタル信号を送信する通信システムであって、該パラメータは複数のオーディオの特徴を有するオーディオの信号を表わし、該圧縮のコードは複数の復号の段階により復号可能であり、該通信システムはまた圧縮のコードを使用して遠隔終端の信号を送信するもの、における該近接終端のデジタル信号におけるエコーを減少させる方法であって、該方法は、
該近接終端のデジタル信号に応答して該複数のパラメータの少なくとも第1のパラメータを読取る段階、
該近接終端のデジタル信号および該遠隔終端のデジタル信号について該複数の復号の段階の少なくとも1つを実行し、少なくとも部分的に復号された近接終端の信号および少なくとも部分的に復号された遠隔終端の信号を発生させる段階、
該少なくとも部分的に復号された近接終端の信号および少なくとも部分的に復号された遠隔終端の信号に応答して該第1のパラメータを調節し、調節された第1のパラメータを発生させる段階、および、
該第1のパラメータを該近接終端の信号における該調節された第1のパラメータで置換する段階、
を具備するエコーを減少させる方法。
【請求項33】該第1のパラメータは量子化された第1のパラメータであり、該調節は該調節された第1のパラメータを量子化することにより該調節された第1のパラメータを部分的に発生させる過程を有する、請求項31記載の方法。
【請求項34】該調節は、該少なくとも部分的に復号された近接終端の信号および該少なくとも部分的に復号された遠隔終端の信号に応答して該部分的に復号された近接終端の信号に存在するエコーの量を表わすエコーの公算の信号を発生させる過程を有し、該調節は該エコーの公算の信号に応答して該第1のパラメータを調節する過程をさらに有する、請求項31記載の方法。
【請求項35】該特徴はスペクトルの形状を有し、該第1のパラメータはフィルタ係数を表わすものを有し、該調節は該エコーの公算の信号に応答して該フィルタ係数をマグニチュード周波数応答へ向かって調節する過程を有する、請求項33記載の方法。
【請求項36】該フィルタ係数を表わすものは、ラインスペクトルの周波数を有する、請求項34記載の方法。
【請求項37】該フィルタ係数を表わすものは、ログの面積の比を有する、請求項34記載の方法。
【請求項38】該マグニチュード周波数の応答は、背景の雑音に対応する、請求項34記載の方法。
【請求項39】該特徴は、該オーディオの信号の全体的なレベルを有し、該第1のパラメータは、コードブットの利得を有する、請求項31記載の方法。
【請求項40】該第1のパラメータは、コードブックのベクトルのパラメータを有する、請求項31記載の方法。
【請求項41】該特徴は、ロングタームの相関の期間を有し、該第1のパラメータは、ピッチ期間のパラメータを有する、請求項31記載の方法。
【請求項42】該特徴は、ロングタームの相関の強度を有し、該第1のパラメータはピッチ利得のパラメータを有する、請求項31記載の方法。
【請求項43】該特徴は、スペクトルの形状を有し、該第1のパラメータはフィルタ係数を表わすものを有する、請求項31記載の方法。
【請求項44】該フィルタ係数を表わすものは、ログの面積の比を有する、請求項42記載の方法。
【請求項45】該フィルタ係数を表わすものは、ラインスペクトルの周波数を有する、請求項42記載の方法。
【請求項46】該フィルタ係数を表わすものは、線形のプレディクティブの符号化合成のフィルタを有する、請求項42記載の方法。
【請求項47】該第1のパラメータは該複数のオーディオの特徴の第1の特徴に対応し、該複数の復号の段階は、該第1の特徴の実質的な変化を回避する少なくとも1つの復号の段階を有し、該少なくとも複数の該復号の段階の該実行は、該少なくとも1つの復号の段階の実行を回避する過程を有する、請求項31記載の方法。
【請求項48】該オーディオの特徴は、パワーを有し、該第1の特徴はパワーを有する、請求項46記載の方法。
【請求項49】該少なくとも1つの復号の段階は、ポストフィルタの過程を有する、請求項46記載の方法。
【請求項50】該圧縮のコードは、線形のプレディクティブコードを有する、請求項31記載の方法。
【請求項51】該圧縮のコードは、規則的なパルスの励起−ロングタームのプレディクションのコードを有する、請求項31記載の方法。
【請求項52】該圧縮のコードは、コード−励起された線形のプレディクションのコードを有する、請求項31記載の方法。
【請求項53】該第1のパラメータは、時間にわたり受信された一連の第1のパラメータを有し、該読取りは、該一連の第1のパラメータを読取る過程を有し、該調節は、該少なくとも部分的に復号された近接終端および遠隔終端の信号に、および少なくとも複数の該一連の第1のパラメータに応答して、該調節された第1のパラメータを発生させる過程を有する、請求項31記載の方法。
【請求項54】該圧縮のコードは、該デジタル信号のフレーム内に配置され、該フレームは、複数のサブフレームであって各々が該第1のパラメータを有するものを有し、該読取りは、該圧縮のコードに応答して該複数のサブフレームの各々から少なくとも該第1のパラメータを読取る過程を有し、該置換は、該第1のパラメータを該複数のサブフレームの各々における該調節された第1のパラメータで置換する過程を有する、請求項31記載の方法。
【請求項55】該読取りは、該第1のパラメータを該サブフレームの第1のものから読取る過程を有し、該実行は、該第1のサブフレームの期間に該近接終端のデジタル信号について少なくとも複数の該復号の段階を実行することを開始する過程を有し、該置換は、より小なる遅延を実現するよう第1のサブフレームに後続する1つのサブフレームを処理する前に該第1のパラメータを該調節された第1のパラメータで置換する過程を有する、請求項53記載の方法。
【請求項56】該圧縮のコードは、該デジタル信号のフレーム内に配置され、該フレームは複数のサブフレームを有しこのサブフレームの各々は該第1のパラメータを有し、該実行は該サブフレームの第1のものの期間に少なくとも複数の該復号の段階を実行し、該少なくとも部分的に復号された近接終端および遠隔終端の信号を発生させる過程を有し、該読取りは、該第1のパラメータを該第1のサブフレームに後続して出現する該サブフレームの第2のものから読取る過程を有し、該調節は、該少なくとも部分的に復号された近接終端および遠隔終端の信号および該第1のパラメータに応答して、該調節された第1のパラメータを発生させる過程を有し、該置換は、該第2のサブフレームの該第1のパラメータを該調節された第1のパラメータで置換する過程を有する、請求項31記載の方法。
【請求項57】コードのサンプルを有する近接終端のデジタルの信号を送信するシステムであって、該コードのサンプルは圧縮のコードを使用する第1のビットおよび線形のコードを使用する第2のビットを有し、該コードのサンプルはオーディオの信号を表わし該オーディオの信号は複数のオーディオの特徴を有し、該システムはまた遠隔終端のデジタルの信号を送信するもの、における、該圧縮のコードを復号することなく該近接端のデジタルの信号におけるエコーを減少させる方法であって、該方法は、
該近接終端のデジタルの信号および該遠隔終端のデジタル信号に応答して該第1のビットおよび該第2のビットを調節する段階、
を具備する、エコーを減少させる方法。
【請求項58】該線形のコードは、パルスコード変調の(PCM)コードを有する、請求項56記載の方法。
【請求項59】該圧縮のコードのサンプルは、移動可能の通信の標準用のグローバルのシステムのタンデムフリーの作動に一致している、請求項56記載の方法。
【請求項60】該第1のビットは該サンプルの2つの最下位桁のビットを有し、該第2のビットは該サンプルの6つの最上位桁のビットを有する、請求項56記載の方法。
【請求項61】該6つの最上位桁のビットはPCMコードを有する、請求項59記載の方法。
【発明の詳細な説明】
【0001】
関連出願に関する記載
これは、1990年7月2日提出の、名称「圧縮音声の符号化ドメインエンハンスメント」と題した仮出願第60/142,136号に対応するユーティリティアプリケーションである。
【0002】
連邦政府支援の研究開発に関する宣言
適用されるものなし
【0003】
発明の背景
本発明は、圧縮された音声の符号化されたドメインのエンハンスメントに関するもので、特に、符号化されたドメインのエコーの制御に関するものである。
【0004】
本明細書は下記参考文献を参考とする。
[1]GSM 06.10「ディジタルセルラー通信システム(フェーズ2);フルレート音声;パート2:トランス符号化」、ETS 300 580−2、1998年3月、第2版。
[2]GSM 06.60「ディジタルセルラー通信システム(フェーズ2);エンハンスド・フルレート(EFR)音声トランス符号化」、1998年6月。
[3]GSM 08.62「ディジタルセルラー通信システム(フェーズ2+);音声符号器のインバンド・タンデムフリーオペレーション(TFO)」、ETSI、2000年3月。
[4]J.R.Deller,J.G.Proakis,J.H.L.Hansen「音声信号の個別時間処理」、第7章、
Prentice−Hall Inc., 1987。
[5]GSM 06.12「欧州ディジタルセルラー通信システム(フェーズ2);フルレート音声トラフィックチャネルにとって好適なノイズ面」、ETSI、1994年。
【0005】
GSMディジタルセルラーネットワークでは、移動局(送受器)と基地局の間の音声伝送が圧縮された形または符号化された形で行われる。GSM FR[1]やEFR[2]などの音声符号化技術が、音声を圧縮するのに使用される。音声の圧縮に使用されるデバイスは、ボコーダと呼ばれる。符号化された音声が必要とするビット数は、サンプル当たり2ビット未満である。この状況が図1に描かれている。基地局相互間では、音声は符号化されていない形で伝送される(サンプル当たり8ビットを必要とするPCMコンパンディングを使って)。
【0006】
符号化音声および非符号化音声という用語は、次の通り説明することができる。
非符号化音声:電話において代表的に使用されるディジタル音声信号サンプルを指す。これらのサンプルは、サンプル当たり線形13ビットの形か、サンプル当たり8ビットのμ法則またはA法則のPCMなどのコンパンドされた形かのどちらかで、代表的なビットレートは64kbpsである。
【0007】
符号化音声:GSM FRの場合13kbps、GSM EFRの場合12.2kbpsなどと、代表的に64kbpsよりはるかに低いビットレートを使用する圧縮オン信号信号パラメータを指す(符号化パラメータとも呼ばれる)。圧縮方法は、単純なPCMコンパンディング方式より費用がかかる。例を挙げると、圧縮方法は線形予測符号化、符号励起式線形予測およびマルチバンド励起符号化である[4]。
【0008】
タンデムフリー・オペレーション(TFO)標準[3]が、近い将来、GSMディジタルセルラーネットワークにおいて展開される。TFO標準は、移動体相互呼出しに適用される。TFOのもとで、音声信号は、短いネゴシエーション周期の後に圧縮された形で移動体間を移送される。これは、移動体相互呼出しの間のタンデムボイスコードを無くする。タンデムコードが無くされることは、オリジナル信号が明瞭である場合に音声の質を良くすることが知られている。注意すべきキーポイントは、音声伝送が移動体送受器の間で符号化されたまま残ることで、図2に描かれている通りである。
【0009】
TFOのもとで、送受器と基地局の間の伝送は符号化され、必要とするビット数は音声サンプル当たり2ビット未満である。しかしながら、音声サンプル当たり8ビットが依然、基地局間の伝送に使用可能である。基地局では、音声が復号されてから、A法則コンパンドされるので、サンプル当たり8ビットが必要である。それでも、オリジナルの符号化音声ビットは、A法則コンパンドされた各8ビットサンプルの中の2つの最下位ビット(LSB)に取って代わるのに使用される。TFOが送受器間に一度確立されると、基地局は各8ビットサンプルの中の2つのLSBをそれぞれの送受器に送り、6つの最上位ビットを捨てるだけとなる。これで、ボコーダのタンデム化は回避されることになる。このプロセスは図3に描かれている。
【0010】
エコー問題とその伝統的解決は図4に示されている。有線ネットワークでは、4線式対2線式ハイブリッドにおけるインピーダンス不整合によってエコーが発生する。不整合は、結果的に遠端信号の一部を近端信号の中に電気的に反映させることになる。ネットワーク遅延とエンド経路のチャネルインパルス応答次第で、エコーは、遠端聴取者の耳障りになることがある。エンド経路のインパルス応答は、ネットワークのエコーキャンセラ(EC)によって評価され、エコー信号の評価を作るのに使用される。評価結果は、次に、エコーを除去するために近端信号から差し引かれる。EC処理の後、いかなる残留エコーも非線形プロセッサ(NLP)によって除去される。
【0011】
ディジタルセルラー送受器の場合、エコーは、スピーカ(送話口)からマイクロホン(受話口)へのフィードバックによって発生する。音響フィードバックは重大であり得るし、特にハンドフリー型電話の場合、エコーが耳障りになり得る。
【0012】
図5は、ディジタルセルラー送受器におけるスピーカからマイクロホンへのフィードバック経路を示す。図示された送受器は、送受器で実現したエラーキャンセル機能を持たない。
【0013】
GSMネットワークにおけるTFOのもとで、エコーキャンセル機能をネットワーク内で実現させる場合は、伝統的アプローチのために符号化音声の復号、結果的に生じる非符号化音声の処理、そして、その再符号化が必要となる。このような復号と再符号化が必要であるのは、伝統的なエコーキャンセラが非符号化音声信号にしか働きかけないからである。このアプローチを図6に示す。このアプローチの欠点をいくつか挙げるならば、下記の通りである。
【0014】
1.このアプローチは、2個の復号器と1個の符号器を必要とするので、かなりの計算量となる。代表的には、符号器は復号器より計算の複雑さが1桁分大きい。よって、符号器の存在は特にコンピュータにとって大きな負担となる。
2.復号と再符号化のプロセスによって導入される遅延は望ましくない。
3.ボコーダ・タンデム(すなわち直列に置かれた2対の符号器/復号器)がこのアプローチに導入され、周知の通り、これが量子化効果のゆえに音声の質を低下させることになる。
【0015】
もうひとつの直進的アプローチでは、コンフォートノイズ発生を使ってエコーをマスクしてよい。コンフォートノイズ発生は、無音抑制または断続伝送の目的に使用される(例えば[5])。このような技術を使って、エコーを検出し次第完全にマスクすることが可能である。しかしながら、このような技術は、特にダブルトーク状態の間の“変動性(choppiness)”、ならびに、背景の透明度の低さと不自然さという欠点を有する。
【0016】
提案された技術は、符号化音声に対して直接(すなわち、符号化パラメータの直接修正によって)エコーコントロールを実行することができる。計算の複雑さと遅延が僅少に抑えられる。タンデム化効果は回避され、または最小限に抑えられ、エコーコントロール後により良い音質が知覚される結果となる。また、すぐれた背景透明度も達成される。
【0017】
音声圧縮は、損失を伴うソースコーディングの範疇に属するもので、一般に音声符号化と呼ばれる。音声符号化は、音声伝送に必要な帯域幅を最小にするために行われる。これは、帯域幅が乏しい無線電話において特に重要である。相対的に帯域幅が豊かなパケットネットワークでは、音声符号化は依然、ネットワークの遅延およびジッタを最小限に抑える上で重要である。それは、音声通信がデータ通信と違って遅延をほとんど許容し得ないからである。従って、パケットサイズが小さいほど、パケットネットワーク経由の伝送は容易となる。関連の4つのETSI GSM標準をテーブル1に挙げる。
【0018】
テーブル1:GSM音声コーデック
Figure 2003533902
【0019】
音声符号化では、1組の連続的なディジタル音声サンプルが音声フレームと呼ばれる。GSM符号器は、20msのフレームサイズに働きかける(サンプリング速度8kHzで160サンプル)。音声フレームが1つあるとすれば、音声符号器が、音声合成モデルに関して小さい1組のパラメータを決定する。この音声パラメータと音声合成モデルをもってすれば、オリジナルの音声フレームに酷似した形で現れ、酷似した音を発する音声フレームを再構築することができる。この再構築は、音声復号器によって行われる。上に挙げたGSMボコーダでは、符号化プロセスは復号プロセスよりはるかに計算が集約的である。
【0020】
音声符号器によって決定される音声パラメータは、使用する音声合成モデルによって異なる。テーブル1に記載のGSM符号器は、線形予測符号化(LPC)モデルを利用する。総称LPC音声合成モデルの単純化した形のブロック図を図7に示す。このモデルは、モデルパラメータを適宜指定することによって音声に似た信号を発生させるのに使用することができる。本例の音声合成モデルでは、パラメータは、時変フィルタ係数、ピッチ周期、コードブック・ベクトルおよび利得係数を含む。合成音声は次の通り発生させられる。コードブック・ベクトルc(n)は、先ずコードブック利得係数Gによって適当な大きさに定められる。ここで、nはサンプル時間を表す。
【0021】
決められたコードブック・ベクトルは、次にピッチ合成フィルタによって濾過される。このフィルタのパラメータは、ピッチ利得gおよびピッチ周期Tを含む。濾過結果は、時折、合計励起べクトルu(n)と呼ばれる。その名が表す通り、ピッチ合成フィルタは、発せられた音声の調波音質をもたらす。合計励起べクトルは、次に、音声フレームのブロードスペクトル形状と対応する可聴周波信号のブロードスペクトル形状とを指定するLPC合成フィルタによって濾過される。
【0022】
音声フレームごとに、パラメータは通常2回以上更新される。例えばGSM FR符号器やEFR符号器では、コードブック・ベクトル、コードブック利得およびピッチ合成フィルタパラメータがサブフレーム(5ms)ごとに決められる。LPC合成フィルタパラメータは、EFRではフレーム当たり2回(10msごと)、FRではフレーム当たり1回決められる。
【0023】
音声符号器において使用されるステップの代表的シーケンスは次の通りである。
1.音声サンプルのフレームを獲得する。
2.サンプルのフレームにウィンドウ(例えばハミング・ウィンドウ)を掛け、ラグMまで自己相関関数を決定する。
3.自己相関関数から反射係数および/またはLPC係数を決定する。(注記するならば、反射係数はLPCフィルタ係数のもうひとつの言い表し方である。)
【0024】
4.反射係数、すなわちLPCフィルタ係数を、量子化に適した別の形に変換する(例えばログ・エリア比または線スペクトル周波数)。
5.変換されたLPC係数をベクトル量子化技術を使って量子化する。
【0025】
6.何らかの補助的なエラー修正/検出ビット、フレーム指示ビットなどを追加する。
7.符号化されたパラメータを伝送する。
【0026】
下記の動作シーケンスが、代表的にサブフレームごとに音声符号器によって行われる。
1.ピッチ周期を決める。
2.対応するピッチ利得を決める。
3.ピッチ周期とピッチ利得を量子化する。
【0027】
4.量子化LPC合成フィルタを通じてオリジナル音声信号を逆濾過し、LPC残留信号を獲得する。
5.ピッチ合成フィルタを通じてLPC残留信号を逆濾過し、ピッチ残留分を獲得する。
6.最良のコードブック・ベクトルを決める。
【0028】
7.最良のコードブック利得を決める。
8.コードブック利得とコードブック・ベクトルを量子化する。
9.フィルタメモリを適宜更新する。
【0029】
音声復号器において使用されるステップの代表的シーケンスは下記の通りである。
先ず、何らかのエラー修正/検出およびフレーム指示を実行する。
次に、サブフレームごとに下記を実行する。
【0030】
1.受け取られたすべての符号化パラメータ(LPC係数、ピッチ周期、ピッチ利得、コードブック・ベクトル、コードブック利得)を脱量子化する。
2.コードブック・ベクトルの大きさをコードブック利得によって定め、これをピッチ合成フィルタで濾過し、LPC励起信号を獲得する。
3.LPC励起信号をLPC合成フィルタで濾過し、予備音声信号を獲得する。
【0031】
4.ポストフィルタを構築する(通常はLPC係数をベースとする)。
5.予備音声信号を濾過することによって量子化ノイズを減じ、それで、最終の合成音声を獲得する。
【0032】
符号器によって伝送されたビットストリームにおける符号化パラメータの配置の一例として、GSM FRボコーダを考慮する。GSM FRボコーダについては、フレームを8kHzでサンプリングされた音声のサンプル160個分と定義する。すなわち、フレームは長さ20msである。A法則PCMコンパンディングをもってすれば、160個のサンプルの伝送のために1280ビットが必要ということになる。符号器は160個のサンプルを260ビットに圧縮する。各フレームの260ビットの中の様々な符号化パラメータの配置を図8に示す。
【0033】
符号化された各フレームの最初の36ビットは、LPC合成フィルタに相当するログ・エリア比からなる。残りの224ビットは、各々56ビットの4つのサブフレームに分類することができる。各サブフレームの内部では、符号化パラメータビットに先ずピッチ合成フィルタ関連のパラメータが含まれ、その後にコードブック・ベクトル関連のパラメータおよびコードブック利得関連のパラメータが続く。
【0034】
発明の概要
好適な実施例は、第1パラメータを含む複数のパラメータからなる圧縮コードを使って近端ディジタル信号を伝送するための通信システムにおいて有用である。パラメータが表すのは、複数の可聴周波特性を有する可聴周波信号である。圧縮コードは、複数の復号ステップによって復号できる。通信システムはまた、圧縮コードを使って遠端ディジタル信号も送信する。このような環境においては、近端ディジタル信号におけるエコーは、複数のパラメータのうち少なくとも第1パラメータを近端ディジタル信号に応答して読取ることによって減じることができる。複数の復号ステップのうち少なくとも1つが、近端ディジタル信号と遠端ディジタル信号において行われ、これで、少なくとも部分的に復号された近端信号と少なくとも部分的に復号された遠端信号が作成されることになる。
【0035】
第1パラメータは、少なくとも部分的に復号された近端信号と少なくとも部分的に復号された遠端信号に応答して調整され、これで、調整済み第1パラメータが作成されることになる。第1パラメータは、近端ディジタル信号において調整済み第1パラメータに取って代わられる。読取り、作成および調整は、望ましくは、1つのプロセッサによって行われる。
【0036】
本発明の他の1つの実施例は、さらに、圧縮コードを使用する第1ビットと線形コードを使用する第2ビットからなるコードサンプルを使って近端ディジタル信号を伝送するための通信システムにおいて有用である。コードサンプルが表すのは、複数の可聴周波特性を有する可聴周波信号である。通信システムはまた、遠端ディジタル信号も送信する。このような環境においては、近端ディジタル信号におけるいかなるエコーも、圧縮コードなしに、第1ビットと第2ビットを近端ディジタル信号と遠端ディジタル信号に応答して調整することによって減じることができる。
【0037】
好適な実施例の詳細な説明
本発明の優先実施例を下記の略語を参考にして説明する。
ACELP Algebraic Code Excited Linear Prediction(代数コード励起線形予測)
AE Audio Enhancer(可聴周波エンハンサ)
ALC Adaptive or Automatic Level Control(適応レベル制御または自動レベル制御)
CD Coded Domain or Compressed Domain(符号化ドメインまたは圧縮ドメイン)
【0038】
CDEC Coded Domain Echo Control(符号化ドメインエコーコントロール)
EFR Enhanced Full Rate(エンハンスド・フルレート)
ETSI European Telecommunications Standards Institute(欧州電気通信標準化協会)
FR Full Rate(フルレート)
【0039】
GSM Global System for Mobile Communications(汎欧州ディジタル移動電話方式)
ITU International Telecommunications Union(国際電気通信連合)
MR−ACELP Multi−Rate ACELP(ACELPマルチレート)
PCM Pulse Code Modulation(ITU G.711)(パルス符号変調)
【0040】
RPE−LTP Regular Pulse Excitation − Long Term Prediction(規則パルス励起−長期予測)
TFO Tandem Free Operation(タンデムフリーオペレーション)
VSELP Vector Sum Excitation Linear Prediction(ベクトル総和励起線形予測)
【0041】
音声合成の伝達関数
デコーダにおける音声合成には多くの非線形性とヒューリスティックスとが関与しているが、下記の近似的な伝達関数がその合成プロセスに特性づけられることが可能である。
【数1】
Figure 2003533902
【0042】
コードブックベクトルc(n)がH(z)によってフィルタリングされ、合成音声が得られる。音声復号化のためのこの汎用LPC音声合成またはデコーダモデルに関して留意すべきキイポイントは、エコー制御を実現するために変更されることが可能な使用可能な符号化されたパラメータは、
1. c(n):コードブックベクトル、
2. G:コードブック利得、
3. g:ピッチ利得、
4. T:ピッチ周期
5. {a,k=1,...,M}:LPC係数
であるということである。
【0043】
殆どのLPCベースのボコーダは、上述のセットに類似したパラメータ、上述の形式に変化されてもよいパラメータ、または、上述の形式に関係したパラメータを使用する。例えば、LPCベースのボコーダのLPC係数は、ログ−エリア比率(log−area ratio)(例えば、GSM FR)または線スペクトル周波数(例えば、GSM EFR)を使用して表現されてもよい。これらの形式の両方がLPC係数に変換されることが可能である。パラメータが上述の形式に関係付けられている事例が、GSM FRボコーダにおけるブロック最大パラメータである。ブロック最大は、式(1)によって記述されているモデルにおけるコードブック利得に正比例していると見なされることが可能である。
【0044】
したがって、符号化パラメータ変更方法の説明は主として汎用音声デコーダモデルに限定されているが、こうした方法をあらゆるLPCベースのボコーダとおそらくはさらに他のモデルとに適合させることは比較的容易である。
【0045】
さらに、エコー制御のために非符号化音声と共に使用されるセンタークリッピング(center−clipping)のような非線形処理方法が、音声信号の符号化パラメータ表現が著しく異なっているので、符号化パラメータには使用不可能であるということも明らかなはずである。コードブックベクトル信号c(n)でさえ、関与している大幅な量子化のためにセンタークリッピングに対して応答しない。ボコーダの多くでは、コードブックベクトルサンプルの大多数がすでにゼロであり、一方、非ゼロのパルスが高度に量子化される。したがって、こうした非線形処理アプローチは適用不可能であるか無効である。
【0046】
本明細書および本請求項の範囲では、術語「線形コード」と「圧縮コード」は次の意味を有する。
線形コード:線形コードとは、オーディオ信号の各サンプルに関する1つの符号化パラメータすなわち符号化サンプルを結果的にもたらす方法を意味する。線形コードの例は、PCM(A−lawおよびμ−law)、ADPCM(適応差分パルス符号変調)、および、デルタ変調である。
【0047】
圧縮コード:圧縮コードとは、オーディオ信号の各サンプルに関する1つ未満の符号化パラメータを結果的にもたらす圧縮方法を意味する。典型的には、圧縮コードは、オーディオ信号サンプルの各ブロックすなわち各フレームに関する小さなセットの符号化パラメータを結果的にもたらす。圧縮コードの例は、GSMボコーダ(HR、FR、EFR)のような線形予測符号化ベースのボコーダである。
【0048】
符号化されたドメインのエコーの制御
概観
図9は、音響エコーが存在する状況に関する符号化ドメインエコー制御(CDEC)の新規の具体例を示す。通信システム10は、テーブル1に示したコーデックによって使用されるコードのいずれかのような圧縮コードを使用してネットワーク24を経由して近接終端符号化ディジタル信号(near end coded digital signals)を伝送する。圧縮コードは、近接終端スピーカヘッドセット12内の近接終端マイクロホン14によって生成された線形オーディル信号からエンコーダ16によって生成される。圧縮コードは、図8に示すパラメータのようなパラメータを含む。このパラメータは、オーディオレベルと電力を含む複数のオーディオ特性を含むオーディオ信号を表現する。圧縮コードは様々な復号化ステップによって復号化可能である。後述するように、システム10は、ネットワーク32を経由してシステム10によって伝送される遠隔終端ディジタル信号(far end digital signals)の存在を原因とする近接終端ディジタル信号中のエコーを制御する。このエコーは、図8に示す圧縮コードパラメータの最小限の遅延と(復号化を行う場合には)最小限の復号化とによって制御される。
【0049】
圧縮コードを使用する遠隔終端ディジタル信号は近接終端端子20によって受け取られ、調整圧縮コードを使用するディジタル信号は、近接終端端子22によってネットワーク24を経由して、調整圧縮コードのデコーダ(図示されていない)を含む遠隔終端ハンドセット(図示されていない)に伝送される。調整圧縮コードがオリジナルの圧縮コードと互換性があるということに留意されたい。言い換えると、符号化パラメータが変更または調整されている時に、この符号化パラメータを調整圧縮コードと呼ぶが、この調整圧縮コードは依然としてオリジナルの圧縮コードに対応する標準デコーダを使用して復号化可能である。線形遠隔終端オーディオ信号が、デコーダ18と互換性がある圧縮コードを使用して遠隔終端ディジタル信号を生成するために遠隔終端エンコーダ(図示されていない)によって符号化され、ネットワーク32を経由して遠隔終端端子34に伝送される。近接終端ハンドセット12のデコーダ18が遠隔終端ディジタル信号を復号化する。図9に示されているように、遠隔終端信号からのエコー信号は音響フィードバックを介して近接終端ハンドセット12のエンコーダ16に進むだろう。
【0050】
プロセッサ40は近接終端圧縮コードと遠隔終端圧縮コードとに対して様々な操作を行う。プロセッサ40はマイクロプロセッサ、マイクロコントローラ、ディジタル信号プロセッサ、または、算術的および論理的操作が可能な他のタイプの論理ユニットであってよい。
【0051】
各タイプのコーデックに関して、TFOおよび非TFOの際に、圧縮モードおよび線形モードにおいて、異なった符号化ドメインエコー制御アルゴリズム44が常にプロセッサ40によって実行される。部分デコーダ48が、端子20で受け取られたパラメータの少なくとも最初のパラメータを読み取るためにプロセッサ40によって実行される。別の部分デコーダ46が、少なくとも部分的に復号化された遠端信号を生成するためにプロセッサ40によって実行される。デコーダ48は少なくとも部分的に復号化された近接終端信号を生成する。(近接終端信号と遠隔終端信号とによって使用される圧縮コードは互いに異なっていてもよく、したがって部分デコーダも互いに異なっていてもよいということに留意されたい。)
【0052】
部分復号化に基づいて、アルゴリズム44が、近接終端ディジタル信号中のエコーの量を少なくとも推定するエコー公算(尤度)信号(echo likelihood signal)を生成する。エコー尤度信号は、エコーの量が遠隔終端音声信号に依存するので時間の経過に応じて変化する。エコー尤度信号は、アルゴリズム44によって読み取られる1つまたは複数のパラメータを調整するためにアルゴリズム44によって使用される。調整されたパラメータは、端子22からネットワーク24に伝送される調整された近接終端ディジタル信号を形成するために、近接終端ディジタル信号中に書き込まれる。言い換えると、その調整されたパラメータは、当初に読み取られたパラメータの代わりに使用される。ネットワークALC装置内に示されている部分デコーダ46、48は、プロセッサ40によって実行されるアルゴリズムであり、コーデックに依存している。
【0053】
部分デコーダは、圧縮コードを使用して圧縮された信号を操作する。プロセッサ40がTFO環境において実装される場合には、部分デコーダ46は圧縮コードではなく線形コードを復号化するだろう。さらに、この場合には、部分デコーダ48が線形コードを復号化し、圧縮コードからオーディオ信号を実際に合成することなしに圧縮コードから符合化パラメータを求めるだけだろう。
さらに、ブロック44、46、48は直結(hardwired)回路として実現されてもよい。
【0054】
図10は、図9の実施形態が、エコーが4ワイヤ−2ワイヤハイブリッド(4−wire−to−2−wire hybrid)のために生じるシステムのために使用可能であることを示す。
【0055】
CDEC装置/アルゴリズムが、近接終端から受け取ったビットストリーム中の符号化パラメータを直接変更することによって、近接終端符号化音声からエコー効果を取り除く。近接終端信号および遠隔終端信号の復号化は、近接終端に存在するエコーの尤度を求めるために行われる。この尤度値を求めるために、復号化された信号から幾つかの統計値が測定される。
【0056】
部分的な復号
近接終端信号および遠隔終端信号の復号化は、符号化操作および復号化操作のために使用されるボコーダに応じて部分的復号化であっても完全復号化であってもよい。部分復号化で十分である状況の幾つかの例を下記に示す。
1. 符号励起線形予測(CELP)ボコーダでは、後フィルタリング処理が、LPCベースのモデルを使用して復号化された信号に対して行われる。この後フィルタリング処理は量子化ノイズを減少させる。しかし、後フィルタリング処理はエコーの尤度を求めるために必要な統計値の測定に大きな悪影響は与えないので、後フィルタリング段階を経済性のために省略することが可能である。
【0057】
2. GSMネットワークにおけるTFOでは、CDEC装置が基地局とスイッチ(A−インタフェースとして知られている)との間または2つのスイッチの間に置かれてもよい。図3に示されているように、音声信号の各8ビットサンプルの6つのMSBがPCMコードに対応するので、この状況では、符号化音声をすべて符号化することを回避することが可能である。A−lawコンパンディングテーブルを使用して8ビット圧伸サンプルを13ビット線形音声サンプルに変換するためには簡単なテーブルルックアップで十分である。このことが、適切なデコーダを呼び出すことなしに音声信号の1つのバージョン(version)を得るための経済的な方法を提供する。この方法で得られた音声信号は幾分かノイズを含むが、エコー尤度を求めるために必要な統計値の測定にとっては十分であることが発見されている。
【0058】
エコー尤度の決定
遠隔終端信号および近接終端信号の幾つかの(完全復号化または部分復号化された)非符号化バージョンが利用可能であると想定すると、幾つかの統計値が測定され、近端信号中に存在するエコーの尤度を求めるために使用される。エコー尤度が各音声サブフレーム毎に推定され、この場合にサブフレームの持続時間は使用ボコーダに依存している。好ましいアプローチをこのセクションで説明する。
【0059】
エンドパス(end−path)の単純化されたモデルが図11に示されている通りであると想定する。このエンドパスは、サンプルτ個分の一様な遅延とエコー反射減衰量(ERL)λとから成ると想定する。
【0060】
このモデルでは、sNE(n)が近端非符号化信号であり、sFE(n)とが遠端非符号化信号である。τの範囲がCDECの特定の具体化にとって既知であり、下記のように特定される。
【数2】
Figure 2003533902
【0061】
この想定は妥当であるが、これは最大エンドパス遅延と最小エンドパス遅延とが主として音声符号化と音声復号化とチャネル符号化とチャネル復号化と他の既知の伝送遅延とに依存するからである。ERL範囲は、
【数3】
Figure 2003533902
であると仮定される。
【0062】
エコーの公算(尤度)の推定のプロセスは次の変数を使用する。
NEは近端信号の現在サブフレームの電力である。
FE(0)は遠端信号の現在サブフレームの電力である。
FE(m)は遠端信号の現在サブフレームの前のm番目のサブフレームの電力である。言い換えると、遠端サブフレーム電力値の過去値のバッファが維持される。可能最大エンドパス遅延までの遠端信号のサブフレーム電力が使用可能であるように、バッファサイズはBmax=[τmax/N]である。ここでNはサブフレーム中のサンプルの数である。
【0063】
Rが近端サブフレーム電力の遠端サブフレーム電力に対する比率である。
ρが事前エコー公算(尤度)である。
ρが、事前エコー公算(尤度)を平滑化することによって得られるエコー尤度である。
【0064】
後述のステップを使用して各サブフレームに関してエコー公算(尤度)を推定する。幾つかのボコーダ、特にGSM HRのような特に低いビットレートのボコーダでは、この処理がサブフレーム単位ではなくフレーム単位においてより適切に行われることがある。
【0065】
現在サブフレームに関するsNE(n)の電力を
【数4】
Figure 2003533902
として求める。
【0066】
現在サブフレームに関するsFE(n)の電力を
【数5】
Figure 2003533902
として求める。
【0067】
近端電力の遠端電力に対する比率を
【数6】
Figure 2003533902
ここにBmin=[τmin/N]、として求める。分母は、本質的に、予想エンドパス遅延時間期間中に測定された最大遠端サブフレーム電力である。
【0068】
バッファ内の遠端電力値をシフトし、すなわち、
FE(Bmax)=PFE(Bmax−1);...;PFE(1)=PFE(0)である。
【0069】
事前エコー公算(尤度)を
【数7】
Figure 2003533902
として求める。
【0070】
ρ=0.9ρ+0.1ρを使用して、事前エコー公算(尤度)を平滑化し、エコー公算(尤度)を得る。
【0071】
近端サブフレーム電力の遠端サブフレーム電力に対する比率の関数としての事前エコー公算(尤度)のグラフを図12に示す。
【0072】
符号化パラメータの変更
このセクションでは、エコー尤度に基づいた符号化パラメータの直接変更のための好ましい方法を説明する。図7の汎用音声デコーダモデルの各符号化パラメータの直接変更を最初に説明する。その次に、標準ベースのボコーダに関するパラメータ変更のための対応する方法を説明する。標準ベースのボコーダの一例として、GSM FRボコーダを考察する。標準にしたがって各パラメータを変更し量子化した後に、ビットストリーム中の適切なパラメータを適切に変更する。このプロセス全体の好ましい実施形態を図13に示す。
【0073】
コードブック利得の変更
各サブフレームに関するコードブック利得パラメータGが、そのサブフレームに関するエコー尤度ρに依存する基準化因子によって減少させられる。Gnewによって表される変更されたコードブック利得パラメータが次式によって与えられる。
new=(1−ρ)G (4)
【0074】
その次に、このパラメータをボコーダ標準にしたがって再量子化する。図7の音声デコーダモデルでは、コードブック利得が合成信号の総レベルを制御し、したがって対応するオーディオ信号の総レベルを制御するということに留意されたい。一方、コードブック利得を減衰させることがエコーの減衰を結果的に生じさせる。
【0075】
GSM FRの場合には、ブロック最大パラメータXmaxは、図7の汎用モデルのコードブック利得パラメータに正比例している。したがって、変更されたブロック最大パラメータは、
max,new=(1−ρ)Xmax (5)
として計算される。
【0076】
その次に、標準において規定されている方法によってXmax,newが再量子化される。その結果として得られる6ビット値がビットストリーム中の適切な位置に再挿入される。
【0077】
コードブックベクトルの変更
コードブックベクトルc(n)はパルスの位置および振幅をランダム化することによって変更される。コードブックベクトルのランダム化は結果的にエコーの相関特性を消滅させる。これはエコーの「音声に似た」性質の多くを消滅させる効果を有する。エコーの公算(尤度)が高いと判定される時には何時でも、好ましくはρ>0.8である時には、ランダム化が行われる。このランダム化は、あらゆる適切な疑似ランダムビット生成方法を使用して行われることが可能である。
【0078】
GSM FRの場合には、各サブフレームに関するコードブックベクトルは、RPEグリッド位置パラメータ(2ビット)と13個のRPEパルス(各パルスは3ビット)とによって決定される。疑似ランダムビット発生器を使用して、これらの41個のビットが41個のランダムビットで置き換えられる。
【0079】
ピッチ合成フィルタの変更
ピッチ合成フィルタは音声信号のあらゆる周期の長期相関を実現し、有声音化音声の高調波をモデル化するために特に重要である。図7で説明したこのフィルタのモデルは、2つのパラメータ、すなわち、ピッチ周期Tとピッチ利得gだけを使用する。有声音化音声中は、ピッチ周期は幾つかのサブフレームまたはフレームにわたって比較的一定不変である。大半のボコーダにおけるピッチ利得はゼロから1または1よりわずかに大きな値(例えばGSM EFRでは1.2)までの範囲内である。強い有声音化音声中は、ピッチ利得はその最大値であるかまたはそれに近い値である。
【0080】
エコーが近端信号中だけに存在する場合には、そのエコーの有声音化された高調波は一般的にピッチ合成フィルタによって適切にモデル化され、エコーの尤度が高いことが検出される(ρ>0.8)。
【0081】
フレーム周期中にエコーと近端音声の両方が近端信号中に存在する場合には、エコーの尤度は適度なレベルにある(0.5≦ρ≦0.8)。こうした状況では、符号化プロセスは一般的にこれら2つの信号のうちのより強い方の信号をモデル化するということになる。大半の場合に近端音声がエコーよりも強いと想定することが妥当である。これが当てはまる場合には、符号化プロセスは、その性質のために、ピッチ合成フィルタによって主として近端音声高調波をモデル化し、エコーの高調波はわずかしかモデル化しないかまたは全くモデル化しない傾向がある。
【0082】
有声音化エコーを除去またはマスキングするために、エコーの高調波性が消滅させられる。これは、次のようにピッチ合成フィルタパラメータを変更することによって実現される。
【0083】
エコーにおける長期相関が除去されるようにピッチ周期がランダム化され、したがって、エコーの有声音化性質が消滅させられる。エコーの尤度が高い時だけ、好ましくはρ>0.8である時だけ、こうしたランダム化が行われる。
【0084】
オーディオ信号における高調波の強さまたは長期相関の強さを制御するために、ピッチ利得が減少させられる。こうした利得の減衰が、エコーの尤度が少なくとも適度である(ρ>0.5)時にだけ行われることが好ましい。
【0085】
新たなピッチ利得が下記の通りに得られる。
【数8】
Figure 2003533902
【0086】
このアプローチによって、適度なエコー尤度の際にはピッチ周期がランダム化されないが、信号の有声音化品質が強くないようにピッチ利得が減衰させられてもよいということに留意されたい。
【0087】
図14は、ピッチ周期T=14を有するピッチ合成フィルタの大きさ周波数応答(magnitude frequency response)を示す。点線が高ピッチ利得(g=0.75)に関する応答であり、実線が、g=0.3にピッチ利得が減衰させられる時に生じる状態を示す。オーディオ信号の高調波と長期相関の強さは、このパラメータをこの仕方で変更することによって制御されることが可能である。
【0088】
GSM FRボコーダでは、Nで表されている、サブフレームjのLTP遅れパラメータが図7のモデルのピッチ周期Tに対応する。Nはビットストリーム中の7つのビットを取り上げ、40から120までの範囲内であることが可能である。したがって、Nをランダム化する時には、この範囲内にある乱数でNが置き換えられなければならない。
【0089】
によって表されている、GSM FRボコーダのサブフレームjのLTP利得パラメータが、図7のピッチ利得gに対応する。変更されたLTP利得パラメータが、下記のように式(6)に類似した仕方で得られる。
【数9】
Figure 2003533902
【0090】
LPC合成フィルタの変更
図7の汎用音声デコーダモデルでは、LPC合成フィルタ変換関数は
【数10】
Figure 2003533902
である。このフィルタは、合成信号のための広域整形を実現する。このフィルタの大きさ周波数応答は、係数{a}を{β}で置換することによって平坦化され、ここで0≦β≦1である。βは「スペクトラルモーフィングファクタ(spectral morphing factor)」と呼ばれる。言い換えると、変更された変換関数は
【数11】
Figure 2003533902
である。β=0である時に、オリジナルのLPC合成フィルタが全通過フィルタの形に変形され、β=1である時には、オリジナルのフィルタは不変のままであるということに留意されたい。0から1までのβの全ての値の場合に、オリジナルのフィルタの大きさ周波数応答は幾らかの平坦化を被り、β→0としてより大きな平坦化を被る。フィルタの安定性がこの変形において維持されることに留意されたい。
【0091】
エコーに対するこうしたスペクトラルモーフィングの効果は、信号中に存在するあらゆるフォルマント構造を減少させるかまたは除去することである。エコーはバックグラウンドノイズのように聞こえるようにブレンドまたはモーフィングされる。一例として、有声音化音声セグメントに関するLPC合成フィルタの大きさ周波数応答と、幾つかの異なるβ値の場合のその平坦化された変形とを図15に示す。
【0092】
この好ましい実施形態では、スペクトラルモーフィングファクタβは次のように求められる。
【数12】
Figure 2003533902
【0093】
同様のスペクトラルモーフィング方法が、反射係数、ログ−エリア比率、逆サイン関数、および、線スペクトル周波数のような、ボコーダで一般的に使用されるLPCフィルタ係数の他の表現のために得られる。
【0094】
例えば、GSM FRボコーダはLPC合成フィルタを表現するためにログ−エリア比率を使用する。LAR(i)、i=1,2,...,8として表される、フレームに対応する8つのログ−エリア比率の場合に、スペクトラルモーフィングされたログ−エリア比率は下記の式を使用して得られ、
【数13】
Figure 2003533902
ここでβは式(8)によって求められる。
【0095】
この方法はLPCフィルタの大きさ周波数応答をスペクトル的に平坦化する。あるいは、LARnoise(i)によって表される1組のログ−エリア比率によって表現されたバックグラウンドノイズのスペクトルのような予め決められたスペクトルまたは大きさ周波数応答に対してログ−エリア比率をモーフィングするためには、適切なモーフィング式は下記の通りである。
【数14】
Figure 2003533902
【0096】
その次に、変更されたログ−エリア比率を、標準における仕様にしたがって量子化する。ログ−エリア比率の変更に対するこうしたアプローチがLPC合成フィルタの安定性を維持することに留意されたい。
【0097】
バックグラウンドノイズのスペクトル予測と、ボコーダおよびLPCフィルタに対応するログ−エリア比率を含むフィルタ係数の表現とのためのアプローチの典型的な一例が、快適ノイズ発生標準[5]とその中の引例とに示されている。
【0098】
線スペクトル周波数がLPC合成フィルタ(例えば、GSM EFR)を表現するために使用される時には、ログ−エリア比率に関するアプローチに類似したアプローチも適切である。線スペクトル周波数をf、i=1,...,Mで表し、ここでMは、一様(典型的)であると想定されているLPC合成フィルタの次数である。線スペクトル周波数が0からサンプリング周波数の1/2まで均一に間隔が空けられている時には、その結果として得られるLPC合成フィルタは全通過だろう(すなわち、平坦な大きさ周波数応答)。こうしたスペクトル的に平坦なLPCフィルタに対応する線スペクトル周波数の組をfi,flat、i=1,...,Mと表す。
【0099】
そのとき、スペクトル的にモーフィングされた線スペクトル周波数が、下記の式を使用して得られ、
【数15】
Figure 2003533902
ここでβは式(8)によって求められる。
【0100】
この方法はLPC合成フィルタの大きさ周波数応答をスペクトル的に平坦化する。あるいは、fi,noiseによって表される1組の線スペクトル周波数によって表現されたバックグラウンドノイズスペクトルのような予め決められたスペクトルまたは大きさ周波数応答に対して線スペクトル周波数をモーフィングするためには、適切なモーフィング式は下記の通りである。
【数16】
Figure 2003533902
【0101】
次いで、変更された線スペクトル周波数を標準における仕様にしたがって量子化する。線スペクトル周波数の変更に対するこうしたアプローチがLPC合成フィルタの安定性を維持することに留意されたい。バックグラウンドノイズスペクトル予測と線スペクトル周波数を含むフィルタ係数の表現とのための適切な方法が、快適ノイズ発生に関する対応するボコーダ標準に示されている。
【0102】
最小遅延の技術
バッファリングと処理と伝送とにおける大きな遅延が、ネットワーク音声品質増強処理を全く伴わないセルラネットワークにおいてすでに存在している。音声増強のための符号化音声のさらに別のネットワーク処理が追加の遅延を付加するだろう。この遅延を最小限にすることが音声品質にとって重要である。このセクションでは、この遅延を最小限にするための新規のアプローチを説明する。使用する事例はGSM FRボコーダである。
【0103】
図8は、GSM FRエンコーダからの符号化パラメータが受け取られる順序を示す。単純なアプローチは、各フレーム毎に260ビット全体をバッファリングすることと、その次に符号化ドメインエコー制御のためにこれらのバッファリングされたビットを処理することとを含む。しかし、このことは、処理遅延に加えて約20ミリ秒のバッファリング遅延を生じさせる。
【0104】
次のようにしてこのバッファリング遅延を最小限にすることが可能である。最初に、ビット92が受け取られた直後に第1のサブフレーム全体が復号化されることが可能であるということに留意されたい。したがって、この第1のサブフレームが、約7.1ミリ秒(20ミリ秒×92/260)のバッファリング遅延の後に処理されるだろう。したがって、バッファリング遅延は約13ミリ秒だけ減少させられる。
【0105】
この新規の低遅延アプローチを使用すると、符号化LPC合成フィルタパラメータが、フレームの第1のサブフレームの終点で利用可能な情報に基づいて変更される。言い換えると、そのフレーム全体が、第1のサブフレームに基づいて計算されたエコー尤度による影響を受ける。実施した実験では、この「早期の」判断に起因した顕著なアーチファクトが発見されなかったが、これは、特に、エコー尤度が幾つかの先行サブフレームと現在フレームとに効果的に基づいて平滑化された量であるからである。
【0106】
誤り訂正/検出ビットおよびフレーム指示ビットの更新
本明細書で説明したエコー除去のための新規の符号化ドメイン処理方法を適用する時には、符号化パラメータに対応するビットの一部または全部がビットストリーム中で変更される。これは、ビットストリーム中に埋め込まれているかも知れない他の誤り訂正または検出ビットに悪影響を与える可能性もある。例えば、音声エンコーダは、誤りのないフレームが受け取られることを確実にするようにデコーダが検査を行うための幾つかのチェックサムをビットストリーム中に埋め込むかも知れない。こうしたチェックサムと、あらゆるパリティチェックビットと、誤り訂正または検出ビットと、フレーム指示ビットとが、必要に応じて適切な標準にしたがって更新される。
【0107】
GSMタンデムフリーオペレーション標準による動作
符号化パラメータだけが使用可能である場合には、部分的復号化または完全復号化が上述のように行われてよく、それによって符号化パラメータがオーディオ信号のバージョンを再構築するために使用される。しかし、GSM TFO環境のような状況下で操作する時には、符号化パラメータに加えて追加の情報が使用可能である。この追加の情報はオーディオ信号のA−law PCMサンプルの6つのMSBである。この場合には、これらのPCMサンプルが、符号化パラメータを使用することなしに遠端と近端の両方に関してオーディオ信号のバージョンを再構築するために使用されてよい。このことが計算上の節約を結果的にもたらす。
【0108】
通信技術の専門家は、これらの好ましい実施形態が、添付した請求の範囲に規定される本発明の真の精神と範囲から逸脱することなく修飾および変形されることができることを認識するであろう。
【図面の簡単な説明】
【図1】
図1は、GSMディジタルセルラーネットワークにおける音声伝送のためのシステムの概略的ブロック図である。
【図2】
図2は、タンデムフリーオペレーション(TFO)のもとでのGSMネットワークにおける音声伝送のためのシステムの概略的ブロック図である。
【図3】
図3は、タンデムフリーオペレーション(TFO)のもとでの音声伝送を図解するグラフである。
【図4】
図4は、有線ネットワークにおけるエコー問題に対する伝統的解決の概略的ブロック図である。
【図5】
図5は、ディジタルセルラーネットワークにおけるスピーカからマイクロホンへの音響フィードバックを図解する概略的ブロック図である。
【図6】
図6は、符号化音声に対する伝統的なエコーキャンセルのアプローチの概略的ブロック図である。
【図7】
図7は、総称線形予測コード(LPC)音声合成モデルまたは音声復号モデルの概略的ブロック図である。
【図8】
図8は、GSM FRのためのビットストリームにおける符号化パラメータの配置の図解である。
【図9】
図9は、本発明に従って作られた音響エコー環境に対する符号化ドメインエコーコントロールの優先形態の概略的ブロック図である。
【図10】
図10は、本発明に従って作られた4線式対2線式ハイブリッドに起因するエコーに対する符号化ドメインエコーコントロールのもうひとつの優先形態の概略的ブロック図である。
【図11】
図11は、フラットな遅延および減衰を伴う単純化されたエンド経路モデルの概略的ブロック図である。
【図12】
図12は、予備エコー尤度対比である近端サブフレーム対遠端サブフレームの電力比を示すグラフである。
【図13】
図13は、符号化ドメインエコーコントロール方法の優先形態を示すフローチャートである。
【図14】
図14は、ピッチ合成フィルタの振幅−周波数レスポンスの一例を示すグラフである。
【図15】
図15は、オリジナルのLPC合成フィルタおよびこのようなフィルタの平板化バージョンの振幅−周波数レスポンスの一例を示すグラフである。
JP2001508063A 1999-07-02 2000-06-30 符号化されたドメインのエコーの制御 Pending JP2003533902A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14213699P 1999-07-02 1999-07-02
US60/142,136 1999-07-02
PCT/US2000/018104 WO2001003316A1 (en) 1999-07-02 2000-06-30 Coded domain echo control

Publications (2)

Publication Number Publication Date
JP2003533902A JP2003533902A (ja) 2003-11-11
JP2003533902A5 true JP2003533902A5 (ja) 2004-12-24

Family

ID=22498680

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2001508064A Pending JP2003503760A (ja) 1999-07-02 2000-06-30 圧縮音声の符号領域適応レベル制御
JP2001508667A Pending JP2003504669A (ja) 1999-07-02 2000-06-30 符号化領域雑音制御
JP2001508063A Pending JP2003533902A (ja) 1999-07-02 2000-06-30 符号化されたドメインのエコーの制御

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2001508064A Pending JP2003503760A (ja) 1999-07-02 2000-06-30 圧縮音声の符号領域適応レベル制御
JP2001508667A Pending JP2003504669A (ja) 1999-07-02 2000-06-30 符号化領域雑音制御

Country Status (5)

Country Link
EP (3) EP1190495A1 (ja)
JP (3) JP2003503760A (ja)
AU (3) AU6067100A (ja)
CA (3) CA2378012A1 (ja)
WO (3) WO2001003317A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1301018A1 (en) * 2001-10-02 2003-04-09 Alcatel Apparatus and method for modifying a digital signal in the coded domain
JP3946074B2 (ja) * 2002-04-05 2007-07-18 日本電信電話株式会社 音声処理装置
JP3876781B2 (ja) 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
EP1521242A1 (en) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
US7613607B2 (en) 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
US8874437B2 (en) 2005-03-28 2014-10-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal for voice quality enhancement
JP5312030B2 (ja) * 2005-10-31 2013-10-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 遅延を低減する方法および装置、エコーキャンセラ装置並びにノイズ抑圧装置
US7852792B2 (en) * 2006-09-19 2010-12-14 Alcatel-Lucent Usa Inc. Packet based echo cancellation and suppression
JP4915575B2 (ja) * 2007-05-28 2012-04-11 パナソニック株式会社 音声伝送システム
JP4915576B2 (ja) * 2007-05-28 2012-04-11 パナソニック株式会社 音声伝送システム
JP4915577B2 (ja) * 2007-05-28 2012-04-11 パナソニック株式会社 音声伝送システム
WO2009029076A1 (en) * 2007-08-31 2009-03-05 Tellabs Operations, Inc. Controlling echo in the coded domain
CN102726034B (zh) 2011-07-25 2014-01-08 华为技术有限公司 一种参数域回声控制装置和方法
TWI469135B (zh) * 2011-12-22 2015-01-11 Univ Kun Shan 調適性差分脈衝碼調變編碼解碼的方法
JP6011188B2 (ja) * 2012-09-18 2016-10-19 沖電気工業株式会社 エコー経路遅延測定装置、方法及びプログラム
JP6816277B2 (ja) * 2017-07-03 2021-01-20 パイオニア株式会社 信号処理装置、制御方法、プログラム及び記憶媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683114B2 (ja) * 1985-03-08 1994-10-19 松下電器産業株式会社 エコ−キヤンセラ
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5140543A (en) * 1989-04-18 1992-08-18 Victor Company Of Japan, Ltd. Apparatus for digitally processing audio signal
US5097507A (en) * 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
JP3353257B2 (ja) * 1993-08-30 2002-12-03 日本電信電話株式会社 音声符号化復号化併用型エコーキャンセラー
US5828995A (en) * 1995-02-28 1998-10-27 Motorola, Inc. Method and apparatus for intelligible fast forward and reverse playback of time-scale compressed voice messages
JPH0954600A (ja) * 1995-08-14 1997-02-25 Toshiba Corp 音声符号化通信装置
JPH0993132A (ja) * 1995-09-27 1997-04-04 Toshiba Corp 符号化・復号化装置及び方法
JPH10143197A (ja) * 1996-11-06 1998-05-29 Matsushita Electric Ind Co Ltd 再生装置
JP3283200B2 (ja) * 1996-12-19 2002-05-20 ケイディーディーアイ株式会社 符号化音声データの符号化レート変換方法および装置
US5943645A (en) * 1996-12-19 1999-08-24 Northern Telecom Limited Method and apparatus for computing measures of echo
US6064693A (en) * 1997-02-28 2000-05-16 Data Race, Inc. System and method for handling underrun of compressed speech frames due to unsynchronized receive and transmit clock rates
JP3317181B2 (ja) * 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
EP2154679B1 (en) * 1997-12-24 2016-09-14 BlackBerry Limited Method and apparatus for speech coding

Similar Documents

Publication Publication Date Title
JP5009910B2 (ja) レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
JP3842821B2 (ja) 通信システムにおいて雑音を抑圧する方法および装置
CN100393085C (zh) 数字网络中的音频信号质量增强
JP5161212B2 (ja) Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法
RU2325707C2 (ru) Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания
JP2003533902A5 (ja)
AU6203300A (en) Coded domain echo control
JPH09204199A (ja) 非活性音声の効率的符号化のための方法および装置
US8457953B2 (en) Method and arrangement for smoothing of stationary background noise
US20030065507A1 (en) Network unit and a method for modifying a digital signal in the coded domain
US6424942B1 (en) Methods and arrangements in a telecommunications system
CA2244008A1 (en) Nonlinear filter for noise suppression in linear prediction speech pr0cessing devices
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
EP1020848A2 (en) Method for transmitting auxiliary information in a vocoder stream
CA2340160C (en) Speech coding with improved background noise reproduction
US6141639A (en) Method and apparatus for coding of signals containing speech and background noise
Chandran et al. Compressed domain noise reduction and echo suppression for network speech enhancement
WO2005031706A1 (en) Transmission of speech coding parameters with echo cancellation
JP2004519736A (ja) 位相スメアリング及び位相デスメアリングフィルタを有するadpcm音声コーディングシステム
Enzner et al. On the problem of acoustic echo control in cellular networks
Kulakcherla Non linear adaptive filters for echo cancellation of speech coded signals
Wada et al. Measurement of the effects of nonlinearities on the network-based linear acoustic echo cancellation
Fapi et al. Acoustic echo cancellation embedded in smart transcoding algorithm between 3GPP AMR-NB modes
JPH0677911A (ja) 比較減衰器付音声符復号器