JP2005513539A

JP2005513539A - 音声信号の効率的コーディングのための信号修正方法

Info

Publication number: JP2005513539A
Application number: JP2003553555A
Authority: JP
Inventors: ミッコ・タミ; ミラン・ジェリネク; クロ−ド・ラフラーム; ヴェサ・ルオッピラ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-12-14
Filing date: 2002-12-13
Publication date: 2005-05-12
Also published as: EP1758101A1; US20050071153A1; RU2004121463A; ZA200404625B; NZ533416A; AU2002350340B2; KR20040072658A; WO2003052744A2; ATE358870T1; BR0214920A; US7680651B2; DE60219351T2; US8121833B2; HK1133730A1; CN1618093A; AU2002350340A1; EP1454315A2; US20090063139A1; CN101488345A; ES2283613T3

Abstract

音信号をデジタル符号化するための信号修正を用いる手法において、長期予測を特徴付ける長期予測遅延パラメータを決定するために、音信号は、一連の連続フレームに分割され、音信号の特徴は、先行フレームにおいて特定され、音信号の対応する特徴は、現行フレームにおいて特定され、また、長期予測遅延パラメータは、現行フレームに対して決定される一方で、長期予測で、現行フレームの対応する信号特徴で先行フレームの信号特徴をマッピングする。音信号をデジタル符号化するための手法に組み込むための信号修正方法において、音信号は一連の連続フレームに分割され、音信号の各フレームは複数の信号セグメントに分割され、フレームの信号セグメントの少なくとも一部は、歪曲される一方で、歪曲された信号セグメントはフレーム内に制約される。音信号においてピッチパルスを検索するために、残差信号は、線形予測分析フィルタを経て音信号をフィルタ処理することによって生成され、信号周期性を示す重み付けされた音信号は、重み付けフィルタを経て音信号を処理することによって生成され、合成され重み付けされた音信号は、重み付けフィルタを経て音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理することによって生成され、先行フレームの音信号の最終ピッチパルスは、残差信号から特定され、所定の長さのピッチパルス原型は、合成され重み付けされた音信号を用いて、先行フレームの音信号の最終ピッチパルス位置周辺において抽出され、ピッチパルスは、ピッチパルス原型を用いて、現行フレームにおいて特定される。

Description

本発明は、一般的に、通信システムにおける音信号の符号化及び復号化に関する。具体的には、本発明は、排他的ではないが、特に符号励振線形予測（ＣＥＬＰ）符号化に適用可能な信号修正手法に関する。

主観的な品質とビットレートとの間のトレードオフが良好な効率的デジタル狭帯域及び広帯域音声コーディング手法に対する需要は、遠隔会議、マルチメディア、及び無線通信等の様々な応用分野でますます大きくなりつつある。最近まで、２００−３４００Ｈｚの範囲に制約された電話帯域幅が、音声コーディング用途に用いられてきた。しかしながら、広帯域音声用途では、従来の電話帯域幅と比較して、通信の了解度と自然さが改善される。範囲５０−７０００Ｈｚの帯域幅は、良好な品質を提供して対面通信の印象を与えるのに充分であることが分かっている。一般的なオーディオ信号の場合、この帯域幅は、許容可能な主観的な品質を与えるが、それぞれ、２０−１６０００Ｈｚ及び２０−２００００Ｈｚの範囲で動作するＦＭ無線やＣＤの品質より依然として低い。

音声エンコーダは、通信チャネル上で送信される又は記憶媒体に記憶されるデジタルビットストリームに音声信号を変換する。音声信号は、デジタル化される。即ち、サンプリングされ、また、通常、サンプル当たり１６ビットで量子化される。音声エンコーダは、良好な主観的な音声品質を維持しつつ、これらのデジタルサンプルをより少ない数のビットで表現する役割を有する。音声デコーダすなわち合成器は、送信又は記憶されたビットストリームを処理し、それを再度音信号に変換する。

符号励振線形予測（ＣＥＬＰ）コーディングは、主観的な品質とビットレートとの間の良好な妥協点を実現するための最適な手法の１つである。このコーディング手法は、無線及び有線の両用途における幾つかの音声コーディング標準の基礎である。ＣＥＬＰコーディングにおいて、サンプリングされた音声信号は、通常”フレーム”と呼ばれるＮサンプルの連続ブロックにおいて処理される。ここで、Ｎは、通常、１０−３０ｍｓに相当する所定の数である。線形予測（ＬＰ）フィルタは、フレーム毎に計算され、また、送信される。通常、ＬＰフィルタの計算には、予測、即ち、後続のフレームから５−１０ｍｓの音声セグメントが必要である。Ｎ−サンプルフレームは、サブフレームと呼ばれるより小さいブロックに分割される。通常、サブフレームの数は、３つ又は４つであり、４−１０ｍｓのサブフレームになる。各サブフレームにおいて、通常、励振信号は、２つの構成要素、即ち、過去の励振及び新規の固定コードブック励振から得られる。過去の励振から形成された構成要素は、適応コードブック又はピッチ励振と呼ばれることが多い。励振信号を特徴付けるパラメータは、符号化され、また、デコーダに送信される、この場合、再構成された励振信号は、ＬＰフィルタの入力として用いられる。

従来のＣＥＬＰコーディングにおいて、過去の励振を現在の励振マッピングするための長期予測は、通常、サブフレームベースで行なわれる。長期予測は、通常、計算され、符号化され、そして、サブフレーム毎にデコーダに送信される遅延パラメータ及びピッチ利得によって特徴付けられる。低ビットレートでは、これらのパラメータは、利用可能なビット経費のかなりの割合を消費する。信号修正手法［１−７］、即ち、
［１］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｐ．Ｋｒｏｏｎ、及びＤ．Ｎａｈｕｍｉ、”ＲＣＥＬＰ音声コーディングアルゴリズム”欧州電気通信会報、Ｖｏｌ．４、Ｎｏ．５、ｐｐ．５７３−５８２、１９９４年；
［２］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｒ．Ｐ．Ｒａｍａｃｈａｎｄｒａｎ、及びＰ．Ｋｒｏｏｎ、”分析合成音声コーダにおいてピッチ予測器パラメータの補間”音声及びオーディオ処理に関するＩＥＥＥ会報、Ｖｏｌ．２、Ｎｏ．１、ｐｐ．４２−５４、１９９４年；
［３］Ｙ．Ｇａｏ、Ａ．Ｂｅｎｙａｓｓｉｎｅ、Ｊ．Ｔｈｙｓｓｅｎ、Ｈ．Ｓｕ、及びＥ．Ｓｈｌｏｍｏｔ、”ＥＸ−ＣＥＬＰ：音声コーディングパラダイム”音響学、音声、及び信号処理（ＩＣＡＳＳＰ）に関するＩＥＥＥ国際会議、米国ユタ州ソルトレーク市、ｐｐ．６８９−６９２、２００１年５月７日−１１日；
［４］米国特許第５，７０４，００３号、”ＲＣＥＬＰコーダ”ＬｕｃｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ社、（Ｗ．Ｂ．Ｋｌｅｉｊｎ及びＤ．Ｎａｈｕｍｉ）、出願日１９９５年９月１９日；
［５］欧州特許出願第０６０２８２６号Ａ２、”分析合成コーディングのための時間シフト処理”ＡＴ＆Ｔ社、（Ｂ．Ｋｌｅｉｎ）、出願日１９９３年１２月１日；
［６］特許出願第ＷＯ００／１１６５３号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｙ．Ｇａｏ）、出願日１９９９年８月２４日；
［７］特許出願第ＷＯ００／１１６５４号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Ｃｏｎｅｘａｎｔシステム社、（Ｈ．Ｓｕ及びＹ．Ｇａｏ）、出願日１９９９年８月２４日；
は、符号化される信号を調整することによって、低ビットレートでの長期予測の性能を改善する。このことは、長期予測遅延に適合するように音声信号のピッチサイクルの展開を適応させることによって行なわれ、フレーム当たり１つだけの遅延パラメータを送信可能にする。信号修正は、修正された音声信号と元の音声信号との間の差異を聞き取れないようにできるという前提条件に基づく。信号修正を利用するＣＥＬＰコーダは、汎用分析合成又は緩和ＣＥＬＰ（ＲＣＥＬＰ）コーダと呼ばれることが多い。

信号修正手法は、信号のピッチを所定の遅延等高線に調整する。次に、長期予測は、この遅延等高線及び利得パラメータによるスケーリングを用いて、過去の励振信号を現行サブフレームにマッピングする。遅延等高線は、２つの開ループピッチ推定値間、即ち、先行フレームにおいて得られる第１番目と現行フレームにおける第２番目との間で補間することによって、簡単明瞭に得られる。補間は、フレームのあらゆる時点の遅延値を与える。遅延等高線が利用可能になった後、現時点で符号化されるサブフレームのピッチは、信号の時間尺度を歪曲、即ち、変更することによって、この人為的な等高線に従うように調整される。

不連続的な歪曲［１、４及び５］、即ち、
［１］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｐ．Ｋｒｏｏｎ、及びＤ．Ｎａｈｕｍｉ、”ＲＣＥＬＰ音声コーディングアルゴリズム”欧州電気通信会報、Ｖｏｌ．４、Ｎｏ．５、ｐｐ．５７３−５８２、１９９４年；
［４］米国特許第５，７０４，００３号、”ＲＣＥＬＰコーダ”ＬｕｃｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ社、（Ｗ．Ｂ．Ｋｌｅｉｊｎ及びＤ．Ｎａｈｕｍｉ）、出願日１９９５年９月１９日；
［５］欧州特許出願第０６０２８２６号Ａ２、”分析合成コーディングのための時間シフト処理”ＡＴ＆Ｔ社、（Ｂ．Ｋｌｅｉｎ）、出願日１９９３年１２月１日；
において、信号セグメントが、セグメント長を変えることなく、時間的にシフトされる。不連続的な歪曲には、結果的に得られる重複又は欠落信号部位を取り扱うための手順が必要である。連続的な歪曲［２、３、６、７］、即ち、
［２］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｒ．Ｐ．Ｒａｍａｃｈａｎｄｒａｎ、及びＰ．Ｋｒｏｏｎ、”分析合成音声コーダにおいてピッチ予測器パラメータの補間”音声及びオーディオ処理に関するＩＥＥＥ会報、Ｖｏｌ．２、Ｎｏ．１、ｐｐ．４２−５４、１９９４年；
［３］Ｙ．Ｇａｏ、Ａ．Ｂｅｎｙａｓｓｉｎｅ、Ｊ．Ｔｈｙｓｓｅｎ、Ｈ．Ｓｕ、及びＥ．Ｓｈｌｏｍｏｔ、”ＥＸ−ＣＥＬＰ：音声コーディングパラダイム”音響学、音声、及び信号処理（ＩＣＡＳＳＰ）に関するＩＥＥＥ国際会議、米国ユタ州ソルトレーク市、ｐｐ．６８９−６９２、２００１年５月７日−１１日；
［６］特許出願第ＷＯ００／１１６５３号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｙ．Ｇａｏ）、出願日１９９９年８月２４日；
［７］特許出願第ＷＯ００／１１６５４号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Ｃｏｎｅｘａｎｔシステム社、（Ｈ．Ｓｕ及びＹ．Ｇａｏ）、出願日１９９９年８月２４日；
は、信号セグメントを収縮又は膨張させる。このことは、信号セグメントに対する時間連続的な近似法であって、遅延等高線に基づき決定された等しくないサンプリング間隔でそれを所望の長さに再サンプリングするための方法を用いて行なわれる。これらの処理においてアーティファクトを低減するために、時間尺度の許容可能な変化は、小さく保たれる。更に、歪曲は、通常、結果的に得られる歪を低減するために、ＬＰ残差信号又は重み付けされた音声信号を用いて行なわれる。また、音声信号の代わりにこれらの信号を用いると、ピッチパルス及びそれらの間における低出力領域の検出、また従って、歪曲のための信号セグメントの決定が容易になる。実際の修正された音声信号は、逆フィルタ処理によって生成される。

信号修正が現行サブフレームに対して行なわれた後、コーディングは、適応コードブック励振が所定の遅延等高線を用いて生成されることを除いて、従来のいずれの方法で進行し得る。本質的に、同じ信号修正手法を狭帯域及び広帯域ＣＥＬＰコーディングの双方において用い得る。

また、信号修正手法は、例えば、［８］、即ち、
［８］米国特許第６，２２３，１５１号、”変換式音声コーダによるコーディングに先立つ音声信号の前処理のための方法及び装置”Ｔｅｌｅｆｏｎ＿Ａｋｔｉｅ＿Ｂｏｌａｇｅｔ＿ＬＭ＿Ｅｒｉｃｓｓｏｎ、（Ｗ．Ｂ．Ｋｌｅｉｊｎ及びＴ．Ｅｒｉｋｓｓｏｎ）、出願日１９９９年２月１０日、に基づき、波形補間コーディング及び正弦波コーディング等、他の種類の音声コーディング方法に適用し得る。

本発明は、音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための方法に関する。本方法には、音信号を一連の連続フレームに分割する段階と、先行フレームにおいて音信号の特徴を特定する段階と、現行フレームにおいて音信号の対応する特徴を特定する段階と、長期予測が、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングするように、現行フレームの長期予測遅延パラメータを決定する段階と、が含まれる。

該発明は、音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための装置に関する。本装置には、一連の連続フレームへの音信号の分割器と、先行フレームにおける音信号の特徴の検出器と、現行フレームにおける音信号の対応する特徴の検出器と、現行フレームの長期予測遅延パラメータの計算器であって、長期予測遅延パラメータの計算は、長期予測が、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングするように行なわれる前記計算器と、が含まれる。

本発明によれば、音信号をデジタル符号化するための手法へ組み込むための信号修正方法が提供される。本方法には、音信号を一連の連続フレームに分割する段階と、音信号の各フレームを複数の信号セグメントに分割する段階と、フレームの信号セグメントの少なくとも一部を歪曲する段階であって、歪曲された信号セグメントをフレーム内に制約する段階を含む前記歪曲する段階と、が含まれる。

本発明に基づき、音信号をデジタル符号化するための手法へ組み込むための信号修正装置が提供される。本装置には、一連の連続フレームへの音信号の第１分割器と、複数の信号セグメントへの音信号の各フレームの第２分割器と、フレームの信号セグメントの少なくとも一部が供給される信号セグメント歪曲要素であって、フレーム内に歪曲された信号セグメントの制約器を含む前記歪曲要素と、が含まれる。

また、本発明は、音信号においてピッチパルスを検索するための方法に関する。本方法には、音信号を一連の連続フレームに分割する段階と、各フレームを多数のサブフレームに分割する段階と、線形予測分析フィルタを経て音信号をフィルタ処理することによって、残差信号を生成する段階と、残差信号から先行フレームの音信号の最終ピッチパルスを特定する段階と、残差信号を用いて、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型を抽出する段階と、ピッチパルス原型を用いて、現行フレームにおいてピッチパルスを特定する段階と、が含まれる。

また、本発明は、音信号においてピッチパルスを検索するための装置に関する。本装置には、一連の連続フレームへの音信号の分割器と、多数のサブフレームへの各フレームの分割器と、音信号をフィルタ処理し、これによって残差信号を生成するための線形予測分析フィルタと、残差信号に応答した、先行フレームにおける音信号の最終ピッチパルスの検出器と、残差信号に応答した、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型の抽出器と、ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、が含まれる。

本発明によれば、音信号においてピッチパルスを検索するための方法が提供される。本方法には、音信号を一連の連続フレームに分割する段階と、各フレームを多数のサブフレームに分割する段階と、重み付けフィルタを経て音信号を処理することによって、重み付けされた音信号を生成する段階であって、重み付けされた音信号は、信号周期性を示す前記段階と、重み付けされた音信号から先行フレームの音信号の最終ピッチパルスを特定する段階と、重み付けされた音信号を用いて、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型を抽出する段階と、ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、が含まれる。

また、本発明に基づき、音信号においてピッチパルスを検索するための装置が提供される。本装置には、一連の連続フレームへの音信号の分割器と、多数のサブフレームへの各フレームの分割器と、音信号を処理して、信号周期性を示す重み付けされた音信号を生成するための重み付けフィルタと、重み付けされた音信号に応答した、先行フレームにおける音信号の最終ピッチパルスの検出器と、重み付けされた音信号に応答した、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型の抽出器と、ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、が含まれる。

更に、本発明は、音信号においてピッチパルスを検索するための方法に関する。本方法には、音信号を一連の連続フレームに分割する段階と、各フレームを多数のサブフレームに分割する段階と、重み付けフィルタを経て音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理することによって、合成され重み付けされた音信号を生成する段階と、合成され重み付けされた音信号から先行フレームの音信号の最終ピッチパルスを特定する段階と、合成され重み付けされた音信号を用いて、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型を抽出する段階と、ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、が含まれる。

本発明は、更に、音信号においてピッチパルスを検索するための装置に関する。本装置には、一連の連続フレームへの音信号の分割器と、多数のサブフレームへの各フレームの分割器と、音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理し、これによって、合成され重み付けされた音信号を生成するための重み付けフィルタと、合成され重み付けされた音信号に応答した、先行フレームにおける音信号の最終ピッチパルスの検出器と、合成され重み付けされた音信号に応答した、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型の抽出器と、ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、が含まれる。

更に、本発明によれば、連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された音信号の復号化時、適応コードブック励振を形成するための方法が提供される。本方法には、各フレームに対して、デジタル音信号符号化手法において長期予測を特徴付ける長期予測遅延パラメータを受信する段階と、現行フレーム時受信された長期予測遅延パラメータ及び先行フレーム時受信された長期予測遅延パラメータを用いて、遅延等高線を回復する段階であって、遅延等高線は、長期予測で、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングする前記段階と、遅延等高線に応答して、適応コードブックにおいて適応コードブック励振を形成する段階と、が含まれる。

更に、本発明に基づき、連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された音信号の復号化時、適応コードブック励振を形成するための装置が提供される。本装置には、各フレームの長期予測遅延パラメータの受信器であって、長期予測遅延パラメータは、デジタル音信号符号化手法における長期予測を特徴付ける前記受信器と、現行フレーム時受信された長期予測遅延パラメータ及び先行フレーム時受信された長期予測遅延パラメータに応答した、遅延等高線の計算器であって、遅延等高線は、長期予測で、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングする前記計算器と、遅延等高線に応答して適応コードブック励振を形成するための適応コードブックと、が含まれる。

本発明の前述の及び他の目的、利点及び特徴は、添付の図面を参照して、一例としてのみ与えられた以下に示すその実施形態例についての非限定的説明を解釈すると更に明らかになる。

本発明の実施形態例について、音声信号及び３ＧＰＰＡＭＲ広帯域音声コーデックＡＭＲ−ＷＢ標準（ＩＴＵ−ＴＧ．７２２．２）に関連して説明するが、本発明の概念は、他の種類の音信号及び他の音声並びにオーディオコーダに適用し得ることに留意されたい。

図１は、１フレーム内における修正された残差信号１２の例を示す。図１に示すように、修正された残差信号１２の時間シフトは、この修正された残差信号が、時点ｔ_ｎ−１及びｔ_ｎにおいて発生するフレーム境界において、元の非修正残差信号１１と時間同期するように制約される。ここで、ｎは、現フレームの添え字を指す。

具体的には、時間シフトは、現行フレーム上で遅延パラメータを補間するために用いられる遅延等高線で暗黙的に制御される。遅延パラメータ及び等高線は、時間整合が上述したフレーム境界に制約されることを考慮して決定される。線形補間を用いて時間整合を強制的に行なう場合、結果的に得られる遅延パラメータは、幾つかのフレーム上で振動する傾向がある。このことは、人為的に振動する遅延等高線に従うピッチを有する修正された信号に煩わしいアーティファクトをもたらすことが多い。遅延パラメータのための適切に選択された非線形補間手法を用いると、これらの振動は実質的に低減される。

本発明による信号修正方法の実施形態例の機能ブロック図を図２に提示する。

本方法は、”ピッチサイクル検索”ブロック１０１において、個々のピッチパルス及びピッチサイクルを特定することによって始まる。ブロック１０１の検索は、フレーム上で補間された開ループピッチ推定値を利用する。特定されたピッチパルスに基づき、フレームは、ピッチサイクルセグメントに分割され、各ピッチサイクルセグメントは、１つのピッチパルスを含み、また、フレーム境界ｔ_ｎ−１及びｔ_ｎ内に制約される。

”遅延曲線選択”ブロック１０３の機能は、長期予測器のための遅延パラメータを決定することであり、また、この遅延パラメータをフレーム上で補間するための遅延等高線を形成することである。遅延パラメータ及び等高線は、時間同時性が、フレーム境界ｔ_ｎ−ｌ及びｔ_ｎに制約されることを考慮して、決定される。ブロック１０３で決定された遅延パラメータは、現行フレームに対して信号修正が可能である場合、符号化されデコーダに送信される。

実際の信号修正手順は、”ピッチ同期信号修正”ブロック１０５において実施される。ブロック１０５は、最初に、ブロック１０３において決定された遅延等高線に基づき目標信号を形成して、引き続き個々のピッチサイクルセグメントをこの目標信号に整合させる。次に、ピッチサイクルセグメントは、この目標信号とのそれらの相関関係を最大にするために、１つずつシフトされる。この複雑さのレベルを低く維持するために、最適なシフトを検索する間及びセグメントをシフトする間、連続的な時間歪曲は適用されない。

本明細書に開示した信号修正方法の実施形態例は、通常、純粋な発声音声フレーム上でのみ可能である。例えば、発声開始等の移行フレームは、アーティファクトを引き起こす危険性が高いため、修正されない。純粋な発声フレームにおいて、ピッチサイクルは、通常、相対的にゆっくりと変化し、また、従って、信号を長期予測モデルに適応させるには、小さいシフトで充分である。慎重に小さな信号調整だけを行なうことから、アーティファクトを引き起こす確率は、最小限に抑えられる。

信号修正方法は、純粋な発声セグメント用の効率的な分類器と、以って音声信号の供給源制御式コーディングに用いられるレート決定メカニズムとを定める。図２のブロック１０１、１０３及び１０５毎に、信号周期性、及び現行フレームにおける信号修正の適性に関する幾つかの指標が提供される。これらの指標は、現行フレームの適切なコーディングモード及びビットレートを決定するために、論理ブロック１０２、１０４及び１０６において、分析される。具体的には、これらの論理ブロック１０２、１０４及び１０６は、ブロック１０１、１０３、及び１０５で実施される処理の達成状況をモニタする。

ブロック１０２が、ブロック１０１で行なわれた処理が成功であることを検出した場合、信号修正方法は、ブロック１０３に進む。このブロック１０２が、ブロック１０１において行なわれた処理が失敗に終わったことを検出した場合、信号修正手順は、終了され、元の音声フレームは、そのまま保持されコーディングされる（ノーマルモードに対応するブロック１０８を参照のこと（信号修正無し））。

ブロック１０４が、ブロック１０３で行なわれた処理が成功であることを検出した場合、信号修正方法は、ブロック１０５に進む。逆に、このブロック１０４が、ブロック１０３において行なわれた処理が失敗に終わったことを検出した場合、信号修正手順は終了され、元の音声フレームは、そのまま保持されコーディングされる（ノーマルモードに対応するブロック１０８を参照のこと（信号修正無し））。

ブロック１０６が、ブロック１０５で行なわれた処理が成功であることを検出した場合、信号修正での低ビットレートモードが用いられる（ブロック１０７を参照のこと）。逆に、このブロック１０６が、ブロック１０５で行なわれた処理が失敗に終わったことを検出した場合、信号修正手順は、終了され、元の音声フレームは、そのまま保持されコーディングされる（ノーマルモードに対応するブロック１０８を参照のこと（信号修正無し））。ブロック１０１−１０８の処理については、本明細書において詳細に後述する。

図３は、音声エンコーダ及びデコーダの使用方法を示す音声通信システムの説明例を示す概略ブロック図である。図３の音声通信システムは、通信チャネル２０５を介した音声信号の伝送及び再生をサポートする。これには、例えば、有線、光リンク、又はファイバリンクが含まれるが、通信チャネル２０５には、通常、少なくとも部分的に無線周波数リンクが含まれる。無線周波数リンクは、多重同時音声通信をサポートすることが多く、携帯電話に存在し得るような帯域幅資源の共有が必要である。図示しないが、通信チャネル２０５は、後で再生される符号化音声信号を記録し記憶する記憶装置で置き換え得る。

送信機側では、マイク２０１が、アナログデジタル（Ａ／Ｄ）変換器２０２に供給されるアナログ音声信号２１０を生成する。Ａ／Ｄ変換器２０２の機能は、アナログ音声信号２１０をデジタル音声信号２１１に変換することである。音声エンコーダ２０３は、デジタル音声信号２１１を符号化して、一組のコーディングパラメータ２１２を生成し、コーディングパラメータ２１２は、二進数に符号化され、チャネルエンコーダ２０４に出力される。チャネルエンコーダ２０４は、コーディングパラメータの二進数表現に冗長度を加えた後、通信チャネル２０５を介して、それらをビットストリーム２１３に送信する。

受信機側では、チャネルデコーダ２０６には、受信されたビットストリーム２１４からコーディングパラメータの上述した冗長二進数表現が供給され、伝送において生じたチャネル誤差が検出され、また、補正される。音声デコーダ２０７は、チャネルデコーダ２０６からのチャネル誤差補正されたビットストリーム２１５を一組のコーディングパラメータに再度変換して、合成デジタル音声信号２１６を生成する。音声デコーダ２０７によって再構成された合成音声信号２１６は、デジタルアナログ（Ｄ／Ａ）変換器２０８を経てアナログ音声信号２１７に変換され、スピーカユニット２０９を経て再生される。

図４は、信号修正機能を内蔵した音声エンコーダ２０３（図３）の実施形態例によって行なわれる処理を示す概略ブロック図である。本明細書は、図４のブロック６０３におけるこの信号修正機能の新規な実施例を提示する。音声エンコーダ２０３によって行なわれる他の処理は、当業者には公知であり、また、例えば、刊行物［１０］、
即ち、
［１０］３ＧＰＰＴＳ２６．１９０、”ＡＭＲ広帯域音声コーデック：トランスコディング機能、”３ＧＰＰ技術明細書、
に記載されている。これは、本明細書中に引用参照する。特に記載しない場合、本発明の説明用実施形態及び例における音声符号化及び復号化処理の実施例は、ＡＭＲ広帯域音声コーデック（ＡＭＲ−ＷＢ）標準に準拠する。

図４に示す音声エンコーダ２０３は、１つ又は複数のコーディングモードを用いて、デジタル音声信号を符号化する。これらのモードの１つにおいて、複数のコーディングモードが用いられ、また、信号修正機能が不可能になった場合、この特定のモードは、当業者には公知の充分に確立された標準に基づき動作する。

図４には示さないが、音声信号は、１６ｋＨｚのレートでサンプリングされ、各音声信号サンプルがデジタル化される。デジタル音声信号は、次に、所定の長さの連続フレームに分割され、これらの各フレームは、所定数の連続サブフレームに分割される。デジタル音声信号は、更に、ＡＭＲ−ＷＢ標準によって教示される前処理を受ける。この前処理には、高域通過フィルタ処理、フィルタＰ（ｚ）＝１−０．６８ｚ^−１を用いるプリエンファシスフィルタ処理、及び１６ｋＨｚから１２．８ｋＨｚまでのサンプリングレートのダウンサンプリングが含まれる。図４の後続処理は、入力音声信号ｓ（ｔ）が、前処理され、また、１２．８ｋＨｚのサンプリングレートまでダウンサンプリングされたと仮定する。

音声エンコーダ２０３には、前処理済み入力デジタル音声信号ｓ（ｔ）６１７に応答して、ＬＰフィルタ１／Ａ（ｚ）のパラメータａ_０、ａ_１、ａ_２、．．．、ａ_ｎＡを計算し量子化するＬＰ（線形予測）分析・量子化モジュール６０１が含まれるが、ここで、ｎＡは、フィルタの次数であり、Ａ（ｚ）＝ａ_０＋ａ_１ｚ^−１＋ａ_２ｚ^−２＋．．．＋ａ_ｎＡｚ^−ｎＡである。これらの量子化されたＬＰフィルタパラメータの二進数表現６１６は、マルチプレクサ６１４に供給され、引き続きビットストリーム６１５に多重化される。量子化されなかった及び量子化されたＬＰフィルタパラメータは、補間され、対応するＬＰフィルタパラメータがサブフレーム毎に得られる。

音声エンコーダ２０３には、更に、ＬＰ分析・量子化モジュール６０１からのＬＰフィルタパラメータ６１８に応答して、現行フレーム用の開ループピッチ推定値６１９を計算するためのピッチ推定器６０２が含まれる。これらの開ループピッチ推定値６１９は、フレーム上で補間され、信号修正モジュール６０３において用いられる。

ＬＰ分析・量子化モジュール６０１及びピッチ推定器６０２において行なわれる処理は、上述したＡＭＲ−ＷＢ標準に準拠して実現し得る。

図４の信号修正モジュール６０３は、適応コードブック励振信号の閉ループピッチ検索に先立ち信号修正処理を行なって、決定された遅延等高線ｄ（ｔ）に音声信号を調整する。実施形態例おいて、遅延等高線ｄ（ｔ）は、フレームのサンプル毎に長期予測遅延を定義する。構造上、遅延等高線は、フレーム境界における遅延等高線の値に等しい遅延パラメータ６２０ｄ_ｎ＝ｄ（ｔ_ｎ）及びその先行値ｄ_ｎ−１＝ｄ（ｔ_ｎ−１）によって、フレームｔ∈（ｔ_ｎ−１、ｔ_ｎ）上で完全に特徴付けられる。遅延パラメータ６２０は、信号修正処理の一部として決定され、符号化され、そして、マルチプレクサ６１４に供給され、ここで、ビットストリーム６１５に多重化される。

フレームのサンプル毎に長期予測遅延パラメータを定義する遅延等高線ｄ（ｔ）は、適応コードブック６０７に供給される。適応コードブック６０７は、遅延等高線ｄ（ｔ）に応答して、遅延等高線ｄ（ｔ）を用いて、励振ｕ（ｔ）から現行サブフレームの適応コードブック励振ｕ_ｂ（ｔ）をｕ_ｂ（ｔ）＝ｕ（ｔ−ｄ（ｔ））として形成する。従って、遅延等高線は、励振信号ｕ（ｔ−ｄ（ｔ））の過去のサンプルを適応コードブック励振ｕ_ｂ（ｔ）の現在のサンプルにマッピングする。

また、信号修正手順は、固定コードブック励振ｕ_ｃ（ｔ）の閉ループ検索用の修正された目標信号６２１を構成するために用いられる修正された残差信号

を生成する。修正された残差信号

は、ＬＰ残差信号のピッチサイクルセグメントを歪曲することによって信号修正モジュール６０３において得られ、そして、モジュール６０４における修正された目標信号の計算に合わせて供給される。次に、フィルタ１／Ａ（ｚ）による修正された残差信号のＬＰ合成フィルタ処理により、モジュール６０４において、修正された音声信号が生成される。固定コードブック励振検索の修正された目標信号６２１は、ＡＭＲ−ＷＢ標準の処理に基づき、モジュール６０４において形成されるが、元の音声信号は、その修正されたバージョンで置き換えられる。

適応コードブック励振ｕ_ｂ（ｔ）及び修正された目標信号６２１が現行サブフレーム用に得られた後、符号化は、更に、従来の手段を用いて、進行し得る。

閉ループ固定コードブック励振検索の機能は、現行サブフレームのための固定コードブック励振信号ｕ_ｃ（ｔ）を決定することである。閉ループ固定コードブック検索の処理を概略的に示すと、固定コードブック励振ｕ_ｃ（ｔ）は、増幅器６１０を経て利得調整される。同様に、適応コードブック励振ｕ_ｂ（ｔ）は、増幅器６０９を経て利得調整される。利得調整された適応及び固定コードブック励振ｕ_ｂ（ｔ）及びｕ_ｃ（ｔ）は、加算器６１１を経て共に加算され、総合励振信号ｕ（ｔ）を形成する。この総合励振信号ｕ（ｔ）は、ＬＰ合成フィルタ１／Ａ（ｚ）６１２を経て処理され、合成音声信号６２５を生成し、合成音声信号６２５は、加算器６０５を経て修正された目標信号６２１から減算され、誤差信号６２６を生成する。誤差重み付け・最小化モジュール６０６は、誤差信号６２６に応答して、従来の方法により、サブフレーム毎に増幅器６０９及び６１０用の利得パラメータを計算する。誤差重み付け・最小化モジュール６０６は、更に、従来の方法に基づき、また、誤差信号６２６に応答して、固定コードブック６０８への入力６２７を計算する。量子化された利得パラメータ６２２及び６２３、並びに固定コードブック励振信号ｕ_ｃ（ｔ）を特徴付けるパラメータ６２４は、マルチプレクサ６１４に供給され、ビットストリーム６１５に多重化される。上述の手順は、信号修正が可能又は不可能な場合の双方において、同様に行なわれる。

信号修正機能が不可能であれば、適応励振コードブック６０７は、従来の方法によって動作することに留意されたい。この場合、別の遅延パラメータが、適応コードブック６０７のサブフレーム毎に検索され、開ループピッチ推定値６１９が改善される。これらの遅延パラメータは、符号化され、マルチプレクサ６１４に供給され、そして、ビットストリーム６１５に多重化される。更に、固定コードブックのための検索目標信号６２１は、従来の方法に基づき、形成される。

図１３に示す音声デコーダは、信号修正が可能な場合を除いて、従来の方法により動作する。信号修正が不可能及び可能な処理は、適応コードブック励振信号ｕ_ｂ（ｔ）が形成される方法においてのみ本質的に異なる。両処理モードにおいて、デコーダは、受信されたパラメータをそれらの二進数表現から復号する。通常、受信されたパラメータは、励振、利得、遅延、及びＬＰパラメータを含む。復号化された励振パラメータは、モジュール７０１に用いられ、サブフレーム毎に固定コードブック励振信号ｕ_ｃ（ｔ）を形成する。この信号は、増幅器７０２を経て加算器７０３に供給される。同様に、現行サブフレームの適応コードブック励振信号ｕ_ｂ（ｔ）は、増幅器７０４を経て加算器７０３に供給される。加算器７０３において、利得調整された適応及び固定コードブック励振信号ｕ_ｂ（ｔ）及びｕ_ｃ（ｔ）は、共に加算されて、現行サブフレーム用の総合励振信号ｕ（ｔ）を形成する。この励振信号ｕ（ｔ）は、現行サブフレームに対してモジュール７０７において補間されたＬＰパラメータを用いるＬＰ合成フィルタ１／Ａ（ｚ）７０８を経て処理され、合成音声信号ｓ＾（ｔ）を生成する。

信号修正が可能な場合、音声デコーダは、受信された遅延パラメータ、及びエンコーダにおけるその先行受信値ｄ_ｎ−１を用いて、モジュール７０５において遅延等高線ｄ（ｔ）を回復する。この遅延等高線ｄ（ｔ）は、現行フレームのあらゆる時点の長期予測遅延パラメータを定義する。適応コードブック励振Ｕ_ｂ（ｔ）＝ｕ（ｔ−ｄ（ｔ）は、遅延等高線ｄ（ｔ）を用いて、エンコーダにおける現行サブフレームに対する過去の励振から形成される。

残りの説明は、信号修正手順６０３、及びモード決定メカニズムの一部としてのその使用方法の詳細な作用を開示する。

ピッチパルス及びピッチサイクルセグメントの検索

本信号修正方法は、ピッチ及びフレームを同期処理して、各検出されたピッチサイクルセグメントを個々にシフトするが、そのシフトをフレーム境界に制約する。これには、現行フレームに対してピッチパルス及び対応するピッチサイクルセグメントを特定するための手段が必要である。信号修正方法の実施形態例において、ピッチサイクルセグメントは、図５に従って検索される検出済みピッチパルスに基づき決定される。

ピッチパルス検索は、残差信号ｒ（ｔ）、重み付けされた音声信号ｗ（ｔ）及び／又は重み付けされた合成音声信号

に作用し得る。残差信号ｒ（ｔ）は、サブフレームの補間された音声信号ｓ（ｔ）をＬＰフィルタＡ（ｚ）でフィルタ処理することによって得られる。実施形態例において、ＬＰフィルタＡ（ｚ）の次数は、１６である。重み付けされた音声信号ｗ（ｔ）は、重み付けフィルタを経て音声信号ｓ（ｔ）を処理することによって得られる。

ここで、係数γ_１＝０．９２であり、また、γ_２＝０．６８である。式（１）によって定義された重み付けフィルタが、音声信号ｓ（ｔ）における形成音構造を減衰し、また、正弦波信号セグメントに関して周期性も保持することから、重み付けされた音声信号ｗ（ｔ）は、開ループピッチ推定（モジュール６０２）に利用されることが多い。これによって、可能な信号周期性が、重み付けされた信号においてはっきりと識別できるため、ピッチパルス検索が容易になる。現行フレームの最終ピッチパルスを検索するために、重み付けされた音声信号ｗ（ｔ）は、予測のためにも必要とされることに留意されたい。このことは、現行フレームの最終サブフレームにおいて予測部位上に形成された式（１）の重み付けフィルタを用いることによって行ない得る。

図５のピッチパルス検索手順は、ブロック３０１において、残差信号ｒ（ｔ）から先行フレームの最終ピッチパルスを特定することによって始まる。通常、ピッチパルスは、約ｐ（ｔ_ｎ−１）の長さを有するピッチサイクルにおける低域通過フィルタ処理済み残差信号の最大絶対値としてはっきりと際立っている。長さ５のサンプルを有する正規化されたハミングウィンドウＨ_５（ｚ）＝（０．０８ｚ^−２＋０．５４ｚ^−１＋１＋０．５４ｚ＋０．０８ｚ^２）／２．２４が、先行フレームの最終ピッチパルスの特定を容易にするために、低域通過フィルタ処理に用いられる。このピッチパルス位置は、Ｔ_０によって示される。本発明による信号修正方法の実施形態例は、このピッチパルスに対する正確な位置を必要としないが、むしろピッチサイクルにおける高エネルギセグメントの大まかな位置推定値を必要とする。

先行フレームにおいてＴ_０での最終ピッチパルスを特定した後、長さ２／＋１サンプルのピッチパルス原型は、例えば、以下の式によるこの大まかな位置推定値周辺において、図５のブロック３０２において抽出される。

このピッチパルス原型は、現行フレームでのピッチパルスの特定に引き続き用いられる。

合成され重み付けされた音声信号

（又は重み付けされた音声信号ｗ（ｔ））は、残差信号ｒ（ｔ）の代わりにパルス原型に用い得る。これによって、ピッチパルス検索が容易になるが、これは、信号の周期的な構造が、重み付けされた音声信号において、より良く保持されるためである。合成され重み付けされた音声信号

は、式（１）の重み付けフィルタＷ（ｚ）による先行フレームの最終サブフレームの合成音声信号

をフィルタ処理することによって得られる。ピッチパルス原型が、先行して合成されたフレームの終端上を延在する場合、現行フレームの重み付けされた音声信号ｗ（ｔ）は、この超過部位に用いられる。先行合成音声フレームが、既に充分に展開されたピッチサイクルを含む場合、ピッチパルス原型は、重み付けされた音声信号ｗ（ｔ）のピッチパルスと高い相関関係を有する。従って、原型抽出に合成音声を用いると、以下の説明において更に詳細に説明するように、現行フレームにおいてコーディングの性能をモニタするための、また、適切なコーディングモードを選択するための追加情報が提供される。

ｌ＝１０サンプルを選択すると、ピッチパルス検索において、複雑さと性能との間で良好な妥協点が提供される。ｌの値は、開ループピッチ推定値に比例して決定し得る。

先行フレームの最終パルス位置Ｔ_０が与えられた場合、現行フレームの第１ピッチパルスは、ほぼ時点Ｔ_０＋ｐ（Ｔ_０）で発生すると予測し得る。ここで、ｐ（ｔ）は、時点（位置）ｔでの補間された開ループピッチ推定値を示す。この予測は、ブロック３０３において行なわれる。

ブロック３０５において、予測されたピッチパルス位置Ｔ_０＋ｐ（Ｔ_０）は、次のように改善される。

この場合、予測された位置近傍の重み付けされた音声信号ｗ（ｔ）は、次のようにパルス原型と互いに関連付けられる。

従って、この改善は、パルス原型と、上述した残差信号、重み付けされた音声信号又は重み付けされた合成音声信号の内の１つとの間における重み付けされた相関関係Ｃ（ｊ）を最大にする（［−ｊｍａｘ，ｊｍａｘ］に制限された）引数ｊである。説明例によれば、限界ｊｍａｘは、ｍｉｎ｛２０，＜ｐ（０）／４＞｝として、開ループピッチ推定値に比例するが、この場合、演算子＜・＞は、最も近い整数への丸め処理を示す。式（４）における重み付け関数

は、開ループピッチ推定値を用いて予測されたパルス位置に有利である。これは、γ（ｊ）が、ｊ＝０でその最大値１に達するためである。式（５）における分母ｐ（Ｔ_０＋ｐ（Ｔ_０）は、予測されたピッチパルス位置に対する開ループピッチ推定値である。

第１ピッチパルス位置Ｔ_１が、式（３）を用いて求められた後、次のピッチパルスは、時点Ｔ_２＝Ｔ_１＋ｐ（Ｔ_１）にあると予測でき、そして、上述したように改善し得る。予測３０３及び改善３０５が含まれるこのピッチパルス検索は、予測又は改善手順のいずれか一方が、現行フレーム外にピッチパルス位置を生成するまで繰返される。これらの条件は、論理ブロック３０４において、次のピッチパルス位置の予測（ブロック３０３）について、また、論理ブロック３０６において、ピッチパルスのこの位置の改善（ブロック３０５）について、チェックされる。論理ブロック３０４が検索を終了するのは、予測されたパルス位置が、後続のフレームにおいて、改善ステップがそれを現行フレームに戻せないほど遠い場合のみであることに留意されたい。この手順により、Ｔ_１，Ｔ_２，．．．，Ｔ_ｃによって示されるｃ個のピッチパルス位置が、現行フレーム内に生成される。

説明例によれば、ピッチパルスは、Ｔ_ｃによって示したフレームの最終ピッチパルスを除いて、整数解像度で特定される。２連続フレームの最終パルス間の厳密な距離が、送信される遅延パラメータを決定するために必要なことから、最終パルスは、ｊについての式（４）における１／４サンプルの少数解像度を用いて特定される。この少数解像度は、式（４）の相関関係を評価する前に、最終の予測ピッチパルス近傍においてｗ（ｔ）をアップサンプリングすることによって得られる。説明例によれば、長さ３３のハミング−ウィンドウ化同期補間がアップサンプリングに用いられる。最終ピッチパルス位置の少数解像度は、時間同時性の制約がフレーム終端に設定されているにも関わらず、長期予測の良好な性能を維持するのに役立つ。このことは、高い精度で遅延パラメータを送信するために必要な追加ビットレートのコストで得られる。

現行フレームにおいてピッチサイクルセグメンテーションを完了した後、各セグメントに対する最適なシフトが決定される。この処理は、以下の記述で説明する重み付けされた音声信号ｗ（ｔ）を用いて行なわれる。歪曲に起因する歪を低減する場合、個々のピッチサイクルセグメントのシフトは、ＬＰ残差信号ｒ（ｔ）を用いて実現される。シフトを行なうと、特にセグメント境界周辺の信号が歪むことから、残差信号ｒ（ｔ）の低パワー部位に境界を配置することが、不可欠である。説明例において、セグメント境界は、２つの連続するピッチパルスのほぼ中央に配置されるが、現行フレーム内に制約される。セグメント境界は、各セグメントが厳密に１つのピッチパルスを含むように、常に現行フレーム内で選択される。ピッチパルスが１つを越えるセグメント又はピッチパルスが全く無い”空”セグメントは、後続の相関関係に基づく目標信号との整合を阻害するため、ピッチサイクルセグメンテーションでは防止すべきである。ｌｓサンプルのｓ番目の抽出されたセグメントは、ｋ＝０，１，．．．，ｌ_ｓ−１に対して、ｗ_ｓ（ｋ）として示される。このセグメントの開始時点は、ｗ_ｓ（０）＝ｗ（ｔ_ｓ）であるように選択されたｔｓである。現在のフレームにおけるセグメントの数は、ｃによって示される。

現行フレーム内の２つの連続ピッチパルスＴｓ及びＴｓ＋１間のセグメント境界を選択する間、次の手順が用いられる。最初に、２つのパルス間の中央時点が、Λ＝＜（Ｔ_ｓ＋Ｔ_ｓ＋１）／２＞として計算される。セグメント境界の候補位置は、領域［Λ−εｍａｘ，Λ＋εｍａｘ］に配置されるが、この場合、εｍａｘは、５個のサンプルに対応する。各候補境界位置のエネルギは、以下の様に計算される。

最小エネルギを与える位置が選択されるが、このことは、この選択が、通常、修正された音声信号における最小歪になるという理由による。式（６）を最小限に抑える時点は、εとして示す。新セグメントの開始時点は、ｔ_ｓ＝Λ＋εとして選択される。先行セグメントが時点Λ＋ε−１で終端することから、これによって、先行セグメントの長さも定義される。

図６は、ピッチサイクルセグメンテーションの説明例を示す。特に、最初及び最終セグメントＷ_１（ｋ）及びｗ_４（ｋ）が、それぞれ空セグメントが生じないように、また、フレーム境界を越えないように、抽出されていることに留意されたい。

遅延パラメータの決定

一般的に、信号修正の主な利点は、フレーム当たり遅延パラメータを１つだけ符号化してデコーダ（図示せず）に送信しなければならないことである。しかしながら、この単一のパラメータの決定には、特に、注意しなければならない。遅延パラメータは、その先行値と共に、フレーム上でのピッチサイクル長の展開を定義するのみならず、結果的に得られる修正された信号の時間非同時性に影響を及ぼす。

［１、４−７］に記載する、即ち、
［１］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｐ．Ｋｒｏｏｎ、及びＤ．Ｎａｈｕｍｉ、”ＲＣＥＬＰ音声コーディングアルゴリズム”欧州電気通信会報、Ｖｏｌ．４、Ｎｏ．５、ｐｐ．５７３−５８２、１９９４年；
［４］米国特許第５，７０４，００３号、”ＲＣＥＬＰコーダ”ＬｕｃｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ社、（Ｗ．Ｂ．Ｋｌｅｉｊｎ及びＤ．Ｎａｈｕｍｉ）、出願日１９９５年９月１９日；
［５］欧州特許出願第０６０２８２６号Ａ２、”分析合成コーディングのための時間シフト処理”ＡＴ＆Ｔ社、（Ｂ．Ｋｌｅｉｎ）、出願日１９９３年１２月１日；
［６］特許出願第ＷＯ００／１１６５３号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｙ．Ｇａｏ）、出願日１９９９年８月２４日；
［７］特許出願第ＷＯ００／１１６５４号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Ｃｏｎｅｘａｎｔシステム社、（Ｈ．Ｓｕ及びＹ．Ｇａｏ）、出願日１９９９年８月２４日；
に記載する方法において、時間同時性は、フレーム境界では必要なく、また、従って、送信される遅延パラメータは、開ループピッチ推定値を用いて、簡単明瞭に決定し得る。このように選択すると、通常、フレーム境界において時間の非同時性が生じ、また、信号の連続性が保持されなければならないため、後続のフレームにおいて時間シフトが蓄積することにつながる。人間の聴覚は、合成音声信号の時間尺度での変化に対する感受性はないが、時間非同時性が大きくなると、エンコーダの実行が複雑になる。実際、長信号バッファは、拡張された時間尺度の信号を収容する必要があり、また、符号化時、蓄積されたシフトを制限するための制御論理を実装しなければならない。また、ＲＣＥＬＰコーディングに特有な幾つかのサンプルの時間非同時性は、ＬＰパラメータと修正された残差信号との間の不整合をもたらすことがある。この不整合は、修正された残差信号のＬＰフィルタ処理によって合成される修正音声信号の知覚アーティファクトに至ることがある。

逆に、本発明による信号修正方法の実施形態例は、フレーム境界における時間同時性を保持する。従って、厳密に制約されたシフトがフレーム終端において発生し、また、全ての新フレームが、元の音声フレームと完璧に時間整合して始まる。

フレーム終端において時間同時性を保証する場合、遅延等高線ｄ（ｔ）は、長期予測で、先行合成音声フレームの終端における最終ピッチパルスを現行フレームのピッチパルスにマッピングする。遅延等高線は、時点ｔ_ｎ−１＋１からｔ_ｎまでの全てのサンプルに対して、現行のｎ番目のフレーム上で補間長期予測遅延パラメータを定義する。フレーム終端の遅延パラメータｄ_ｎ＝ｄ（ｔ_ｎ）だけが、デコーダに送信され、ｄ（ｔ）は、送信された値によって完全に規定された形式を有さなければならないことが暗に示される。長期予測遅延パラメータは、結果的に得られる遅延等高線が、パルスマッピングを達成するように選択されなければならない。数学的形式では、このマッピングは、次の様に提示し得る。即ち、κ_ｃを暫定時間変数とし、Ｔ_０及びＴ_ｃをそれぞれ先行及び現行フレームにおける最終ピッチパルス位置とすると、遅延パラメータｄ_ｎは、表１に提示された擬似符号化を実行した後、変数κ_ｃが、Ｔ_０に極めて近い値を有して、誤差｜κ_ｃ−Ｔ_０｜を最小化するように選択されなければならない。擬似符号は、値κ_ｃ＝Ｔ_ｃから始まり、κ_ｊ＝κ_ｊ−１−ｄ（κ_ｊ−１）を更新することによって、ｃ回後方反復を行なう。次に、κ_ｃがＴ_０に等しい場合、フレーム終端での時間非同時性が無い状態において最大効率で長期予測を利用し得る。

表１．最適遅延パラメータを検索するためのループ

図７は、ｃ＝３の場合における遅延選択ループの処理の例を示す。ループは、値κ_０＝Ｔ_ｃから始まり、κ_１＝κ_０−ｄ（κ_０）として、最初の後方反復を行なう。反復は、２回継続され、更に、κ_２＝κ_１−ｄ（κ_１）及びκ_３＝κ_２−ｄ（κ_２）となる。そして、最終値κ_３は、誤差ｅｎ＝｜κ_３−Ｔ_０｜に関してＴ_０と比較される。結果的に得られる誤差は、本明細書において後述する遅延選択アルゴリズムにおいて調整される遅延等高線の関数である。

信号修正方法［１、４、６、７］、即ち、
［１］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｐ．Ｋｒｏｏｎ、及びＤ．Ｎａｈｕｍｉ、”ＲＣＥＬＰ音声コーディングアルゴリズム”欧州電気通信会報、Ｖｏｌ．４、Ｎｏ．５、ｐｐ．５７３−５８２、１９９４年；
［４］米国特許第５，７０４，００３号、”ＲＣＥＬＰコーダ”ＬｕｃｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ社、（Ｗ．Ｂ．Ｋｌｅｉｊｎ及びＤ．Ｎａｈｕｍｉ）、出願日１９９５年９月１９日；
［６］特許出願第ＷＯ００／１１６５３号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｙ．Ｇａｏ）、出願日１９９９年８月２４日；
［７］特許出願第ＷＯ００／１１６５４号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｈ．Ｓｕ及びＹ．Ｇａｏ）、出願日１９９９年８月２４日；
に記載するような信号修正方法では、フレーム上でｄ_ｎ−１とｄ_ｎとの間において遅延パラメータが線形的に補間される。しかしながら、フレーム終端において、時間同時性が必要な場合、線形補間によって遅延等高線が振動するようになる傾向がある。従って、修正された音声信号のピッチサイクルは、周期的に収縮また膨張して、煩わしいアーティファクトを容易に引き起こす。振動の展開及び振幅は、最終ピッチ位置に関係する。最終ピッチパルスがピッチ周期と関連してフレーム終端から遠いほど、振動は、更に増幅される可能性がある。フレーム終端での時間同時性は、本発明による信号修正方法の実施形態例における本質的な要件であることから、音声品質を低下させずに、従来の方法からのなじみのある線形補間を用いることはできない。その代わり、本発明による信号修正方法の実施形態例は、区分的線形遅延等高線を開示する。

ここで、

振動は、この遅延等高線を用いることによって大幅に減少する。ここで、ｔ_ｎ及びｔ_ｎ−１は、それぞれ、現行及び先行フレームの終端時点であり、ｄ_ｎ及びｄ_ｎ−１は、対応する遅延パラメータ値である。時点ｔ_ｎ−１＋σ_ｎの後、遅延等高線は一定の状態になることに留意されたい。

説明例において、パラメータσ_ｎは、以下のようにｄ_ｎ−１の関数として変化する。

また、フレーム長さＮは、２５６サンプルである。振動を回避する場合、ピッチサイクルの長さが大きくなるにつれて、σ_ｎの値を小さくすると有益である。他方、ｔ_ｎ−１＜ｔ＜ｔ_ｎ−１＋σ_ｎの場合、フレームの初めにおける遅延等高線ｄ（ｔ）の急激な変化を回避する場合、パラメータσ_ｎは、常にフレーム長さの少なくとも半分でなければならない。ｄ（ｔ）の急激な変化は、修正された音声信号の品質を容易に低下させる。

先行フレームのコーディングモードに依存して、ｄ_ｎ−１は、フレーム終端における遅延値（信号修正可能状態）又は最終サブフレームの遅延値（信号修正不可能状態）のいずれか一方であり得ることに留意されたい。遅延パラメータの過去の値ｄ_ｎ−１は、デコーダにおいて分かることから、遅延等高線は、ｄ_ｎではっきりと定義され、デコーダは、式（７）を用いて、遅延等高線を形成できる。

最適な遅延等高線を検索する間変更し得る唯一のパラメータは、［３４、２３１］に制約されるフレームの終端における遅延パラメータ値ｄ_ｎである。一般的な場合、最適なｄ_ｎを求めるための簡単ではっきりした方法は存在しない。その代わり、最適な解を求めるために、幾つかの値を調べなければならない。しかしながら、この検索は、簡単明瞭である。まず、ｄ_ｎの値は、以下のように予測し得る。

実施形態例において、検索は、３つの段階で解像度を大きくし、また、全ての段階において［３４、２３１］内で調査される検索範囲に焦点を合わせることによって、行なわれる。これら３つの段階において最小誤差ｅ_ｎ＝｜κ_ｃ−Ｔ_０｜を与える表１の手順における遅延パラメータは、それぞれ、以下の式で示される。

第１段階において、検索は、

の場合、範囲

において、そうでない場合、

の範囲において、４サンプルの解像度で式（１０）を用いて予測された値

の周辺で行なわれる。第２段階は、範囲を

に制約して、整数解像度を用いる。最終の第３段階は、

に対して、１／４サンプルの解像度で、範囲

を調査する。その範囲を越えると、

及び１／２サンプルの解像度が用いられる。この第３段階は、デコーダに送信される最適な遅延パラメータｄ_ｎを生成する。この手順は、検索精度と複雑さとの間の妥協である。勿論、当業者は、本発明の本質及び精神から逸脱することなく、他の手段を用いて、時間同時性の制約の下で、遅延パラメータの検索を容易に実現し得る。

遅延パラメータｄ_ｎ∈［３４，２３１］は、

の場合、１／４サンプルの解像度を用いて、

の場合、１／２サンプルの解像度を用いて、フレーム当たり９ビットを用いて符号化し得る。

図８は、ｄ_ｎ−１＝５０、ｄ_ｎ＝５３、σ_ｎ＝１７２、及びフレーム長Ｎ＝２５６の場合の遅延補間を示す。本信号修正方法の実施形態例に用いられる補間方法は、太線で示し、他方、従来の方法に対応する線形補間は、細線で示す。双方の補間された等高線は、表１の遅延選択ループにおいてほぼ同様に機能するが、開示された区分的線形補間によると、絶対変化｜ｄ_ｎ−１−ｄ_ｎ｜が小さくなる。この特徴により、遅延等高線ｄ（ｔ）における潜在的な振動、及びこの遅延等高線に従うピッチを有する修正された音声信号における煩わしいアーティファクトが減少する。

区分的線形補間方法の性能を更に明らかにするために、図９は、１０フレーム上で結果的に得られた遅延等高線ｄ（ｔ）に関する例を太線で示す。対応する従来の線形補間で得られる遅延等高線ｄ（ｔ）は、細線で示す。この例は、５２サンプルの一定の遅延パラメータを有する人為的な音声信号を音声修正手順の入力として用いて、構成されている。遅延パラメータｄ_０＝５４サンプルを最初のフレームの初期値として故意に用いて、音声コーディングに特有なピッチ推定誤差の影響を示した。そして、線形補間及び本明細書に開示された区分的線形補間方法双方の遅延パラメータｄ_ｎを、表１の手順を用いて検索した。必要な全てのパラメータが、本発明による信号修正方法の実施形態例に基づき選択された。結果的に得られた遅延等高線ｄ（ｔ）が示すことは、区分的線形補間が、急速に集中する遅延等高線ｄ（ｔ）を生成し、他方、従来の線形補間は、１０フレーム期間内に正しい値に到達し得ないことである。遅延等高線ｄ（ｔ）におけるこれらの延長された振動は、修正された音声信号に対して、煩わしいアーティファクトを引き起こし、全体的な知覚品質を低下させることが多い。

信号の修正

遅延パラメータｄ_ｎ及びピッチサイクルセグメンテーションが決定された後、信号修正手順自体を開始し得る。信号修正方法の実施形態例において、音声信号は、個々のピッチサイクルセグメントを１つずつシフトして、それらを遅延等高線ｄ（ｔ）に調整することによって修正される。セグメントシフトは、重み付けされた音声領域のセグメントを目標信号と関係付けることによって決定される。目標信号は、先行フレームの合成され重み付けされた音声信号

及び現行フレームの先行する既にシフトされたセグメントを用いて構成される。実際のシフトは、残差信号ｒ（ｔ）について行なわれる。

信号修正は、長期予測の性能の最大化と、修正された音声信号の知覚品質の保持とを両立するために、注意深く行なわなければならない。フレーム境界において要求される時間同時性は、修正時もまた考慮しなければならない。

信号修正方法の実施形態例のブロック図は、図１０に示す。修正は、ブロック４０１において、重み付けされた音声信号ｗ（ｔ）からｌ_Ｓサンプルの新セグメントｗ_Ｓ（ｋ）を抽出することによって始まる。このセグメントは、セグメント長ｌ_Ｓ、及びｋ＝０，１，．．．，ｌ_ｓ−１の場合、ｗ_ｓ（ｋ）＝ｗ（ｔ_ｓ＋ｋ）を与える開始時点ｔ_ｓによって定義される。セグメンテーション手順は、前述の説明の教示内容に基づき実行される。

セグメントをこれ以上選択又は抽出できない場合（ブロック４０２）、信号修正処理は、終了する（ブロック４０３）。そうでない場合、信号修正処理は、ブロック４０４に進む。

現行セグメントｗ_ｓ（ｋ）の最適なシフトを求める場合、ブロック４０５において、目標信号

を生成する。現行フレームの最初のセグメントｗ_１（ｋ）の場合、この目標信号は、機能的方法

によって得られる。
ここで、

は、ｔ＝ｔ_ｎ−１に対する先行フレームにおいて入手可能な重み付けされた合成音声信号である。パラメータδ_１は、長さｌ_１の最初のセグメントに対して許された最大シフトである。式（１１）は、現行のシフトされたセグメントを潜在的に配置し得る信号部位上の遅延等高線を用いた長期予測のシミュレーションとして解釈し得る。後続のセグメントに対する目標信号の計算は、同じ原理に従うものであり、この節において後述する。

現行セグメントの最適なシフトを求めるための検索手順は、目標信号を形成した後、開始し得る。この手順は、ブロック４０４において、時点ｔ_ｓで始まるセグメントｗ_Ｓ（ｋ）と目標信号

との間で、以下の様に計算された相関関係Ｃ_ｓ（δ^’）に基づく。

この場合、δ_Ｓは、現行セグメントｗ_ｓ（ｋ）に対して許された最大シフトを決定し、

は、正の無限大側への丸め処理を示す。正規化された相関関係は、式（１２）の代わりに充分に用い得るが、複雑さが増大する。実施形態例において、次の値は、δ_Ｓに用いられる。即ち、

本節において後述するように、δ_Ｓの値は、フレーム中の最初及び最後のセグメントに対しては、更に制限される。

相関関係（１２）は、整数分解能で評価されるが、精度が高くなると、長期予測の性能が改善される。複雑さを低く維持するためには、式（１２）の信号ｗ_ｓ（ｋ）又は

を直接アップサンプリングすることは適当ではない。その代わり、少数分解能が、サンプリングされた相関関係ｃ_ｓ（δ’）を用いて最適なシフトを決定することによって、計算上効率的な方法で得られる。

相関関係ｃ_ｓ（δ’）を最大化するシフトδが、ブロック４０４において、整数分解能で、最初に検索される。次に、少数分解能において、最大値は、開区間（δ−１，δ＋１）において特定し、また、［−δ_ｓ，δ_ｓ］に境界を定めなければならない。ブロック４０６において、相関関係ｃ_ｓ（δ’）は、６５サンプルに等しい長さのハミングウィンドウ化同期補間を用いて、１／８サンプルの解像度にこの区間内でアップサンプリングされる。こうして、アップサンプリングされた相関関係の最大値に対応するシフトδは、少数分解能における最適なシフトである。この最適なシフトを求めた後、重み付けされた音声セグメントｗ_ｓ（ｋ）は、求められた少数分解能でブロック４０７で再計算される。即ち、セグメントの厳密な新しい開始時点は、

である場合、ｔ_ｓ＝ｔ_ｓ−δ＋δ_ｌとして更新される。更に、少数分解能における重み付けされた音声セグメントｗ_ｓ（ｋ）に対応する残差セグメントｒ_ｓ（ｋ）が、再度、上述した同期補間を用いて、この点において、残差信号ｒ（ｔ）から計算される（ブロック４０７）。最適なシフトの少数部は、残差及び重み付けされた音声セグメントに組み込まれることから、全ての後続の計算は、上方に丸められたシフト

で実現し得る。

図１１は、図１０のブロック４０７に基づくセグメントｗ_ｓ（ｋ）の再計算を示す。この説明例において、最適なシフトは、値

を与える相関関係を最大化することによって、１／８サンプルの解像度で検索される。従って、整数部δ_１は、

になり、少数部は、

になる。その結果、セグメントの開始時点は、ｔ_Ｓ＝ｔ_ｓ＋３／８として更新される。図１１では、ｗ_ｓ（ｋ）の新サンプルは、灰色の点で示す。

後述する論理ブロック１０６が信号修正の継続を許す場合、最終タスクは、現行残差信号セグメントｒ_ｓ（ｋ）をそれにコピーすることによって、修正された残差信号

を更新することである（ブロック４１１）。

連続セグメントにおけるシフトは、互いに独立であることから、

に配置されたセグメントは、それらの間で重複するか又は間隙を有する。簡単明瞭な重み付けされた平均化法を、重複セグメントに用い得る。間隙は、隣接するサンプルを隣接するセグメントからコピーすることによって埋められる。重複又は欠落サンプルの数は、通常小さく、また、セグメント境界が残差信号の低エネルギ領域で発生することから、通常、知覚アーティファクトは、発生しない。留意されたいことは、［２］、［６］、［７］、即ち、
［２］Ｗ．Ｂ．Ｋｌｅｉｊｎ、Ｒ．Ｐ．Ｒａｍａｃｈａｎｄｒａｎ、及びＰ．Ｋｒｏｏｎ、”分析合成音声コーダにおけるピッチ予測器パラメータの補間”音声及びオーディオ処理に関するＩＥＥＥ会報、Ｖｏｌ．２、Ｎｏ．１、ｐｐ．４２−５４、１９９４年；
［６］特許出願第ＷＯ００／１１６５３号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｙ．Ｇａｏ）、出願日１９９９年８月２４日；
［７］特許出願第ＷＯ００／１１６５４号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Ｃｏｎｅｘａｎｔシステムズ社、（Ｈ．Ｓｕ及びＹ．Ｇａｏ）、出願日１９９９年８月２４日；
に記載された連続的な信号歪曲は、用いられないが、修正は、複雑さを低減するために、ピッチサイクルセグメントをシフトすることによって連続的に行なわれる。

後続のピッチサイクルセグメントの処理は、ブロック４０５における目標信号

が、最初のセグメントのものとは異なるように形成されることを除いて、上述の開示された手順に従う。

のサンプルは、まず、以下の様に、修正され重み付けされた音声サンプルで置き換えられる。

この手順は、図１１に示す。次に、更新されたセグメントに従うこれらのサンプルもまた更新される。

目標信号

の更新は、遅延等高線ｄ（ｔ）を考慮して修正済み音声信号における連続ピッチサイクルセグメント間の高い相関関係を保証し、また従って、より正確な長期予測を保証する。フレームの最終セグメントを処理する間、目標信号

は、更新する必要はない。

フレームにおける最初及び最終セグメントのシフトは、特に、注意深く行なわなければならない特別な場合である。最初のセグメントをシフトする前、フレーム境界ｔ_ｎ−１に近接して残差信号ｒ（ｔ）に高出力領域が存在しないようにすべきである。これは、このようなセグメントをシフトすると、アーティファクトが生じ得るためである。高出力領域は、以下のように、残差信号ｒ（ｔ）を２乗することによって検索される。

この場合、

である。範囲［ｔ_ｎ−１−２，ｔ_ｎ−１＋２］においてフレーム境界に近接してＥ_０（ｋ）の最大値が検出されると、許されるシフトは、１／４サンプルに制限される。最初のセグメントの処理されたシフトｌδｌが、この限界より小さい場合、信号修正手順は、現行フレームにおいて使用可能であるが、最初のセグメントは、そのままの状態である。

フレームの最終セグメントは、同様に処理される。前述の説明で述べたように、遅延等高線ｄ（ｔ）は、基本的に、最終セグメントにシフトが必要ないように選択される。しかしながら、目標信号は、式（１６）及び（１７）の連続セグメント間の相関関係を考慮して、信号修正時、繰返し更新されるため、最終セグメントが、わずかにシフトされなければならないのはあり得ることである。実施形態例において、このシフトは、常に、３／２サンプルより小さく制限される。フレーム終端に高出力領域が存在する場合、シフトは、許されない。この条件は、平方残差信号

を用いることによって検証される。
ここで、

ζ_１＝ｐ（ｔ_ｎ）である。Ｅ_１（ｋ）の最大値が、ｔ_ｎ−４以上であるｋに対して実現された場合、最終セグメントに対するシフトは、許されない。同様に、最初のセグメントの場合、処理されたシフトｌδｌ＜１／４の時、現在のフレームは、依然修正のために受け入れられるが、最終セグメントは、そのままの状態である。

公知の信号修正方法とは逆に、シフトは、次のフレームに平行移動せず、また、全ての新フレームは、元の入力信号と完璧に同期して始まることに留意されたい。特に、ＲＣＥＬＰコーディングに対する基本的な他の相違として、信号修正方法の実施形態例は、サブフレームが符号化される前、音声フレーム全体を処理する。明らかに、サブフレーム的な修正を行なうと、先行して符号化されたサブフレームを用いて、サブフレーム毎に目標信号を構成して、潜在的に性能を改善し得る。この手法は、フレーム終端での許された時間非同時性が厳密に制約されることから、信号修正方法の実施形態例に関しては用い得ない。しかしながら、式（１５）及び（１６）で目標信号を更新すると、滑らかに展開する発声フレームに関してのみ修正が可能であるため、発話と等しい性能がサブフレーム的な処理で実際に与えられる。

モード決定論理の信号修正手順への組み込み

本発明による信号修正方法の実施形態例は、図２に示すように、効率的分類及びモード決定メカニズムを備えている。ブロック１０１、１０３及び１０５において行なわれる全ての処理は、現行フレームにおける長期予測が到達し得る性能を定量化する幾つかの指標を生成する。これらの指標のいずれかが、その許される限界外にある場合、信号修正手順は、論理ブロック１０２、１０４、又は１０６の１つによって、終了される。この場合、元の信号は、そのまま保持される。

ピッチパルス検索手順１０１は、現フレームの周期性に関する幾つかの指標を生成する。従って、これらの指標を分析する論理ブロック１０２は、分類論理の最も重要な構成要素である。論理ブロック１０２は、下式

を用いて、検出されたピッチパルス位置間の差異と補間された開ループピッチ推定値とを比較し、また、この条件が満たされない場合、信号修正手順を終了する。

また、ブロック１０３において遅延等高線ｄ（ｔ）を選択すると、ピッチサイクルの展開及び現行音声フレームの周期性に関する追加情報が与えられる。この情報は、論理ブロック１０４において、調査される。信号修正手順は、条件｜ｄ_ｎ−ｄ_ｎ−１｜＜０．２ｄ_ｎが満たされた場合にのみ、このブロック１０４から進む。この条件は、現行フレームを純粋な発声フレームとして分類するのは、許容される遅延変化が小さい場合のみであることを意味する。また、論理ブロック１０４は、選択された遅延パラメータ値ｄ_ｎに対する差異｜κ_ｃ−Ｔ_０｜を調査することによって、表１の遅延選択ループの達成状況を評価する。この差異が、１つのサンプルより大きい場合、信号修正手順は、終了される。

修正された音声信号に対して良好な品質を保証する場合、ブロック１０５において連続ピッチサイクルセグメントに対して行なわれたシフトを制約すると有利である。このことは、基準

をフレームの全てのセグメントに課すことによって、論理ブロック１０６で達成される。ここで、δ^（ｓ）及びδ^{（ｓ−１）}は、それぞれ、ｓ番目及び（ｓ−１）番目のピッチサイクルセグメントに対して行なわれたシフトである。閾値を越えた場合、信号修正手順は割込みを受けて、元の信号が維持される。

信号修正を受けたフレームが低ビットレートで符号化される場合、ピッチサイクルセグメントの形状がフレーム上で同じままであることが不可欠である。これによって、長期予測による忠実な信号モデル化、また従って、主観的な品質を低下することなく低ビットレートでのコーディングが可能になる。連続セグメントの類似性は、図１０のブロック４０７でｗ_ｓ（ｋ）を更新した後の最適なシフトにおける現行セグメントと目標信号との間の正規化された相関関係

によって容易に定量化し得る。正規化された相関関係ｇ_ｓは、ピッチ利得とも呼ぶ。

ピッチサイクルセグメントをブロック１０５でシフトして、目標信号とのそれらの相関関係を最大化すると、信号修正が現行フレームにおいて有用である場合、周期性が強化され、また、高いピッチ予測利得が生成される。手順の達成状況は、論理ブロック１０６において、基準

ｇ_ｓ＞＝０．８４を用いて、調査される。
この条件が、全てのセグメントに対して満たされない場合、信号修正手順は、終了され（ブロック４０９）、元の信号がそのままの状態に維持される。この条件が満たされた場合（ブロック１０６）、信号修正は、ブロック４１１に進む。ピッチ利得ｇ_ｓは、ブロック４０８において、ブロック４０７からの再計算されたセグメントｗ_ｓ（ｋ）とブロック４０５からの目標信号

との間で計算される。一般的に、わずかに低い利得閾値が、男性の声については許容され、コーディング性能は等しい。利得閾値は、信号修正モードの使用割合、また従って、結果的に得られる平均ビットレートを調整するためのエンコーダの異なる処理モードにおいて変更し得る。

供給源制御式可変ビットレート音声コーデックのためのモード決定論理

本節は、供給源制御式可変ビットレート音声コーデックにおける汎用レート決定メカニズムの一部として、信号修正手順の使用方法を開示する。この機能は、本信号修正方法の実施形態例に組み込まれている。これは、この機能が、信号周期性、及び現在のフレームにおける長期予測の予想コーディング性能に関する幾つかの指標を提供するためである。これらの指標は、ピッチ周期の展開、この展開を記述するための選択された遅延等高線の適合性、及び信号修正で実現可能なピッチ予測利得を含む。図２に示す論理ブロック１０２、１０４及び１０６で信号修正が可能な場合、長期予測によって、修正された音声フレームをモデル化することができ、主観的な品質を低下することなく、低ビットレートでのそのコーディングを効率的に実現する。この場合、適応コードブック励振は、励振信号を記述する際、主要な影響を有し、また従って、固定コードブック励振に割当てられたビットレートを低減し得る。論理ブロック１０２、１０４又は１０６で信号修正が不可能な場合、フレームは、発声開始又は急速に展開する発声音声信号等の非静止音声セグメントを含む可能性がある。これらのフレームには、通常、良好な主観的な品質を保持するために高ビットレートが必要である。

図１２は、４つのコーディングモードを制御するレート決定論理の一部としての信号修正手順６０３を示す。この実施形態例において、モードの組には、非アクティブ音声フレーム（ブロック５０８）、非発声音声フレーム（ブロック５０７）、安定発声フレーム（ブロック５０６）、及び他の種類のフレーム（ブロック５０５）のための専用モードが含まれる。安定発声フレーム５０６用のモードを除く、これら全てのモードは、当業者には公知の手法に基づき実現されることに留意されたい。

レート決定論理は、論理ブロック５０１、５０２、及び５０４において、３つのステップで行なわれる信号分類に基づくが、この内、ブロック５０１及び５０２の処理は、当業者には公知である。

最初に、発声アクティビティ検出器（ＶＡＤ）５０１は、アクティブとイナクティブ音声フレームとの間の区別を行なう。イナクティブ音声フレームが検出されると、音声信号は、モード５０８によって処理される。

アクティブ音声フレームがブロック５０１で検出されると、フレームは、発声決定の実行専用の第２分類器５０２に供給される。分類器５０２が現行フレームを非発声音声信号と見なした場合、分類チェーンは終了し、また、音声信号は、モード５０７に基づき処理される。そうでない場合、音声フレームは、信号修正モジュール６０３に渡される。

次に、信号修正モジュールは、それ自体、論理ブロック５０４において、現行フレームの信号修正を可能にするか又は不可能にするかに関する決定を行なう。この決定は、実際、図２を参照して上述したように、論理ブロック１０２、１０４及び１０６において、信号修正手順の不可欠な部分として行なわれる。信号修正が可能な場合、フレームは、安定発声又は純粋に発声された音声セグメントと考えられる。

レート決定メカニズムがモード５０６を選択する場合、信号修正モードが使用可能になり、また、音声フレームが、前節の教示内容に基づき、符号化される。表２は、モード５０６に対して実施形態例に用いられるビット割当てを開示する。このモードで符号化されるフレームは、特徴的に極めて周期的であることから、実質的に低いビットレートが、例えば、移行フレームと比較して、良好な主観的な品質を保持するには充分である。また、信号修正によって、２０ｍｓフレーム当たり９ビットだけを用いて、遅延情報の効率的コーディングが可能になり、他のパラメータに対してかなりの部分のビット経費を節約し得る。長期予測の性能が良好であると、主観的な音声品質を犠牲にすることなく、固定コードブック励振に対して、５ｍｓサブフレーム当たり１３ビットだけを用い得る。固定コードブックには、２パルスで１トラックが含まれ、両パルスは、６４の可能な位置を有する。
る。

他のコーディングモード５０５、５０７及び５０８は、公知の手法に従って、実現される。信号修正は、これら全てのモードで不可能である。表３は、ＡＭＲ−ＷＢ標準から採用されたモード５０５のビット割当てを示す。

ＡＭＲ−ＷＢ標準に関する技術明細書［１１］及び［１２］、即ち、
［１１］３ＧＰＰＴＳ２６。１９２、”ＡＭＲ広帯域音声コーデック：快適雑音の特徴”３ＧＰＰ技術明細書；
［１２］３ＧＰＰＴＳ２６。１９３、”ＡＭＲ広帯域音声コーデック：発声アクティビティ検出器（ＶＡＤ）、”３ＧＰＰ技術明細書；
は、それぞれ、５０１及び５０８における快適雑音及びＶＡＤ機能に関する参考文献として、ここに示す。

要約すると、本明細書は、純粋な発声音声フレームのためのフレーム同期信号修正方法、修正されるフレームを検出するための分類メカニズムについて説明し、また、低ビットレートでの高品質コーディングを可能にするために、供給源制御式ＣＥＬＰ音声コーデックにこれらの方法を用いるために説明した。

本信号修正方法は、修正されるフレームを決定するための分類メカニズムを備える。このことは、処理及び修正された信号の特性の点で、従来の信号修正及び前処理手段と異なる。本信号修正手順に取り入れた分類機能は、供給源制御式ＣＥＬＰ音声コーデックのレート決定メカニズムの一部として用いられる。

信号修正は、ピッチ及びフレームに同期して行なわれる。即ち、後続の音声フレームが元の信号と完全に時間整合した状態で始まるように、現行フレームにおいて一度に１つのピッチサイクルセグメントを構成する。ピッチサイクルセグメントは、フレーム境界によって制限される。この特徴によって、フレーム境界上での時間シフトの平行移動が防止され、エンコーダの実行が簡素化され、修正された音声信号におけるアーティファクトの危険性が低減される。連続フレーム上で時間シフトが蓄積しないことから、開示した本信号修正方法は、拡張された信号を収容するための長いバッファや蓄積された時間シフトを制御するための複雑な論理回路を必要としない。供給源制御式音声コーディングにおいて、新フレームが全て元の信号と時間整合した状態で始まることから、信号修正可能及び不可能モード間でのマルチモード処理が簡素化される。

勿論、他の数多くの修正及び変更が、可能である。本発明及び関連する図面の上記詳細な例示の説明に鑑み、このような他の修正や変更は、当業者には現時点で明らかであろう。また、このような他の変更は、本発明の精神と範囲から逸脱することなく実施し得ることは明白である。

１フレーム用の元の及び修正された残差信号の説明例を示す図。本発明による信号修正方法の実施形態例を示す機能ブロック図。音声エンコーダ及びデコーダの使用方法を示す音声通信システムの説明例を示す概略ブロック図。信号修正方法を利用する音声エンコーダの実施形態例を示す概略ブロック図。ピッチパルス検索の実施形態例を示す機能ブロック図。１フレームの場合で、特定されたピッチパルス位置及び対応するピッチサイクルセグメンテーションの説明例を示す図。ピッチパルスの数が３つ（ｃ＝３）である場合、遅延パラメータの決定に関する説明例を示す図。線形補間（細線）と比較して、１音声フレーム上での遅延補間（太線）の説明例を示す図。正しいピッチ値が５２サンプルである場合、図８の遅延補間（太線）及び線形補間（細線）に基づき選択された１０フレーム上の遅延等高線の説明例を示す図。本発明の実施形態例に基づき、選択された遅延等高線に音声フレームを調整する信号修正方法を示す機能ブロック図。決定された最適なシフトδを用いて、目標信号

の更新、及び灰色の点として示す補間された値での信号セグメントｗ_ｓ（ｋ）の置き換えに関する説明例を示す図。
本発明の実施形態例に基づき、レート決定論理を示す機能ブロック図。本発明の実施形態例に基づき形成された遅延等高線を利用する音声デコーダの実施形態例を示す概略ブロック図。

符号の説明

２０１・・・マイク、２０２・・・アナログデジタル（Ａ／Ｄ）変換器、２０３・・・音声エンコーダ、２０４・・・チャネルエンコーダ、２０５・・・通信チャネル、２０６・・・チャネルデコーダ、２０７・・・音声デコーダ、２０８・・・デジタルアナログ（Ｄ／Ａ）変換器、２０９・・・スピーカユニット、２１０・・・アナログ音声信号、２１１・・・デジタル音声信号、２１２・・・一組のコーディングパラメータ、２１３・・・ビットストリーム、２１４・・・ビットストリーム、２１５・・・ビットストリーム、２１６・・・合成デジタル音声信号、２１７・・・アナログ音声信号、６０１・・・ＬＰ（線形予測）分析・量子化モジュール、６０２・・・ピッチ推定器、６０３・・・信号修正モジュール、６０７・・・適応コードブック、６１４・・・マルチプレクサ、６１５・・・引き続きビットストリーム、６１６・・・量子化されたＬＰフィルタパラメータの二進数表現、６１７・・・前処理済み入力デジタル音声信号ｓ（ｔ）、６１８・・・ＬＰフィルタパラメータ、６１９・・・現行フレーム用の開ループピッチ推定値、６２０・・・遅延パラメータ、６２１・・・修正された目標信号。

Claims

音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
先行フレームにおいて前記音信号の特徴を特定する段階と、
現行フレームにおいて前記音信号の対応する特徴を特定する段階と、
前記長期予測が、前記先行フレームの前記信号特徴を前記現行フレームの前記対応する信号特徴にマッピングするように、前記現行フレームの前記長期予測遅延パラメータを決定する段階と、
が含まれる方法。
請求項１に記載の長期予測遅延パラメータを決定するための方法であって、前記長期予測遅延パラメータを決定する段階は、
前記長期予測遅延パラメータから遅延等高線を形成する段階を含む方法。
請求項２に記載の長期予測遅延パラメータを決定するための方法であって、
前記音信号は、音声信号を含み、
前記先行フレームにおける前記音声信号の前記特徴は、前記先行フレームにおける前記音声信号のピッチパルスを含み、
前記現行フレームにおける前記音声信号の前記特徴は、前記現行フレームにおける前記音声信号のピッチパルスを含み、
遅延等高線を形成する段階は、前記長期予測で、前記先行フレームの前記ピッチパルスに前記現行フレームの前記ピッチパルスをマッピングする段階を含む、方法。
請求項３に記載の長期予測遅延パラメータを決定するための方法であって、前記長期予測遅延パラメータを定義する段階は、
前記先行フレームの最終ピッチパルスと前記現行フレームの最終ピッチパルスとの間における連続ピッチパルスの距離の関数として前記長期予測遅延パラメータを計算する段階を含む、方法。
請求項２に記載の長期予測遅延パラメータを決定するための方法であって、更に、
前記先行フレームの長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータで前記遅延等高線を完全に特徴付ける段階を含む方法。
請求項２に記載の長期予測遅延パラメータを決定するための方法であって、遅延等高線を形成する段階は、
前記先行フレームの長期予測遅延パラメータと前記現行フレームの前記長期予測遅延パラメータとの間で前記遅延等高線を非線形的に補間する段階を含む方法。
請求項２に記載の長期予測遅延パラメータを決定するための方法であって、遅延等高線を形成する段階は、
前記先行フレームの長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータから区分的線形遅延等高線を決定する段階を含む方法。
音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
先行フレームにおける前記音信号の特徴の検出器と、
現行フレームにおける前記音信号の対応する特徴の検出器と、
前記現行フレームの前記長期予測遅延パラメータの計算器であって、前記長期予測遅延パラメータの計算は、前記長期予測が、前記先行フレームの前記信号特徴を前記現行フレームの前記対応する信号特徴にマッピングするように行なわれる前記計算器と、
が含まれる装置。
請求項８に記載の長期予測遅延パラメータを決定するための装置であって、前記長期予測遅延パラメータの前記計算器は、
前記長期予測遅延パラメータからの遅延等高線の選択器を含む装置。
請求項９に記載の長期予測遅延パラメータを決定するための装置であって、
前記音信号は、音声信号を含み、
前記先行フレームにおける前記音声信号の前記特徴は、前記先行フレームにおける前記音信号のピッチパルスを含み、
前記現行フレームにおける前記音声信号の前記特徴は、前記現行フレームにおける前記音声信号のピッチパルスを含み、
前記遅延等高線選択器は、前記長期予測で、前記先行フレームの前記ピッチパルスに前記現行フレームの前記ピッチパルスをマッピングする遅延等高線の選択器である、
装置。
請求項１０に記載の長期予測遅延パラメータを決定するための装置であって、前記長期予測遅延パラメータ副計算器は、
前記先行フレームの前記最終ピッチパルスと前記現行フレームの最終ピッチパルスとの間における連続ピッチパルスの距離の関数としての前記長期予測遅延パラメータの計算器である装置。
請求項９に記載の長期予測遅延パラメータを決定するための装置であって、更に、
前記先行フレームの長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータで前記遅延等高線を完全に特徴付ける機能を備える装置。
請求項９に記載の長期予測遅延パラメータを決定するための装置であって、前記遅延等高線選択器は、
前記先行フレームの前記長期予測遅延パラメータと前記現行フレームの前記長期予測遅延パラメータとの間における非線形的に補間された遅延等高線の選択器である装置。
請求項９に記載の長期予測遅延パラメータを決定するための装置であって、前記遅延等高線選択器は、
前記先行フレームの前記長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータからの区分的線形遅延等高線の選択器である装置。
音信号をデジタル符号化するための手法へ組み込むための信号修正方法であって、
前記音信号を一連の連続フレームに分割する段階と、
前記音信号の各フレームを複数の信号セグメントに分割する段階と、
前記フレームの前記信号セグメントの少なくとも一部を歪曲する段階であって、前記歪曲された信号セグメントを前記フレーム内に制約する段階を含む前記歪曲する段階と、が含まれる方法。
請求項１５に記載の信号修正方法であって、
前記音信号は、ピッチパルスを含み、
各フレームは、境界を含み、
各フレームを分割する段階は、
前記フレームの前記音信号においてピッチパルスを特定する段階と、
前記フレームをピッチサイクルセグメントに分割する段階であって、各ピッチサイクルセグメントは、前記ピッチパルスの１つを含み、また、前記フレームの前記境界内に配置される前記段階と、を含む方法。
請求項１６に記載の信号修正方法であって、
ピッチパルスを特定する段階は、前記フレーム上で補間された開ループピッチ推定値を用いる段階を含み、
前記信号修正方法は、更に、特定されたピッチパルス位置と前記補間された開ループピッチ推定値との間の差異が、所定の条件を満たさない場合、信号修正手順を終了させる段階を含む方法。
請求項１５に記載の信号修正方法であって、前記音信号の各フレームを複数の信号セグメントに分割する段階は、
前記音信号を重み付けして、重み付けされた音信号を生成する段階と、
前記重み付けされた音信号から前記信号セグメントを抽出する段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、前記歪曲する段階は、
現行信号セグメントの目標信号を生成する段階と、
前記目標信号に応答して前記現行信号セグメントの最適なシフトを求める段階と、
を含む方法。
請求項１７に記載の信号修正方法であって、
目標信号を生成する段階は、先行フレームの重み付けされた合成音声信号から、又は、修正され重み付けされた音声信号から目標信号を生成する段階を含み、
前記現行信号セグメントの最適なシフトを求める段階は、前記現行信号セグメントと前記目標信号との間の相関関係をとる段階を含む、
方法。
請求項２０に記載の信号修正方法であって、相関関係をとる段階は、
最初に、整数分解能との前記相関関係を評価して、前記相関関係を最大にする信号セグメントシフトを求める段階と、
次に、前記相関関係最大化信号セグメントシフト周辺の領域における前記相関関係をアップサンプリングする段階であって、少数分解能との前記相関関係を最大化することによって、前記現行信号セグメントの最適なシフトを検索する段階が含まれる前記相関関係の前記アップサンプリングする前記段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、
各フレームは、境界を含み、
前記フレームの前記信号セグメントの少なくとも一部を歪曲する段階は、
高出力領域が、信号セグメントに隣接する前記フレーム境界に近接する前記音信号に存在するか否か検出する段階と、
高出力領域の検出の有無と関連して前記信号セグメントシフトする段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、前記歪曲する段階は、
補間された長期予測遅延パラメータを前記現行フレーム上に定義する遅延等高線を形成し、また、前記ピッチサイクルの前記展開及び前記現行音信号フレームの周期性に関する追加情報を提供する段階と、
前記個々のピッチサイクルセグメントを１つずつシフトして、それらを前記遅延等高線に調整する段階と、
を含む方法。
請求項２３に記載の信号修正方法であって、前記個々のピッチサイクルセグメントをシフトする段階は、
前記遅延等高線を用いて目標信号を形成する段階と、
前記ピッチサイクルセグメントをシフトして、前記ピッチサイクルセグメントの前記目標信号との前記相関関係を最大にする段階と、
を含む方法。
請求項２３に記載の信号修正方法であって、更に、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線からの前記情報を調べる段階と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する少なくとも１つの条件を定義する段階と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する前記少なくとも１つの条件が満たされない場合、前記信号修正を中断する段階と、
を含む方法。
請求項１９に記載の信号修正方法であって、更に、
前記信号セグメントの前記シフトを制約する段階であって、所定の基準を前記フレームの全ての前記信号に課す段階が含まれる前記制約する段階と、
前記所定の基準が守られない場合前記信号修正手順を中断し、前記元の音信号を維持する段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの欠如を検出する段階と、
前記現行フレームにおける発声アクティビティの前記欠如の検出に応答して、前記音信号の前記現行フレームをコーディングする信号修正不可能モードを選択する段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在を検出する段階と、
前記現行フレームを非発声音信号フレームと見なす段階と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードを、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、及び
前記現行フレームを非発声音信号フレームと見なすこと、
に応答して選択する段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在を検出する段階と、
前記現行フレームを発声音信号フレームと見なす段階と、
信号修正が成功であることを検出する段階と、
前記音信号の前記現行フレームをコーディングする信号修正可能モードを、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が成功であることの検出、
に応答して選択する段階と、
を含む方法。
請求項１５に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在を検出する段階と、
前記現行フレームを発声音信号フレームと見なす段階と、
信号修正が成功であることを検出する段階と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードを、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が不成功であることの検出、
に応答して選択する段階と、
を含む方法。
音信号をデジタル符号化するための手法へ組み込むための信号修正装置であって、
一連の連続フレームへの前記音信号の第１分割器と、
複数の信号セグメントへの前記音信号の各フレームの第２分割器と、
前記フレームの前記信号セグメントの少なくとも一部が供給される信号セグメント歪曲要素であって、前記フレーム内に前記歪曲された信号セグメントの制約器を含む前記歪曲要素と、
が含まれる装置。
請求項３１に記載の信号修正装置であって、
前記音信号は、ピッチパルスを含み、
各フレームは、境界を含み、
前記第２分割器は、
前記フレームの前記音信号におけるピッチパルスの検出器と、
ピッチサイクルセグメントへの前記フレームの分割器であって、各ピッチサイクルセグメントは、前記ピッチパルスの１つを含み、また、前記フレームの前記境界内に配置される前記分割器と、
を含む装置。
請求項３２に記載の信号修正装置であって、
ピッチパルス前記検出器は、前記フレーム上で補間された開ループピッチ推定値を用い、
前記信号修正装置は、更に、検出されたピッチパルスの位置と前記補間された開ループピッチ推定値との間の差異が所定の条件を満たさない時動作する信号修正終了要素を含む、
装置。
請求項３１に記載の信号修正装置であって、複数の信号セグメントへの前記音信号の各フレームの前記第２分割器は、
前記音信号を重み付けして、重み付けされた音信号を生成するためのフィルタと、
前記重み付けされた音信号からの前記信号セグメントの抽出器と、
を含む装置。
請求項３１に記載の信号修正装置であって、前記信号セグメント歪曲要素は、
現行信号セグメントの目標信号の計算器と、
前記目標信号に応答した前記現行信号セグメントの最適なシフトの発見器と、
を含む装置。
請求項３５に記載の信号修正装置であって、
目標信号の前記計算器は、先行フレームの重み付けされた合成音声信号から、又は、修正され重み付けされた音声信号からの目標信号の計算器であり、
前記現行信号セグメントの最適なシフトの発見器は、前記現行信号セグメントと前記目標信号との間の相関関係の計算器を含む、
装置。
請求項３６に記載の信号修正装置であって、相関関係の前記計算器は、
前記相関関係を最大にする信号セグメントシフトを求めるための整数分解能との前記相関関係の評価器と、
前記相関関係最大化信号セグメントシフト周辺の領域における前記相関関係のアップサンプリング器であって、前記アップサンプリング器は、前記現行信号セグメントの最適なシフトの検索器を含み、前記現行信号セグメントの最適なシフトの前記検索器には、少数分解能との前記相関関係の評価器が含まれる前記アップサンプリング器と、
を含む装置。
請求項３４に記載の信号修正装置であって、
各フレームは、境界を含み、
前記信号セグメント歪曲要素は、
高出力領域が、信号セグメントに隣接する前記フレーム境界に近接する前記音信号に存在するか否かの検出器と、
高出力領域の検出の有無と関連した前記信号セグメントのシフタと、
を含む装置。
請求項３１に記載の信号修正装置であって、前記信号セグメント歪曲要素は、
補間された長期予測遅延パラメータを前記現行フレーム上に定義し、また、前記ピッチサイクルの前記展開及び前記現行音信号フレームの周期性に関する追加情報を提供する遅延等高線の計算器と、
前記個々のピッチサイクルセグメントを１つずつシフトして、それらを前記遅延等高線に調整するシフタと、
を含む装置。
請求項３９に記載の信号修正装置であって、前記個々のピッチサイクルセグメントのシフタは、
前記遅延等高線を用いた目標信号の計算器と、
前記ピッチサイクルセグメントの前記目標信号との前記相関関係を最大にするための前記ピッチサイクルセグメントのシフタと、
を含む装置。
請求項４０に記載の信号修正装置であって、更に、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線からの前記情報の評価器と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する少なくとも１つの条件の定義器と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する前記少なくとも１つの条件が満たされない場合の前記信号修正の終了器と、
を含む装置。
請求項３５に記載の信号修正装置であって、更に、
前記ピッチサイクルセグメントの前記シフトの制約器であって、前記フレームの全てのセグメントへの所定の基準の賦課器が含まれる前記制約器と、
前記所定の基準が守られない場合の前記信号修正手順の終了器と、
を含む装置。
請求項３１に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの欠如の検出器と、
前記現行フレームにおける発声アクティビティの前記欠如の検出に応答して前記音信号の前記現行フレームをコーディングする信号修正不可能モードの選択器と、
を含む装置。
請求項３１に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出器と、
前記現行フレームを非発声音信号フレームと見なすための分類器と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードの選択器であって、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、及び
前記現行フレームを非発声音信号フレームと見なすこと、
に応答する前記選択器と、
を含む装置。
請求項３１に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出器と、
前記現行フレームを発声音信号フレームと見なすための分類器と、
信号修正が成功であることの検出器と、
前記音信号の前記現行フレームをコーディングする信号修正可能モードの選択器であって、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が成功であることの検出、
に応答する前記選択器と、
を含む装置。
請求項３１に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出器と、
前記現行フレームを発声音信号フレームと見なすための分類器と、
信号修正が不成功であることの検出器と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードの選択器であって、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が不成功であることの検出、
に応答する前記選択器と、
を含む装置。
音信号においてピッチパルスを検索するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
各フレームを多数のサブフレームに分割する段階と、
線形予測分析フィルタを経て前記音信号をフィルタ処理することによって、残差信号を生成する段階と、
前記残差信号から前記先行フレームの前記音信号の最終ピッチパルスを特定する段階と、
前記残差信号を用いて、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型を抽出する段階と、
前記ピッチパルス原型を用いて、現行フレームにおいてピッチパルスを特定する段階と、
が含まれる方法。
請求項４７に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行して特定されたピッチパルスの前記位置に関係する時点で発生する前記現行フレームの第１ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、を予測する段階と、
前記パルス原型と前記残差信号との間の重み付けされた相関関係を最大化することによって、前記ピッチパルスの前記予測された位置を改善する段階と、
を含む方法。
請求項４８に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまで、ピッチパルス位置の前記予測及び予測された位置の前記改善を繰返す段階と、
を含む方法。
音信号においてピッチパルスを検索するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
多数のサブフレームへの各フレームの分割器と、
前記音信号をフィルタ処理し、これによって残差信号を生成するための線形予測分析フィルタと、
前記残差信号に応答した、前記先行フレームにおける前記音信号の最終ピッチパルスの検出器と、
前記残差信号に応答した、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型の抽出器と、
前記ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、
が含まれる装置。
請求項５０に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの各ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、の予測器と、
前記パルス原型と前記残差信号との間の重み付けされた相関関係を最大化することによる前記ピッチパルスの前記予測された位置の改善器と、
を含む装置。
請求項５１に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまでのピッチパルス位置の前記予測及び予測された位置の前記改善の繰返し器と、
を含む装置。
音信号においてピッチパルスを検索するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
各フレームを多数のサブフレームに分割する段階と、
重み付けフィルタを経て前記音信号を処理することによって、重み付けされた音信号を生成する段階であって、前記重み付けされた音信号は、信号周期性を示す前記段階と、
前記重み付けされた音信号から前記先行フレームの前記音信号の最終ピッチパルスを特定する段階と、
前記重み付けされた音信号を用いて、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型を抽出する段階と、
前記ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、
が含まれる方法。
請求項５３に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの第１ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、を予測する段階と、
前記パルス原型と前記重み付けされた残差信号との間の重み付けされた相関関係を最大化することによって、前記ピッチパルスの前記位置を改善する段階と、
を含む方法。
請求項５４に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまで、ピッチパルス位置の前記予測及び予測された位置の前記改善を繰返す段階と、
を含む方法。
音信号においてピッチパルスを検索するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
多数のサブフレームへの各フレームの分割器と、
前記音信号を処理して、信号周期性を示す重み付けされた音信号を生成するための重み付けフィルタと、
前記重み付けされた音信号に応答した、前記先行フレームにおける前記音信号の最終ピッチパルスの検出器と、
前記重み付けされた音信号に応答した、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型の抽出器と、
前記ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、
が含まれる装置。
請求項５６に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの各ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する前記時点での補間された開ループピッチ推定値と、の予測器と、
前記パルス原型と前記重み付けされた音信号との間の重み付けされた相関関係を最大化することによる前記ピッチパルスの前記予測された位置の改善器と、
を含む装置。
請求項５７に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまでのピッチパルス位置の前記予測及び予測された位置の前記改善の繰返し器と、
を含む装置。
音信号においてピッチパルスを検索するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
各フレームを多数のサブフレームに分割する段階と、
重み付けフィルタを経て前記音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理することによって、合成され重み付けされた音信号を生成する段階と、
前記合成され重み付けされた音信号から前記先行フレームの前記音信号の最終ピッチパルスを特定する段階と、
前記合成され重み付けされた音信号を用いて、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型を抽出する段階と、
前記ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、
が含まれる方法。
請求項５９に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの第１ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、を予測する段階と、
前記パルス原型と前記合成され重み付けされた残差信号との間の重み付けされた相関関係を最大化することによって、前記ピッチパルスの前記位置を改善する段階と、
を含む方法。
請求項６０に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまで、ピッチパルス位置の前記予測及び予測された位置の前記改善を繰返す段階と、
を含む方法。
音信号においてピッチパルスを検索するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
多数のサブフレームへの各フレームの分割器と、
前記音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理し、これによって、合成され重み付けされた音信号を生成するための重み付けフィルタと、
前記合成され重み付けされた音信号に応答した、前記先行フレームにおける前記音信号の最終ピッチパルスの検出器と、
前記合成され重み付けされた音信号に応答した、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型の抽出器と、
前記ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、
が含まれる装置。
請求項６２に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの各ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する前記時点での補間された開ループピッチ推定値と、の予測器と、
前記パルス原型と前記合成され重み付けされた音信号との間の重み付けされた相関関係を最大化することによる前記ピッチパルスの前記予測された位置の改善器と、
を含む装置。
請求項６３に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまでのピッチパルス位置の前記予測及び予測された位置の前記改善の繰返し器と、
を含む装置。
連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された、前記音信号の復号化時、適応コードブック励振を形成するための方法であって、
各フレームに対して、前記デジタル音信号符号化手法において長期予測を特徴付ける長期予測遅延パラメータを受信する段階と、
現行フレーム時受信された長期予測遅延パラメータ及び先行フレーム時受信された前記長期予測遅延パラメータを用いて、遅延等高線を回復する段階であって、前記遅延等高線は、長期予測で、前記先行フレームの信号特徴を前記現行フレームの対応する信号特徴にマッピングする前記段階と、
前記遅延等高線に応答して、適応コードブックにおいて前記適応コードブック励振を形成する段階と、
が含まれる方法。
連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された、前記音信号の復号化時、適応コードブック励振を形成するための装置であって、
各フレームの長期予測遅延パラメータの受信器であって、前記長期予測遅延パラメータは、前記デジタル音信号符号化手法における長期予測を特徴付ける前記受信器と、
現行フレーム時受信された前記長期予測遅延パラメータ及び先行フレーム時受信された前記長期予測遅延パラメータに応答した、遅延等高線の計算器であって、前記遅延等高線は、長期予測で、前記先行フレームの信号特徴を前記現行フレームの対応する信号特徴にマッピングする前記計算器と、
前記遅延等高線に応答して前記適応コードブック励振を形成するための適応コードブックと、
が含まれる装置。