JP2006525533A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2006525533A5 JP2006525533A5 JP2006504076A JP2006504076A JP2006525533A5 JP 2006525533 A5 JP2006525533 A5 JP 2006525533A5 JP 2006504076 A JP2006504076 A JP 2006504076A JP 2006504076 A JP2006504076 A JP 2006504076A JP 2006525533 A5 JP2006525533 A5 JP 2006525533A5
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- gain
- pitch
- quantization
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000670 limiting Effects 0.000 description 24
- 230000005284 excitation Effects 0.000 description 20
- 238000000034 method Methods 0.000 description 20
- 238000005070 sampling Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 15
- 230000004044 response Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 230000003044 adaptive Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000002194 synthesizing Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 230000000875 corresponding Effects 0.000 description 6
- 230000002829 reduced Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000006011 modification reaction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000003595 spectral Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003068 static Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing Effects 0.000 description 1
- 230000000593 degrading Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 230000036961 partial Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001702 transmitter Effects 0.000 description 1
Images
Description
本発明は、音の信号、限定はしないが特に通話信号のディジタル符号化の改良技術に関し、音の信号の伝送および合成を考慮したものである。
遠隔会議、マルチメディアおよび無線通信などの種々の応用分野において、主観的品質とビットレートとの良好なトレードオフを伴う狭帯域および広帯域通話の効果的なディジタル符号化技術がますます求められている。最近まで、200−3400Hzの領域に限定された電話の帯域幅が、主として通話の符号化への応用に用いられてきた。しかしながら、広帯域の通話を適用すると、従来の電話の帯域幅と比較して、通信における了解性および自然さが増大する。50−7000Hzの領域の帯域幅は顔を合わせて話し合う印象を与えるほど良好な品質を配信するのに十分であると見られている。一般のオーディオ信号に対して、この帯域幅は受容可能な主観的品質を与えるが、それぞれ20−16000Hzおよび20−20000Hzの領域で動作するFMラジオあるいはCDの品質よりは依然として劣る。
通話エンコーダは通話信号をディジタルビットストリームに変換し、ディジタルビットストリームは通信チャネルを経て伝送され、あるいは蓄積媒体に蓄積される。通話信号はディジタル化される、即ち標本化され、通常16ビット/サンプルにより量子化される。通話エンコーダは、より少ないビット数によりこれらディジタルサンプルを表現し、かつ良好な主観的通話品質を維持する役割を有する。通話デコーダあるいは合成器は伝送された、あるいは蓄積されたビットストリームについて動作し、ビットストリームを音の信号に逆変換する。
符号励起線形予測(CELP)符号化は、主観的品質とビットレートとの間で良好な折り合いを付ける最良の従来技術の一つである。この符号化技術は、無線および有線応用の両者における幾つかの通話符号化標準の基礎をなす。CELP符号化では、標本化された通話信号は通常フレームと呼ばれるLサンプルからなる連続するブロックにおいて処理され、Lは一般に10−30msに相当する予め決められた数である。線形予測(LP)フィルタが計算され、フレーム毎に伝送される。LPフィルタの計算は一般に、例えば後続のフレームから5−15msの通話セグメント先を見ることが必要とする。Lサンプルフレームはサブフレームと呼ばれるより小さいブロックに分割される。通常、サブフレームの数は、4−10msとなる3あるいは4サブフレームである。各フレームでは、励起信号は、通常過去の励起およびイノベーションの固定コードブック励起の2つの構成要素から得られる。過去の励起から形成される構成要素は、屡々適応形コードブックあるいはピッチ励起と言い表される。励起信号を特徴づけるパラメータは符号化され、デコーダに伝送され、デコーダにおいて再構成された励起信号はLPフィルタの入力として使用される。
符号分割多重アクセス(CDMA)技術を使用する無線システムでは、ソース制御可変ビットレート(VBR)通話符号化の使用により、システム容量はかなり改善する。ソース制御VBR符号化では、コーデックは幾つかのビットレートで動作し、レート選択モジュールが使用され、通話フレームの性質(例えば、音声、非音声、経過音、背景雑音など)に基づいて各通話フレームの符号化に使用されるビットレートを決定する。目的は、平均データレート(ADR)としても参照される所与の平均ビットレートにおいて最良の通話品質を達成することである。レート選択モジュールを調節して、種々の動作モードにより種々のADRsを達成することにより、コーデックは異なるモードにより動作することが出来、ADRsが増大するとコーデックの性能が改善される。動作モードは、チャネル条件に応じてシステムにより決定される。これにより、通話品質とシステム容量との間にトレードオフの機構を持つコーデックが可能になる。CDMAシステム(例えば、CDMA−1およびCDMA2000)では、代表的に4つのビットレートが使用され、フルレート(FR)、ハーフレート(HR)、4分の1レート(QR)および8分の1レート(ER)と言い表される。このシステムでは、2つのレートの組がサポートされ、レートの組Iおよびレートの組IIと言い表される。レートの組IIでは、レート選択機構を有する可変レートコーデックは、14.4、7.2、3.6および1.8kbit/sの総ビットレート(誤り検出に対して付加された幾らかのビットを加えて)に対応して、13.3(FR)、6.2(HR)、2.7(QR)および1.0(ER)kbit/sのソース符号化ビットレートで動作する。
CDMAシステムに対するVBR符号化では代表的に、通話活動のないフレーム(無音あるいは雑音のみのフレーム)の符号化に8分の1レートが使用される。フレームが動きのない音声あるいは動きのない非音声である場合、動作モードに応じてハーフレートあるいは4分の1レートが使用される。動きのない非音声フレームにハーフレートが使用されると、ピッチコードブックを持たないCELPモードが使用される。動きのない音声フレームの場合にハーフレートが使用されると、信号変更が使用され、周期性を高め、ピッチインデックスに対するビット数を削減する。もし動作モードが4分の1レートを決定すると、ビット数が不十分であるので、通常波形整合は不可能であり、一般にあるパラメトリック符号化が適用される。開始時音、経過フレームおよび混合音声フレームにはフルレートが使用される(代表的なCELPモードが通常使用される)。CDMAシステムではソース制御コーデック動作に加えて、帯域内信号情報(ディムおよびバースト信号通知と呼ばれる)を送信するためにある通話フレームにおいて、あるいはコーデックの強さを改善するために悪チャネル条件中に(セル境界の近くなど)、システムは最大ビットレートを制限することが出来る。これはハーフレートマックスと言い表される。レート選択モジュールが符号化されるべきフレームをフルレートフレームとして選択し、システムが、例えばHRフレームを決定すると、供されたHRモードは開始時音および経過信号を有効に符号化できないので、通話性能は劣化する。これら特別のケースに対処するために、別の汎用HR符号化モデルが設計される。
幾つかの広帯域通話の電話およびサービスに対してITU−T(国際通信連合−通信標準化部門)により、およびGSMおよびW−CDMA第3世代無線システムに対して3GPP(第3世代連合プロジェクト)により、適応型マルチレート広帯域(AMR−WB)通話コーデックが採用された。AMR−WBコーデックは9つのビットレート、即ち6.60、8.85、12.65、14.25、15.85、18.25、19.85、23.05および23.85kbit/sからなる。CDMAシステムに対するAMR−WBベースのソース制御VBRコーデックを設計することには、CDMAとAMR−WBコーデックを使用する他のシステムとの間の相互動作を可能にする利点がある。12.65kbit/sのAMR−WBビットレートはレートの組IIの13.365kbit/sフルレートに適合することの出来る最も近いレートである。このレートは、CDMA広帯域VBRコーデックとAMR−WB間の共通レートとして使用することが出来、符号変換(通話品質を劣化させる)を必要とすることなく相互動作を可能にする。レートの組IIの構成における有効な動作を可能にするためにはCDMAVBR広帯域ソリューションに対して特に、より低レートの符号化タイプが設計されなければならない。次に、全てのレートを使用する幾つかのCDMA特有のモードでコーデックは動作することが出来るが、コーデックにはAMR−WBコーデックを使用するシステムとの間の相互動作を可能にするモードがあり得る。
CELPに基づくVBR符号化では、非音声および非活動的通話クラスを除き、代表的に全てのクラスがピッチ(あるいは適応型)コードブックおよびイノベーション(あるいは固定)コードブックの両者を使用し、励起信号を表現する。従って、符号化された励起は、ピッチラグ(あるいはピッチコードブックインデックス)、ピッチゲイン、イノベーションコードブックインデックスおよびイノベーションコードブックゲインからなる。代表的には、ビットレートを削減するために、ピッチゲインとイノベーションゲインは関連して量子化され、あるいはベクトル量子化される。もし個別に量子化されると、ピッチゲインは4ビットを要求し、イノベーションコードブックゲインは5あるいは6ビットを要求する。しかしながら、まとめて量子化すると、6あるいは7ビットで十分である(5ms当たり3ビットの節約は0.6kbit/sの節約に等価である)。一般に、量子化テーブルあるいはコードブックは全てのタイプの通話セグメント(例えば、音声、非音声、経過時、開始時音、終了時音など)を使用して訓練される。VBR符号化に関しては、ハーフレート符号化モデルが通常クラスに特有である。それ故、異なる信号クラス(音声、非音声あるいは汎用)に対して、異なるハーフレートモデルが設計される。従って、これらクラス特有の符号化モデルに対して、新しい量子化テーブルが設計される必要がある。
本発明は、符号化中にL個のサンプルからなる連続する複数のフレームによって処理される標本化された音の信号の符号化技術において使用するゲイン量子化方法に関係し、
・ 各フレームは複数のサブフレームに分割され、
・ 各サブフレームは、N<Lなる数Nのサンプルを含み、
・ ゲイン量子化方法は、サブフレームの数fに基づいて一次ピッチゲインを計算するステップ、一次ピッチゲインに関してゲイン量子化コードブックの一部を選択するステップ、fサブフレームの連続するグループ当たりに少なくとも1ビットを使用してゲイン量子化コードブックの選択された部分を特定するステップ、およびピッチゲインと固定コードブックゲインをまとめて量子化するステップを含む。
ピッチゲインと固定コードブックゲインとをまとめて量子化することは、サブフレームの数fに対して検索評価基準に関連してゲイン量子化コードブックを検索するステップを含む。ゲイン量子化コードブックを検索するステップは、コードブック検索をゲイン量子化コードブックの選択された部分に限定するステップ、および検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つけるステップを含む。
・ 各フレームは複数のサブフレームに分割され、
・ 各サブフレームは、N<Lなる数Nのサンプルを含み、
・ ゲイン量子化方法は、サブフレームの数fに基づいて一次ピッチゲインを計算するステップ、一次ピッチゲインに関してゲイン量子化コードブックの一部を選択するステップ、fサブフレームの連続するグループ当たりに少なくとも1ビットを使用してゲイン量子化コードブックの選択された部分を特定するステップ、およびピッチゲインと固定コードブックゲインをまとめて量子化するステップを含む。
ピッチゲインと固定コードブックゲインとをまとめて量子化することは、サブフレームの数fに対して検索評価基準に関連してゲイン量子化コードブックを検索するステップを含む。ゲイン量子化コードブックを検索するステップは、コードブック検索をゲイン量子化コードブックの選択された部分に限定するステップ、および検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つけるステップを含む。
本発明は、また符号化中にLサンプルからなる連続するフレームによって処理される標本化された音の信号符号化システムにおいて使用するゲイン量子化装置に関係し、
・ 各フレームは複数のサブフレームに分割され、
・ 各サブフレームは、N<Lなる数Nのサンプルを含み、
・ ゲイン量子化装置は、サブフレームの数fに基づいて一次ピッチゲインを計算する手段、一次ピッチゲインに関してゲイン量子化コードブックの一部を選択する手段、fサブフレームの連続するグループ当たりに少なくとも1ビットを使用してゲイン量子化コードブックの選択された部分を特定する手段およびピッチゲインと固定コードブックゲインとをまとめて量子化する手段を含む。
ピッチゲインと固定コードブックゲインとをまとめて量子化する手段は、検索評価基準に関連してゲイン量子化コードブックを検索する手段を含む。ゲイン量子化コードブックの検索手段は、サブフレームの数fに対してコードブック検索をゲイン量子化コードブックの選択された部分に限定する手段、および検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つける手段を含む。
・ 各フレームは複数のサブフレームに分割され、
・ 各サブフレームは、N<Lなる数Nのサンプルを含み、
・ ゲイン量子化装置は、サブフレームの数fに基づいて一次ピッチゲインを計算する手段、一次ピッチゲインに関してゲイン量子化コードブックの一部を選択する手段、fサブフレームの連続するグループ当たりに少なくとも1ビットを使用してゲイン量子化コードブックの選択された部分を特定する手段およびピッチゲインと固定コードブックゲインとをまとめて量子化する手段を含む。
ピッチゲインと固定コードブックゲインとをまとめて量子化する手段は、検索評価基準に関連してゲイン量子化コードブックを検索する手段を含む。ゲイン量子化コードブックの検索手段は、サブフレームの数fに対してコードブック検索をゲイン量子化コードブックの選択された部分に限定する手段、および検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つける手段を含む。
本発明は、さらに符号化中にLサンプルからなる連続するフレームによって処理される標本化された音の信号の符号化技術において使用するゲイン量子化装置に関係し、
・ 各フレームは複数のサブフレームに分割され、
・ 各サブフレームは、N<Lなる数Nのサンプルを含み、
・ ゲイン量子化装置は、サブフレームの数fに基づいて一次ピッチゲインを計算する計算器、一次ピッチゲインに関するゲイン量子化コードブックの一部を選択する選択器、fサブフレームの連続するグループ当たりに少なくとも1ビットを使用して、ゲイン量子化コードブックの選択された部分を特定する特定器、およびピッチゲインと固定コードブックゲインとをまとめて量子化するベクトル量子化器を含む。
このベクトル量子化器は、検索評価基準に関連してゲイン量子化コードブックの選択された部分を検索する検索器を含み、この検索器は、コードブック検索をゲイン量子化コードブックの選択された部分に限定し、検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つける。
・ 各フレームは複数のサブフレームに分割され、
・ 各サブフレームは、N<Lなる数Nのサンプルを含み、
・ ゲイン量子化装置は、サブフレームの数fに基づいて一次ピッチゲインを計算する計算器、一次ピッチゲインに関するゲイン量子化コードブックの一部を選択する選択器、fサブフレームの連続するグループ当たりに少なくとも1ビットを使用して、ゲイン量子化コードブックの選択された部分を特定する特定器、およびピッチゲインと固定コードブックゲインとをまとめて量子化するベクトル量子化器を含む。
このベクトル量子化器は、検索評価基準に関連してゲイン量子化コードブックの選択された部分を検索する検索器を含み、この検索器は、コードブック検索をゲイン量子化コードブックの選択された部分に限定し、検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つける。
さらに本発明は、符号化中にLサンプルからなる連続するフレームによって処理される標本化された音の信号の符号化技術において使用するゲイン量子化方法に関係し、各フレームは複数のサブフレームに分割され、各サブフレームは、N<Lなる数Nのサンプルを含む。このゲイン量子化方法は、
サブフレームより長い期間Kに基づいて一次ピッチゲインを計算するステップ、
一次ピッチゲインに関してゲイン量子化コードブックの一部を選択するステップ、
fサブフレームの連続するグループ当たりに少なくとも1ビットを使用してゲイン量子化コードブックの選択された部分を特定するステップおよび
ピッチゲインと固定コードブックゲインをまとめて量子化するステップ
を含む。
サブフレームより長い期間Kに基づいて一次ピッチゲインを計算するステップ、
一次ピッチゲインに関してゲイン量子化コードブックの一部を選択するステップ、
fサブフレームの連続するグループ当たりに少なくとも1ビットを使用してゲイン量子化コードブックの選択された部分を特定するステップおよび
ピッチゲインと固定コードブックゲインをまとめて量子化するステップ
を含む。
ただし、ピッチゲインと固定コードブックゲインをまとめて量子化するステップは、
・ 検索評価基準に関連してゲイン量子化コードブックを検索すること、ただしコードブック検索をゲイン量子化コードブックの選択された部分に限定することと、検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つけることとを含む、前記検索することと、
・ 次式を使用してサブフレームより長い期間Kに基づいて一次ピッチゲインを計算することと、
を含む。
ここで、TOLは開ループのピッチラグであり、sw(n)は標本化された音の信号を知覚的に重み付けしたものから導出された信号である。
・ 検索評価基準に関連してゲイン量子化コードブックを検索すること、ただしコードブック検索をゲイン量子化コードブックの選択された部分に限定することと、検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つけることとを含む、前記検索することと、
・ 次式を使用してサブフレームより長い期間Kに基づいて一次ピッチゲインを計算することと、
を含む。
最後に、本発明は、符号化中にLサンプルからなる連続するフレームによって処理される標本化された音の信号の符号化技術において使用するゲイン量子化装置に関係し、各フレームは複数のサブフレームに分割され、各サブフレームは、N<Lなる数Nのサンプルを含む。上記ゲイン量子化装置は、
サブフレームより長い期間Kに基づく一次ピッチゲインの計算器、
一次ピッチゲインに関するゲイン量子化コードブックの一部の選択器、
fサブフレームの連続するグループ当たりに少なくとも1ビットを使用するゲイン量子化コードブックの選択された部分の特定器、および、
ピッチゲインと固定コードブックゲインをまとめて量子化するベクトル量子化器
を備える。
サブフレームより長い期間Kに基づく一次ピッチゲインの計算器、
一次ピッチゲインに関するゲイン量子化コードブックの一部の選択器、
fサブフレームの連続するグループ当たりに少なくとも1ビットを使用するゲイン量子化コードブックの選択された部分の特定器、および、
ピッチゲインと固定コードブックゲインをまとめて量子化するベクトル量子化器
を備える。
このベクトル量子化器は、
・ 検索評価基準に関連するゲイン量子化コードブックの選択された部分を検索する検索器であって、コードブック検索をゲイン量子化コードブックの選択された部分に限定し、検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つける、検索器と、
・ 一次ピッチゲインg'pを計算するために使用される次式を含む一次ピッチゲインの計算器と、
を含む。
ここで、TOLは開ループのピッチラグであり、sw(n)は音の信号を知覚的に重み付けしたものから導出された信号である。
・ 検索評価基準に関連するゲイン量子化コードブックの選択された部分を検索する検索器であって、コードブック検索をゲイン量子化コードブックの選択された部分に限定し、検索評価基準を最も良く満たすゲイン量子化コードブックの選択された部分のインデックスを見つける、検索器と、
・ 一次ピッチゲインg'pを計算するために使用される次式を含む一次ピッチゲインの計算器と、
を含む。
添付する図面を参照して例としてのみ与えられる本発明の実施例に関する以下の非限定的説明を読めば、本発明の前記および他の目的、利点および特徴はより明らかになる。
本発明の非限定的実施例を通話信号に関連して説明するが、本発明は、例えばオーディオ信号など他のタイプの音の信号にも適用されうることに留意すべきである。
図1は、本発明に従う通話符号化装置および復号装置が使用される状況を示す通話通信システム100を説明する。通話通信システム100は、通信チャネル105を介する通話信号の伝送および再生をサポートする。通信チャネルは、例えば線路、光あるいはファイバリンクを含むが、通信チャネル105は、代表的には少なくとも一部無線周波数リンクを含む。屡々、無線周波数リンクは、セル電話の実施例に見られる様な共有帯域幅リソースを要求する複数の、同時通話通信をサポートする。図示されないが、通信チャネル105は、後の再生のために符号化された通話信号を記録し、蓄積する通信システムの単一装置の実施形態における蓄積ユニットにより置き換えられることが出来る。
送信機側では、マイクロフォン101が通話をアナログ通話信号110に変換し、アナログ通話信号110はアナログからディジタル(A/D)へのコンバータ102に供給される。A/Dコンバータ102の機能は、アナログ通話信号110をディジタル通話信号111に変換することである。通話エンコーダ103はディジタル通話信号111を符号化し、バイナリ形式で、任意選択のチャネルエンコーダ104に供給すされる、1組の信号符号化パラメータ112を生成する。任意選択のチャネルエンコーダ104は信号符号化パラメータ112のバイナリ表現に冗長性を加えた後、パラメータを通信チャネル105を介して送信する(113参照)。
受信機側では、チャネルデコーダ106は受信ビットストリーム114の冗長情報を利用して、伝送中に生じたチャネル誤りを検出し、訂正する。通話デコーダ107は、合成音声信号116の創成のためにチャネルデコーダから受信したビットストリーム115を1組の信号符号化パラメータに逆変換する。通話デコーダ107において再構成された合成音声信号116は、ディジタルからアナログ(D/A)へのコンバータ108においてアナログ通話信号117に逆変換される。最後に、アナログ通話信号117は、拡声器ユニット109を通して再生される。
〔AMR−WBエンコーダの概要〕
〔AMR−WBエンコーダの概要〕
この節では、12.65kbit/sのビットレートで動作するAMR−WBエンコーダの概要を述べる。本発明の非限定的、実施例では、このAMR−WBエンコーダはフルレートエンコーダとして使用される。
エンコーダへの入力である、標本化された音の信号212,例えば通話信号は、201から211の番号を付された11のモジュールに細分化される図2のエンコーダ200により、ブロック毎に処理あるいは符号化される。
エンコーダへの入力である、標本化された通話信号212は、上述の連続するブロックへと処理される。各ブロックは、フレームと呼ばれるL個のサンプルからなる。
図2を参照すると、入力である、標本化された通話信号112は、ダウンサンプリング器201においてダウンサンプリングされる。この技術に通常の知識を有する人によく知られた技術を使用して、入力通話信号212は、16kHzの標本化周波数から12.8kHzの標本化周波数にダウンサンプリングされる。より狭い周波数帯域幅が符号化されるので、ダウンサンプリングにより符号化効率が増大する。フレーム内のサンプル数が減少するので、ダウンサンプリングはまた、アルゴリズムの複雑さを低減する。ダウンサンプリングの後、320個のサンプルを含む20msのフレームは、256個のサンプルを含むフレーム(符号213)へと小さくなる(4/5のダウンサンプリング率)。
ダウンサンプリングフレーム213は、次いでオプションの前処理ユニットに供給される。図2の非限定的実施例では、前処理ユニットは50Hzのカットオフ周波数を持つ高域通過フィルタ202からなる。この高域通過フィルタ202は50H以下の不要の音要素を除去する。
ダウンサンプリング及び前処理された信号はsp(n)で示され、n=0、1、2、...、L−1であり、Lはフレームの長さ(12.8kHzの標本化周波数の時256)である。非限定的実施例によれば、以下の伝達関数を有するプリエンファシスフィルタ203を使用して、信号sp(n)は事前強調される。
P(z)=1−μz−1 (1)
ここで、μは0から1の間の値(代表値はμ=0.7)を有するプリエンファシスファクタである。プリエンファシスフィルタ203の機能は入力通話信号の高周波数成分を強めることである。プリエンファシスフィルタ203は、また入力通話信号のダイナミックレンジを狭くすることにより、固定小数点実装により良く適合するようにする。プリエンファシスは、また量子化誤差の適切な総合的知覚的重み付けを達成するのに重要な役割を果たし、音の品質の改善に貢献する。これについては、以下でより詳しく説明する。
P(z)=1−μz−1 (1)
ここで、μは0から1の間の値(代表値はμ=0.7)を有するプリエンファシスファクタである。プリエンファシスフィルタ203の機能は入力通話信号の高周波数成分を強めることである。プリエンファシスフィルタ203は、また入力通話信号のダイナミックレンジを狭くすることにより、固定小数点実装により良く適合するようにする。プリエンファシスは、また量子化誤差の適切な総合的知覚的重み付けを達成するのに重要な役割を果たし、音の品質の改善に貢献する。これについては、以下でより詳しく説明する。
プリエンファシスフィルタ203の出力信号はs(n)で示される。この信号s(n)は、LP分析、量子化および補間モジュール204におけるLP分析の実行に使用される。LP分析はこの技術の通常の知識を有する人によく知られた技術である。図2の非限定的実施例では、自己相関法が使用される。自己相関法によれば、典型的に、通常30−40msのオーダの長さを持つハミング(Hamming)窓を使用して、信号s(n)を窓掛けする。自己相関は窓掛けされた信号から計算され、レビンソン−ダービン(Levinson-Durbin)回帰を使用して、LPフィルタの係数αiを計算する。ただしi=0,1,2,...pであり、pはLPのオーダであり、広帯域符号化では代表的に16である。パラメータαiはLPフィルタの伝達関数の係数であり、次式で与えられる。
LP分析は、LPフィルタの係数の量子化および補間(Interpolation)をも行う、LP分析、量子化および補間モジュール204において行われる。LPフィルタの係数αiは、まず量子化および補間の目的により良く適する別の等価領域に変換される。線スペクトルペア(Line Spectral Pair;LSP)およびイミッタンススペクトルペア(Immitance Spectral Pair;ISP)の領域は、量子化と補間が有効に行われうる2つの領域である。分割あるいはマルチステージ量子化あるいは前記の組み合わせを使用して、16のLPフィルタ係数αiは、30から50のオーダのビット数により量子化されうる。補間の目的は、フレーム毎に1度LPフィルタ係数を送信する一方、サブフレーム毎にLPフィルタ係数αiの更新を可能にすることであり、これによりビットレートを増すことなくエンコーダ性能を改良させる。LPフィルタ係数の量子化および補間は、その他の点ではこの技術に通常の知識を有する人にはよく知られているものと信じられ、従って本明細書ではこれ以上説明しない。
以下の数節で、サブフレームベースで行われる符号化動作の残りを説明する。図2の非限定的実施例では、入力フレームは5msの4つのサブフレーム(12.8kHzサンプリングの場合は64サンプル)に分割される。以下の説明では、フィルタ
は、サブフレームの量子化されていない補間LPフィルタを示し、フィルタ
はサブフレームの量子化された補間LPフィルタを示す。
は、サブフレームの量子化されていない補間LPフィルタを示し、フィルタ
はサブフレームの量子化された補間LPフィルタを示す。
分析−合成型のエンコーダにおいて、最適なピッチとイノベーションパラメータは、知覚的に重み付けされた領域における入力通話と合成音声間の平均二乗誤差を最小にすることにより検索される。図2で、sw(n)で示す、知覚的重み付け信号は、知覚的重み付けフィルタ205において計算される。広帯域信号に適する、固定分母を持つ知覚的重み付けフィルタ205が使用される。知覚的重み付けフィルタ205の伝達関数の例は次式で与えられる。
W(z)=A(z/γ1)/(1−γ2z−1) ここで、0<γ2<γ1≦1
W(z)=A(z/γ1)/(1−γ2z−1) ここで、0<γ2<γ1≦1
ピッチ解析を簡単にするために、重み付けがされた通話信号sw(n)を使用して、開ループピッチラグTOLが、まず開ループピッチ検索モジュール206において評価される。次いで、閉ループピッチ検索モジュール207においてサブフレームベースで行われる、閉ループピッチ分析は、開ループピッチラグTOLの周りに限定されるが、それによって、LTPパラメータのTおよびgp(それぞれピッチラグおよびピッチゲイン)の検索の複雑さが相当に減少する。この技術に通常の知識を有する人にはよく知られている技術を使用して、開ループピッチ分析は、通常モジュール206において10ms毎に1度行われる。
長期予測(Long Term Prediction;LTP)分析のための目標ベクトルxがまず計算される。これは、重み付けされた通話信号sw(n)から、重み付けされた合成フィルタ
の零入力応答s0を減算して行われる。この零入力応答s0は、LP分析、量子化および補間モジュール204からの量子化された補間LPフィルタ
、
LPフィルタ
、
および
に対応してメモリ更新モジュール211に蓄積された、重み付けされた合成フィルタ
の初期状態および励起ベクトルuに応じて、零入力応答計算器208により計算される。この動作は、この技術に通常の知識を有する人にはよく知られており、従って本明細書ではこれ以上説明しない。
の零入力応答s0を減算して行われる。この零入力応答s0は、LP分析、量子化および補間モジュール204からの量子化された補間LPフィルタ
、
LPフィルタ
、
および
に対応してメモリ更新モジュール211に蓄積された、重み付けされた合成フィルタ
の初期状態および励起ベクトルuに応じて、零入力応答計算器208により計算される。この動作は、この技術に通常の知識を有する人にはよく知られており、従って本明細書ではこれ以上説明しない。
LP分析、量子化および補間モジュール204からのLPフィルタ
および
の係数を使用して、重み付けされた合成フィルタ
のN次元インパルス応答ベクトルhが、インパルス応答生成器209において計算される。この動作も、この技術に通常の知識を有する人にはよく知られており、従って本明細書ではこれ以上説明しない。
および
の係数を使用して、重み付けされた合成フィルタ
のN次元インパルス応答ベクトルhが、インパルス応答生成器209において計算される。この動作も、この技術に通常の知識を有する人にはよく知られており、従って本明細書ではこれ以上説明しない。
目標ベクトルx(n)、インパルス応答ベクトルh(n)および開ループピッチラグTOLを入力として使用する閉ループピッチ検索モジュール207において、閉ループピッチ(あるいはピッチコードブック)パラメータgp、Tおよびjが計算される。
ピッチ検索は、目標ベクトルx(n)と過去の励起gpyT(n)を評価、フィルタリングしたものとの間の平均二乗加重ピッチ予測誤差、例えば
より明確には、ピッチコードブック(適応型コードブック)の検索は3つのステージから構成される。
第1ステージでは、開ループピッチ検索モジュール206において、開ループピッチラグTOLが加重通話信号sw(n)に応じて評価される。前述のように当業者によく知られた技術を使用して、この開ループピッチ分析は、通常10ms(2サブフレーム)ごとに1度行われる。
第2ステージでは、評価開ループピッチラグTOLの周りの整数ピッチラグに対して(通常±5)、検索評価基準Cが閉ループピッチ検索モジュール207において検索されるが、これは、ピッチコードブックの検索手順を著しく簡単にする。各ピッチラグに対する畳み込みを計算する必要なく、フィルタリングした符号ベクトルyT(n)(このベクトルは以下の説明で定義される)の更新に簡単な手順が使用される。検索評価基準Cの例は次式により与えられる。
第2ステージで最適の整数ピッチラグが一度検出されると、検索の第3ステージ(閉ループピッチ検索モジュール207)は、検索評価基準Cによりその最適整数ピッチラグの周りの端数を試験する。例えば、AMR−WBエンコーダは1/4および1/2サブサンプル分解度を使用する。
広帯域信号では、通話セグメントに応じてある周波数まで高調波構造が存在するに過ぎない。従って、広帯域通話信号の音声セグメントにおけるピッチ寄与度の有効な表現を行うために、広帯域スペクトラムに対する周期性の程度を変更する柔軟性が要求される。これは、複数の周波数整形フィルタ(例えば、低域通過あるいは帯域通過フィルタ)によりピッチ符号ベクトルを処理することにより達成され、以上に定義した平均二乗加重誤差e(j)を最小にする周波数整形フィルタが選択される。選択された周波数整形フィルタはインデックスjにより特定される。
ピッチコードブックインデックスTは符号化され、通信チャネルを通して伝送されるためにマルチプレクサ214に送られる。ピッチゲインgpは量子化され、マルチプレクサ214に送られる。特別のビットを使用してインデックスjを符号化し、この特別のビットもマルチプレクサ214に送られる。
ピッチ、あるいは長期予測(LTP)パラメータgp、Tおよびjが一度決定すると、次のステップは、図2のイノベーション励起検索モジュール210による最適なイノベーション(固定コードブック)励起の検索からなる。まず、目標ベクトルx(n)がLTPの寄与を差し引いて更新される。
x'(n)=x(n)−gpyT(n)
ここで、gpはピッチゲインであり、yT(n)はフィルタリングされたピッチコードブックベクトルである(選択された周波数整形フィルタ(インデックスj)によりフィルタリングされ、インパルス応答h(n)と畳み込みがされた、ピッチラグTにおける過去の励起)。
x'(n)=x(n)−gpyT(n)
ここで、gpはピッチゲインであり、yT(n)はフィルタリングされたピッチコードブックベクトルである(選択された周波数整形フィルタ(インデックスj)によりフィルタリングされ、インパルス応答h(n)と畳み込みがされた、ピッチラグTにおける過去の励起)。
目標ベクトルx'(n)と符号ベクトルckの評価、フィルタリングされたものとの間の平均二乗誤差E、例えば次式を最小にする最適励起(固定コードブック)符号ベクトルckおよびゲインgcを見つけるために、CELPにおけるイノベーション励起検索手順がイノベーション(固定)コードブックにおいて実行される。
使用したイノベーションコードブックが、1995年8月22日にアドゥール(Adoul)他に与えられた米国特許5、444、816に従い、合成音声の品質を改善するために所与のスペクトル成分を高める適応型予備フィルタを伴う代数コードブックからなる、動的コードブックであり得ることに留意すべきである。より明確には、1995年8月22日に公開された米国特許番号第5、444、816(アドゥール(Adoul)他)、1997年12月17日にアドゥール(Adoul)他に与えられた米国特許第5、699、482、1998年5月19日にアドゥール(Adoul)他に与えられた米国特許第5、754、976および1997年12月23日付けの第5、701、392(アドゥール(Adoul)他)において述べられているように代数コードブックにより、イノベーションコードブック検索がモジュール210において実行されうる。
最適イノベーション符号ベクトルのインデックスkは送信される。非限定的実施例として代数コードブックが使用され、ここでインデックスは励起ベクトルにおける振幅が零でないパルスの位置と符号からなる。以下の説明において記述する同時量子化(Joint quantization)手続を使用して、ピッチゲインgpおよびイノベーションゲインgcが最終的に量子化される。
12.65kbit/sで動作するAMR−WBエンコーダのビット配置は表1において与えられる。
ゲインの同時量子化(Joint quantization)
ピッチコードブックゲインgpおよびイノベーションコードブックゲインgcはスカラー型あるいはベクトル型のいずれかで量子化されうる。
ピッチコードブックゲインgpおよびイノベーションコードブックゲインgcはスカラー型あるいはベクトル型のいずれかで量子化されうる。
スカラー量子化では、代表的には4ビット(0から1.2の範囲の一様でない量子化)を使用して、ピッチゲインは独立に量子化される。イノベーションコードブックゲインは、通常5あるいは6ビットを使用して量子化される。符号は1ビットを用いて量子化され、大きさ(magnitude)は4あるいは5ビットを用いる。ゲインの大きさは、通常対数領域において一様に量子化される。
同時量子化、あるいはベクトル量子化では、量子化テーブルあるいはゲイン量子化コードブックが設計され、エンコーダおよびデコーダ端末の両方に格納される。このコードブックは、2つのゲインgpおよびgcの量子化に使用されるビット数に依存するサイズを有する、2次元コードブックであり得る。例えば、2つのゲインgpおよびgcの量子化に使用される7ビットコードブックは2つの次元を有する128のエントリを含む。あるサブフレームにとって最良のエントリは、ある誤差評価基準を最小にすることにより見出される。例えば、入力信号と合成信号間の平均二乗誤差を最小にすることにより、最良コードブックエントリが検索されうる。
さらに信号相関を利用するために、イノベーションコードブックゲインgcについて予測が行なわれうる。代表的には、予測は対数領域において評価されたイノベーションコードブックエネルギーに関して行われる。
例えば、固定係数を持つ移動平均(MA)予測を使用して、予測が行われうる。例えば、4次オーダのMA予測は、以下のようにイノベーションコードブックエネルギーに関して行われる。E(n)がサブフレームnにおける平均を除去したイノベーションコードブックエネルギー(dB)であり、次式で与えられるものとする。
ただし、
Nはサブフレームのサイズ、
c(i)はイノベーションコードブック励起、
はイノベーションコードブックエネルギーの平均(dB)である。この非限定的実施例では、12.8kbit/sの標本化周波数における5msに対応してN=64および
である。イノベーションコードブック予測エネルギーは次式で与えられる。
Nはサブフレームのサイズ、
c(i)はイノベーションコードブック励起、
はイノベーションコードブックエネルギーの平均(dB)である。この非限定的実施例では、12.8kbit/sの標本化周波数における5msに対応してN=64および
である。イノベーションコードブック予測エネルギーは次式で与えられる。
ここで、[b1、b2、b3、b4]=[0.5、0.4、0.3、0.2]はMA予測係数であり、
はサブフレームn−iにおける量子化エネルギー予測誤差である。イノベーションコードブック予測エネルギーを使用して、式(3)におけるように、E(n)を
により置き換え、gcをg'cにより置き換えて、予測イノベーションゲインg'cを計算する。これは以下のように行われる。まず、次式を使用して、平均イノベーションコードブックエネルギーが計算される。
はサブフレームn−iにおける量子化エネルギー予測誤差である。イノベーションコードブック予測エネルギーを使用して、式(3)におけるように、E(n)を
により置き換え、gcをg'cにより置き換えて、予測イノベーションゲインg'cを計算する。これは以下のように行われる。まず、次式を使用して、平均イノベーションコードブックエネルギーが計算される。
入力通話信号212の処理中に計算されるようにゲインgcと評価、予測されたゲインg'cとの間の相関ファクタは次式により与えられる。
γ=gc/g'c (7)
γ=gc/g'c (7)
エネルギー予測誤差が次式により与えられることに注意されたい。
8.85kbit/sおよび6.60kbit/sのAMR−WBレートの場合は6ビットコードブック、他のAMR−WBレートの場合は7ビットコードブックを使用して、ピッチゲインgpおよび相関ファクタγがまとめてベクトル量子化される。次式で与えられる、元の通話と再構成された通話間の重み付けされた誤差の平均二乗を最小化することにより、ゲイン量子化コードブックの検索が行われる。
E=xtx+gp 2yty+gc 2ztz−2gpxty−2gcxtz+2gpgcytz (9)
ここで、xは目標ベクトルであり、yはフィルタリングされたピッチコードブック信号(信号y(n)は、通常ピッチコードブックベクトルと加重合成フィルタのインパルス応答h(n)との畳み込みとして計算される)であり、zは加重合成フィルタによりフィルタリングされたイノベーションコードブックベクトルであり、tは「転置」を示す。選択されたゲインと関連した量子化エネルギー予測誤差を使用してR(n)を更新する。
〔可変レート符号化におけるゲイン量子化〕
E=xtx+gp 2yty+gc 2ztz−2gpxty−2gcxtz+2gpgcytz (9)
ここで、xは目標ベクトルであり、yはフィルタリングされたピッチコードブック信号(信号y(n)は、通常ピッチコードブックベクトルと加重合成フィルタのインパルス応答h(n)との畳み込みとして計算される)であり、zは加重合成フィルタによりフィルタリングされたイノベーションコードブックベクトルであり、tは「転置」を示す。選択されたゲインと関連した量子化エネルギー予測誤差を使用してR(n)を更新する。
〔可変レート符号化におけるゲイン量子化〕
ソース制御VBR通話符号化の使用により、多くの通信システム、特にCDMA技術を使用する無線システムの能力は著しく改善される。ソース制御VBR符号化では、コーデックは幾つかのビットレートで動作し、レート選択モジュールを使用して、通話フレームの性質、例えば音声、非音声、経過音、背景雑音などに基づいて各通話フレームを符号化するのに使用すべきビットレートを決定する。目的は所与の平均ビットレートにおいて最良の通話品質を得ることである。レート選択モジュールを調節して、種々の平均データレート(ADRs)を達成することにより、コーデックは異なるモードにおいて動作することが出来、ADRsが増大すると、コーデックの性能が改善される。幾つかの通信システムではチャネル条件に応じて、動作モードはシステムにより決定されうる。これは、通話品質とシステム容量とのトレードオフの機構をコーデックに提供する。そしてコーデックは、信号分類アルゴリズムを備え、入力通話信号を分析し、各通話フレームを予め決められたクラスの組みの1つ、例えば背景雑音、音声、非音声、混合音声、経過音などに分類する。また、コーデックはレート選択アルゴリズムを含み、決定された通話フレームのクラスと所望の平均ビットレートに基づいて使用すべきビットレートと符号化モデルを決定する。
CDMA2000システム(以下、このシステムはCDMAシステムと言い表される)における使用例を考えると、代表的には4つのビットレートが使用され、それぞれフルレート(FR)、ハーフレート(HR)、4分の1レート(QR)および8分の1レート(ER)と言い表される。また、レートの組Iおよびレートの組IIと言い表される2つのレートの組がCDMAシステムによりサポートされる。レートの組IIでは、レート選択機構を有する可変レートコーデックは、13.3(FR)、6.2(HR)、2.7(QR)および1.0(ER)kbit/sのソース符号化ビットレートで動作する。レートの組Iでは、ソース符号化ビットレートは8.55(FR)、4.0(HR)、2.0(QR)および0.8(ER)kbit/sである。本発明の非限定的実施例では、レートの組IIが考慮される。
マルチモードVBR符号化では、個々のビットレートの使用率を定義することにより、異なる平均ビットレートに対応して異なる動作モードが得られる。従って、レート選択アルゴリズムは、通話フレームの性質(分類情報)と所望の平均ビットレートに基づいて、ある通話フレームに使用すべきビットレートを決定する。
帯域内信号情報(ディムおよびバースト信号と呼ばれる)を送信するため、あるいは(セル境界の近くなどの)悪チャネル条件におけるコーデックのロバスト性を改善するために、CDMAシステムは、動作モードの強制に加えて、ある通話フレームの最大ビットレートを制限することが出来る。
本発明の非限定的実施形態では、CDMA2000システムのレートの組IIにおいて動作することの出来る、ソース制御マルチモード可変ビットレート符号化システムが使用される。以下の説明では、この符号化システムはVMR−WB(可変マルチレート広帯域)コーデックと言い表される。上記の説明で記述したように、このコーデックは適応型マルチレート広帯域(AMR−WB)通話コーデックをベースとする。フルレート(FR)符号化は12.65kbit/sのAMR−WBをベースとする。静的な音声フレームに対して、音声HR符号化モデルが設計される。非音声フレームに対して、非音声HRおよび非音声QR符号化モデルが設計される。背景雑音フレーム(非活動的通話)に対しては、ERコンフォート雑音生成器(CNG)が設計される。レート選択アルゴリズムは特定のフレームにFRモデルを選択するが、通信システムが信号通知の目的にHRの使用を決定すると、その時は音声HRも非音声HRもフレームの符号化には適さない。この目的には、汎用HRモデルが設計された。また、汎用HRモデルは音声あるいは非音声として分類されないが、知覚上の重要性は低いので、長期平均エネルギーに関して比較的低いエネルギーを有するフレームの符号化に使用することが出来る。
上記のシステムに対する符号化方法は表2にまとめられ、一般に符号化タイプと言い表される。一般性を失うことなく、他の符号化タイプを使用することが出来る。
この技術に通常の知識を有する人によく知られた訓練手順を使用して、例えば音声、非音声、経過音、開始時音、終了時音などの全てのクラスの信号に対して、FR符号化タイプに対するゲイン量子化コードブックが設計される。VBR符号化に関して、音声および汎用HR符号化タイプは共にピッチコードブックおよびイノベーションコードブックを使用して、励起信号を形成する。従ってFR符号化タイプに類似して、ピッチおよびイノベーションゲイン(ピッチコードブックゲインおよびイノベーションコードブックゲイン)は量子化される必要がある。しかしながら低いビットレートでは、新しいコードブックの設計を必要とする量子化ビット数を削減するのは有利である。さらに音声HRに対して、このクラスに特有の符号化タイプのために新しい量子化コードブックが要求される。それ故に、本発明の非限定的実施例では、低いレートの符号化タイプにおいても、新しい量子化コードブックの設計を必要とすることなく、ゲイン量子化におけるビット数の削減を可能にする、VBR CELP符号化ベースのゲイン量子化を提供する。特に、汎用FR符号化タイプに設計されたコードブックの一部が使用される。ゲイン量子化コードブックはピッチゲイン値に基づいて順序づけされる。長い期間、例えば2サブフレームあるいはそれ以上に亘って計算された一次ピッチゲイン値をベースに、あるいは1ピッチ期間あるいはそれ以上に亘るピッチ同期法において、量子化に使用されるコードブックの部分が決定される。コードブックの部分に関する情報はサブフレームベースでは送信されないので、これによりビットレートの削減が結果として得られる。さらにフレーム内におけるゲイン変動が削減されるので、静的な音声フレームの場合、これにより品質の改善が結果として得られる。
サブフレームにおける量子化されていないピッチゲインは以下のように計算される。
ここで、x(n)は目標信号、y(n)はフィルタリングピッチコードブックベクトル、Nはサブフレームのサイズ(サブフレームにおけるサンプル数)である。信号y(n)は、通常ピッチコードブックベクトルと、重み付けされた合成フィルタのインパルス応答h(n)との畳み込みとして計算される。CELPベースの符号化における目的ベクトルとフィルタリングされたピッチコードブックベクトルの計算は、この技術に通常の知識を有する人によく知られている。参考文献、「適応型マルチレート広帯域(AMR−WB)を使用する約16kbit/sの通話の広帯域符号化(Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR−WB))、ITU-T勧告G.722.2,ジュネーブ、2002年」および「AMR広帯域通話コーデック;符号変換機能(AMR Wideband Speech Codec; Transcoding Functions)、3GPP TS 26.190,3GPP技術仕様書」に、この計算の例が記述されている。チャネル誤差の場合の不安定性の可能性を減らすために、計算されるピッチゲインは0と1.2の間の範囲に限定される。
第1の非限定的実施例では、フレームの4つのサブフレームのうち1番目のサブフレームの符号化を行う間に、一次ピッチゲインgiが、式(10)を用いて、同じフレームの最初の2つのサブフレームに基づいて、つまり2Nの長さ(サブフレーム2つ)によって計算される。
次いで、目標信号x(n)とフィルタリングピッチコードブック信号y(n)の計算が、やはり2つのサブフレーム、例えばフレームの1番目と2番目のサブフレームの期間に亘って行われる。サブフレーム1つより長い期間に亘る目標信号x(n)の計算は、重み付けされた通話信号s w (n)と零入力応答s 0 の計算期間を延長するが、最初の2つのサブフレームの最初のサブフレームにおけるLPフィルタを、延長された全ての期間に対して使用することにより、行われる。目標信号x(n)は、重み付けされた合成フィルタ
の零入力応答s0を差し引いた、重み付けされた通話信号sw(n)として計算される。
同様に、重み付けされたピッチコードブック信号y(n)の計算は、ピッチコードブックベクトルv(n)と、第1のサブフレームの重み付けされた合成フィルタ
のインパルス応答h(n)の計算を、サブフレームの長さより長い期間に延長することにより行われる。重み付けされたピッチコードブック信号は、ピッチコードブックベクトルv(n)とインパルス応答h(n)との畳み込みであり、この場合の畳み込みは長い期間に亘って計算される。
の零入力応答s0を差し引いた、重み付けされた通話信号sw(n)として計算される。
同様に、重み付けされたピッチコードブック信号y(n)の計算は、ピッチコードブックベクトルv(n)と、第1のサブフレームの重み付けされた合成フィルタ
のインパルス応答h(n)の計算を、サブフレームの長さより長い期間に延長することにより行われる。重み付けされたピッチコードブック信号は、ピッチコードブックベクトルv(n)とインパルス応答h(n)との畳み込みであり、この場合の畳み込みは長い期間に亘って計算される。
2つのサブフレームに亘って一次ピッチゲインgiを計算した後は、最初の2つのサブフレームのHR(ハーフレート)符号化中において、ピッチゲインgpとイノベーションゲインgcのベクトル量子化は、フルレート(FR)におけるゲイン量子化に使用されるコードブックの一部に限定される。ただしその部分は、2つのサブフレームに亘って計算された一次ピッチゲイン値によって決定される。第1の非限定的実施例において、FR(フルレート)符号化タイプでは、以前に説明した量子化手順に従い、7ビットを使用して、ゲインgpとgcがまとめて量子化される。MA予測を対数領域におけるイノベーション励起エネルギーに適用して、予測イノベーションコードブックゲインを得、相関ファクタγが量子化される。FR(フルレート)符号化タイプにおいて使用される量子化テーブルの内容は表3に示される(AMR−WB「適応型マルチレート広帯域(AMR−WB)を使用する約16kbit/sの通話の広帯域符号化(Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB))、ITU-T勧告G.722.2,ジュネーブ、2002年」および「AMR広帯域通話コーデック;符号変換機能(AMR Wideband Speech Codec; Transcoding Functions)、3GPP TS 26.190、3GPP技術仕様書」において使用されるように)。第1の非限定的実施例では、表3(量子化テーブルあるいはコードブック)の検索を、2つのサブフレームに亘って計算された一次ピッチゲイン値giに従って、この量子化テーブルの第1あるいは第2の半分のいずれかに限定して、2つのサブフレームのゲインgpとgcの量子化が行われる。もし一次ピッチゲイン値giが0.768606より小さければ、最初の2つのサブフレームの量子化は、表3(量子化テーブルあるいはコードブック)の最初の半分に限定される。そうでなければ、量子化は、表3の第2の半分に限定される。0.768606のピッチ値は、量子化テーブルの第2の半分の始め(表3の第5列の始め)の量子化ピッチゲイン値gpに対応する。量子化に使用される量子化テーブルあるいはコードブックの部分を示すために、2つのサブフレーム毎に1ビットが必要とされる。
3番目及び4番目のサブフレームに対して、類似のゲイン量子化手順が行われることに注意すべきである。即ち、一次ゲインgiが3番目と4番目のサブフレームに対して計算され、次の量子化手順において使用されるゲイン量子化表3(ゲイン量子化コードブック)の部分は、この一次ピッチゲイン値giをベースに決定される。最後に、2つのゲインgpとgcのベクトル量子化は、決定されたコードブック部分に限定され、使用される部分を指示するべく1ビットが送信される。各コードブック部分がゲイン量子化コードブックの半分に対応するとき、テーブルあるいはコードブック部分の指示に1ビットが必要とされる。
図3および図4は本発明による方法と装置の上述の第1の実施例をまとめた概要フローチャートおよびブロック図である。
図3のステップ301は、2つのサブフレームに亘る一次ピッチゲインgiを計算するステップからなる。ステップ301は図4に示すように計算器401により実行される。
ステップ302は、例えば7ビットベクトルゲイン量子化コードブックにおいて一次ピッチゲインgiに最も近いピッチゲインに関連する一次インデックスを見つけるステップからなる。ステップ302は検索ユニット402により実行される。
ステップ303は、ステップ302において決定された一次インデックスを含む量子化コードブックの部分(例えば半分)を選択するステップからなり、2つのフレーム当たりに少なくとも1ビットを使用して、選択されたコードブック部分(例えば半分)を特定する。ステップ303は選択器403および特定器404により実行される。
ステップ304は、2つのフレームついての、テーブルあるいはコードブック検索を、選択されたコードブック部分(例えば半分)に限定するステップ、および、選択されたインデックスを、例えばサブフレーム当たり6ビットにより表現するステップからなる。ステップ304は検索器405および量子化器406により実行される。
上述の第1の実施例では、FR(フルレート)符号化においては、サブフレーム当たり7ビットを使用して、ゲインgpおよびgcを量子化し、フレーム当たり28ビットとなる。HR(ハーフレート)音声および汎用符号化では、FR(フルレート)符号化と同じ量子化コードブックが使用される。しかしながら、サブフレーム当たり6ビットのみが使用され、半分のケースでは2つサブフレーム毎に量子化におけるコードブック部分を指示するために、フレーム全体に対して特別の2ビットが必要である。メモリ増加を伴うことなく、これによりサブフレーム当たりに合計26ビットが与えられ、実験において見出されたように新しい6ビットコードブックを設計することと比較して、品質が改善される。事実、元の7ビット量子化器を使用して得られる結果に等しいか、あるいはよりよい結果(例えば、部分的な信号対雑音比(Seg−SNR)、平均ビットレート、...)が得られることが実験により示された。このよりよい性能はフレーム内のゲイン変動の減少によると思われる。表4は第1の実施例による種々の符号化モードのビット配列を示す。
ビット数のさらなる節約の達成するために、第1の実施例の別の変形が容易に導出されうる。例えば、一次ピッチゲインを全フレームに亘って計算することが出来、2つのゲインgpとgcの量子化に使用されるコードブックの部分(例えばコードブックの半分)は一次ピッチゲイン値giに基づき全てのサブフレームに対して決定される。この場合、フレーム当たり1ビットのみがコードブック部分(例えばコードブックの半分)の指示に必要であり、合計で25ビットとなる。
別の実施例では、ピッチゲインに基づいて分類されるゲイン量子化コードブックは4つの部分に分割され、一次ピッチゲイン値giを使用して、量子化処理に使用されるコードブック部分を決定する。表3で与えられる7ビットコードブックの実施例に対して、以下のピッチゲイン範囲に対応して、コードブックは、それぞれ32個のエントリからなる次の4つの部分に分割される:
0.445842より小さい部分
0.44582から0.768606より小さい部分
0.768606から0.962625より小さい部分
0.962625以上
サブフレーム毎に各部分における量子化インデックスを送信するのに、僅か5ビットが必要であるに過ぎず、次いで使用されているコードブックの部分を指示するのに、2サブフレーム毎に2ビットが必要である。これにより合計24ビットとなる。各フレーム当たり僅か2ビットのオーバーヘッドを必要とするに過ぎず、全ての4つのサブフレームに対して同じコードブック部分を使用することができるので、合計で22ビットとなる。
0.445842より小さい部分
0.44582から0.768606より小さい部分
0.768606から0.962625より小さい部分
0.962625以上
サブフレーム毎に各部分における量子化インデックスを送信するのに、僅か5ビットが必要であるに過ぎず、次いで使用されているコードブックの部分を指示するのに、2サブフレーム毎に2ビットが必要である。これにより合計24ビットとなる。各フレーム当たり僅か2ビットのオーバーヘッドを必要とするに過ぎず、全ての4つのサブフレームに対して同じコードブック部分を使用することができるので、合計で22ビットとなる。
また第1の実施例によるデコーダ(図示せず)は、例えば量子化ゲインベクトルを格納するために使用される7ビットコードブックを含む。2つのサブフレーム毎に、デコーダは1ビット(コードブック半分の場合)を受信し、ゲインgpとgcの符号化に使用されたコードブック部分を特定し、サブフレーム毎に6ビットを受信し、そのコードブック部分から量子化されたゲインを抽出する。
一次ピッチゲインgiの計算が異なることを除いて、第2の実施例はここで上に図3及び図4に関して説明した第1の実施例に類似である。式(11)の計算を単純にするために、重み付けされた音の信号sw(n)、あるいは低域フィルタリングによりサイズを小さくした、重み付けされた音の信号を使用することが出来る。以下の式が得られる。
本発明の第3の非限定的実施例では上述の如く、より長い時間に亘って計算された一次ピッチゲイン値giに従って検索されたゲイン量子化コードブックの部分を限定する考え方が用いられる。しかしながらこの手法を用いる目的は、ビットスレートを削減することではなく、品質を改善することである。従って、常にインデックスは全コードブックサイズ(表3の実施例によれば7ビット)に対して量子化されるので、サブフレーム当たりのビット数を削減し、使用されるコードブックの部分に関するオーバーヘッド情報を送信する必要はない。これにより、検索に使用されるコードブックの部分に関する限定はなくなる。より長い時間に亘って計算された一次ピッチゲイン値giに従ってコードブックの一部に検索を限定することにより、量子化ゲイン値の変動が減少し、全体としての品質が改善され、より円滑な波形変化が得られる。
非限定的実施例によれば、表3の量子化コードブックは各サブフレームにおいて使用される。一次ピッチゲインgiは式(12)あるいは式(11)あるいは他の適した方法におけるように計算されうる。式(12)が使用されると、Kの値の実施例(開ループピッチ期間の複数倍)は以下の通りである。ピッチ値TOL<50に対して、Kは3TOLに設定され、ピッチ値51<TOL<96に対して、Kは2TOLに設定され、その他では、KはTOLに設定される。
一次ピッチゲインgiを計算した後、ベクトル量子化コードブックの検索はIinit−pからIinit+pの範囲に限定され、ここでIinitはピッチゲイン値が一次ピッチゲインgiに最も近いゲイン量子化コードブックのベクトルインデックスである。pの代表値は15であり、限界はIinit−p≧0およびIinit+p<128である。一度ゲイン量子化インデックスが検出されると、通常のゲイン量子化における如く7ビットを使用して、インデックスは符号化される。
勿論、開示された発明に多くの他の変更および変形が可能である。本発明および関連する図の上記の詳細な説明を考慮すれば、そのような他の変更および変形はこの技術に精通した人には明らかになる。また、そのような他の変形が、本発明の精神と範囲から逸脱することなく請求の範囲内において成し遂げられ得ることも明らかである。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US46678403P | 2003-05-01 | 2003-05-01 | |
PCT/CA2004/000380 WO2004097797A1 (en) | 2003-05-01 | 2004-03-12 | Method and device for gain quantization in variable bit rate wideband speech coding |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006525533A JP2006525533A (ja) | 2006-11-09 |
JP2006525533A5 true JP2006525533A5 (ja) | 2009-07-30 |
JP4390803B2 JP4390803B2 (ja) | 2009-12-24 |
Family
ID=33418422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006504076A Expired - Lifetime JP4390803B2 (ja) | 2003-05-01 | 2004-03-12 | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7778827B2 (ja) |
EP (1) | EP1618557B1 (ja) |
JP (1) | JP4390803B2 (ja) |
KR (1) | KR100732659B1 (ja) |
CN (1) | CN1820306B (ja) |
AT (1) | ATE368279T1 (ja) |
BR (1) | BRPI0409970B1 (ja) |
DE (1) | DE602004007786T2 (ja) |
HK (1) | HK1082315A1 (ja) |
MY (1) | MY143176A (ja) |
RU (1) | RU2316059C2 (ja) |
WO (1) | WO2004097797A1 (ja) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004004950T2 (de) * | 2003-07-09 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren |
KR100668300B1 (ko) * | 2003-07-09 | 2007-01-12 | 삼성전자주식회사 | 비트율 확장 음성 부호화 및 복호화 장치와 그 방법 |
US7353436B2 (en) * | 2004-07-21 | 2008-04-01 | Pulse-Link, Inc. | Synchronization code methods |
US8031583B2 (en) | 2005-03-30 | 2011-10-04 | Motorola Mobility, Inc. | Method and apparatus for reducing round trip latency and overhead within a communication system |
MX2007012184A (es) | 2005-04-01 | 2007-12-11 | Qualcomm Inc | Sistemas, metodos y aparatos para codificacion de dialogo de banda ancha. |
EP1875463B1 (en) * | 2005-04-22 | 2018-10-17 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
US20070005347A1 (en) * | 2005-06-30 | 2007-01-04 | Kotzin Michael D | Method and apparatus for data frame construction |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
US8400998B2 (en) | 2006-08-23 | 2013-03-19 | Motorola Mobility Llc | Downlink control channel signaling in wireless communication systems |
US7788827B2 (en) * | 2007-03-06 | 2010-09-07 | Nike, Inc. | Article of footwear with mesh on outsole and insert |
US9466307B1 (en) * | 2007-05-22 | 2016-10-11 | Digimarc Corporation | Robust spectral encoding and decoding methods |
KR101449431B1 (ko) * | 2007-10-09 | 2014-10-14 | 삼성전자주식회사 | 계층형 광대역 오디오 신호의 부호화 방법 및 장치 |
CA2697830C (en) * | 2007-11-21 | 2013-12-31 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
CN101499281B (zh) * | 2008-01-31 | 2011-04-27 | 华为技术有限公司 | 一种语音编码中的增益量化方法及装置 |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
EP2293292B1 (en) * | 2008-06-19 | 2013-06-05 | Panasonic Corporation | Quantizing apparatus, quantizing method and encoding apparatus |
CA2729752C (en) * | 2008-07-10 | 2018-06-05 | Voiceage Corporation | Multi-reference lpc filter quantization and inverse quantization device and method |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
CA2836858C (en) | 2008-07-11 | 2017-09-12 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
WO2010007211A1 (en) * | 2008-07-17 | 2010-01-21 | Nokia Corporation | Method and apparatus for fast nearestneighbor search for vector quantizers |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
US8855062B2 (en) | 2009-05-28 | 2014-10-07 | Qualcomm Incorporated | Dynamic selection of subframe formats in a wireless network |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
MY166169A (en) * | 2009-10-20 | 2018-06-07 | Fraunhofer Ges Forschung | Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation |
MY164399A (en) * | 2009-10-20 | 2017-12-15 | Fraunhofer Ges Forschung | Multi-mode audio codec and celp coding adapted therefore |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
CN101986629B (zh) * | 2010-10-25 | 2013-06-05 | 华为技术有限公司 | 估计窄带干扰的方法、装置及接收设备 |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US9626982B2 (en) | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
AU2012218778B2 (en) * | 2011-02-15 | 2016-10-20 | Voiceage Evs Llc | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
GB2490879B (en) | 2011-05-12 | 2018-12-26 | Qualcomm Technologies Int Ltd | Hybrid coded audio data streaming apparatus and method |
CN103915097B (zh) * | 2013-01-04 | 2017-03-22 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
US9607624B2 (en) * | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
SG11201603000SA (en) | 2013-10-18 | 2016-05-30 | Fraunhofer Ges Forschung | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
MY187944A (en) * | 2013-10-18 | 2021-10-30 | Fraunhofer Ges Forschung | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN106033672B (zh) | 2015-03-09 | 2021-04-09 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
US10944418B2 (en) | 2018-01-26 | 2021-03-09 | Mediatek Inc. | Analog-to-digital converter capable of generate digital output signal having different bits |
CN113823298B (zh) * | 2021-06-15 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE504397C2 (sv) * | 1995-05-03 | 1997-01-27 | Ericsson Telefon Ab L M | Metod för förstärkningskvantisering vid linjärprediktiv talkodning med kodboksexcitering |
US5664055A (en) | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6397178B1 (en) * | 1998-09-18 | 2002-05-28 | Conexant Systems, Inc. | Data organizational scheme for enhanced selection of gain parameters for speech coding |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
EP1235203B1 (en) | 2001-02-27 | 2009-08-12 | Texas Instruments Incorporated | Method for concealing erased speech frames and decoder therefor |
CN100527225C (zh) | 2002-01-08 | 2009-08-12 | 迪里辛姆网络控股有限公司 | 基于celp的语音代码之间的代码转换方案 |
JP4330346B2 (ja) | 2002-02-04 | 2009-09-16 | 富士通株式会社 | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム |
-
2004
- 2004-03-12 AT AT04719892T patent/ATE368279T1/de active
- 2004-03-12 DE DE602004007786T patent/DE602004007786T2/de not_active Expired - Lifetime
- 2004-03-12 KR KR1020057020667A patent/KR100732659B1/ko active IP Right Grant
- 2004-03-12 EP EP04719892A patent/EP1618557B1/en not_active Expired - Lifetime
- 2004-03-12 JP JP2006504076A patent/JP4390803B2/ja not_active Expired - Lifetime
- 2004-03-12 RU RU2005137320/09A patent/RU2316059C2/ru active
- 2004-03-12 WO PCT/CA2004/000380 patent/WO2004097797A1/en active IP Right Grant
- 2004-03-12 CN CN2004800183844A patent/CN1820306B/zh not_active Expired - Lifetime
- 2004-03-12 BR BRPI0409970-2A patent/BRPI0409970B1/pt active IP Right Grant
- 2004-03-18 MY MYPI20040966A patent/MY143176A/en unknown
-
2005
- 2005-01-19 US US11/039,538 patent/US7778827B2/en active Active
-
2006
- 2006-02-15 HK HK06101938A patent/HK1082315A1/xx not_active IP Right Cessation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
JP2006525533A5 (ja) | ||
JP4995293B2 (ja) | 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択 | |
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
JP5173939B2 (ja) | Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置 | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
US7280959B2 (en) | Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
KR101303145B1 (ko) | 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더 | |
US10431233B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
CN101180676A (zh) | 用于谱包络表示的向量量化的方法和设备 | |
JP2007537494A (ja) | 遠隔通信のためのマルチレート音声コーダにおける音声レート変換の方法及び装置 | |
JP2004517348A (ja) | 非音声のスピーチの高性能の低ビット速度コード化方法および装置 |