JP2002530705A

JP2002530705A - 音声の無声セグメントの低ビットレート符号化

Info

Publication number: JP2002530705A
Application number: JP2000583003A
Authority: JP
Inventors: ダス、アミタバ; マンジュナス、シャラス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2002-09-17
Anticipated expiration: 2019-11-12
Also published as: ES2238860T3; KR20010080455A; EP1129450A1; CN1815558A; US20010049598A1; CN1815558B; ATE286617T1; CN1342309A; HK1042370B; KR100592627B1; US6820052B2; DE69923079T2; JP4489960B2; DE69923079D1; AU1620700A; US20050043944A1; US7146310B2; EP1129450B1; US6463407B2; US20020184007A1

Abstract

(57)【要約】【課題】音声の無声セグメントの低ビットレート符号化。【解決手段】音声の無声セグメントのための低ビットレートコーディング技術は、高時間分解能エネルギー係数を音声のフレームから抽出するステップと、エネルギー係数を量子化するステップと、高時間分解能エネルギーエンベロープを量子化エネルギー係数から生成するステップと、エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベクトルを形成することによって残余信号を再構成するステップとを含んでいる。エネルギーエンベロープは線形補間技術で生成されてもよい。後処理量を得て、所定の閾値を比較し、コーディングアルゴリズムが適切に実行しているかどうかを決定できる。

Description

【発明の詳細な説明】

【０００１】（発明の背景）Ｉ．発明の分野本発明は、一般に音声処理の分野、より詳細には音声の無声セグメントの低ビ
ットレートコーディングのための方法および装置に関するものである。ＩＩ．技術の背景ディジタル技術による音声の伝送は、特に長距離およびディジタル無線電話応
用において広く行きわたるようになった。次に、これは、認識される再構成声質
を維持している間にチャネルを介して送信できる最少の情報量を決定することに
興味を生じた。音声が単にサンプリングおよびディジタル化によって伝送される
場合、約６４キロビット／秒（ｋｂｐｓ）のデータ転送速度が従来のアナログ電
話の声質を得るために必要である。しかしながら、適切なコーディング、伝送お
よび受信機での再合成が後に続く音声分析の使用によって、データ転送速度の著
しい減少を得ることができる。

【０００２】人間の音声生成のモデルに関連するパラメータを抽出することによって音声を
圧縮する技術を使用する装置は音声コーダと呼ばれる。音声コーダは、入力音声
信号を時間のブロックあるいは分析フレームに分割する。音声コーダは、一般的
にはエンコーダおよびデコーダ、すなわちコーデックを含む。エンコーダは、入
力音声フレームを分析し、所定の関連パラメータを抽出し、次にこのパラメータ
を２進表示、すなわちビットのセットあるいは２進データパケットに量子化する
。このデータパケットは、通信チャネルを介して受信機およびデコーダに伝送さ
れる。このデコーダは、データパケットを処理し、このデータパケットを非量子
化し、パラメータを生成し、それから非量子化パラメータを使用して音声フレー
ムを再合成化する。

【０００３】音声コーダの機能は、音声固有の自然冗長の全てを取り除くことによって低ビ
ットレート信号に圧縮することにある。このディジタル圧縮は、入力音声フレー
ムをパラメータのセットで表示し、このパラメータをビットのセットで表示する
ために量子化を使用することによって得られる。入力音声フレームが多数のビッ
トＮ_ｉを有し、音声コーダによって発生されるデータパケットは多数のビットＮ _ｏを有する場合、音声コーダによって得られる圧縮率はＣｒ＝Ｎ_ｉ／Ｎ_ｏである
。この努力目標は、目標圧縮率を得る間、復号化音声の高声質を保持することに
ある。音声コーダの性能は、（１）音声モデル、あるいは前述された分析処理お
よび合成処理の組合せをいかに十分に実行するか、および（２）いかに完全にパ
ラメータ量子化処理がフレーム当たりＮ_ｏビットの目標ビットレートでいかに十
分に実行されるかによって決まる。したがって、音声モデルの目的は、各フレー
ムに対するわずかなパラメータのセットを有する音声信号、すなわち目標声質の
本質を捕まえることである。

【０００４】低ビットレートで音声を効率的に符号化する１つの有効な技術は、マルチモー
ドコーディングである。マルチモードコーダは、異なるモード、あるいは符号化
−復号化アルゴリズムを異なる種類の入力音声フレームに適用する。各モード、
あるいは符号化−復号化処理は、最も有効な方法で所定の種類の音声セグメント
（すなわち、有声、無声、背景雑音）を表示するようにカスタマイズする。外部
モード決定機構は、入力音声フレームを検査し、どのモードをフレームに適用す
るかに関する決定を行う。一般的には、モード決定は、入力フレームの中から多
数のパラメータを抽出し、これらを評価し、どのモードを適用するかについての
決定を行うことによって開ループの方法で行われる。したがって、モード決定は
、出力音声の正確な状態、すなわち、出力音声が声質あるいはいかなる他の性能
量に関して入力音声とどれほど類似しているかを前以て知らないで行われる。音
声コーデックのための典型的な開ループモード決定は、本発明の譲受人に譲渡さ
れ、引用文献としてここに完全に組み込まれる米国特許第５，４１４，７９６号
に記載されている。

【０００５】マルチモードコーディングは、各フレームに対して同じビット数Ｎ_ｏを使用す
る固定レートであってもよいし、あるいは異なるビットレートが異なるモードの
ために使用される可変レートであってもよい。可変レートコーディングの目的は
、目標品質を得るのに十分なレベルにコーデックパラメータを符号化するのに必
要なビット量だけを使用することにある。結果として、固定レートの声質と同じ
目標声質の比較的高いレートのコーダは、可変ビットレート（ＶＢＲ）技術を使
用して明らかに比較的低い平均レートで得ることができる。典型的な可変レート
音声コーダは、本発明の譲受人に譲渡され、引用文献としてここに予め完全に組
み込まれる米国特許第５，４１４，７９６号に示されている。

【０００６】現在、低ビットレート（すなわち、２．４〜４ｋｂｐｓおよびそれ以下の範囲
にある）の媒体で作動する高品質音声コーダを開発する研究関心および強い営利
的要求のうねりがある。用途の分野は、無線電話、衛星通信、インターネット電
話、様々なマルチメディアおよび音声ストリーム用途、音声メール、および他の
音声蓄積システムを含んでいる。駆動力は、高容量に対する要求およびパケット
損失状態の下での確固不動の要求がある。様々な最近の音声コーディング標準化
の努力は低レート音声コーディングアルゴリズムの研究および開発を推進する他
の直接の原動力である。低レート音声コーダは、許容可能な用途の帯域幅当たり
より多くのチャネル、すなわちユーザを形成し、適当なチャネルコーディングの
他のレイヤと結合された低レート音声コーダは、コーダ仕様の全ビットバジェッ
トに適合でき、チャネルエラー状態の下で確固不動の性能を与える。

【０００７】したがって、マルチモードＶＢＲ音声コーディングは低ビットレートで音声を
符号化するのに有効な方法である。従来のマルチモード方式は、有効な符号化方
式、様々な音声のセグメント（例えば、無声、有声、遷移）に対するモードなら
びに背景雑音あるいは無声に対するモードの設計を必要とする。音声コーダの全
性能は、各モードがいかに十分に実行するかによって決まり、コーダの平均レー
トは、音声の無声セグメント、有声セグメント、および他のセグメントに対する
異なるモードのビットレートによって決まる。低平均レートで目標品質を得るた
めに、そのいくつかが低ビットレートで作動しなければならない有効な高性能モ
ードを設計することが必要である。一般的には、有声音声セグメントおよび無声
音声セグメントは、高ビットレートで捕まえられ、背景雑音および無声セグメン
トは、かなり比較的低いレートで作動するモードで表示される。したがって、フ
レーム当たり最少のビット数を使用している間、音声の無声セグメントを正確に
捕まえる低ビットレート符号化技術に対する要求がある。

【０００８】（発明の概要）本発明は、フレーム当たり最少ビットを使用している間、音声の無声セグメン
トを正確に捕まえる低ビットレートコーディング技術に向けられる。したがって
、本発明の一態様では、音声の無声セグメントを符号化する方法は、有利なこと
には、高時間分解能エネルギー係数を音声のフレームから抽出するステップと、
高時間分解能エネルギー係数を量子化するステップと、量子化エネルギー係数か
ら高時間分解能エネルギーエンベロープを生成するステップと、エネルギーエン
ベロープの量子化値を有するランダムに発生された雑音ベクトルを形成すること
によって残余信号を再構成するステップとを含む。

【０００９】本発明の他の態様では、音声の無声セグメントを符号化する音声コーダは、有
利なことには、高時間分解能エネルギー係数を音声のフレームから抽出する手段
と、高時間分解能エネルギー係数を量子化する手段と、高時間分解能エネルギー
エンベロープを量子化エネルギー係数から生成する手段と、エネルギーエンベロ
ープの量子化値を有するランダムに発生された雑音ベクトルを形成することによ
って残余信号を再構成する手段とを含んでいる。

【００１０】本発明の他の態様では、音声の無声セグメントを符号化する音声コーダは、有
利なことには、高時間分解能エネルギー係数を音声のフレームから抽出するよう
に構成されたモジュールと、高時間分解能エネルギー係数を量子化するように構
成されたモジュールと、高時間分解能エネルギーエンベロープを量子化エネルギ
ー係数から生成するように構成されたモジュールと、エネルギーエンベロープの
量子化値を有するランダムに発生された雑音ベクトルを形成することによって残
余信号を再構成するように構成されたモジュールとを含む。

【００１１】（好ましい実施形態の詳細な説明）図１では、第１のエンコーダ１０は、ディジタル化音声サンプルｓ（ｎ）を受
信し、伝送媒体１２、すなわち通信チャネル１２上で、第１のデコーダ１４に伝
送するためにこのサンプルｓ（ｎ）を符号化する。このデコーダ１４は、符号化
音声サンプルを復号化し、出力音声信号ｓ_{ＳＹＮＴＨ}（ｎ）を合成する。反対方
向に伝送するために、第２のエンコーダ１６は、通信チャネル１８上で伝送され
るディジタル化音声サンプルｓ（ｎ）を符号化する。第２のデコーダ２０は、符
号化音声サンプルを受信し、復号化し、合成出力音声信号ｓ_{ＳＹＮＴＨ}（ｎ）を
生成する。

【００１２】音声サンプルｓ（ｎ）は、例えば、パルス符号変調（ＰＣＭ）、圧伸μ法、あ
るいはＡ法を技術で公知の様々な方法のいずれかに従ってディジタル化および量
子化された音声信号を示す。当該技術で公知であるように、音声サンプルｓ（ｎ
）は、入力データのフレームに構成され、各フレームは、所定数のディジタル化
音声サンプルｓ（ｎ）を含む。典型的な実施形態では、８ｋＨｚのサンプリング
レートが使用され、各２０ｍｓフレームは１６０のサンプルを含む。後述される
実施形態では、データ伝送速度は、８ｋｂｐｓ（フルレート）から４ｋｂｐｓ（
ハーフレート）へ２ｋｂｐｓ（１／４レート）へ１ｋｂｐｓ（１／８レート）に
までフレーム毎に基づいて変えられてもよい。比較的低いビットレートは比較的
少ない音声情報を含むフレームに対して選択的に使用されてもよいために、デー
タ伝送速度を変えることは有利である。当業者に理解されているように、他のサ
ンプリング速度、フレームサイズおよびデータ伝送速度が使用されてもよい。

【００１３】第１のエンコーダ１０および第２のエンコーダ２０は共に、第１の音声コーダ
、あるいは音声コーデックを含む。同様に、第２のエンコーダ１６および第１の
エンコーダ１４は共に第２の音声コーダを含む。音声コーダは、ディジタル信号
プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、個別ゲートロジッ
ク、ファームウェア、あるいは任意の従来のプログラマブルソフトウェアモジュ
ールおよびマイクロプロセッサで実現されてもよいことが当業者に分かる。ソフ
トウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、当該技術
で公知の任意の形式の書込み可能な媒体にあってもよい。それとは別に、任意の
従来のプロセッサ、コントローラ、あるいは状態機械はマイクロプロセッサの代
わりにされてもよい。特に音声符号化のために設計された典型的なＡＳＩＣは、
本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる米国特許
第５，７２７，１２３号および１９９４年２月１６日に出願され、本発明の譲受
人に譲渡され、引用文献としてここに完全に組み込まれる名称が「ボコーダＡＳ
ＩＣ」と題された米国特許出願第０８／１９７，４１７号に記載されている。

【００１４】図２では、音声コーダで使用されてもよいエンコーダ１００は、モード決定モ
ジュール１０２と、ピッチ推定モジュール１０４と、ＬＰ分析モジュール１０６
と、ＬＰ分析フィルタ１０８と、ＬＰ量子化モジュール１１０と、残余量子化モ
ジュール１１２とを含んでいる。入力音声フレームｓ（ｎ）は、モード決定モジ
ュール１０２、ピッチ推定モジュール１０４、ＬＰ分析モジュール１０６、およ
びＬＰ分析フィルタ１０８に供給される。モード決定モジュール１０２は、各入
力音声フレームｓ（ｎ）の周期性に基づいてモードインデックスＩ_Ｍおよびモー
ドＭを発生する。周期性に従って音声フレームを分類する様々な方法は、１９９
７年３月１１日に出願され、本発明の譲受人に譲渡され、引用文献としてここに
完全に組み込まれる名称が「減少された速度の可変速度ボコーディングを実行す
る方法および装置」と題された米国特許出願第０８／８１５，３５４号に記載さ
れている。このような方法は、米国電気通信工業会工業暫定規格ＴＩＡ／ＥＩＡＩＳ−１２７およびＴＩＡ／ＥＩＡＩＳ−７３３にも組込まれる。

【００１５】ピッチ推定モジュール１０４は、ピッチインデックスＩ_ｐおよび遅れ値Ｐ_０を
各入力音声フレームｓ（ｎ）に基づいて発生する。ＬＰ分析モジュール１０６は
、各入力音声フレームｓ（ｎ）の線形予測分析を実行し、ＬＰパラメータａを発
生する。ＬＰパラメータａは、ＬＰ量子化モジュール１１０に供給される。ＬＰ
量子化モジュール１１０はモードＭも受信する。ＬＰ量子化モジュール１１０は
、ＬＰインデックスＩ_ＬＰおよび量子化ＬＰパラメータａを発生する。ＬＰ分析
フィルタ１０８は、入力音声フレームｓ（ｎ）に加えて量子化ＬＰパラメータａ
を受信する。ＬＰ分析フィルタ１０８は、入力音声フレームｓ（ｎ）と量子化線
形予測パラメータａとの間のエラーを示すＬＰ残余信号Ｒ[ｎ]を発生する。ＬＰ
残余Ｒ［ｎ］、モードＭ、および量子化ＬＰパラメータａは残余量子化モジュー
ル１１２に供給される。これらの値に基づいて、残余量子化１１２は、残余イン
デックスＩ_Ｒおよび量子化残余信号Ｒ［ｎ］を発生する。

【００１６】図３において、音声コーダで使用されてもよいデコーダ２００は、ＬＰパラメ
ータ復号化モジュール２０２と、残余復号化モジュール２０４と、モード復号化
モジュール２０６と、ＬＰ合成フィルタ２０８とを含む。モード復号化モジュー
ル２０６は、モードインデックスＩ_Ｍを受信し、復号化し、それからモードＭを
生成する。ＬＰパラメータ復号化モジュール２０２は、モードＭおよびＬＰイン
デックスＩ_ＬＰを受信する。ＬＰパラメータ復号化モジュール２０２は、受信値
を復号化し、量子化ＬＰパラメータａを発生する。残余復号化モジュール２０４
は、残余インデックスＩ_Ｒ、ピッチインデックスＩ_ｐ、およびモードインデック
スＩ_Ｍを受信する。残余復号化モジュール２０４は、受信値を復号化し、量子化
残余信号Ｒ［ｎ］を生成する。量子化残余信号Ｒ［ｎ］および量子化ＬＰパラメ
ータａは、それから復号化出力音声信号ｓ［ｎ］を合成するＬＰ合成フィルタ２
０８に供給される。

【００１７】図２のエンコーダ１００および図３のデコーダの様々なモジュールの動作およ
び実装は、当該技術で公知であり、引用文献としてここに完全に組み込まれるＬ
．Ｂ．Ｒａｂｉｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ著の論文「音声信号のディジタ
ル処理（３９６〜４５３）（１９７８）」に詳述される。典型的なエンコーダお
よび典型的なデコーダは、引用文献としてここに予め完全に組み込まれる米国特
許第５，４１４，７９６号に記載されている。

【００１８】図４のフローチャートは、一実施形態による音声の無声セグメントのための低
ビットレートコーディングを示す。図４の実施形態に示された低ビット無声コー
ディングモードは、有利なことには、フレーム当たり少数のビットを有する無声
セグメントを正確に捕まえることによって全体の高声質を保持している間、マル
チモード音声コーダに比較的低い平均ビットレートを与える。

【００１９】ステップ３００では、コーダは、外部速度決定を実行し、入力音声フレームを
無声あるいは非無声のいずれかと確認する。速度決定は、フレームのエネルギー
（Ｅ）、フレーム周期性（Ｒｐ）およびスペクトル傾斜（Ｔｓ）のような音声フ
レームＳ［ｎ］（ここで、ｎ＝１、２、３、．．．Ｎである）から抽出される多
数のパラメータを考察することによって行われる。このパラメータは、所定の閾
値のセットで比較される。現フレームが比較の結果に基づいて無声であるかどう
かに関する決定が行われる。現フレームが無声である場合、現フレームは、後述
されるように無声フレームとして復号化される。

【００２０】フレームエネルギーは、有利なことには、下記の式に従って決定されてもよい
。

【数１】

【００２１】フレーム周期性は、有利なことには、下記の式に従って決定されてもよい。

【数２】

【００２２】ここで、Ｒ（ｘ［ｎ］、ｘ［ｎ＋ｋ］）は、ｘの自己相関関数である。スペクト
ル傾斜は、有利なことには、下記の式に従って決定されてもよい。

【数３】

【００２３】ここで、ＥｈおよびＥｌは、Ｓｌ［ｎ］およびＳｈ［ｎ］のエネルギー値であり
、ＳｌおよびＳｈは、原音声フレームＳ［ｎ］のローパス成分およびハイパス成
分であり、その成分は、有利なことには、一組のローパスフィルタおよびハイパ
スフィルタによって発生されてもよい。

【００２４】ステップ３０２では、ＬＰ分析は、無声フレームの線形予測の残余を生成する
ように行われる。線形予測（ＬＰ）分析は、両方とも引用文献としてここに完全
に組み込まれる前述の米国特許第５，４１４，７９６号およびＬ．Ｂ．Ｒａｂｉ
ｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ著の論文「音声信号のディジタル処理（３９６
〜４５８）（１９７８）」に記載されているように当該技術分野で公知である技
術で行われる。Ｎサンプルの無声ＬＰ残余のＲ［ｎ］（ここで、ｎ＝１、２、．
．．Ｎである）は、入力音声フレームＳ［ｎ］（ここで、ｎ＝１、２、．．．Ｎ
である）から形成される。ＬＰパラメータは、上記で列挙された引用文献のいず
れかに記載されているように公知のＬＳＰ量子化技術で線形スペクトル対（ＬＳ
Ｐ）領域で量子化される。原音声信号振幅対個別時間インデックスのグラフは図
５のＡに示されている。量子化無声音声信号振幅対個別時間インデックスのグラ
フは図５のＢに示されている。原無声残余信号振幅対個別時間インデックスのグ
ラフは図５のＣに示されている。エネルギーエンベロープ振幅対個別時間インデ
ックスのグラフは図５のＤに示されている。量子化無声残余信号振幅対個別時間
インデックスは図５のＥに示されている。

【００２５】ステップ３０４では、無声残余の精時間分解能エネルギーパラメータが抽出さ
れる。多数（Ｍ）のローカルエネルギーパラメータＥ_ｉ（ここで、ｎ＝１、２、
．．．Ｍである）は、下記のステップを実行することによって無声残余Ｒ［ｎ］
から抽出される。Ｎサンプルの残余Ｒ［ｎ］は、（Ｍ−２）個のサブブロックＸ _ｉ（ここで、ｎ＝１、２、．．．Ｍ−１である）に分割され、各ブロックＸ_ｉは
、Ｌ＝Ｎ／（Ｍ−２）の長さを有する。Ｌサンプルの過去残余ブロックＸ_ｉは、
前フレームの過去量子化残余から得られる。（Ｌサンプルの過去残余ブロックＸ _ｉは、最後の音声フレームのＮサンプル残余の最後のＬ個のサンプルを組み込む
）。Ｌサンプルの将来残余ブロックＸ_Ｍは次のフレームのＬＰ残余から得られる
。（Ｌサンプル将来残余ブロックＸ_Ｍは、次の音声フレームのＮサンプルのＬＰ
残余の最初のＬ個のサンプルを組み込む）。多数Ｍのローカルエネルギーパラメ
ータＥ_ｉ（ここで、ｉ＝１、２、．．．Ｍ）は、下記の式に従ってＭ個のブロッ
クＸ_ｉ（ここで、ｉ＝１、２、．．．Ｍ）の各々から形成される。

【数４】

【００２６】ステップ３０６では、Ｍ個のエネルギーパラメータは、ピラミッドベクトル量
子化（ＰＶＤ）方法に従ってＮｒビットで符号化される。したがって、Ｍ−１個
のローカルエネルギー値Ｅ_ｉ（ここで、ｉ＝２、３、，．．．Ｍ）は、量子化エ
ネルギー値Ｗ_ｉ（ここで、ｉ＝２、３、．．．Ｍ）を形成するようにＮｒビット
で符号化される。ビットＮ_１、Ｎ_２、．．．Ｎ_ｋを有するＫステップのＰＶＱ符
号化方式は、Ｎ_１＋Ｎ_２＋．．．Ｎ_ｋ＝Ｎｒのように使用され、全ビット数は無
声残余Ｒ［ｎ］を量子化するのに役立つ。ｋ（ここで、ｋ＝１、２、．．．Ｋ）
ステージの各々に関して、下記のステップが実行される。第１のステージ（すな
わち、ｋ＝１）に関しては、バンド数は、Ｂ_ｋ＝Ｂ_１＝１に設定され、バンド長
はＬ_ｋ＝１に設定される。各バンドＢ_ｋに関しては、平均値ｍｅａｎ_ｊ（ここで
、ｊ＝１，２，．．．Ｂ_ｋ）は下記の式による。

【数５】

【００２７】Ｂ_ｋ平均値ｍｅａｎ_ｊ（ここで、ｊ＝１、２、．．．Ｂ_ｋ）は、量子化平均値ｍ
ｅａｎ_ｊ（ここで、ｊ＝１、２、．．．Ｂ_ｋ）のセットを形成するようにＮ_ｋ＝
Ｎ_ｊビットで量子化される。各バンドＢ_ｋに属するエネルギーは、関連量子化平
均値ｑｍｅａｎ_ｊによって分割され、新しい組のエネルギー値｛Ｅ_ｋ，ｊ｝＝｛
Ｅ_ｉ，ｊ｝（ここで、ｉ＝１、２、．．．Ｍ）を生成する。各ｉ（ここで、ｉ＝
１、２、３、．．．Ｍ）に対する第１のステージの場合（すなわち、ｋ＝１の場
合）下記の式が得られる。

【数６】

【００２８】サブバンドに分解し、各バンドに対する平均値を抽出し、このステージに役立
つビットで平均値を量子化し、それからサブバンドの成分をサブバンドの量子化
平均値で割るステップは、各々のその後のステージｋ（ここで、ｋ＝２、３、．
．．ｋ−１）に対して繰り返される。

【００２９】第Ｋ番目のステージでは、Ｂ_ｋ個のサブバンドの各々のサブベクトルは、Ｎ_ｋビットの全部を使用して各バンドに対して設計された個別のＶＱｓで量子化され
る。Ｍ＝８およびステージ＝４に対するＰＶＱ符号化ステップは図６に例として
示される。

【００３０】ステップ３０８では、Ｍ個の量子化エネルギーベクトルが形成される。Ｍ個の
量子化エネルギーベクトルは、コードブックおよびＰＶＱ情報を示すＮｒビット
から前述のＰＶＱ符号化処理を最終の残余サブベクトルおよび量子化平均値で逆
にすることによって形成される。Ｍ＝３およびステージｋ＝３に対するＰＶＱ復
号化ステップは図７に例として示される。当業者が理解されるように、無声（Ｕ
Ｖ）利得は、任意の従来の符号化技術で量子化されてもよい。符号化方式は、図
４〜図７に関して説明される実施形態のＰＶＱ方式に制限される必要がない。

【００３１】ステップ３１０では、高分解能エネルギーエンベロープが形成される。Ｎサン
プル（すなわち、音声フレーム長）の高時間分解能エネルギーエンベロープＥＮ
Ｖ［ｎ］（ここで、ｉ＝１、２、３、．．．Ｎ）は、後述された計算に従って復
号化エネルギー値Ｗｉ（ここで、ｉ＝１、２、３、．．．Ｍ）から形成される。
Ｍ個のエネルギー値は、音声の現残余のＭ−２個のサブフレームのエネルギーを
示し、各サブフレームは長さＬ＝Ｎ／Ｍを有する。値Ｗ_ＩおよびＷ_Ｍは、残余の
最後のフレームの過去のＬ個のサンプルのエネルギーおよび残余の次のフレーム
の将来のＬ個のサンプルのエネルギーそれぞれを示している。

【００３２】Ｗ_ｍ−１、Ｗ_ｍ、およびＷ_ｍ＋１が、（ｍ−１）番目のサブバンド、ｍ番目の
サブバンド、および（ｍ＋１）番目のサブバンドのエネルギーのそれぞれを示す
場合、ｍ番目のサブフレームを示すｎ＝ｍ^＊Ｌ−Ｌ／２〜ｎ＝ｍ^＊Ｌ＋Ｌ／２に
対するエネルギーエンベロープＥＮＶ［ｎ］のサンプルは下記のように計算され
る。ｎ＝ｍ^＊Ｌ−Ｌ／２に対して、ｎ＝ｍ^＊Ｌまで、

【数７】

【００３３】である。さらに、ｎ＝ｍ^＊Ｌに対して、ｎ＝ｍ^＊Ｌ＋Ｌ／２まで、

【数８】

【００３４】である。

【００３５】エネルギーエンベロープＥＮＶ［ｎ］を計算するステップは、Ｍ−１個のバン
ドの各々に対して繰り返され、現残余フレームに対する全エネルギーエンベロー
プＥＮＶ［ｎ］（ここで、ｎ＝１、２、．．Ｎ）を計算するためにｍ＝２、３、
４、，．．．Ｍとする。

【００３６】ステップ３１２では、量子化無声残余は、エネルギーエンベロープＥＮＶ［ｎ
］を有するランダム雑音を特徴付けることによって形成される。量子化無声残余
ｑＲ［ｎ］は下記の式に従って形成される。

【数９】

【００３７】ｎ＝１、２、．．．Ｎに対してｑＲ［ｎ］＝Ｎｏｉｓｅ［ｎ］^＊ＥＮＶ［ｎ］
である。ここで、Ｎｏｉｓｅ［ｎ］は、有利なことには、エンコーダおよびデコーダと同
期する乱数発生器によって人工的に発生される単位分散を有するランダム白色雑
音信号である。

【００３８】ステップ３１４では、量子化無声音声フレームが形成される。量子化無声残余
ｑＳ［ｎ］は、当該技術分野で公知であり、両方とも引用文献としてここに完全
に組み込まれる前述の米国特許第５，４１４，７９６号およびＬ．Ｂ．Ｒａｂｉ
ｎｅｒ＆Ｒ．Ｗ．Ｓｃｈａｆｅｒ著の論文「音声信号のディジタル処理（３９６
〜４５８）（１９７８）」に記載されるように従来のＬＰ合成技術による量子化
無声音声の逆ＬＰフィルタリングによって発生される。

【００３９】一実施形態では、例えば、下記のように規定される知覚信号対雑音比（ＰＳＮ
Ｒ）のような知覚誤差量を測定することによって実行できる。

【数１０】

【００４０】ここで、ｘ［ｎ］＝ｈ［ｎ］^＊Ｒ［ｎ］、およびｅ（ｎ）＝ｈ［ｎ］^＊ｑＲ［ｎ
］であり、“^＊”は、畳み込みあるいはフィルタリング演算を示し、ｈ（ｎ）は
、知覚重み付けＬＰフィルタであり、Ｒ［ｎ］およびｑＲ［ｎ］は、それぞれ原
無声残余および量子化無声残余である。ＰＳＮＲは所定の閾値と比較される。Ｐ
ＳＮＲが閾値よりも小さい場合、無声符号化方式は十分に実行しなくて、高速度
符号化モードは、その代わりに現フレームをより正確に捕まえるために適用され
てもよい。一方、ＰＳＮＲが所定の閾値を超える場合、無声符号化方式は十分実
行し、モード決定が保持される。

【００４１】本発明の好ましい実施形態はこのように図示され、説明されている。しかしな
がら、多数の変更は本発明の精神あるいは範囲から逸脱しないでここに開示され
た実施形態に対して行われてもよい。したがって、本発明は上記の特許請求の範
囲による以外限定されるべきでない。

【図面の簡単な説明】

【図１】音声コーダによって各端で終端される通信チャネルのブロック図である。

【図２】エンコーダのブロック図である。

【図３】デコーダのブロック図である。

【図４】音声の無声セグメントに対する低ビットレート符号化のステップを示すフロー
チャートである。

【図５】信号振幅対個別時間インデックスのグラフである。

【図６】ピラミッドベクトル量子化の符号化処理を示す機能図である。

【図７】ピラミッドベクトル量子化の復号化処理を示す機能図である。

【符号の説明】

１０、１６…エンコーダ、１４、２０…デコーダ、１００…エンコーダ、１０
２…モード決定モジュル、１０４…ピッチ推定モジュール、１０６…ＬＰ分析フ
ィルタ、１１０…ＬＰ量子化モジュール、１１２…残余量子化モジュール、２０
０…デコーダ、２０２…ＬＰ復号化モジュール、２０４…残余復号化モジュール
、２０６…モード復号化モジュール、２０８…ＬＰ合成フィルタ

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者マンジュナス、シャラスアメリカ合衆国、カリフォルニア州 92126 サン・ディエゴ、シーリング・アベニュー・ナンバー５、7104 Ｆターム(参考） 5D045 CC02 DA11 5J064 AA01 BB04 BB10 BC02 BC14 BC22 BD01

Claims

【特許請求の範囲】

【請求項１】音声の無声セグメントを符号化する方法であって、音声のフレームから高時間分解能係数を抽出するステップと、前記高時間分解能エネルギー係数を量子化するステップと、前記量子化エネルギー係数から高時間分解能エネルギーエンベロープを生成す
るステップと、前記エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベ
クトルを形成することによって残余信号を再構成するステップとを含むことを特
徴とする音声の無声セグメントを符号化する方法。
【請求項２】前記量子化ステップがピラミッドベクトル量子化方式に従っ
て実行されることを特徴とする請求項１の方法。
【請求項３】前記生成するステップが線形補間で行われることを特徴とす
る請求項１の方法。
【請求項４】後処理性能量を得るステップと、前記後処理性能量を所定の
閾値と比較するステップとをさらに含むことを特徴とする請求項１の方法。
【請求項５】前記生成するステップが、残余の前のフレームの所定の過去
のサンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成するこ
とを含むことを特徴とする請求項１の方法。
【請求項６】前記生成するステップが、残余の次のフレームの所定の将来
のサンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成するこ
とを含むことを特徴とする請求項１の方法。
【請求項７】音声の無声セグメントを符号する音声コーダであって、高時間分解能エネルギー係数を音声のフレームから抽出する手段と、前記高時間分解能エネルギー係数を量子化する手段と、高時間分解能エネルギーエンベロープを前記量子化エネルギー係数から生成す
る手段と、前記エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベ
クトルを形成することによって残余信号を再構成する手段とを備えていることを
特徴とする音声コーダ。
【請求項８】前記量子化する手段が、ピラミッドベクトル量子化方式に従
って量子化する手段を含むことを特徴とする請求項７の音声コーダ。
【請求項９】前記生成する手段が線形補間モジュールを含むことを特徴と
する請求項７の音声コーダ。
【請求項１０】後処理性能量を得る手段と、前記後処理性能量を所定の閾
値と比較する手段とをさらに含むことを特徴とする請求項７の音声コーダ。
【請求項１１】前記生成する手段が、残余の前のフレームの所定の過去の
サンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成する手段
を含むことを特徴とする請求項７の音声コーダ。
【請求項１２】前記生成する手段が、残余の次のフレームの所定の将来の
サンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成する手段
を含むことを特徴とする請求項７の音声コーダ。
【請求項１３】音声の無声セグメントを符号化する音声コーダであって、高時間分解能エネルギー係数を音声のフレームから抽出するように構成された
モジュールと、前記高時間分解能エネルギー係数を量子化するように構成されたモジュールと
、高時間分解能エネルギーエンベロープを前記量子化エネルギー係数から生成す
るように構成されたモジュールと、前記エネルギーエンベロープの量子化値を有するランダムに発生される雑音ベ
クトルを形成することによって残余信号を再構成するように構成されたモジュー
ルとを備えていることを特徴とする音声コーダ。
【請求項１４】前記量子化がピラミッド量子化方式に従って行われること
を特徴とする請求項１３の音声コーダ。
【請求項１５】前記生成が線形補間に従って実行されることを特徴とする
請求項１３の音声コーダ。
【請求項１６】後処理性能量を得て、かつ所定の閾値と比較するように構
成されたモジュールをさらに含むことを特徴とする請求項１３の音声コーダ。
【請求項１７】前記高時間分解能エネルギーエンベロープが残余の前のフ
レームの所定の過去のサンプル数のエネルギーの表示を含むことを特徴とする請
求項１３の音声コーダ。
【請求項１８】前記高時間分解能エネルギーエンベロープが残余の次のフ
レームの所定の将来のサンプル数のエネルギーの表示を含むことを特徴とする請
求項１３の音声コーダ。