JP5543405B2

JP5543405B2 - フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ

Info

Publication number: JP5543405B2
Application number: JP2011128162A
Authority: JP
Inventors: シャラス・マンジュナス; アンドリュー・ピー・デジャコ; アラサニパライ・ケー・アナンタパドマナバーン; エディー・ルン・ティク・チョイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-10-28
Filing date: 2011-06-08
Publication date: 2014-07-09
Anticipated expiration: 2020-10-26
Also published as: HK1051735A1; KR20070112894A; BR0015070A; KR100804888B1; JP4805506B2; KR20020040910A; EP1224663A1; JP2011237809A; EP1224663B1; CN1402869A; US6438518B1; AU1576001A; ES2274812T3; KR100827896B1; TW530296B; ATE346357T1; WO2001031639A1; JP2003515178A; BRPI0015070B1; DE60032006D1

Description

本発明は一般に音声処理の分野に係り、特に予測音声コーダのフレームエラー状態に対する感度を減らすための方法と装置に関係する。

デジタル技術による音声の伝送は、特に長距離およびデジタル無線電話応用で広範囲に展開されるようになった。これは再構成された音声の知覚された品質を維持すると共に、チャンネルを通じて送ることが可能である最小の情報量を決定することに関心を引き起こした。音声が単にサンプリングおよびデジタル化により送信される場合、６４キロビット／秒（kbps）の程度のデータレートが従来のアナログ電話の音声品質を達成するために必要である。しかし、適当な符号化、伝送および受信機での再合成に続く音声分析の使用によって、データレートの重大な低減が起る。

人間の音声発生のモデルに関するパラメタを抽出することによって、音声を圧縮する技術を採用する装置は音声コーダと呼ばれている。音声コーダは入来音声信号を時間のブロックまたは分析フレームに分割する。音声コーダは典型的にエンコーダおよびデコーダを含む。エンコーダは一定の関連したパラメタを抽出するために入来音声フレームを分析し、パラメタを２進表示、即ち、一組のビットまたは２進データパケットに量子化する。データパケットはチャンネルを通じて受信機およびデコーダに伝送される。デコーダはデータパケットを処理し、パラメタを生成するためそれらを非量子化し、非量子化されたパラメタを使用して音声フレームを再合成する。

音声コーダの機能は、音声に固有の自然の冗長の全てを取り除くことによって、デジタル化された音声信号を低ビットレート信号に圧縮することである。デジタル圧縮は一組のパラメタを有する入力音声フレームを表すことおよび一組のビットでパラメタを表すために量子化を採用することにより達成される。入力音声フレームがビット数Ｎ_ｉを有し、音声コーダによって生成されるデータパケットがビット数Ｎ_ｏを有するなら、音声コーダによって達成される圧縮係数はＣ_ｒ＝Ｎ_ｉ／Ｎ_ｏである。目標圧縮係数を達成しながら復号化された音声の高音声品質を保持することが挑戦である。音声コーダの性能は以下に依存する：(１) いかにして良い音声モデルまたは上述された分析および合成処理を実行するか、(２) いかにして良いパラメタ量子化処理がフレーム毎のＮ_ｏビットの目標ビットレートで実行されるか。音声モデルの目標は、各フレームについてパラメタの小さい組で音声信号または目標音声品質の本質を捕らえることである。

おそらく、音声コーダの設計において最も重要であることは、音声信号を記述するパラメタ（ベクトルを含む）の良好な組の検索である。パラメタの良好な組は、知覚的に正確な音声信号の再構成のために低システム帯域幅を要求する。ピッチ、信号パワー、スペクトル包絡線（またはフォルマント）、振幅および位相スペクトルは音声符号化パラメタの例である。

音声コーダは時間領域コーダとして実行され、それは一度に音声の小さいセグメント（典型的に５ミリ秒（ｍｓ）のサブフレーム）を符号化するために高い時間分解処理を採用することにより時間領域音声波形を捕らえようとする。各々のサブフレームのために、コードブックスペースからの高精度標本が、公知技術のさまざまな検索アルゴリズムの手段により見出される。代わりに音声コーダは周波数領域コーダとして実行されることができ、それは一組のパラメタ（分析）を伴う入力音声フレームの短期音声スペクトルを捕らえて、スペクトルのパラメタから音声波形を再現するために対応する合成処理を採用しようとする。パラメタ量子化器は、Ａ.Ｇｅｒｓｈｏ＆Ｒ.Ｍ.Ｇｒａｙ著「ベクトル量子化および信号圧縮(１９９２)」で説明された公知の量子化技術に従ってコードベクトルの記憶された表現でそれらを表すことによってパラメタを保存する。

周知の時間領域音声コーダは、Ｌ.Ｂ.ＲａｂｉｎｅｒとＲ.Ｗ.Ｓｃｈａｆｅｒ著の「音声信号のデジタル処理３９６-４５３(１９７８)」に記述された「符号励起線形予測(ＣＥＬＰ) コーダ」であり、それは引用文献としてここに完全に組み込まれる。ＣＥＬＰコーダでは、音声信号の短期間相関関係、または冗長が線形予測(ＬＰ)分析によって取り除かれ、それは短期的なフォルマントフィルタの係数を見つける。短期的な予測フィルタを入来音声フレームに適用するとＬＰ残余信号が発生し、それは長期予測フィルタパラメタとその後の確率的なコードブックでさらにモデル化されかつ量子化される。したがって、ＣＥＬＰ符号化は時間領域音声波形を符号化するタスクをＬＰの短期的フィルタ係数に符号化することおよびＬＰ残余に符号化することの別々のタスクに分割する。時間領域符号化は固定レート(即ち、各フレームに同じ数のビット、Ｎ_ｏを使用する)または可変レート(異なった型のフレーム内容に対し異なるビットレートが使用される)で実行することができる。可変レートコーダは、コーデックパラメタを目標品質を得るために適切なレベルに符号化するために必要とされるビットの量だけを使用するように試みる。例示的可変レートＣＥＬＰコーダは米国特許Ｎｏ.５,４１４,７９６に記述され、それは本発明の譲受人に譲渡され引用文献としてここに組みこまれる。

ＣＥＬＰコーダのような時間領域コーダは、時間領域音声波形の精度を保存するためにフレームにつき大きい数のビットＮ_ｏを通常当てにする。そのようなコーダは、比較的大きいフレーム(例えば、８ｋｂｐｓ以上)につきＮ_ｏビットの数を提供された優れた音声品質を通常引渡す。しかしながら、低ビットレート(４ｋｂｐｓ以下)で、時間領域コーダは有効なビットの有限な数による高品質かつロバスト（ｒｏｂｕｓｔ）性能を保有しない。低ビットレートでは、限られたコードブックスペースは、より高いレートの商業応用であまりに首尾よく配備された通常の時間領域コーダの波形一致能力を切り取る。したがって、時間がたつにつれての改良にもかかわらず、低ビットレートで作動する多くのＣＥＬＰ符号化システムは雑音として通常特徴付けられる知覚的に重要なひずみに悩まされる。

低ビットレート(即ち、２.４〜４ｋｂｐｓ以下の範囲)で媒体で作動する高品質な音声コーダを開発する研究関心と強い商業的必要性のうねりが現に存在する。応用領域は無線電話、衛星通信、インターネット電話、様々なマルチメディアおよび音声ストリーミング応用、ボイスメール、および他の音声記憶システムを含んでいる。原動力は高い容量の必要性とパケット損失状況の下でのロバスト性能の要請である。様々な最近の音声符号化標準化の努力は低レート音声符号化アルゴリズムの研究開発を推進する別の直接な原動力である。低レート音声コーダが許容できる応用帯域幅あたりのより多くのチャンネル、またはユーザを創造して、適当なチャンネル符号化の付加的な層と結びつけられた低レート音声コーダはコーダ仕様の総合的なビットバジェット（ｂｕｄｇｅｔ）に適合でき、チャンネルエラー状態の下でロバスト性能を引渡すことができる。低ビットレート音声コーダの例はプロトタイプピッチ周期（ＰＰＰ）音声コーダであり、１９９８年１２月２１日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組みこまれる「可変レート音声符号化」と題する米国出願シリーズＮｏ.０９／２１７,３４１で説明される。

ＣＥＬＰコーダ、ＰＰＰコーダおよび波形補間（ＷＩ）コーダのような通常の予測音声コーダにおいて、符号化体系は重く過去の出力に依存する。それゆえに、フレームエラーまたはフレーム消去がデコーダで受信される場合、デコーダは問題のフレームのためにそれ自身の最高の置換を作らなければならない。デコーダは典型的に前の出力の知的フレーム反復を使用する。デコーダがそれ自身の置換を作らなければならないので、デコーダおよびエンコーダは互いに同期を失う。それ故次のフレームがデコーダに到達するとき、そのフレームが予測的に符号化されるなら、デコーダはエンコーダが使用したのとは異なる前の出力を参照する。これは音声品質または音声コーダ性能の低減を生じる。音声コーダはより重く予測符号化技術（即ち、音声コーダのより多くのフレームが予測的に符号化される）に依存し、性能の低減がひどくなる。このように、予測音声コーダのフレームエラー状態に対する感度を減らす方法の必要がある。

本発明は予測音声コーダのフレームエラー状態に対する感度を低減する方法に向けられる。したがって、本発明の一態様において音声コーダが提供される。音声コーダは都合よく少なくとも１つの予測符号化モード、少なくとも１つの非予測符号化モード、および少なくとも１つの予測符号化モードおよび少なくとも１つの非予測符号化モードに結合されたプロセッサを含み、そのプロセッサは連続した音声フレームを符号化された音声フレームのパターンに従って選択された符号化モードにより符号化させるように構成され、そのパターンは非予測符号化モードで符号化された少なくとも１つの音声フレームを含んでいる。

本発明の別の態様において、符号化音声フレームの方法が提供される。方法は、予測符号化モードで連続した音声フレームの予め定義された数を符号化し、予測符号化モードで連続した音声フレームの予め定義された数を符号化するステップの後に非予測符号化モードで少なくとも１つの音声フレームを符号化し、パターンに従って符号化された複数の音声フレームを生成するために２つの符号化ステップを繰り返すステップを都合よく含む。

本発明の別の態様において、音声コーダが提供される。音声コーダは、予測符号化モードで連続した音声フレームの予め定義された数を符号化する手段と、予め定義された数の連続した音声フレームが予測符号化モードで符号化された後に非予測符号化モードで少なくとも１つの音声フレームを符号化する手段と、パターンに従って符号化される複数の音声フレームを生成するための手段とを都合よく含み、パターンは非予測符号化モードで符号化された少なくとも１つの音声フレームを含んでいる。

本発明の別の態様において、音声フレーム符号化の方法が提供される。方法は、複数の音声フレームをパターンで符号化するステップを都合よく含み、パターンは少なくとも１つの予測的に符号化された音声フレームおよび少なくとも１つの非予測的に符号化された音声フレームを含んでいる。

本発明の別の態様において、音声フレーム符号化の方法が提供される。方法は、複数の音声フレームをパターンで符号化するステップを都合よく含み、パターンは少なくとも１つの重く予測的に符号化された音声フレームと少なくとも１つの僅かに予測的に符号化された音声フレームを含んでいる。

音声コーダにより各々の端で終端される通信チャンネルのブロックダイヤグラムである。図１の音声コーダにおいて使用されることができるエンコーダのブロックダイヤグラムである。図１の音声コーダにおいて使用されることができるデコーダのブロックダイヤグラムである。音声符号化決定過程を示しているフローチャートである。音声信号振幅対時間のグラフである。線形予測（ＬＰ）残余振幅対時間のグラフである。符号化モード選択パターンを採用するために構成される音声コーダのブロックダイヤグラムである。符号化モード選択パターンを採用する図６の音声コーダのような音声コーダにより実行される方法ステップを示しているフローチャートである。

図１において、第１のエンコーダ１００はデジタル化された音声サンプルｓ（ｎ）を受信し、伝送媒体１０２、即ち通信チャンネル１０２上で第１のデコーダ１０４に伝送するためサンプルｓ（ｎ）を符号化する。伝送媒体１０２は例えば地上の通信回線、基地局および人工衛星間のリンク、セルラーまたはＰＣＳ電話および基地局間の無線通信チャンネル、またはセルラーまたはＰＣＳ電話および人工衛星間の無線通信チャンネルであり得る。音声サンプルｓ（ｎ）は、さまざまなコードブックインデックスの形で都合よく符号化されて、下記のようにノイズを量子化する。デコーダ１０４は符号化された音声サンプルを復号し、出力された音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を合成する。復号化過程は、下記のように出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）の合成に使用するため適当な値を決定する種々のコードブックを捜すための伝送されたコードブックインデックスの使用を含む。反対方向の伝送のために、第２のエンコーダ１０６はデジタル化された音声サンプルｓ（ｎ）を符号化し、それは通信チャンネル１０８上で伝送される。第２のデコーダ１１０は符号化された音声サンプルを受信して、符号化された音声サンプルを復号し、合成された出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。

音声サンプルｓ（ｎ）は、例えばパルス符号変調（ＰＣＭ）、合成されたμ−法、またはＡ−法を含んでいる公知技術のさまざまな方法のいずれかに従ってデジタル化され量子化された音声信号を表す。当業者において知られているように、音声サンプルｓ（ｎ）は各々のフレームがデジタル化された音声サンプルｓ（ｎ）の予め定められた数を含む入力データのフレームに編制される。フレームはサブフレームにさらに再分割されることができる。例示的な実施例において、各々のフレームは４つのサブフレームを含む。例示的な実施例において、８Ｋｈｚのサンプリングレートが各々１６０のサンプルからなる２０ミリ秒フレームを有して使われる。後述する実施例において、データ伝送のレートはフレーム対フレーム基準で都合よく変えられる。例えば、データ伝送のレートは完全なレートから半分のレート、４分の1のレート、８分の１のレートに変えられ得る。下位ビットレートが比較的少ない音声情報を含んでいるフレームのために選択的に使うことができるので、データレートを変化させることは有利である。当業者によく理解されている様に、さまざまなサンプリングレート、フレームサイズおよびデータ伝送レートが使用されるかもしれない。

第１のエンコーダ１００および第２のデコーダ１１０は一緒に第１の音声コーダまたは音声コーデックを含む。音声コーダは、例えばセルラーまたはＰＣＳ電話、基地局および／または基地局コントローラを含む伝送している音声信号の任意の通信装置に使用されることができる。同様に、第２のエンコーダ１０６および第１のデコーダ１０４は一緒に第２の音声コーダを含む。音声コーダがデジタル信号処理装置（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ディスクリートゲートロジック、ファームウェアまたは任意な通常のプログラム可能なソフトウェアモジュールおよびマイクロプロセッサで実行されてもよいことは当業者によりよく理解される。ソフトウェアモジュールは、ＲＡＭメモリー、フラッシュメモリ、レジスタまたは公知技術の他のいかなる形の書き込み可能な記憶媒体でもあることができる。代わりにいかなる従来のプロセッサ、コントローラまたは状態マシンもマイクロプロセッサと置換されることができる。音声符号化のために設計される例示的なＡＳＩＣは本発明の譲受人に譲渡され、引用文献として完全にここに組み込まれた米国特許番号５,７２７,１２３、および１９９４年２月１６日に申請され本発明の譲受人に譲渡され、ここに引用文献として完全に組み込まれた「ＶＯＣＯＤＥＲＡＳＩＣ」と題する米国出願番号０８/１９７,４１７に記述されている。

図２において、音声コーダで使用されることができるエンコーダ２００は、モード決定モジュール２０２、ピッチ推定モジュール２０４、ＬＰ分析モジュール２０６、ＬＰ分析フィルタ２０８、ＬＰ量子化モジュール２１０および残余量子化モジュール２１２を含む。入力音声フレームｓ（ｎ）は、モード決定モジュール２０２、ピッチ推定モジュール２０４、ＬＰ分析モジュール２０６およびＬＰ分析フィルタ２０８に提供される。モード決定モジュール２０２はモードインデックスＩ_Ｍおよび周期性に基づくモードＭ、エネルギー、信号対雑音比（ＳＮＲ）、または各入力音声フレームｓ（ｎ）の他の特徴の中でゼロ交差率を提供する。周期性に従う音声フレームを分類するさまざまな方法は、本発明の譲受人に譲渡されここに引用文献として完全に組み込まれた米国特許番号５,９１１,１２８に記述されている。この種の方法は、また、米国電気通信工業会暫定標準ＴＩＡ／ＥＩＡＩＳ-１２７およびＴＩＡ／ＥＩＡＩＳ-７３３に組み込まれている。例示的なモード決定案はまた、上述した米国出願番号０９/２１７,３４１に記述されている。

ピッチ推定モジュール２０４はピッチインデックスＩｐおよび各入力音声フレームｓ（ｎ）に基づいた遅れ値Ｐ０を生じる。ＬＰ分析モジュール２０６は、ＬＰパラメタaを生成するために各々の入力音声フレームｓ（ｎ）に線形予測の分析を実行する。ＬＰパラメタａはＬＰ量子化モジュール２１０に与えられる。ＬＰ量子化モジュール２１０はまたモードＭを受け、それによって、モード依存方法で量子化過程を実行する。ＬＰ量子化モジュール２１０はＬＰインデックスＩＬＰおよび量子化されたＬＰパラメタ

を生じる。ＬＰ分析フィルタ２０８は入力音声フレームｓ（ｎ）に加えて量子化されたＬＰパラメタ

を受信する。ＬＰ分析フィルタ２０８はＬＰ残余信号Ｒ[n]を生成し、それは入力音声フレームｓ（ｎ）および線形予測されたパラメタ

に基づいた再構成された音声間の誤差を表す。ＬＰ残余Ｒ[n]、モードＭおよび量子化されたＬＰパラメタ

が残余量子化モジュール２１２に提供される。これらの値に基づいて、残余量子化モジュール２１２は残余インデックスＩＲおよび量子化残余信号

を生成する。

図３において、音声コーダに使用されることができるデコーダ３００は、ＬＰパラメタ復号モジュール３０２、残余復号モジュール３０４、モード復号モジュール３０６およびＬＰ合成フィルタ３０８を含む。モード復号モジュール３０６はそこからモードＭを生成するモードインデックスＩＭを受信して復号する。ＬＰパラメタ復号モジュール３０２はモードＭおよびＬＰインデックスＩＬＰを受信する。ＬＰパラメタ復号モジュール３０２は量子化されたＬＰパラメタを生じるために受け取られた値を復号する。残余復号モジュール３０４は残余インデックスＩＲ、ピッチインデックスＩＰ、およびモードインデックスＩＭを受信する。残余復号モジュール３０４は量子化された残余信号を生成するために受け取られた値を復号する。量子化された残余信号および量子化されたＬＰパラメタはＬＰ合成フィルタ３０８に提供され、それはそれらから復号化出力音声信号を合成する。

図２のエンコーダ２００および図３のデコーダ３００のモジュールのためのさまざまな作動および実施技術は、上述した米国特許番号５,４１４,７９６および米国出願番号０９/２１７,３４１に記述されている。

図４のフローチャートに示したように、一実施例に従う音声コーダは伝送のための処理音声サンプルの一組のステップに従う。ステップ４００において、音声コーダは連続したフレームの音声信号のデジタルサンプルを受信する。与えられたフレームを受信すると、音声コーダはステップ４０２へ進む。ステップ４０２において、音声コーダはフレームのエネルギーを検出する。エネルギーはフレームの音声活力の基準である。音声検出はデジタル化された音声サンプルの振幅の平方を合計し、閾値に対して結果として生じるエネルギーを比較することにより実行される。実施例において、閾値はバックグラウンドノイズの変更レベルに基づいて適応する。例示的な可変の閾値音声活力検出回路は上述した米国特許番号５,４１４,７９６に記述されている。声に出されない若干の音声音は、バックグラウンドノイズとして誤って符号化される可能性のある極めて低エネルギーのサンプルであり得る。これが起こるのを防止するために、上述した米国特許番号５,４１４,７９６に記述したように、低エネルギーサンプルのスペクトルの傾斜はバックグラウンドノイズから無声音声を区別するために用いることができる。

フレームのエネルギを検出した後に、音声コーダはステップ４０４へ進む。ステップ４０４において、音声コーダは、検出されたフレームエネルギーが音声情報を含むとしてフレームを分類するのに十分かどうか決定する。検出されたフレームエネルギーが予め定義された閾値以下に低下する場合、音声コーダはステップ４０６へ進む。ステップ４０６において、音声コーダはバックグラウンドノイズ（即ち、音声なし、即ち沈黙）としてフレームを符号化する。一実施例において、バックグラウンドノイズフレームは８分の１のレートで符号化される。ステップ４０４において検出フレームエネルギーが予め定義された閾値を満たすかまたは超える場合、フレームは音声として分類され、音声コーダはステップ４０８へ進む。

ステップ４０８において音声コーダは、フレームが無声音声であるかどうかを決定する。即ち、音声コーダがフレームの周期性を調べる。周期性判定のさまざまな既知の方法は、例えばゼロ交差の使用および正規化自己相関関数（ＮＡＣＦ）の使用を含む。特に、周期性を検出するためにゼロ交差およびＮＡＣＦを使用することは、上述した米国特許番号５,９１１,１２８および米国出願番号０９/２１,７３４１に記述されている。加えて、有声音声と無声音声を区別するために用いる上記の方法は、米国電気通信工業会暫定標準ＴＩＡ／ＥＩＡＩＳ-１２７およびＴＩＡ／ＥＩＡＩＳ-７３３に取り込まれている。フレームがステップ４０８の無声音声であると決定される場合、音声コーダはステップ４１０へ進む。ステップ４１０において、音声コーダは無声音声としてフレームを符号化する。一実施例において、無声音声フレームは４分の１のレートで符号化される。ステップ４０８においてフレームが無声音声であると決定されない場合、音声コーダはステップ４１２へ進む。

ステップ４１２において、音声コーダは、例えば上述した米国特許番号５,９１１,１２８に記述されたように従来技術である周期性検出方法を用いて、フレームが遷移音声であるかどうか決定する。フレームが遷移音声であると決定される場合、音声コーダはステップ４１４へ進む。ステップ４１４において、フレームは遷移音声、（即ち、無声音声から有声音声への遷移）として符号化される。一実施例において遷移音声フレームは、本発明の譲受人に譲渡され、ここに引用文献として完全に組み込まれた、１９９９年５月７日に申請された米国出願番号０９/３０,７２９４、題名「遷移音声フレームの多重パルス補間符号化」に記述されている多重パルス補間符号化方法に従って符号化される。もう一つの実施例では、遷移音声フレームは完全なレートで符号化される。

ステップ４１２において音声コーダはフレームが遷移音声でないと決定する場合、音声コーダはステップ４１６へ進む。ステップ４１６において、音声コーダは有声音声としてフレームを符号化する。一実施例において、有声音声フレームは半分のレートで符号化されてもよい。また、有声音声フレームを完全なレートで符号化することが可能である。しかし、半分のレートで有声フレームを符号化することは、有声フレームの定常状態の特質を活用することによりコーダが価値あるバンド幅を保存できることを当業者は認識するであろう。さらに、有声音声を符号化するために用いるレートに関係なく、過去のフレームからの情報を使用して有声音声が都合よく符号化される。それゆえに、予測的に符号化されると言われる。

技術に熟練したものは、音声信号または対応するＬＰ残余が図４に示されるステップに従うことによって符号化されることができることを認識するであろう。ノイズ、無声、遷移および有声音声の波形特性が図５Ａのグラフで時間の関数として示されることができる。ノイズ、無声、遷移および有声ＬＰ残余の波形特性が図５Ｂのグラフで時間の関数として示されることができる。

一実施例において、予測的に一部のフレームを符号化する音声コーダ５００は、図６に示すように、決定論的なコード体系選択パターンを用いてフレームエラー状態に対する感度を減少するために構成される。音声コーダ５００は初期パラメタ計算モジュール５０２、分類モジュール５０４、制御プロセッサ５０６、複数Ｎの予測符号化モード５０８、５１０（簡単のため、２つの予測符号化モード５０８、５１０だけが点線により象徴されている残留予測符号化モードとして示される）および少なくとも１つの非予測符号化モード５１２を含む。初期パラメタ計算モジュール５０２は、分類モジュール５０４に連結される。分類モジュール５０６は、制御プロセッサ５０６に、そして、さまざまな符号化モード５０８、５１０、５１２に連結される。制御プロセッサはまた、さまざまな符号化モード５０８、５１０、５１２に連結される。

デジタル化された音声サンプルｓ（ｎ）は音声コーダ５００により受信され、初期パラメタ計算モジュール５０２に入力される。初期パラメタ計算モジュール５０２は、例えば線形予測係数（ＬＰＣ係数）、正規化自己相関関数（ＮＡＣＦ）、開ループ遅れパラメタ、帯域エネルギー、ゼロ交差レートおよびフォルマント残留信号を含んでいる音声サンプルｓ（ｎ）からさまざまな初期パラメータを引き出す。種々の初期パラメータの算出および使用は公知技術であり、上述した米国特許番号５,４１４,７９６および米国出願番号０９/２１７,３４１に記述されている。

初期パラメータは分類モジュール５０４に提供される。初期パラメータ値に基づいて、分類モジュール５０４は図４に関して上記した分類ステップに従って音声フレームを分類する。フレーム分類は制御プロセッサ５０６に提供され、音声フレームはさまざまな符号化モード５０８、５１０、５１２に提供される。

制御プロセッサ５０６は、どのモードが現在のフレームのための音声の最も妥当な与えられた特性であるかに依存して、フレームからフレームへ複数の符号化モード５０８、５１０、５１２の間で動的に切り換えるために都合よく構成される。特定の符号化モード５０８、５１０、５１２は、デコーダ（図示せず）で受け入れ可能な信号再生を維持すると共に、得られる最も低いビットレートを達成するために各々のフレームについて選択される。音声コーダ５００のビットレートはこのように音声信号ｓ（ｎ）の特性変化、可変音声符号化として参照される過程として、時間とともに変化する。

一実施例において、制御プロセッサ５０６は現在の音声フレームの分類に基づく特定の予測符号化モード５０８、５１０の応用を指向する。予測符号化モード５０８、５１０のうちの１つは、上述した米国特許番号５,４１４,７９６に記述されているＣＥＬＰ符号化モードである。予測符号化モード５０８、５１０のもう１つは、上述した米国出願番号０/２１７,３４１に記述されているＰＰＰ符号化モードである。さらに別の予測符号化モード５０８、５１０はＷＩ符号化モードであってもよい。

一実施例において、非予測符号化モード５１２は、軽度の予測または少ないメモリの符号化体系である。予測符号化モード５０８、５１０は、有利な予測符号化体系であると都合がよい。代替実施例において、非予測符号化モード５１２は完全に非予測、またはメモリのない符号化体系である。完全に非予測符号化モード５１２は、例えば音声サンプルｓ（ｎ）のＰＣＭ符号化、音声サンプルｓ（ｎ）の複合されたμ−法符号化、または音声サンプルｓ（ｎ）のＡ−法符号化であってもよい。

１つの非予測符号化モード５１２が図６に関して記述されている実施例に示されるが、1つ以上の非予測符号化モジュールが使われることができることは熟練者により理解されるであろう。1つ以上の非予測符号化モジュールが使われる場合、非予測符号化モジュールの型が異なることができる。さらに、1つ以上の非予測符号化モジュールが使われる代替実施例において、いくつかまたは全ての非予測符号化モジュールは、僅かな予測符号化モジュールである。そして他の実施例において、非予測符号化モジュールのいくつかまたは全ては完全に非予測符号化モジュールである。

一実施例において、非予測符号化モード５１２は決定論的持続で制御プロセッサ５０６により都合よく挿入される。制御プロセッサ５０６はフレームの長さＦを有するパターンを作る。一実施例において、長さＦはフレームエラーの影響の最も長く我慢できる持続に基づいている。最も長く我慢できる持続は聴取者の主観的な見地から予め都合よく決定されることができる。もう一つの実施例では、長さＦは制御プロセッサ５０６によって周期的に変化する。他の実施例において、長さＦは制御プロセッサ５０６によって乱数的にまたは疑似乱数的に変化される。例示的な繰り返されているパターンは、ＰＰＰＮであり、ここにＰは予測符号化モード５０８、５１０のためにあり、Ｎは非予測または僅かな予測符号化モード５１２を示す。代替実施例において、複数の非予測符号化モードが挿入される。例示的なパターンはＰＰＮＰＰＮである。パターン長さＦが変化するある実施例において、パターンＰＰＰＮはパターンＰＰＮにより続けられ、このパターンＰＰＮがパターンＰＰＰＮＰＮ等により続けられるかもしれない。

一実施例において、図６の音声コーダ５００のような音声コーダは決定論的間隔で少ないメモリまたはメモリのない符号化体系に知的に挿入するため、図７のフローチャートに示されたアルゴリズムステップを実行する。ステップ６００において、制御プロセッサ（示されない）は計数変数ｉをゼロに等しく設定する。制御プロセッサは次にステップ６０２へ進む。ステップ６０２において制御プロセッサは現フレームの音声内容の分類に基づいて現音声フレームのための予測符号化モードを選択する。制御プロセッサは次にステップ６０４に進む。ステップ６０４において、制御プロセッサは選択された予測符号化モードで現フレームを符号化する。制御プロセッサは次にステップ６０６へ進む。ステップ６０６において、制御プロセッサは計数変数ｉを増加させる。制御プロセッサは次にステップ６０８へ進む。

ステップ６０８において、制御プロセッサは計数変数ｉが予め定義された閾値Ｔより大きいか否かを決定する。予め定義された閾値Ｔは聴取者の主観的な観点から予め決定されるように、フレームエラーの影響の最も長い我慢できる持続に基づいている。特定の実施例において、予め定義された閾値Ｔはフローチャートで繰返しの予め定義された数として固定したままであり、次に制御プロセッサによって異なる予め定義された値に変更される。計数変数ｉが予め定義された閾値Ｔより大きくない場合、制御プロセッサは次の音声フレームのための予測符号化モードを選ぶためにステップ６０２に戻る。他方、計数変数ｉが予め定義された閾値Ｔより大きい場合、制御プロセッサはステップ６１０へ進む。ステップ６１０において、制御プロセッサは非予測または僅かな予測符号化モードで次の音声フレームを符号化する。制御プロセッサはそれからステップ６００に戻り、再び計数変数ｉをゼロに等しく設定する。

当業者は、図７のフローチャートが予測的に符号化されるおよび非予測的または僅かに予測的に符号化される音声フレームの異なる繰り返しパターンを組み入れるために修正されることができると認識するであろう。例えば、計数変数ｉはフローチャートを通して各々の繰返しで、またはフローチャートを通して繰返しの予め定義された数の後に変化されてもよい。または、例えば次の２つのフレームは、ステップ６１０において非予測符号化モードまたは僅かな予測符号化モードによって符号化されることができる。または、例えばフレームの任意の予め定義された数またはフレームの乱数的に選択された数、フレームの疑似乱数的に選択された数、またはフローチャートで各々の繰返しを有する予め定義された方法で変化するフレームの数は、ステップ６１０で非予測符号化モードまたは僅かな予測符号化モードで符号化されることができる。

一実施例において、図６の音声コーダ５００は可変音声コーダ５００であり、音声コーダ５００の平均ビットレートは都合よく維持される。特定の実施例において、パターンに使用される各々の予測符号化モード５０８、５１０が他の各々より異なるレートで符号化され、非予測符号化モード５１２が予測符号化モード５０８、５１０のいずれかのために使用されるレートより異なるレートで符号化される。他の特定の実施例において、予測符号化モード５０８、５１０は比較的低いビットレートで符号化され、非予測符号化モード５１２は比較的高いビットレートで符号化される。それゆえに、高品質の少ないメモリかメモリのない符号化体系が一旦各Ｆフレームに挿入され、高品質、重い予測、低ビットレートの符号化体系が減少された平均符号化レートを生じる連続した高ビットレートフレーム間で使用される。いかなる予測音声コーダにおいても有利であるけれども、この技術は特に低ビットレート音声コーダで有効であり、そこにおいて良好な音声品質は重い予測符号化体系を使用することによってのみ達成されることができる。それらの予測特性によるこの種の低ビットレート音声コーダは、フレームエラーによって生じる退行により影響されやすい。高ビットレート、非予測符号化モード５１２を周期的に挿入することによって、予測符号化モード５０８、５１０をさまざまな低ビットレートに維持すると共に、所望の良好な音声品質および低平均符号化レートが達成される。

一実施例において、平均レートがＲに等しいように繰り返された決定論的なパターンで音声のセグメントの全フレームを符号化することにより、平均符号化レートは予め定義された平均レートＲに一定または略一定に都合よく保たれる。例示的なパターンはＰＰＮであり、Ｐは予測的に符号化されたフレームを表しており、Ｎは非予測的あるいは僅かに予測的に符号化されたフレームを表している。このパターンにおいて、第１のフレームはＲ/２で予測的に符号化され、第２のフレームはＲ/２のレートで予測的に符号化され、第３のフレームは２Ｒのレートで非予測的にまたは僅かに予測的に符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにＲである。

他の例示的なパターンはＰＰＰＮである。このパターンにおいて、第１のフレームがＲ/２のレートで予測的に符号化され、第２のフレームはＲのレートで予測的に符号化され、第３のフレームはＲ/２のレートで予測的に符号化され、そして、第４のフレームは２Ｒのレートで非予測的にまたは僅かに予測的に符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにＲである。

他の例示的なパターンはＰＰＮＰＰＮである。このパターンにおいて、第１のフレームはＲ/２のレートで符号化され、第２のフレームはＲ/２のレートで符号化され、第３フレームは２Ｒレートで符号化され、第４のフレームはＲ/３のレートで符号化され、第５のフレームはＲ/３のレートで符号化され、そして、第６のフレームは７Ｒ/３のレートで符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにＲである。

他の例示的なパターンはＰＰＰＮＰＮである。このパターンにおいて、第１のフレームがＲ/３のレートで符号化され、第２のフレームはＲ/３のレートで符号化され、第３のフレームはＲ/３のレートで符号化され、第４のフレームが３Ｒレートで符号化され、第５のフレームがＲ/２のレートで符号化され、そして第６のフレームが３Ｒ/２のレートで符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにＲである。

他の例示的なパターンはＰＰＮＮＰＰＮである。このパターンにおいて、第１のフレームがＲ/３のレートで符号化され、第２のフレームはＲ/３のレートで符号化され、第３のフレームが２Ｒのレートで符号化され、第４のフレームが２Ｒのレートで符号化され、第５のフレームがＲ/２のレートで符号化され、第６のフレームはＲ/２のレートで符号化され、そして第７のフレームは４Ｒ/３のレートで符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにＲである。

熟練者は、上記のパターンのいずれかのいかなる循環ローテーションもまた使用されることができると理解するであろう。熟練者はまた、上記のパターンおよびその他が乱数的または疑似乱数的に選択されるかまたは事実上周期的であるか否かで、いかなる順序にも継ぎ合わせることができることを認識するであろう。当業者は、符号化レートのいかなる組も使うことができ、符号化レート平均をパターンの持続（Ｆフレーム）に亘って所望の平均符号化レートＲに提供できることをさらに認識するであろう。

非予測的にまたは僅かに予測的に符号化されるようにと高レートで符号化されるフレームを強制することは、音声のセグメントについてＲの所望の平均符号化レートを維持する間に、フレームエラーの影響がパターンと同じ長さだけ続けさせられる。実際、音声のセグメントがＦフレームパターン長の正確な倍数を含まない場合、制御プロセッサはわずかに最低の平均レートを達成するためにインテリジェントにパターンを回転させるように構成されることができる。音声セグメントのための所望の有効平均符号化レートＲがＲの固定レートでセグメントの全フレームを符号化することによって代わりに達成され、レートＲが予測の使用をさせる比較的低レートである場合、音声コーダはフレームエラーの続いている影響に極めて弱いであろう。

熟練者は、上記した実施例が可変レート音声コーダによるにもかかわらず、上記したそれらのようなパターンに基づく体系がまた、固定レート、予測音声コーダの利点に採用されることができると理解するであろう。固定レート、予測音声コーダが低ビットレート音声コーダである場合、フレームエラー状態は音声コーダに不利な影響を与えるだろう。非予測的に符号化されたまたは僅かに予測的に符号化されたフレームは同じ低レートで符号化された予測的符号化フレームより低い品質であるかもしれない。それにもかかわらず、あらゆるＦフレームの１つの非予測的に符号化されたまたは僅かに予測的に符号化されたフレームを導入することは、あらゆるＦフレームのフレームエラーの影響を排除する。

このように、フレームエラー状態に対する感度を減らすために予測音声コーダのコード体系選択パターンを使用する新規な方法と装置が記述された。熟練者は、ここに開示された実施例と関連して記述されたさまざまな図解論理ブロックおよびアルゴリズムステップが、電子的ハードウエア、コンピューターソフトウェアまたは両方の組合わせとして実行されることができることを理解するであろう。さまざまな図示する構成要素、ブロックおよびステップは、それらの機能性の用語で一般に記述された。機能性がハードウエアまたはソフトウェアとして実施されるか否かは、全体的なシステムに課せられた特定の応用および設計拘束に依存する。熟練者は、これらの状況の下でハードウェアおよびソフトウェアの互換性、および各々の特定の応用のために記述された機能性を最もよく実施する方法を認識する。実施例としてさまざまな図解論理ブロックおよびここに開示された実施例と関連して記述されたアルゴリズムステップは、デジタル信号処理装置（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）、ディスクリートゲートまたはトランジスタ論理、例えばレジスタおよびＦＩＦＯのようなディスクリートハードウエア構成要素、一組のファームウェア指令を実行しているプロセッサ、またはあらゆる通常のプログラム可能なソフトウェアモジュールおよびプロセッサで実施または実行されることができる。プロセッサは都合よくマイクロプロセッサであってもよいが、代わりにプロセッサはいかなる通常のプロセッサも、コントローラ、マイクロコントローラまたは状態マシンであってもよい。ソフトウェアモジュールはＲＡＭメモリー、フラッシュメモリ、レジスタまたは公知技術の書き込み可能な記憶媒体の他のいかなる形でもあることができる。熟練者は、上記の説明を通して参照されたデータ、指令、命令、情報、信号、ビット、記号およびチップが電圧、電流、電磁波、磁場または粒子、光学場または粒子、またはそれのいかなる組合わせでも都合よく表されることをさらに認識するであろう。

本発明の好ましい実施例はこのように図示され記述された。しかし、多数の変更が発明の精神または範囲から逸脱することなく、ここに開示された実施例になされるかもしれないことは技術に普通に熟練した者には明らかである。したがって、本発明は以下の請求項に従う以外に制限されるべきではない。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
少なくとも１つの予測符号化モードと、
少なくとも１つの非予測符号化モードと、
少なくとも１つの予測符号化モードおよび少なくとも１つの非予測符号化モードに結合されたプロセッサとを含み、
前記プロセッサは符号化された音声フレームのパターンに従って選択された符号化モードにより連続した音声フレームを符号化させるように構成され、そのパターンは非予測符号化モードで符号化された少なくとも１つの音声フレームを含んでいる音声コーダ。
［Ｃ２］
少なくとも１つの非予測符号化モードが１つの非予測符号化モードを含むＣ１の音声コーダ。
［Ｃ３］
少なくとも１つの非予測符号化モードが僅かな予測符号化モードであるＣ１の音声コーダ。
［Ｃ４］
少なくとも１つの非予測符号化モードが完全に非予測符号化モードであるＣ１の音声コーダ。
［Ｃ５］
プロセッサが符号化された音声フレームのパターンのために平均符号化レートを維持するようにさらに構成されるＣ１の音声コーダ。
［Ｃ６］
符号化された音声フレームのパターンは少なくとも１つの予測符号化モードで符号化される複数の音声フレームを含み、少なくとも１つの予測符号化モードで符号化される音声フレームの数が聴取者により予め定められているＣ１の音声コーダ。
［Ｃ７］
パターンは繰り返しパターンであるＣ１の音声コーダ。
［Ｃ８］
パターンは様々なパターンであるＣ１の音声コーダ。
［Ｃ９］
予測符号化モードで予め定義された数の連続した音声フレームを符号化し、
予測符号化モードで予め定義された数の連続した音声フレームを符号化するステップを実行した後に非予測符号化モードで少なくとも１つの音声フレームを符号化し、
パターンに従って符号化される複数の音声フレームを生成するために２つの符号化ステップを繰り返す
ステップを含む音声フレームを符号化する方法。
［Ｃ１０］
パターンが繰り返しパターンであるＣ９の方法。
［Ｃ１１］
パターンが様々なパターンであるＣ９の方法。
［Ｃ１２］
非予測符号化モードが僅かな予測符号化モードであるＣ９の方法。
［Ｃ１３］
非予測符号化モードが完全に非予測符号化モードであるＣ９の方法。
［Ｃ１４］
符号化された音声フレームのパターンのための平均符号化レートを維持するステップを更に含むＣ９の方法。
［Ｃ１５］
連続した音声フレームの予め定義された数が聴取者によって予め定められるＣ９の方法。
［Ｃ１６］
連続した音声フレームの予め定義された数を変化させるステップを更に含むＣ９の方法。
［Ｃ１７］
変化させるステップが連続した音声フレームの予め定義された数を周期的に変化させることを含むＣ１６の方法。
［Ｃ１８］
変化させるステップが連続した音声フレームの予め定義された数を乱数的に変化させることを含むＣ１６の方法。
［Ｃ１９］
予測符号化モードで連続した音声フレームの予め定義された数を符号化する手段、
予め定義された数の連続した音声フレームが予測符号化モードで符号化された後、非予測符号化モードで少なくとも１つの音声フレームを符号化する手段、
パターンが非予測符号化モードで符号化される少なくとも１つの音声フレームを含み、パターンに従って符号化される複数の音声フレームを生成する手段
を含む音声コーダ。
［Ｃ２０］
パターンが繰り返しパターンであるＣ１９の音声コーダ。
［Ｃ２１］
パターンが様々なパターンであるＣ１９の音声コーダ。
［Ｃ２２］
非予測符号化モードが僅かな予測符号化モードであるＣ１９の音声コーダ。
［Ｃ２３］
非予測符号化モードが完全に非予測符号化モードであるＣ１９の音声コーダ。
［Ｃ２４］
符号化された音声フレームのパターンの平均符号化レートを維持する手段をさらに含むＣ１９の音声コーダ。
［Ｃ２５］
連続した音声フレームの予め定義された数は聴取者よって予め定められるＣ１９の音声コーダ。
［Ｃ２６］
予め定義された数の連続した音声フレームを変化させる手段をさらに含むＣ１９の音声コーダ。
［Ｃ２７］
変化させる手段が連続した音声フレームの予め定義された数を周期的に変化させる手段を含むＣ２６の音声コーダ。
［Ｃ２８］
変化させる手段が連続した音声フレームの予め定義された数を乱数的に変化させる手段を含むＣ２６の音声コーダ。
［Ｃ２９］
複数の音声フレームをパターンで符号化するステップ含み、パターンが少なくとも１つの予測的に符号化された音声フレームおよび少なくとも１つの非予測的に符号化された音声フレームを含む音声フレームの符号化方法。
［Ｃ３０］
パターンが繰り返しパターンであるＣ２９の方法。
［Ｃ３１］
パターンが様々なパターンであるＣ２９の方法。
［Ｃ３２］
複数の音声フレームをパターンで符号化するステップ含み、パターンが少なくとも１つの重く予測的に符号化された音声フレームおよび少なくとも１つの僅かに予測的に符号化された音声フレームを含む音声フレームの符号化方法。
［Ｃ３３］
パターンが繰り返しパターンであるＣ３２の方法。
［Ｃ３４］
パターンが様々なパターンであるＣ３２の方法。

５００…音声コーダ５０２…初期パラメタ計算モジュール５０４…分類モジュール５０６…制御プロセッサ５０８、５１０…予測符号化モード５１２…非予測符号化モード

Claims

予測符号化モードで予め定義された数の連続した音声フレームを符号化するステップと、
前記予測符号化モードで予め定義された数の連続した音声フレームを符号化するステップを実行した後に、非予測符号化モードで少なくとも１つの音声フレームを符号化するステップと、
パターンに従って符号化された複数の音声フレームを生成するために前記２つのステップを繰り返すステップと、
を備える音声フレームを符号化する方法。
前記パターンは、周期的に繰り返される、請求項１に記載の方法。
前記パターンは、ランダムである、請求項１に記載の方法。
前記非予測符号化モードは、予測するものである、請求項１に記載の方法。
前記非予測符号化モードは、完全に非予測符号化モードであり、前記予測符号化モードより高いビットレートで符号化される、請求項１に記載の方法。
平均符号化レートを維持するように前記符号化された音声フレームのパターンを選択するステップをさらに備える、請求項１に記載の方法。
前記予め定義された数の連続した音声フレームは、聴取者の主観的な観点から予め決定される、請求項１に記載の方法。
前記２つの符号化するステップを繰り返すステップの前に前記パターンの長さを変化させるステップをさらに備える、請求項１に記載の方法。
前記パターンの長さを変化させるステップは、周期的な方法で前記パターンの長さを変化させる、請求項８に記載の方法。
前記パターンの長さを変化させるステップは、乱数的な方法で前記パターンの長さを変化させる、請求項８に記載の方法。
予測符号化モードで予め定義された数の連続した音声フレームを符号化する手段と、
前記予め定義された数の連続した音声フレームが前記予測符号化モードで符号化された後に、非予測符号化モードで少なくとも１つの音声フレームを符号化する手段と、
予測符号化モードで符号化された音声フレームのパターン及び非予測符号化モードで符号化された音声フレームのパターンに従って符号化される複数の音声フレームを生成するための手段と、
を備える音声コーダ。
前記パターンは、周期的に繰り返される、請求項１１に記載の音声コーダ。
前記パターンは、ランダムである、請求項１１に記載の音声コーダ。
前記非予測符号化モードは、予測するものである、請求項１１に記載の音声コーダ。
前記非予測符号化モードは、完全に非符号化モードであり、前記予測符号化モードより高いビットレートで符号化される、請求項１１に記載の音声コーダ。
平均符号化レートを維持するように前記符号化された音声フレームのパターンを選択するための手段をさらに備える、請求項１１に記載の音声コーダ。
前記予め定義された数の連続した音声フレームは、聴取者の主観的な観点から予め決定される、請求項１１に記載の音声コーダ。
前記予測符号化モードで符号化された音声フレームのパターン及び非予測符号化モードで符号化された音声フレームのパターンに従って符号化される複数の音声フレームを生成するための手段の前に前記パターンの長さを変化させる手段をさらに備える、請求項１１に記載の音声コーダ。
前記パターンの長さを変化させるための手段は、周期的な方法で前記パターンの長さを変化させるための手段を備える、請求項１８に記載の音声コーダ。
前記パターンの長さを変化させるための手段は、乱数的な方法で前記パターンの長さを変化させるための手段を備える、請求項１８に記載の音声コーダ。