JP2016535873A

JP2016535873A - 適合的帯域幅拡張およびそのための装置

Info

Publication number: JP2016535873A
Application number: JP2016541789A
Authority: JP
Inventors: ヤン・ガオ
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2013-09-10
Filing date: 2014-09-09
Publication date: 2016-11-17
Anticipated expiration: 2034-09-09
Also published as: RU2641224C2; EP3039676A1; RU2016113288A; PL3301674T3; MX2016003074A; EP4258261A3; KR101871644B1; CN105637583B; KR101785885B1; CN105637583A; CN107393552A; EP3301674B1; US20170221498A1; EP3039676B1; EP3039676A4; BR112016005111A2; CN107393552B; KR20160050071A; AU2014320881B2; US10249313B2

Abstract

本発明の１実施形態では、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法が、当該オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域励起スペクトルを生成するステップを含む。サブバンド領域が、当該復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、低周波帯域内部から選択される。高帯域励起スペクトルが、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対して生成される。当該生成された高帯域励起スペクトルを用いて、拡張された高帯域オーディオ信号が高帯域スペクトル・エンベロープを適用することによって生成される。拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する。

Description

本願は、発明の名称を「帯域幅拡張のためのスペクトル・エネルギ・レベルに基づく帯域のシフトの適合的選択」とした２０１３年９月１０日に出願された米国仮特許出願第６１／８７５，６９０号の継続出願である、発明の名称を「適合的帯域幅拡張およびそのための装置」とした２０１４年９月５日に出願された米国特許出願第１４／４７８，８３９号に対する優先権を主張し、その両方は、あたかもその全体を再現したかのように引用により本明細書に組み込まれる。

本発明は一般に、会話処理の分野に関し、特に適合的帯域幅拡張およびそのための装置に関する。

近年のオーディオ／会話デジタル信号通信システムでは、デジタル信号は符号器で圧縮され、圧縮された情報（ビットストリーム）をパケット化し、フレームごとに通信チャネルを介して復号器に送信することができる。符号器および復号器から成るシステムはコーデックと呼ばれる。会話／オーディオ圧縮を使用して、当該会話／オーディオ信号を表すビットの数を減らし、それにより、送信に必要なビット速度を減らしてもよい。会話／オーディオ圧縮技術を一般に時間領域符号化および周波数領域符号化に分類することができる。時間領域符号化は通常、低ビット速度で会話信号を符号化するかまたはオーディオ信号を符号化するために使用される。周波数領域符号化は通常、高ビット速度でオーディオ信号を符号化するかまたは会話信号を符号化するために使用される。帯域幅拡張（ＢＷＥ）が、非常に低いビット速度または零ビット速度で高帯域信号を生成するための時間領域符号化または周波数領域符号化の一部であることができる。

しかし、会話符号器はロッシー符号器である。即ち、復号化された信号は元の信号とは異なる。したがって、会話符号化におけるゴールの１つは、所与のビット速度での歪み（または知覚可能な損失）を最小化するか、または、所与の歪みに達するビット速度を最小化することである。

会話符号化は、会話は他の大部分のオーディオ信号よりかなり単純な信号であり、会話の特性に関するかなり多くの統計的情報が利用可能であるという点で、他の形態のオーディオ符号化とは異なる。結果として、オーディオ符号化において関係する幾つかの聴覚情報は、会話符号化の状況では不要である可能性がある。会話符号化では、最も重要な基準は、限られた量の送信データで会話の明瞭性および「快適性」を保存することである。

会話の明瞭性には、実際の文字内容以外に、話者のアイデンティティ、感情、イントネーション、音色等も含まれ、これらは全て、完全な明瞭性に関して重要である。劣化した会話の快適性のより抽象的な概念は明瞭性とは異なる性質である。なぜなら、劣化した会話は完全に明瞭であるが、主観的には聴き手には耳障りである可能性があるからである。

会話波形の冗長性を、有声および無声の会話信号のような幾つかの異なるタイプの会話信号に関連して考慮してもよい。有声音、例えば「ａ」、「ｂ」は本質的に声帯の振動に起因し、振動的である。したがって、短時間にわたって、それらは正弦曲線のような周期的な信号の和により良くモデル化される。換言すれば、有声の会話に対して、会話信号は本質的に周期的である。しかし、この周期性は会話セグメントの期間にわたって可変である可能性があり、当該周期的な波の形状は通常、セグメントからセグメントへと徐々に変化する。低ビット速度の会話符号化は、かかる周期性を利用することから大幅に恩恵を受けることができる。有声の会話期間はまたピッチとも呼ばれ、ピッチ予測はしばしば長期予測（ＬＴＰ）と名付けられる。対照的に、「ｓ」、「ｓｈ」のような無声音はより雑音風である。これは、無声の会話信号はランダムな雑音により似ており、より少量の予測可能性を有するからである。

伝統的には、時間領域符号化のような全てのパラメトリックな会話符号化方法では、会話信号に固有の冗長性を利用して、送信しなければならない情報の量を減らし、短区間での信号の会話標本のパラメータを推定する。この冗長性は主に、準周期的な割合での会話の波の形状の反復、および、遅く変化する会話信号のスペクトル・エンベロープから生ずる。

会話波形の冗長性を、有声および無声のような幾つかの異なるタイプの会話信号に関して考慮してもよい。会話信号は有声の会話に対して本質的に周期的であるが、この周期性は会話セグメントの期間にわたって可変であることがあり、当該周期的な波の形状は通常、セグメントからセグメントへと徐々に変化する。低ビット速度の会話符号化はかかる周期性を利用することから大幅に恩恵を受けることができる。有声の会話期間はピッチとも呼ばれ、ピッチ予測はしばしば長期予測（ＬＴＰ）と名付けられる。無声の会話に関して、信号はランダムな雑音により似ており、より少量の予測可能性を有する。

何れのケースでも、パラメトリック符号化を使用して、会話信号の励起成分をスペクトル・エンベロープ成分から分離することにより会話セグメントの冗長性を減らしてもよい。遅く変化するスペクトル・エンベロープを、短期予測（ＳＴＰ）とも呼ばれる線形予測符号化（ＬＰＣ）により表すことができる。低ビット速度の会話符号化は、かかる短期予測を利用することから大幅に恩恵を受けることもできる。当該符号化の利点は、パラメータが変化する遅い速度から生ずる。しかし、当該パラメータが数ミリ秒内に保持された値と大幅に異なるのは稀である。したがって、８ｋＨｚ、１２．８ｋＨｚまたは１６ｋＨｚの標本化速度では、当該会話符号化アルゴリズムは、名目フレーム期間が１０から３０ミリ秒の範囲内にあるというものである。２０ミリ秒のフレーム期間が最も一般的な選択肢である。

フィルタ・バンク技術に基づくオーディオ符号化は、例えば周波数領域符号化において広く利用されている。信号処理では、フィルタ・バンクは、それぞれが元の信号の単一の周波数サブバンドを保持する複数の成分に入力信号を分離するバンドパス・フィルタのアレイである。当該フィルタ・バンクにより実施される分解のプロセスは分析と呼ばれ、フィルタ・バンク分析の出力は、当該フィルタ・バンクに存在するフィルタと同じくらい多くのサブバンドを有するサブバンド信号と称される。再構築プロセスはフィルタ・バンク合成と呼ばれる。デジタル信号処理では、フィルタ・バンクという用語は一般に受信器のバンクにも適用される。違いは、受信器もサブバンドを、低速で再標本化できる低い中央周波数に下方変換するという点である。場合によっては、バンドパス・サブバンドをアンダーサンプリングすることで同じ結果を得ることができる。フィルタ・バンク分析の出力は複素係数の形でありうる。各複素係数は、それぞれフィルタ・バンクのサブバンドごとの余弦項と正弦項を表す、実要素と虚要素を含む。

Ｇ．７２３．１、Ｇ．７２９、Ｇ．７１８のようなより近年の周知な標準では、拡張フル・レート（ＥＦＲ）、選択可能モード・ボコーダ（ＳＭＶ）、適応マルチレート（ＡＭＲ）、可変レート・マルチモード広帯域（ＶＭＲ−ＷＢ）、または適応マルチレート広帯域（ＡＭＲ−ＷＢ）、符号励起線形予測技術（「ＣＥＬＰ」）が採用されている。ＣＥＬＰは一般に、符号化励起、長期予測および短期予測の技術的組合せとして理解されている。ＣＥＬＰは主に、具体的な人間の声の特性または人間のボーカル・ボイス生成モデルから利益を得ることによって会話信号を符号化するために使用される。ＣＥＬＰ会話符号化は、会話圧縮領域における非常にポピュラーなアルゴリズム原理であるが、異なるコーデックに対するＣＥＬＰの詳細は大幅に異なりうる。その人気のおかげで、ＣＥＬＰアルゴリズムは様々なＩＴＵ−Ｔ、ＭＰＥＧ、３ＧＰＰ、および３ＧＰＰ２標準で使用されている。ＣＥＬＰの変形には、代数ＣＥＬＰ、緩和ＣＥＬＰ、低遅延ＣＥＬＰおよびベクトル和励起線形予測、およびその他が含まれる。ＣＥＬＰはアルゴリズムのクラスに対する汎用的な用語であり、特定のコーデックに対する汎用的な用語ではない。

ＣＥＬＰアルゴリズムは４つの主要なアイデアに基づく。第１に、線形予測（ＬＰ）を通じた会話生成のソース・フィルタ・モデルが使用される。会話生成のソース・フィルタ・モデルは、声帯、および線形音響フィルタ、声道（および放射特性）のような音源の組合せとして会話をモデル化する。会話生成のソース・フィルタ・モデルの実装では、音源、または励起信号はしばしば、有声の会話に関する周期的なインパルス列として、または、無声の会話に関する白雑音としてモデル化される。第２に、適合的かつ固定されたコードブックはＬＰモデルの入力（励起）として使用される。第３に、検索が「知覚的に重み付けされた領域」において閉ループで実施される。第４に、ベクトル量子化（ＶＱ）が適用される。

本発明の１実施形態では、復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法を説明する。当該方法は、オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域励起スペクトルを生成するステップを含む。サブバンド領域が、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、当該低周波帯域内部から選択される。高帯域励起スペクトルが、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対して生成される。生成された高帯域励起スペクトルを用いて、拡張された高帯域オーディオ信号が高帯域スペクトル・エンベロープを適用することによって生成される。拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する。

本発明の代替的な実施形態によれば、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅を生成するための復号器が、当該オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成するように構成された低帯域復号化ユニットを備える。当該復号器はさらに、低帯域復号化ユニットに接続された帯域幅拡張ユニットを備える。帯域幅拡張ユニットは、サブバンド選択ユニットとコピー・ユニットを備える。サブバンド選択ユニットは、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を低周波帯域内部から選択するように構成される。コピー・ユニットは、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対する高帯域励起スペクトルを生成するように構成される。

本発明の代替的な実施形態によれば、会話処理のための復号器が、プロセッサと当該プロセッサにより実行するためのプログラムを格納したコンピュータ可読記憶媒体とを備える。当該プログラムは、オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成するための命令を含む。当該プログラムは、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いてサブバンド領域を低周波帯域内部から選択し、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対する高帯域励起スペクトルを生成するための命令を含む。当該プログラムはさらに、生成された高帯域励起スペクトルを使用して、高帯域スペクトル・エンベロープを適用することによって拡張された高帯域オーディオ信号を生成し、拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するための命令を含む。

本発明の代替的な実施形態では、復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法を説明する。当該方法は、当該オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域スペクトルを生成するステップと、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いてサブバンド領域を低周波帯域内部から選択するステップとを含む。当該方法はさらに、サブバンド・スペクトルを選択されたサブバンド領域から高サブバンド領域にコピーすることによって、高帯域スペクトルを生成するステップと、生成された高帯域スペクトルを使用して、高帯域スペクトル・エンベロープ・エネルギを適用することによって、拡張された高帯域オーディオ信号を生成するステップとを含む。当該方法はさらに、拡張された高帯域オーディオ信号を復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するステップを含む。

本発明およびその利点をより完全に理解するために、下記の説明を添付図面と関連して参照する。

従来のＣＥＬＰ符号器を用いた元の会話の符号化中に実施される動作の図である。下記でさらに説明する本発明の諸実施形態を実装する際にＣＥＬＰ復号器を用いた元の会話の復号化中に実施される動作を示す図である。従来のＣＥＬＰ符号器における元の会話の符号化中に実施される動作を示す図である。下記で説明する本発明の諸実施形態を実装する際の図５における符号器に対応する基本ＣＥＬＰ復号器を示す図である。帯域幅拡張（ＢＷＥ）を有する符号化／復号化の１例を示し、ＢＷＥ側情報を有する符号器での動作を示す図である。帯域幅拡張（ＢＷＥ）を有する符号化／復号化の１例を示し、ＢＷＥを有する復号器での動作を示す図である。送信側情報のないＢＷＥを有する符号化／復号化の別の例を示し、符号器にある間の動作を示す図である。送信側情報のないＢＷＥを有する符号化／復号化の別の例を示し、復号器での動作を示す図である。ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する理想的な励起スペクトルの１例を示す図である。ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルの従来の帯域幅拡張の１例を示す図である。ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルに適用される帯域幅拡張の本発明の１実施形態の１例を示す図である。ＢＷＥに対するサブバンドのシフトまたはコピーを実装するための本発明の諸実施形態に従う復号器での動作を示す図である。ＢＷＥに対するサブバンドのシフトまたはコピーを実装するための復号器の代替的な実施形態を示す図である。本発明の諸実施形態に従う復号器で実施される動作を示す図である。本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。本発明の１実施形態に従う通信システムを示す図である。本明細書で開示した装置と方法を実装するために使用できる処理システムのブロック図である。

近年のオーディオ／会話デジタル信号通信システムでは、デジタル信号は符号器で圧縮され、圧縮された情報またはビットストリームを、パケット化し、フレームごとに通信チャネルを介して復号器に送信することができる。復号器は、圧縮された情報を受信し復号化して、オーディオ／会話デジタル信号を取得する。

本発明は一般に、会話／オーディオ信号符号化および会話／オーディオ信号帯域幅拡張に関する。特に、本発明の諸実施形態を使用して、帯域幅拡張の分野におけるＩＴＵ−ＴＡＭＲ−ＷＢ会話符号器の標準を改善することができる。

幾つかの周波数は、他の周波数に対して、より重要である。当該重要な周波数を高解像度で符号化することができる。これらの周波数における小さな違いは重大であり、これらの差異を保存する符号化方式が必要である。他方、あまり重要でない周波数は正確である必要はない。より細かい細部の一部が符号化で失われたとしても、より粗い符号化方式を使用することができる。典型的なより粗い符号化方式は帯域幅拡張（ＢＷＥ）の概念に基づく。当該技術の概念はまた、高帯域拡張（ＨＢＥ）、サブバンド複製（ＳＢＲ）またはスペクトル帯域複製（ＳＢＲ）と呼ばれる。名前は異なりうるが、それらはすべて、予算が殆どないビット速度（予算がないビット速度）または通常の符号化／復号化アプローチより大幅に低いビット速度で幾つかの周波数サブバンド（通常、高帯域）を符号化／復号化するという同様な意味を有する。

ＳＢＲ技術では、高周波帯域におけるスペクトル微細構造は低周波帯域からコピーされ、幾つかのランダムな雑音が追加されうる。次いで、高周波帯域におけるスペクトル・エンベロープが、符号器から復号器に送信されるサイド情報を用いることによって整形される。低帯域から高帯域への周波帯域のシフトまたはコピーは通常、ＢＷＥ技術に関する最初のステップである。

スペクトル・エンベロープのエネルギ・レベルに基づいて、適合的プロセスを用いてシフト帯域を選択することによりＢＷＥ技術を改善するための本発明の諸実施形態を説明する。

図１は従来のＣＥＬＰ符号器を用いた元の会話の符号化中に実施される動作を示す。

図１は、合成された会話１０２および元の会話１０１の間の重み付けされた誤差１０９がしばしば合成による分析のアプローチを用いて最小化される従来の初期ＣＥＬＰ符号器を示す。これは、符号化（分析）が、閉ループにおいて復号化された（合成）信号を知覚的に最適化することで実施されることを意味する。

全ての会話符号器が利用する基本原理は、会話信号が強く相関する波形であるという事実である。１例として、以下の式（１１）のように、自己回帰（ＡＲ）モデルを用いて会話を表すことができる。

式（１１）では、各標本は、過去のＬ個の標本に白雑音を加えたものの線形な組合せとして表される。重み付け係数ａ_１，ａ_２，．．．，ａ_Ｌは線形予測係数（ＬＰＣ）と呼ばれる。フレームごとに、重み付け係数ａ_１、ａ_２，．．．，ａ_Ｌは、上述のモデルを用いて生成された｛Ｘ_１、Ｘ_２，．．．，Ｘ_Ｎ｝のスペクトルが入力会話フレームのスペクトルと密接にマッチするように選択される。

代替的に、会話信号を、倍音モデルおよび雑音モデルの組合せで表現してもよい。当該モデルの倍音部は実際には信号の周期的な成分のフーリエ級数表現である。
一般に、有声信号について、会話の倍音に雑音を加えたモデルは倍音および雑音の両方の混合から構成される。有声の会話における倍音と雑音の割合は、話者の特性（例えば、どの範囲まで話者の声が通常または気息音であるか）、会話セグメントの特性（例えば、どの範囲まで会話セグメントが周期的であるか）を含むいくつかの因子と周波数に依存する。有声の会話の周波数が高いと、雑音状成分の比率が高い。

線形予測モデルおよび倍音雑音モデルは、会話信号のモデル化と符号化のための２つの主要な方法である。線形予測モデルは会話のスペクトル・エンベロープをモデル化するのに特に良好である一方、倍音雑音モデルは会話の微細構造をモデル化するのに良い。当該２つの方法を組み合わせて、その相対的な強度を利用してもよい。

前述のように、ＣＥＬＰ符号化の前に、ハンドセットのマイクロフォンへの入力信号がフィルタされ、例えば毎秒８０００標本の速度で標本化される。各標本は次いで、例えば標本ごとに１３ビットで量子化される。標本化された会話は、２０ミリ秒のセグメントまたはフレーム（例えば、この場合１６０個の標本）にセグメント化される。

会話信号が分析され、そのＬＰモデル、励起信号およびピッチが抽出される。ＬＰモデルは会話のスペクトル・エンベロープを表す。当該スペクトル・エンベロープは１組の線スペクトル周波数（ＬＳＦ）係数に変換される。当該係数は、線形予測パラメータの代替的な表現である。なぜならば、ＬＳＦ係数は良好な量子化特性を有するからである。ＬＳＦ係数を、スカラ量子化することができ、または、より効率的に、過去にトレーニングされたＬＳＦベクトル・コードブックを用いてベクトル量子化することができる。

符号化励起は符号ベクトルを含むコードブックを含む。当該符号ベクトルは、各符号ベクトルがほぼ「白」のスペクトルを有しうるように全てが独立に選択された成分を有する。入力会話のサブフレームごとに、符号ベクトルの各々は短期線形予測フィルタ１０３と長期予測フィルタ１０５を通じてフィルタされ、その出力が会話標本と比較される。各サブフレームで、当該サブフレームを表すために、その出力が最良に入力会話とマッチする（最小化された誤差）符号ベクトルを選択する。

符号化励起１０８は通常、パルス状信号または雑音状信号を含み、これらは数学的に構築されまたはコードブックに保存される。当該コードブックは、符号器および受信側の復号器の両方に利用可能である。符号化励起１０８は、確率論的なまたは固定のコードブックであってもよく、（暗黙的にまたは明示的に）コーデックにハードコーディングされたベクトル量子化辞書であってもよい。かかる固定のコードブックは、代数符号励起線形予測であってもよく、または、明示的に格納されてもよい。

コードブックからの符号ベクトルを適切なゲインにより拡大して、エネルギを入力会話のエネルギに等しいようにする。したがって、符号化励起１０８の出力は線形フィルタを通る前にゲインＧ_ｃ１０７により拡大される。

短期線形予測フィルタ１０３は、入力会話のスペクトルに似るように符号ベクトルの「白」スペクトルを整形する。それと等価に、時間領域では、短期線形予測フィルタ１０３が、短期の相関関係（過去の標本との相関関係）を白のシーケンスに導入する。当該励起を整形するフィルタは１／Ａ（ｚ）（短期線形予測フィルタ１０３）の形式の全極モデルを有する。Ａ（ｚ）は予測フィルタと呼ばれ、線形予測（例えば、レビンソン・ダービン・アルゴリズム）を用いて取得してもよい。１つまたは複数の実施形態では、全極フィルタを使用してもよい。なぜならば、当該フィルタは、人間の声道の良好な表現であり、計算が容易であるからである。

短期線形予測フィルタ１０３は、元の信号１０１を分析することよって得られ、１組の係数によって表される。即ち、

前述のように、有声の会話の領域は長期周期性を示す。当該期間は、ピッチとしても知られ、ピッチフィルタ１／（Ｂ（ｚ））により合成されたスペクトルに導入される。長期予測フィルタ１０５の出力はピッチおよびピッチ・ゲインに依存する。１つまたは複数の実施形態では、ピッチを元の信号、残差信号、または重み付けされた元の信号から推定してもよい。１実施形態では、長期予測関数（Ｂ（ｚ））を以下のように式（１３）を用いて表してもよい。

重み付けフィルタ１１０は上の短期予測フィルタに関連する。典型的な重み付けフィルタの１つを式（１４）で説明するように表してもよい。

ここで、

である。

別の実施形態では、重み付けフィルタＷ（ｚ）を、以下の式（１５）において、１実施形態で示したように帯域幅拡張を利用することでＬＰＣフィルタから導出してもよい。

式（１５）ではγ１＞γ２である。これらは、極が原点に向かって移動する際の因子である。

したがって、会話のフレームごとに、ＬＰＣとピッチが計算され、フィルタが更新される。会話のサブフレームごとに、「最良の」フィルタされた出力を生成する符号ベクトルが当該サブフレームを表すように選択される。正確な復号化のために、対応するゲインの量子化値を復号器に送信しなければならない。ＬＰＣおよびピッチ値も、復号器でフィルタを再構築するためにフレームごとに量子化し送信しなければならない。したがって、符号化励起インデックス、量子化ゲイン・インデックス、量子化長期予測パラメータ・インデックス、および量子化短期予測パラメータ・インデックスが復号器に送信される。

図２は、下記で説明する本発明の諸実施形態を実装する際にＣＥＬＰ復号器を用いた元の会話の復号化中に実施される動作を示す。

会話信号は、受信された符号ベクトルを対応するフィルタに通すことによって復号器で再構築される。その結果、後処理を除くすべてのブロックは、図１の符号器で説明したのと同じ定義を有する。

符号化されたＣＥＬＰビットストリームが受信装置で受信されアンパックされる（８０）。受信したサブフレームごとに、受信された符号化励起インデックス、量子化ゲイン・インデックス、量子化長期予測パラメータ・インデックス、および量子化短期予測パラメータ・インデックスを使用して、対応する復号器、例えば、ゲイン復号器８１、長期予測復号器８２、および短期予測復号器８３を用いて対応するパラメータを発見する。例えば、符号化励起４０２の励起パルスおよび代数符号ベクトルの位置および振幅のサインを、受信された符号化励起インデックスから決定してもよい。

図２を参照すると、復号器は、符号化励起２０１、長期予測２０３、短期予測２０５を含む幾つかのブロックの組合せである。初期復号器はさらに、合成された会話２０６の後の後処理ブロック２０７を含む。当該後処理がさらに短期後処理と長期後処理を含んでもよい。

図３は従来のＣＥＬＰ符号器を示す。

図３は、長期線形予測を改善するための追加の適応コードブックを用いた基本ＣＥＬＰ符号器を示す。励起は、適応コードブック３０７および符号化励起３０８からの寄与を合計することで生成される。符号化励起３０８は、前述のように確率論的なまたは固定のコードブックであってもよい。適応コードブック内のエントリは、遅延された版の励起を含む。これは、実際には有声音のような周期的な信号を符号化することを可能とする。

図３を参照すると、適応コードブック３０７は、過去の合成された励起３０４、または、ピッチ期間で反復する過去の励起ピッチ・サイクルを含む。ピッチ・ラグは、それが大きいかまたは長いときは、整数値で符号化してもよい。ピッチ・ラグは、それが小さいかまたは短いときは、しばしば、より正確な分数値で符号化される。ピッチの周期的な情報を使用して、励起の適合的成分を生成する。当該励起成分は次いでゲインＧ_ｐ３０５（ピッチ・ゲインとも呼ばれる）により拡大される。

有声の会話は強い周期性を有するので、長期予測は有声の会話符号化に非常に重要な役割を果たす。有声の会話の隣接するピッチ・サイクルは互いに類似し、これは、数学的には、後続の励起表現におけるピッチ・ゲインＧ_ｐが高いかまたは１に近いことを意味する。結果の励起を個々の励起の組合せとして式（１６）で表してもよい。

ここで、ｅ_ｐ（ｎ）はｎでインデックス化した標本列の１つのサブフレームであり、フィードバック・ループ（図３）を通る過去の励起３０４を含む適応コードブック３０７から来る。低周波数領域はしばしば高周波数領域よりも周期的であるかまたはより調和的であるので、ｅ_ｐ（ｎ）を適合的にローパス・フィルタしてもよい。ｅ_ｃ（ｎ）は、現在の励起寄与である符号化励起コードブック３０８（固定コードブックとも呼ばれる）からのものである。さらに、ｅ_ｃ（ｎ）を、例えば、ハイパス・フィルタリング拡張、ピッチ拡張、分散拡張、フォルマント拡張、およびその他を用いることによって拡張してもよい。

有声の会話に対して、適応コードブック３０７からのｅ_ｐ（ｎ）の寄与が支配的であることがあり、ピッチ・ゲインＧ_ｐ３０５はおおよそ１の値である。励起は通常、サブフレームごとに更新される。典型的なフレーム・サイズは２０ミリ秒であり、典型的なサブフレーム・サイズは５ミリ秒である。

図１で説明したように、固定符号化励起３０８は、線形フィルタを通る前にゲインＧ_ｃ３０６により拡大される。固定符号化励起１０８および適応コードブック３０７からの２つの拡大された励起成分は、短期線形予測フィルタ３０３を通じてフィルタされる前に加算される。２つのゲイン（Ｇ_ｐおよびＧ_ｃ）が量子化され、復号器に送信される。したがって、符号化励起インデックス、適応コードブック・インデックス、量子化ゲイン・インデックス、および量子化短期予測パラメータ・インデックスは、受信オーディオ装置に送信される。

図３に示した装置を用いて符号化されたＣＥＬＰビットストリームは受信装置で受信される。図４は、当該受信装置の対応する復号器を示す。

図４は、図５における符号器に対応する基本ＣＥＬＰ復号器を示す。図４は、合成された会話４０７を主要な復号器から受信する後処理ブロック４０８を含む。この復号器は、適応コードブック３０７を除いて、図３と同様である。

受信したサブフレームごとに、受信された符号化励起インデックス、量子化符号化励起ゲイン・インデックス、量子化ピッチ・インデックス、量子化適応コードブック・ゲイン・インデックス、および量子化短期予測パラメータ・インデックスを使用して、対応する復号器、例えば、ゲイン復号器８１、ピッチ復号器８４、適応コードブック・ゲイン復号器８５、および短期予測復号器８３を用いて対応するパラメータを発見する。

様々な実施形態では、ＣＥＬＰ復号器は幾つかのブロックの組合せであり、符号化励起４０２、適応コードブック４０１、短期予測４０６、および後処理４０８を含む。後処理を除く全てのブロックは、図３の符号器で説明したのと同じ定義を有する。当該後処理がさらに短期の後処理と長期の後処理を含んでもよい。

既述のように、ＣＥＬＰを主に使用して、特定の人間の声の特性または人間のボーカル・ボイス生成モデルから利益を得ることによって、会話信号を符号化する。会話信号をより効率的に符号化するために、会話信号を様々なクラスに分類してもよく、各クラスは様々に符号化される。有声／無声の分類または無声の判定が重要であってもよく、様々なクラスの分類全てのうち基本的な分類であってもよい。クラスごとに、ＬＰＣまたはＳＴＰフィルタが常に、スペクトル・エンベロープを表すために使用される。しかし、ＬＰＣフィルタへの励起が異なってもよい。無声信号を雑音状励起で符号化してもよい。他方、有声信号をパルス状励起で符号化してもよい。

符号化励起ブロック（図３ではラベル３０８で、図４では４０２で参照）は、一般的なＣＥＬＰ符号化に対する固定コードブック（ＦＣＢ）の位置を示す。ＦＣＢからの選択された符号ベクトルは、しばしばＧ_ｃ３０６として示されるゲインにより拡大される。

図５Ａおよび５Ｂは、帯域幅拡張（ＢＷＥ）を有する符号化／復号化の１例を示す。図５ＡはＢＷＥ側情報を有する符号器での動作を示し、図５ＢはＢＷＥを有する復号器での動作を示す。

低帯域信号５０１は低帯域パラメータ５０２を用いて符号化される。低帯域パラメータ５０２が量子化され、生成された量子化インデックスを、ビットストリーム・チャネル５０３を通じて送信してもよい。オーディオ／会話信号５０４から抽出した高帯域信号は、高帯域側パラメータ５０５を用いて少量のビットにより符号化される。量子化された高帯域側パラメータ（サイド情報インデックス）はビットストリーム・チャネル５０６を通じて送信される。

図５Ｂを参照すると、復号器で、低帯域ビットストリーム５０７を使用して、復号化された低帯域信号５０８を生成する。高帯域側ビットストリーム５１０を使用して高帯域側パラメータ５１１を復号化する。高帯域信号５１２は、高帯域側パラメータ５１１からの支援により低帯域信号５０８から生成される。最終的なオーディオ／会話信号５０９は、低帯域信号５０８と高帯域信号５１２を結合することによって生成される。

図６Ａおよび６Ｂは、送信側情報のないＢＷＥを有する符号化／復号化の別の例を示す。図６Ａは符号器にある間の動作を示し、図６Ｂは復号器での動作を示す。

図６Ａを参照すると、低帯域信号６０１が低帯域パラメータ６０２を用いて符号化される。低帯域パラメータ６０２を量子化して量子化インデックスを生成する。当該量子化インデックスを、ビットストリーム・チャネル６０３を通じて送信してもよい。

図６Ｂを参照すると、復号器で、低帯域ビットストリーム６０４を使用して、復号化された低帯域信号６０５を生成する。高帯域信号６０７は、送信側情報からの支援なしに低帯域信号６０５から生成される。最終的なオーディオ／会話信号６０６を、低帯域信号６０５と高帯域信号６０７を結合することによって生成する。

図７は、ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する理想的な励起スペクトルの１例を示す。

ＬＰＣスペクトル・エンベロープ７０４を除去した後は、理想的な励起スペクトル７０２は殆ど平坦である。理想的な低帯域励起スペクトル７０１を低帯域励起符号化に対する参照として使用してもよい。理想的な高帯域励起スペクトル７０３は復号器では利用可能でない。理論的には、理想的なまたは非量子化の高帯域励起スペクトルは、低帯域励起スペクトルとほぼ同じエネルギ・レベルを有しうる。

実際には、合成されたまたは復号化された励起スペクトルは、図７に示した理想的な励起スペクトルほどは良好に見えない。

図８は、ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化励起スペクトルの１例を示す。

ＬＰＣスペクトル・エンベロープ８０４を除去した後は、復号化された励起スペクトル８０２はほぼ平坦である。復号化された低帯域励起スペクトル８０１が復号器で利用可能である。復号化された低帯域励起スペクトル８０１の品質は、エンベロープ・エネルギが低い領域で特に、より悪化するかまたはより歪められる。これは幾つかの理由に起因して生ずる。例えば、２つの主な理由は、閉ループＣＥＬＰ符号化では低エネルギ領域より高エネルギ領域をより強調すること、および、高周波数信号の高速な変化のため、低周波数信号に対する波形マッチングが高周波数信号より簡単であることである。ＡＭＲ−ＷＢのような低ビット速度のＣＥＬＰ符号化に対して、高帯域は通常符号化されないが、ＢＷＥ技術により復号器で生成される。この場合、高帯域励起スペクトル８０３を単純に低帯域励起スペクトル８０１からコピーしてもよく、高帯域スペクトル・エネルギ・エンベロープを低帯域スペクトル・エネルギ・エンベロープから予測または推定してもよい。伝統的な方法に従うと、６４００Ｈｚの後の生成された高帯域励起スペクトル８０３は６４００Ｈｚの直前にサブバンドからコピーされる。これは、スペクトル品質が０Ｈｚから６４００Ｈｚに等しい場合は、良好であるかもしれない。しかし、低ビット速度のＣＥＬＰコーデックに対して、スペクトル品質は０Ｈｚから６４００Ｈｚまで大幅に変化しうる。６４００Ｈｚの直前の低周波帯域の末端領域からコピーされたサブバンドの品質は低いかもしれず、これは次いで、６４００Ｈｚから８０００Ｈｚの高帯域領域に余分な雑音をもたらす。

拡張された高周波帯域の帯域幅は通常、符号化された低周波帯域の帯域幅よりかなり狭い。したがって、様々な実施形態では、低帯域から最良のサブバンドが選択され高帯域領域にコピーされる。

高品質のサブバンドはおそらく、低周波帯域全体内部の任意に位置に存在する。高品質のサブバンドの最も可能な位置は、高スペクトル・エネルギ領域、即ち、スペクトル・フォルマント領域に対応する領域内にある。

図９は、ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルの１例を示す。

復号化された励起スペクトル９０２は、ＬＰＣスペクトル・エンベロープ９０４を除去した後はほぼ平坦である。復号化された低帯域励起スペクトル９０１は復号器で利用可能であるが高帯域９０３では利用可能でない。復号化された低帯域励起スペクトル９０１の品質は、スペクトル・エンベロープ９０４のエネルギが低い領域で特に、より悪化するかまたはより歪められる。

図９で示したケースでは、１実施形態では、高品質のサブバンドは、第１の会話フォルマント領域の周囲（例えば、この例示的な実施形態では２０００Ｈｚの周囲）に存在する。様々な実施形態では、高品質のサブバンドを０および６４００Ｈｚの間の任意の位置に配置してもよい。

最良のサブバンドの位置を決定した後、図９にさらに示すように、当該最良のサブバンドが低帯域内から高帯域にコピーされる。高帯域励起スペクトル９０３がしたがって、選択されたサブバンドからコピーすることによって生成される。図９の高帯域９０３の知覚品質は、改善された励起スペクトルのため、図８の高帯域８０３よりもかなり良好に聞こえる。

１つまたは複数の実施形態では、低帯域スペクトル・エンベロープが周波数領域において復号器で利用可能である場合には、最良のサブバンドを、全てのサブバンド候補から最大のサブバンド・エネルギを検索することによって決定してもよい。

代替的に、１つまたは複数の実施形態では、周波数領域スペクトル・エンベロープが利用可能でない場合には、高エネルギ位置を、スペクトル・エネルギ・エンベロープまたはスペクトル・フォルマント・ピークを反映できる任意のパラメータから決定してもよい。ＢＷＥに対する最良のサブバンド位置は最大のスペクトル・ピーク位置に対応する。

最良のサブバンド開始点の検索範囲はコーデックのビット速度に依存しうる。例えば、非常に低いビット速度のコーデックに対して、当該検索範囲は、高帯域の帯域幅が１６００Ｈｚであると仮定すると、０から６４００−１６００＝４８００Ｈｚ（２０００Ｈｚから４８００Ｈｚ）でありうる。別の例では、中程度のビット速度のコーデックに対して、当該検索範囲は、高帯域の帯域幅が１６００Ｈｚであると仮定すると、２０００Ｈｚから６４００−１６００＝４８００Ｈｚ（２０００Ｈｚから４８００Ｈｚ）でありうる。

スペクトル・エンベロープは或るフレームから次のフレームに遅く変化するので、最大スペクトル・フォルマント・エネルギに対応する最良のサブバンド開始点は通常、遅く変化する。最良のサブバンド開始点が或るフレームから別のフレームに揺らぐことまたは頻繁に変化することを防ぐため、スペクトル・ピーク・エネルギが或るフレームから次のフレームに劇的に変化しない限り、または、新たな有声領域が来ない限り、何らかの平滑化を時間領域内の同一の有声領域において適用してもよい。

図１０は、ＢＷＥに対するサブバンドのシフトまたはコピーを実装するための本発明の諸実施形態に従う復号器での動作を示す。

時間領域低帯域信号１００２は、受信されたビットストリーム１００１を用いることによって復号化される。低帯域時間領域励起１００３は通常、復号器で利用可能である。場合によっては、低帯域周波数領域励起も利用可能である。利用可能でない場合、低帯域時間領域励起１００３を周波数領域に変換して低帯域周波数領域励起を得ることができる。

有声の会話または音楽信号のスペクトル・エンベロープはしばしばＬＰＣパラメータにより表される。場合によっては、直接周波数領域スペクトル・エンベロープが復号器で利用可能である。何れの場合でも、エネルギ分布情報１００４を、ＬＰＣパラメータから、または、直接周波数領域スペクトル・エンベロープまたはＤＦＴ領域もしくはＦＦＴ領域のような任意のパラメータから抽出することができる。低帯域エネルギ分布情報１００４を用いて、相対的に高いエネルギ・ピークを検索することによって、最良のサブバンドが低帯域から選択される。選択されたサブバンドが次いで低帯域から高帯域領域にコピーされる。予測または推定された高帯域スペクトル・エンベロープが次いで高帯域領域に適用されるか、または、時間領域高帯域励起１００５が、高帯域スペクトル・エンベロープを表す予測または推定された高帯域フィルタを通過する。高帯域フィルタの出力は高帯域信号１００６である。最終的な会話／オーディオ出力信号１００７は、低帯域信号１００２と高帯域信号１００６を結合することよって得られる。

図１１は、ＢＷＥに対するサブバンドのシフトまたはコピーを実装するための復号器の代替的な実施形態を示す。

図１０と異なり、図１１では周波数領域低帯域スペクトルが利用可能であると仮定する。単純に周波数領域内で相対的に高いエネルギ・ピークを検索することによって、低周波帯域内の最良のサブバンドが選択される。次いで、選択されたサブバンドが低帯域から高帯域にコピーされる。推定された高帯域スペクトル・エンベロープを適用した後に、高帯域スペクトル１１０３が形成される。最終的な周波数領域会話／オーディオ・スペクトルは、低帯域スペクトル１１０２と高帯域スペクトル１１０３を結合することで得られる。最終的な時間領域会話／オーディオ信号出力が、周波数領域会話／オーディオ・スペクトルを時間領域に変換することによって生成される。

所望のスペクトル範囲をカバーする復号器でフィルタ・バンク分析および合成が利用可能であるとき、当該フィルタ・バンク分析から選択された低帯域に対応する出力の低周波帯域係数を高周波帯域領域にコピーすることによって、ＳＢＲアルゴリズムにより周波帯域シフトを実現することができる。

図１２は本発明の諸実施形態に従う復号器で実施される動作を示す。

図１２を参照すると、符号化されたオーディオ・ビット・ストリームを復号器で復号化する方法は、符号化されたオーディオ・ビット・ストリームを受信するステップを含む。１つまたは複数の実施形態では、受信されたオーディオ・ビット・ストリームがＣＥＬＰ符号化されている。特に、低周波帯域のみがＣＥＬＰにより符号化される。ＣＥＬＰは、低スペクトル・エネルギ領域より高いスペクトル・エネルギ領域において相対的に高いスペクトル品質をもたらす。したがって、本発明の諸実施形態では、オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号および低周波帯域に対応する低帯域励起スペクトルを生成するステップを含む（ボックス１２１０）。サブバンド領域が、復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を用いて低周波帯域内部から選択される（ボックス１２２０）。高帯域励起スペクトルが、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対して生成される（ボックス１２３０）。オーディオ出力信号が、高帯域励起スペクトルを用いて生成される（ボックス１２４０）。特に、生成された高帯域励起スペクトルを用いて、拡張された高帯域オーディオ信号が高帯域スペクトル・エンベロープを適用することによって生成される。当該拡張された高帯域オーディオ信号を、復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する。

図１０および１１を用いて前述したように、本発明の諸実施形態を、周波数領域スペクトル・エンベロープが利用可能であるかどうかに応じて様々に適用してもよい。例えば、周波数領域スペクトル・エンベロープが利用可能である場合、最大のサブバンド・エネルギを有するサブバンドを選択してもよい。他方、周波数領域スペクトル・エンベロープが利用可能でない場合、当該スペクトル・エンベロープのエネルギ分布を線形予測符号化（ＬＰＣ）パラメータ、離散フーリエ変換（ＤＦＴ）領域、または高速フーリエ変換（ＦＦＴ）領域のパラメータから特定してもよい。同様に、利用可能（または計算可能）である場合はスペクトル・フォルマント・ピーク情報を幾つかの実施形態において使用してもよい。低帯域時間領域励起のみが利用可能である場合、低帯域周波数領域励起を、低帯域時間領域励起を周波数領域に変換することによって計算してもよい。

様々な実施形態では、任意の既知の方法を当業者に公知なように用いてスペクトル・エンベロープを計算してもよい。例えば、周波数領域では、スペクトル・エンベロープが単純に、１組のサブバンドのエネルギを表す１組のエネルギであってもよい。同様に、別の例では、時間領域において、スペクトル・エンベロープをＬＰＣパラメータにより表してもよい。様々な実施形態では、ＬＰＣパラメータが、反射係数、ＬＰＣ係数、ＬＳＰ係数、ＬＳＦ係数のような多数の形態を有してもよい。

図１３Ａと１３Ｂは、本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す。

図１３Ａを参照すると、符号化されたオーディオ・ビット・ストリームを復号化するための復号器が、当該オーディオ・ビット・ストリームを復号化して、低周波帯域に対応する低帯域励起スペクトルを生成するように構成された低帯域復号化ユニット１３１０を備える。

当該復号器はさらに、低帯域復号化ユニット１３１０に接続されサブバンド選択ユニット１３３０とコピー・ユニット１３４０を含む、帯域幅拡張ユニット１３２０を備える。サブバンド選択ユニット１３３０は、復号化されたオーディオ・ビット・ストリームのスペクトル・エンベロープのエネルギ情報を用いてサブバンド領域を低周波帯域内部から選択するように構成される。コピー・ユニット１３４０は、サブバンド励起スペクトルを選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、高周波帯域に対する高帯域励起スペクトルを生成するように構成される。

高帯域信号生成器１３５０はコピー・ユニット１３４０に接続される。高帯域信号生成器１３５０は、予測された高帯域スペクトル・エンベロープを適用して高帯域時間領域信号を生成するように構成される。出力生成器が、高帯域信号生成器１３５０と低帯域復号化ユニット１３１０に接続される。出力生成器１３６０は、高帯域時間領域信号を有するオーディオ・ビット・ストリームを復号化することによって得られた低帯域時間領域信号を結合することによって、オーディオ出力信号を生成するように構成される。

図１３Ｂは帯域幅拡張を実装する復号器の代替的な実施形態を示す。

図１３Ａと同様に、図１３Ｂの復号器はまた、低帯域復号化ユニット１３１０と帯域幅拡張ユニット１３２０を備え、帯域幅拡張ユニット１３２０は、低帯域復号化ユニット１３１０に接続され、サブバンド選択ユニット１３３０とコピー・ユニット１３４０を備える。

図１３Ｂを参照すると、当該復号器はさらに高帯域スペクトル生成器１３５５を備え、高帯域スペクトル生成器１３５５はコピー・ユニット１３４０に接続される。高帯域信号生成器１３５５は高帯域スペクトル・エンベロープ・エネルギを適用して、高帯域励起スペクトルを用いて、高周波帯域に対する高帯域スペクトルを生成するように構成される。

出力スペクトル生成器１３６５は高帯域スペクトル生成器１３５５と低帯域復号化ユニット１３１０に接続される。当該出力スペクトル生成器は、低帯域復号化ユニット１３１０からのオーディオ・ビット・ストリームを復号化することで得られた低帯域スペクトルを高帯域スペクトル生成器１３５５からの高帯域スペクトルと結合することによって、周波数領域オーディオ・スペクトルを生成するように構成される。

逆変換信号生成器１３７０は、周波数領域オーディオ・スペクトルを時間領域に逆変換することによって時間領域オーディオ信号を生成するように構成される。

１つまたは複数の実施形態では、図１３Ａおよび１３Ｂで説明した様々なコンポーネントをハードウェアで実装してもよい。幾つかの実施形態ではそれらをソフトウェアで実装して、信号プロセッサで動作するように設計してもよい。

したがって、本発明の諸実施形態を使用して、ＣＥＬＰ符号化されたオーディオ・ビット・ストリームを復号化する復号器での帯域幅拡張を改善することができる。

図１４は本発明の１実施形態に従う通信システム１０を示す。

通信システム１０は、通信リンク３８および４０を介してネットワーク３６に接続されたオーディオ・アクセス装置７および８を有する。１実施形態では、オーディオ・アクセス装置７および８はボイス・オーバ・インターネット・プロトコル（ＶＯＩＰ）装置であり、ネットワーク３６は広域ネットワーク（ＷＡＮ）、公衆交換電話網（ＰＴＳＮ）および／またはインターネットである。別の実施形態では、通信リンク３８および４０は有線および／または無線ブロードバンド接続である。代替的な実施形態では、オーディオ・アクセス装置７および８はセルラまたは携帯電話であり、リンク３８および４０は無線携帯電話チャネルであり、ネットワーク３６は携帯電話ネットワークを表す。

オーディオ・アクセス装置７はマイクロフォン１２を使用して、音楽または人の声のような音をアナログ・オーディオ入力信号２８に変換する。マイクロフォン・インタフェース１６は、アナログ・オーディオ入力信号２８を、ＣＯＤＥＣ２０の符号器２２に入力するためのデジタル・オーディオ信号３３に変換する。符号器２２は、本発明の諸実施形態に従って、ネットワーク・インタフェース２６を介してネットワーク２６に送信するための、符号化されたオーディオ信号ＴＸを生成する。ＣＯＤＥＣ２０内の復号器２４は、ネットワーク・インタフェース２６を介して、符号化されたオーディオ信号ＲＸをネットワーク３６から受信し、符号化されたオーディオ信号ＲＸをデジタル・オーディオ信号３４に変換する。スピーカ・インタフェース１８は、ラウドスピーカ１４を駆動するのに適したオーディオ信号３０にデジタル・オーディオ信号３４を変換する。

オーディオ・アクセス装置７がＶＯＩＰ装置である本発明の諸実施形態では、オーディオ・アクセス装置７内部のコンポーネントの一部または全部はハンドセット内部で実装される。しかし、幾つかの実施形態では、マイクロフォン１２およびラウドスピーカ１４は別個のユニットであり、マイクロフォン・インタフェース１６、スピーカ・インタフェース１８、ＣＯＤＥＣ２０およびネットワーク・インタフェース２６はパーソナル・コンピュータ内で実装される。ＣＯＤＥＣ２０を、コンピュータまたは専用プロセッサで実行されているソフトウェアで、または、例えば、特殊用途向け集積回路（ＡＳＩＣ）上の専用ハードウェアにより、実装することができる。マイクロフォン・インタフェース１６は、アナログ・デジタル（Ａ／Ｄ）変換器、ならびに、ハンドセット内および／またはコンピュータ内に配置された他のインタフェース回路により実装される。同様に、スピーカ・インタフェース１８は、デジタル・アナログ変換器ならびにハンドセット内および／またはコンピュータ内に配置された他のインタフェース回路により実装される。別の実施形態では、オーディオ・アクセス装置７を、当業界で公知な他の方法で実装および分割することができる。

オーディオ・アクセス装置７がセルラまたは携帯電話である本発明の諸実施形態では、オーディオ・アクセス装置７内の要素はセルラ・ハンドセット内で実装される。ＣＯＤＥＣ２０は、ハンドセット内のプロセッサで実行されるソフトウェアにより、または、専用ハードウェアにより実装される。本発明の別の実施形態では、オーディオ・アクセス装置を、インターホン、および無線ハンドセットのような、ピア・ツー・ピアの有線および無線のデジタル通信システムのような他の装置で実装してもよい。コンシューマ・オーディオ装置のような応用では、オーディオ・アクセス装置は、例えば、デジタル・マイクロフォン・システムまたは音楽再生装置において、符号器２２または復号器２４のみを有するＣＯＤＥＣを含んでもよい。本発明の他の実施形態では、ＣＯＤＥＣ２０を、例えば、ＰＴＳＮにアクセスするセルラ基地局において、マイクロフォン１２およびスピーカ１４なしで使用することができる。

様々な本発明の諸実施形態で説明した無声／有声分類を改善するための会話処理を、例えば、符号器２２または復号器２４で実装してもよい。無声／有声分類を改善するための会話処理を、様々な実施形態ではハードウェアまたはソフトウェアで実装してもよい。例えば、符号器２２または復号器２４がデジタル信号処理（ＤＳＰ）チップの一部であってもよい。

図１５は、本明細書で開示した装置と方法を実装するために使用できる処理システムのブロック図を示す。具体的な装置が、示したコンポーネントの全て、または、当該コンポーネントの一部のみを利用してもよく、統合レベルは装置ごとに変わりうる。さらに、装置が、複数の処理ユニット、プロセッサ、メモリ、送信器、受信器等のような、コンポーネントの複数のインスタンスを含んでもよい。当該処理システムが、スピーカ、マイクロフォン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ等のような１つまたは複数の入力／出力装置を具備した処理ユニットを備えてもよい。当該処理ユニットが、バスに接続された中央演算処理装置（ＣＰＵ）、メモリ、大容量記憶装置、ビデオ・アダプタ、およびＩ／Ｏインタフェースを備えてもよい。

バスが、メモリ・バスまたはメモリ・コントローラ、周辺バス、ビデオ・バス等を含む任意の種類の幾つかのバスアーキテクチャのうち１つまたは複数であってもよい。ＣＰＵが任意の種類の電子データ・プロセッサを備えてもよい。メモリが、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、動的ランダム・アクセス・メモリ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、読取専用メモリ（ＲＯＭ）、それらの組合せ等のような任意の種類のシステム・メモリを備えてもよい。１実施形態では、メモリが、起動時に使用するためのＲＯＭ、プログラムのためのＤＲＡＭ、およびプログラムを実行する間に使用するためのデータ記憶を含んでもよい。

大容量記憶装置が、データ、プログラム、および他の情報を格納しバスを介して当該データ、プログラム、および他の情報にアクセス可能とするように構成された任意の種類の記憶装置を含んでもよい。大容量記憶装置が、例えば、固体ドライブ、ハード・ディスク・ドライブ、磁気ディスク・ドライブ、光ディスク・ドライブ等のうち１つまたは複数を含んでもよい。

ビデオ・アダプタおよびＩ／Ｏインタフェースは、外部入力および出力装置を処理ユニットに接続するためのインタフェースを提供する。示したように、入力装置および出力装置の例には、ビデオ・アダプタに接続されたディスプレイ、および、Ｉ／Ｏインタフェースに接続されたマウス／キーボード／プリンタが含まれる。他の装置を処理ユニットに接続してもよく、追加のまたはより少ないインタフェース・カードを利用してもよい。例えば、ユニバーサル・シリアル・バス（ＵＳＢ）（図示せず）のようなシリアル・インタフェースを使用して、インタフェースをプリンタに提供してもよい。

処理ユニットはまた、１つまたは複数のネットワーク・インタフェースを備え、これらは、Ｅｔｈｅｒｎｅｔケーブル等のような有線リンク、および／またはノードまたは様々なネットワークにアクセスするための無線リンクを含みうる。当該ネットワーク・インタフェースにより、処理ユニットはネットワークを介してリモート・ユニットと通信することができる。例えば、ネットワーク・インタフェースが、１つまたは複数の送信器／送信アンテナおよび１つまたは複数の受信器／受信アンテナを介して無線通信を提供してもよい。１実施形態では、処理ユニットは、他の処理ユニット、インターネット、リモート記憶施設等のようなリモート装置とのデータ処理および通信のために、ローカル・エリア・ネットワークまたは広域ネットワークに接続される。

例示的な実施形態を参照して本発明を説明したが、この説明は限定的な意味で解釈されることを意図したものではない。当該例示的な実施形態ならびに本発明の他の実施形態の様々な修正および組合せは、当該説明を参照すれば当業者には明らかであろう。例えば、上述の様々な実施形態を互いに組み合わせてもよい。

本発明およびその利点を詳細に説明したが、様々な変更、置換え、および変更を、添付の特許請求の範囲で定義した発明の趣旨と範囲から逸脱せずに本明細書で行ってもよいことは理解されるべきである。例えば、上述の特徴および機能の多くを、ソフトウェア、ハードウェア、またはファームウェア、またはそれらの組合せで実装することができる。さらに、本願の範囲が、本明細書で説明したプロセス、機械、製品、合成物、手段、方法、およびステップの特定の実施形態に限定されることは意図していない。本発明の開示から当業者が容易に理解するように、既に存在するかまたは後に開発される、本明細書で説明した対応する実施形態と同じ機能を実質的に実施するかまたは同じ結果を実質的に実現する、プロセス、機械、製品、合成物、手段、方法、またはステップを本明細書に従って利用してもよい。したがって、添付の特許請求の範囲は、その範囲において、かかるプロセス、機械、製品、合成物、手段、方法、またはステップを含むように意図されている。

７オーディオ・アクセス装置
８オーディオ・アクセス装置
１６マイクロフォン・インタフェース
１８スピーカ・インタフェース
２０コーデック
２２符号器
２４復号器
２６ネットワーク・インタフェース
３６ネットワーク

従来のＣＥＬＰ符号器を用いた元の会話の符号化中に実施される動作の図である。下記でさらに説明する本発明の諸実施形態を実装する際にＣＥＬＰ復号器を用いた元の会話の復号化中に実施される動作を示す図である。従来のＣＥＬＰ符号器における元の会話の符号化中に実施される動作を示す図である。下記で説明する本発明の諸実施形態を実装する際の図３における符号器に対応する基本ＣＥＬＰ復号器を示す図である。帯域幅拡張（ＢＷＥ）を有する符号化／復号化の１例を示し、ＢＷＥ側情報を有する符号器での動作を示す図である。帯域幅拡張（ＢＷＥ）を有する符号化／復号化の１例を示し、ＢＷＥを有する復号器での動作を示す図である。送信側情報のないＢＷＥを有する符号化／復号化の別の例を示し、符号器にある間の動作を示す図である。送信側情報のないＢＷＥを有する符号化／復号化の別の例を示し、復号器での動作を示す図である。ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する理想的な励起スペクトルの１例を示す図である。ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルの従来の帯域幅拡張の１例を示す図である。ＣＥＬＰタイプのコーデックが使用されるときの有声の会話または和声音楽に対する復号化された励起スペクトルに適用される帯域幅拡張の本発明の１実施形態の１例を示す図である。ＢＷＥに対するサブバンドのシフトまたはコピーを実装するための本発明の諸実施形態に従う復号器での動作を示す図である。ＢＷＥに対するサブバンドのシフトまたはコピーを実装するための復号器の代替的な実施形態を示す図である。本発明の諸実施形態に従う復号器で実施される動作を示す図である。本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。本発明の諸実施形態に従う帯域幅拡張を実装する復号器を示す図である。本発明の１実施形態に従う通信システムを示す図である。本明細書で開示した装置と方法を実装するために使用できる処理システムのブロック図である。

Claims

復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法であって、
前記オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域励起スペクトルを生成するステップと、
前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップと、
サブバンド励起スペクトルを前記選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、前記高周波帯域に対する高帯域励起スペクトルを生成するステップと、
前記生成された高帯域励起スペクトルを使用して、高帯域スペクトル・エンベロープを適用することによって、拡張された高帯域オーディオ信号を生成するステップと、
前記拡張された高帯域オーディオ信号を前記復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するステップと、
を含む、方法。
前記スペクトル・エンベロープのエネルギ情報を示す前記パラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップは、前記スペクトル・エンベロープの最大エネルギ点を検索することによって前記低周波帯域内部の最高品質のサブバンドを特定するステップと、前記特定された最高品質のサブバンドを選択するステップとを含む、請求項１に記載の方法。
前記スペクトル・エンベロープのエネルギ情報を示す前記パラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップが、最大スペクトル・エンベロープ・エネルギに対応する前記サブバンド領域を選択するステップを含む、請求項１に記載の方法。
前記スペクトル・エンベロープのエネルギ情報を示す前記パラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップは、前記スペクトル・エネルギ・エンベロープの最大エネルギまたはスペクトル・フォルマント・ピークを反映するパラメータを用いてサブバンドを前記低帯域内部から特定するステップと、前記特定されたサブバンドを選択するステップとを含む、請求項１に記載の方法。
前記復号化の方法は、帯域幅拡張技術を適用して前記高周波帯域を生成する、請求項１乃至４の何れか１項に記載の方法。
前記高帯域スペクトル・エンベロープを適用するステップは、前記高帯域スペクトル・エンベロープを表す予測された高帯域フィルタを適用するステップを含む、請求項１乃至５の何れか１項に記載の方法。
周波数領域のオーディオ・スペクトルを時間領域に逆変換することによって前記オーディオ出力信号を生成するステップをさらに含む、請求項１乃至６の何れか１項に記載の方法。
前記サブバンド励起スペクトルを前記選択されたサブバンド領域から前記高周波帯域に対応する前記高サブバンド領域にコピーするステップは、フィルタ・バンク分析からの出力の低周波帯域係数を前記高サブバンド領域にコピーするステップを含む、請求項１乃至７の何れか１項に記載の方法。
前記オーディオ・ビット・ストリームが有声の会話または和声音楽を含む、請求項１乃至８の何れか１項に記載の方法。
符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅を生成するための復号器であって、
前記オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成するように構成された低帯域復号化ユニットと、
前記低帯域復号化ユニットに接続され、サブバンド選択ユニットおよびコピー・ユニットを備える帯域幅拡張ユニットであって、前記サブバンド選択ユニットは、前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するように構成され、前記コピー・ユニットは、サブバンド励起スペクトルを前記選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、前記高周波帯域に対する高帯域励起スペクトルを生成するように構成される、帯域幅拡張ユニットと、
を備える、復号器。
前記スペクトル・エンベロープのエネルギ情報を用いて、サブバンド領域を前記低周波帯域内部から選択することは、前記低周波帯域内部の最高品質のサブバンドを特定することを含む、請求項１０に記載の復号器。
前記サブバンド選択ユニットは、最大スペクトル・エンベロープ・エネルギに対応する前記サブバンド領域を選択するように構成される、請求項１０に記載の復号器。
前記サブバンド選択ユニットは、スペクトル・エネルギ・エンベロープまたはスペクトル・フォルマント・ピークを反映するパラメータを用いてサブバンドを低帯域から特定するように構成される、請求項１０に記載の復号器。
前記コピー・ユニットに接続され、予測された高帯域スペクトル・エンベロープを適用して高帯域時間領域信号を生成するように構成された高帯域信号生成器と、
前記高帯域信号生成器および前記低帯域復号化ユニットに接続され、前記オーディオ・ビット・ストリームを復号化することで得られた低帯域時間領域信号を前記高帯域時間領域信号と結合することによってオーディオ出力信号を生成するように構成された、出力生成器と、
をさらに備える、請求項１０乃至１３の何れか１項に記載の復号器。
前記高帯域信号生成器は、前記予測された高帯域スペクトル・エンベロープを表す予測された高帯域フィルタを適用するように構成された、請求項１４に記載の復号器。
前記コピー・ユニットに接続され、推定された高帯域スペクトル・エンベロープを適用して、前記高帯域励起スペクトルを用いて前記高周波帯域に対する高帯域スペクトルを生成するように構成された高帯域スペクトル生成器と、
前記高帯域スペクトル生成器および前記低帯域復号化ユニットに接続され、前記オーディオ・ビット・ストリームを復号化することで得られた低帯域スペクトルを前記高帯域スペクトルと結合することによって周波数領域オーディオ・スペクトルを生成するように構成された、出力スペクトル生成器と、
をさらに備える、請求項１０乃至１５の何れか１項に記載の復号器。
前記周波数領域オーディオ・スペクトルを時間領域に逆変換することによって、時間領域オーディオ信号を生成するように構成された逆変換信号生成器をさらに備える、請求項１６に記載の復号器。
会話処理のための復号器であって、
プロセッサと、
前記プロセッサにより実行するためのプログラムを格納したコンピュータ可読記憶媒体であって、前記プログラムは、
オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し低周波帯域に対応する低帯域励起スペクトルを生成し、
前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択し、
サブバンド励起スペクトルを前記選択されたサブバンド領域から高周波帯域に対応する高サブバンド領域にコピーすることによって、前記高周波帯域に対する高帯域励起スペクトルを生成し、
前記生成された高帯域励起スペクトルを使用して、高帯域スペクトル・エンベロープを適用することによって、拡張された高帯域オーディオ信号を生成し、
前記拡張された高帯域オーディオ信号を前記復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成する
ための命令を含む、コンピュータ可読記憶媒体と、
を備える、復号器。
復号器で、符号化されたオーディオ・ビット・ストリームを復号化し周波帯域幅拡張を生成する方法であって、
前記オーディオ・ビット・ストリームを復号化して、復号化された低帯域オーディオ信号を生成し、低周波帯域に対応する低帯域スペクトルを生成するステップと、
前記復号化された低帯域オーディオ信号のスペクトル・エンベロープのエネルギ情報を示すパラメータを用いて、サブバンド領域を前記低周波帯域内部から選択するステップと、
サブバンド・スペクトルを前記選択されたサブバンド領域から高サブバンド領域にコピーすることによって、高帯域スペクトルを生成するステップと、
前記生成された高帯域スペクトルを使用して、高帯域スペクトル・エンベロープ・エネルギを適用することによって、拡張された高帯域オーディオ信号を生成するステップと、
前記拡張された高帯域オーディオ信号を前記復号化された低帯域オーディオ信号に追加して、拡張周波帯域幅を有するオーディオ出力信号を生成するステップと、
を含む、方法。