JP2016539355A

JP2016539355A - ハイバンド時間的特性の改善された追跡のための利得形状推定

Info

Publication number: JP2016539355A
Application number: JP2016521700A
Authority: JP
Inventors: チェビーヤム、ベンカタ・スブラーマンヤム・チャンドラ・セカー; アッティ、ベンカトラマン・エス．
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-10-10
Filing date: 2014-10-08
Publication date: 2016-12-15
Anticipated expiration: 2034-10-08
Also published as: BR112016007914B1; KR20160067207A; MY183940A; SI3055860T1; JP6262337B2; EP3055860A1; EP3055860B1; DK3055860T3; ES2774334T3; PH12016500470A1; SA516370898B1; MX2016004528A; RU2016113271A; CA2925572A1; RU2648570C2; TWI604440B; CN105593933A; HK1219344A1; PH12016500470B1; NZ717833A

Abstract

方法は、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータを発話符号器において決定することを含む。この方法は、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータを決定することをさらに含む。この方法は、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために、第１の利得パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入することをさらに含む。

Description

優先権の主張
[0001]本出願は、２０１３年１０月１０日に出願された「ＧＡＩＮＳＨＡＰＥＥＳＴＩＭＡＴＩＯＮＦＯＲＩＭＰＲＯＶＥＤＴＲＡＣＫＩＮＧＯＦＨＩＧＨ−ＢＡＮＤＴＥＭＰＯＲＡＬＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」という名称の米国特許仮出願第６１／８８９，４３４号および２０１４年１０月７日に出願された「ＧＡＩＮＳＨＡＰＥＥＳＴＩＭＡＴＩＯＮＦＯＲＩＭＰＲＯＶＥＤＴＲＡＣＫＩＮＧＯＦＨＩＧＨ−ＢＡＮＤＴＥＭＰＯＲＡＬＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」という名称の米国非仮特許出願第１４／５０８，４８６号からの優先権を主張し、それらの内容は、全体が参照により組み込まれる。

[0002]本開示は、一般に、信号処理に関する。

[0003]技術の進歩は、より小さくより強力なコンピューティングデバイスをもたらした。たとえば、現在、小さく、軽く、およびユーザによって容易に運ばれるポータブルワイヤレス電話、携帯情報端末（ＰＤＡ）、およびページングデバイスなどのワイアレスコンピューティングデバイスを含む様々なポータブルパーソナルコンピューティングデバイスが存在する。より具体的には、セルラー式電話およびインターネットプロトコル（ＩＰ）電話などのポータブルワイヤレス電話は、ワイヤレスネットワークを介して音声およびデータパケットを通信することができる。さらに、多くのそのようなワイヤレス電話は、そこに組み込まれている他のタイプのデバイスを含む。たとえば、ワイヤレス電話は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤをさらに含むことができる。

[0004]従来の電話システム（たとえば公衆交換電話網（ＰＳＴＮ））では、信号帯域幅は、３００ヘルツ（Ｈｚ）から３．４キロヘルツ（ｋＨｚ）の周波数範囲に制限されている。セルラー式テレフォニーおよびボイスオーバインターネットプロトコル（ＶｏＩＰ）などの広帯域（ＷＢ）適用例では、信号帯域幅は５０Ｈｚから７ｋＨｚの周波数範囲にわたることがある。超広帯域（ＳＷＢ）コーディング技法は、約１６ｋＨｚまで延びる帯域幅をサポートする。３．４ｋＨｚの狭帯域テレフォニーから１６ｋＨｚのＳＷＢテレフォニーの信号帯域幅まで拡張することにより、信号再構成、了解度、および自然度の品質を改善することができる。

[0005]ＳＷＢコーディング技法は、一般に、信号のより低い周波数部分（たとえば、５０Ｈｚから７ｋＨｚ、「ローバンド」とも呼ばれる）の符号化および送信を含む。たとえば、ローバンドは、フィルタパラメータおよび／またはローバンド励振信号を使用して表され得る。しかしながら、コーディング効率を改善するために、信号のより高い周波数部分（たとえば、７ｋＨｚから１６ｋＨｚ、「ハイバンド」とも呼ばれる）が、完全には符号化および送信されないことがある。代わりに、受信機は、ハイバンドを予測するために信号モデリングを利用することができる。いくつかの実施態様では、ハイバンドに関連するデータが、予測を支援するために受信機に供給され得る。そのようなデータは、「サイド情報」と呼ばれることがあり、利得情報、線スペクトル周波数（ＬＳＦ、線スペクトル対（ＬＳＰ）とも呼ばれる）などを含むことができる。ローバンド信号の属性が、サイド情報を生成するために使用され得るが、しかしながら、ローバンドとハイバンドとの間のエネルギー不均衡が、ハイバンドの特性を不正確に表すサイド情報をもたらすことがある。

[0006]ハイバンド時間的特性の改善された追跡のために二段階利得形状推定を行うためのシステムおよび方法が開示される。発話符号器は、復号器において音声信号のハイバンド部分を再構成するのに使用される情報（たとえば、サイド情報）を生成するために音声信号のローバンド部分（たとえば、高調波的に拡張されたローバンド励振（harmonically extended low-band excitation））を利用することができる。第１の利得形状推定器は、高調波的に拡張されたローバンド励振に存在しないハイバンド残差信号のエネルギー変動を決定することができる。たとえば、利得形状推定器は、高調波的に拡張されたローバンド励振信号と比べてハイバンド残差信号においてシフトされているかまたは存在していないハイバンドの時間的変動または偏り（たとえば、エネルギーレベル）を推定することができる。第１の利得形状調整器（第１の利得形状パラメータに基づく）は、高調波的に拡張されたローバンド励振の時間的展開を、それがハイバンド残差の時間的包絡を精密に模倣するように調整することができる。合成ハイバンド信号は、調整済みおよび／または修正済みの高調波的に拡張されたローバンド励振に基づいて生成され得、第２の利得形状推定器は、合成ハイバンド信号と音声信号のハイバンド部分との間のエネルギー変動を第２の段階で決定することができる。合成ハイバンド信号は、第２の利得形状推定器からのデータ（たとえば、第２の利得形状パラメータ）に基づいて音声信号のハイバンド部分をモデル化するように調整され得る。第１の利得形状パラメータと第２の利得形状パラメータとは、音声信号のハイバンド部分を再構成するために他のサイド情報と一緒に復号器に送信され得る。

[0007]特定の態様では、方法は、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータを発話符号器において決定することを含む。別の特定の態様では、第１の利得形状パラメータは、音声信号のハイバンド部分に関連するハイバンド残差信号の時間的展開に基づいて決定される。この方法は、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータを決定することをさらに含む。この方法は、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために、第１の利得形状パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入することをさらに含む。

[0008]別の特定の態様では、装置は、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータを決定するように構成された第１の利得形状推定器を含む。この装置は、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータを決定するように構成された第２の利得形状推定器をさらに含む。この装置は、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために、第１の利得形状パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入するように構成されたマルチプレクサをさらに含む。

[0009]別の特定の態様では、非一時的コンピュータ可読媒体は、プロセッサによって実行されたとき、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータをプロセッサに決定させる命令を含む。命令は、さらに、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータをプロセッサに決定させるように実行可能である。命令は、さらに、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために、プロセッサに第１の利得形状パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入させるように実行可能である。

[0010]別の特定の態様では、装置は、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータを決定するための手段を含む。この装置は、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータを決定するための手段をさらに含む。この装置は、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために、第１の利得形状パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入するための手段をさらに含む。

[0011]別の特定の態様では、方法は、発話符号器からの符号化音声信号を発話復号器において受信することを含む。符号化音声信号は、発話符号器において生成された１の高調波的に拡張された信号に基づくおよび／または発話符号器において生成されたハイバンド残差信号に基づく第１の利得形状パラメータを含む。符号化音声信号は、発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータをさらに含む。この方法は、第１の利得形状パラメータに基づいておよび第２の利得形状パラメータに基づいて符号化音声信号から音声信号を再生することをさらに含む。

[0012]別の特定の態様では、発話復号器は、発話符号器からの符号化音声信号を受信するように構成される。符号化音声信号は、発話符号器において生成された高調波的に拡張された信号に基づくおよび／または発話符号器において生成されたハイバンド残差信号に基づく第１の利得形状パラメータを含む。符号化音声信号は、発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータをさらに含む。発話復号器は、第１の利得形状パラメータに基づいておよび第２の利得形状パラメータに基づいて符号化音声信号から音声信号を再生するようにさらに構成される。

[0013]別の特定の態様では、装置は、発話符号器からの符号化音声信号を受信するための手段を含む。符号化音声信号は、発話符号器において生成された第１の高調波的に拡張された信号に基づくおよび／または発話符号器において生成されたハイバンド残差信号に基づく第１の利得形状パラメータを含む。符号化音声信号は、発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータをさらに含む。この装置は、第１の利得形状パラメータに基づいておよび第２の利得形状パラメータに基づいて符号化音声信号から音声信号を再生するための手段をさらに含む。

[0014]別の特定の態様では、非一時的コンピュータ可読媒体は、プロセッサによって実行されたとき、発話符号器からの符号化音声信号をプロセッサに受信させる命令を含む。符号化音声信号は、発話符号器において生成された第１の高調波的に拡張された信号に基づくおよび／または発話符号器において生成されたハイバンド残差信号に基づく第１の利得形状パラメータを含む。符号化音声信号は、発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータをさらに含む。命令は、さらに、第１の利得形状パラメータに基づいておよび第２の利得形状パラメータに基づいて符号化音声信号から音声信号をプロセッサに再生させるように実行可能である。

[0015]開示される実施形態のうちの少なくとも１つによって提供される特定の利点は、音声信号の高調波的に拡張されたローバンド励振と音声信号のハイバンド残差との間のエネルギー相関を改善することを含む。たとえば、高調波的に拡張されたローバンド励振は、ハイバンド残差信号の時間的特性を精密に模倣するために利得形状パラメータに基づいて調整され得る。本開示の他の態様、利点、および特徴は、以下のセクション、すなわち、図面の簡単な説明、発明を実施するための形態、および特許請求の範囲を含む明細書全体を検討した後、明らかになるであろう。

[0016]ハイバンド再構成のために２つの段階で利得形状パラメータを決定するように動作可能なシステムの特定の実施形態を示す図。 [0017]高調波的に拡張された信号および／またはハイバンド残差信号に基づいて第１の段階において利得形状パラメータを決定するように動作可能なシステムの特定の実施形態を示す図。 [0018]高調波的に拡張された信号とハイバンド残差信号との間のエネルギー不均衡に基づく利得形状パラメータを示すためのタイミング図。 [0019]合成ハイバンド信号と入力音声信号のハイバンド部分とに基づいて第２の段階において第２の利得形状パラメータを決定するように動作可能なシステムの特定の実施形態を示す図。 [0020]利得形状パラメータを使用して、音声信号を再生するように動作可能なシステムの特定の実施形態を示す図。 [0021]ハイバンド再構成のために利得推定を使用する方法の特定の実施形態を示す流れ図。 [0022]図１〜図６のシステムおよび方法による信号処理動作を行うように動作可能なワイヤレスデバイスのブロック図。

[0023]図１を参照すると、ハイバンド再構成のために２つの段階で利得形状パラメータを決定するように動作可能なシステムの特定の実施形態が示され、全体的に１００と称される。特定の実施形態において、システム１００は、符号化システムまたは装置（たとえば、ワイヤレス電話、コーダ／復号器（ＣＯＤＥＣ）、またはデジタルシグナルプロセッサ（ＤＳＰ）における）に統合され得る。他の特定の実施形態では、システム１００は、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、エンターテイメントユニット、ナビゲーションデバイス、通信デバイス、ＰＤＡ、固定ロケーションデータユニット、またはコンピュータに統合され得る。

[0024]次の説明では、図１のシステム１００によって行われる様々な機能は、いくつかの構成要素またはモジュールによって行われるとして説明されることに留意されたい。しかしながら、構成要素およびモジュールのこの分割は、説明のためにすぎない。一代替実施形態では、代わりに、特定の構成要素またはモジュールによって行われる機能は、複数の構成要素またはモジュールの間で分割され得る。その上、一代替実施形態では、図１の２つ以上の構成要素またはモジュールが、単一の構成要素またはモジュールに統合され得る。図１に示された各構成要素またはモジュールは、ハードウェア（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）、ＤＳＰ、コントローラなど）、ソフトウェア（たとえば、プロセッサによって実行可能な命令）、またはそれらの任意の組合せを使用して実装され得る。

[0025]システム１００は、入力音声信号１０２を受信するように構成された分析フィルタバンク１１０を含む。たとえば、入力音声信号１０２は、マイクロホンまたは他の入力デバイスによって供給され得る。特定の実施形態では、入力音声信号１０２は発話を含むことができる。入力音声信号１０２は、ほぼ５０Ｈｚからほぼ１６ｋＨｚの周波数範囲のデータを含むＳＷＢ信号であり得る。分析フィルタバンク１１０は、周波数に基づいて入力音声信号１０２を多数の部分にフィルタ処理することができる。たとえば、分析フィルタバンク１１０は、ローバンド信号１２２とハイバンド信号１２４とを生成することができる。ローバンド信号１２２とハイバンド信号１２４とは、等しいかまたは等しくない帯域幅を有することができ、重複することも重複しないこともある。一代替実施形態では、分析フィルタバンク１１０は、２つを超える出力を生成することができる。

[0026]図１の例では、ローバンド信号１２２とハイバンド信号１２４とは、重複しない周波数帯域を占有する。たとえば、ローバンド信号１２２とハイバンド信号１２４とは、それぞれ、５０Ｈｚ〜７ｋＨｚと７ｋＨｚ〜１６ｋＨｚとの重複しない周波数帯域を占有することができる。一代替実施形態では、ローバンド信号１２２とハイバンド信号１２４とは、それぞれ、５０Ｈｚ〜８ｋＨｚと８ｋＨｚ〜１６ｋＨｚとの重複しない周波数帯域を占有することができる。別の代替実施形態では、ローバンド信号１２２とハイバンド信号１２４とは、重複し（たとえば、それぞれ、５０Ｈｚ〜８ｋＨｚと７ｋＨｚ〜１６ｋＨｚ）、それは、分析フィルタバンク１１０のローパスフィルタとハイパスフィルタとが、円滑なロールオフを有することを可能にすることができ、それは、設計を簡単化し、ローパスフィルタとハイパスフィルタとのコストを低減することができる。ローバンド信号１２２とハイバンド信号１２４とを重複させると、受信機におけるローバンド信号とハイバンド信号との円滑な混合を可能にすることもでき、それにより、可聴アーチファクトが少なくなり得る。

[0027]図１の例はＳＷＢ信号の処理を示しているが、これは説明のためにすぎないことに留意されたい。一代替実施形態では、入力音声信号１０２は、ほぼ５０Ｈｚからほぼ８ｋＨｚの周波数範囲を有するＷＢ信号であり得る。そのような実施形態では、ローバンド信号１２２は、たとえば、ほぼ５０Ｈｚからほぼ６．４ｋＨｚの周波数範囲に対応することができ、ハイバンド信号１２４は、ほぼ６．４ｋＨｚからほぼ８ｋＨｚの周波数範囲に対応することができる。

[0028]システム１００は、ローバンド信号１２２を受信するように構成されたローバンド分析モジュール１３０を含むことができる。特定の実施形態では、ローバンド分析モジュール１３０は、コード励振線形予測（ＣＥＬＰ）符号器の一実施形態を表すことがある。ローバンド分析モジュール１３０は、線形予測（ＬＰ）分析およびコーディングモジュール１３２と、線形予測係数（ＬＰＣ）−ＬＳＰ変換モジュール１３４と、量子化器１３６とを含むことができる。ＬＳＰは、ＬＳＦと呼ばれることもあり、２つの用語（ＬＳＰとＬＳＦ）は本明細書では交換可能に使用され得る。ＬＰ分析およびコーディングモジュール１３２は、ローバンド信号１２２のスペクトル包絡をＬＰＣのセットとして符号化することができる。ＬＰＣは、音声の各フレーム（たとえば、１６ｋＨｚのサンプリングレートにおける３２０サンプルに対応する２０ミリ秒（ｍｓ）の音声）、音声の各サブフレーム（たとえば、５ｍｓの音声）、またはこれらの任意の組合せに対して生成され得る。各フレームまたはサブフレームに対して生成されるＬＰＣの数は、行われるＬＰ分析の「次数」によって決定され得る。特定の一実施形態では、ＬＰ分析およびコーディングモジュール１３２は、１０次ＬＰ分析に対応する１１個のＬＰＣのセットを生成することができる。

[0029]ＬＰＣ−ＬＳＰ変換モジュール１３４は、ＬＰ分析およびコーディングモジュール１３２によって生成されたＬＰＣのセットを、対応するＬＳＰのセットに変換する（たとえば、１対１変換を使用して）ことができる。あるいは、ＬＰＣのセットは、ＰＡＲＣＯＲ係数、ログ面積比値、イミタンススペクトル対（ＩＳＰ）、またはイミタンススペクトル周波数（ＩＳＦ）の対応するセットに１対１変換され得る。ＬＰＣのセットとＬＳＰのセットとの間の変換は、誤差なしに可逆的であり得る。

[0030]量子化器１３６は、変換モジュール１３４によって生成されたＬＳＰのセットを量子化することができる。たとえば、量子化器１３６は、多数のエントリ（たとえば、ベクトル）を含む多数のコードブックを含むことができ、またはそれらに結合され得る。ＬＳＰのセットを量子化するために、量子化器１３６は、ＬＳＰのセット「に最も近い」コードブックのエントリを識別する（たとえば、最小２乗または平均２乗誤差などの歪み尺度に基づいて）ことができる。量子化器１３６は、コードブック中の識別されたエントリの場所に対応するインデックス値または一連のインデックス値を出力することができる。したがって、量子化器１３６の出力は、ローバンドビットストリーム１４２に含まれるローバンドフィルタパラメータを表すことができる。

[0031]ローバンド分析モジュール１３０は、さらに、ローバンド励振信号１４４を生成することができる。たとえば、ローバンド励振信号１４４は、ローバンド分析モジュール１３０によって行われるＬＰプロセス中に生成されるＬＰ残差信号を量子化することによって生成される符号化された信号であり得る。ＬＰ残差信号は予測誤差を表すことができる。

[0032]システム１００は、分析フィルタバンク１１０からのハイバンド信号１２４とローバンド分析モジュール１３０からのローバンド励振信号１４４とを受信するように構成されたハイバンド分析モジュール１５０をさらに含むことができる。ハイバンド分析モジュール１５０は、ハイバンド信号１２４とローバンド励振信号１４４とに基づいてハイバンドサイド情報１７２を生成することができる。たとえば、ハイバンドサイド情報１７２は、本明細書でさらに説明されるように、ハイバンドＬＳＰおよび／または利得情報（たとえば、少なくともローバンドエネルギーに対するハイバンドエネルギーの比に基づく）を含むことができる。特定の実施形態では、利得情報は、高調波的に拡張された信号および／またはハイバンド残差信号に基づく利得形状パラメータを含むことができる。高調波的に拡張された信号は、ハイバンド信号１２４とローバンド信号１２２との間の不十分な相関のためにハイバンド合成で使用するには不十分であることがある。たとえば、ハイバンド信号１２４のサブフレームは、モデル化されたハイバンド励振信号１６１において十分に模倣されていないエネルギーレベルの揺らぎを含むことがある。

[0033]ハイバンド分析モジュール１５０は、第１の利得形状推定器１９０を含むことができる。第１の利得形状推定器１９０は、ローバンド信号１２２に関連する第１の信号に基づいておよび／またはハイバンド信号１２４のハイバンド残差に基づいて第１の利得形状パラメータを決定することができる。本明細書で説明されるように、第１の信号は、ローバンド信号１２２の変換された（たとえば、非線形のまたは高調波的に拡張された）ローバンド励振であり得る。ハイバンドサイド情報１７２は、第１の利得形状パラメータを含むことができる。ハイバンド分析モジュール１５０は、高調波的に拡張されたローバンド励振を第１の利得形状パラメータに基づいて調整するように構成された第１の利得形状調整器１９２をさらに含むことができる。たとえば、第１の利得形状調整器１９２は、ハイバンド信号１２４の残差の対応するサブフレームのエネルギーレベルに近づくように高調波的に拡張されたローバンド励振の特定のサブフレームを拡大縮小することができる。

[0034]ハイバンド分析モジュール１５０は、ハイバンド励振発生器１６０をさらに含むことができる。ハイバンド励振発生器１６０は、ローバンド励振信号１４４のスペクトルをハイバンド周波数範囲（たとえば、７ｋＨｚ〜１６ｋＨｚ）へと拡張することによって、ハイバンド励振信号１６１を生成することができる。例証すると、ハイバンド励振発生器１６０は、ハイバンド励振信号１６１を生成するために、調整済みの高調波的に拡張されたローバンド励振を雑音信号（たとえば、ローバンド信号１２２のゆっくり変化する時間的特性を模倣するローバンド励振信号１４４に対応する包絡に従って変調された白色雑音）と混合することができる。たとえば、混合は、次の式に従って行われ得る。

[0035]調整済みの高調波的に拡張されたローバンド励振と変調された雑音とが混合される比は、受信機におけるハイバンド再構成品質に影響を与えることがある。有声発話信号では、混合は、調整済みの高調波的に拡張されたローバンド励振の方に偏らされ得る（たとえば、混合係数αは０．５から１．０の範囲にあり得る）。無声信号では、混合は、変調された雑音の方に偏らされ得る（たとえば、混合係数αは０．０から０．５の範囲にあり得る）。

[0036]図示のように、ハイバンド分析モジュール１５０は、ＬＰ分析およびコーディングモジュール１５２と、ＬＰＣ−ＬＳＰ変換モジュール１５４と、量子化器１５６とをさらに含むことができる。ＬＰ分析およびコーディングモジュール１５２、変換モジュール１５４、および量子化器１５６の各々は、ローバンド分析モジュール１３０の対応する構成要素に関して上記で説明されたように機能し得るが、比較的低解像度で（たとえば、各係数、ＬＳＰなどに対してより少ないビットを使用して）機能し得る。ＬＰ分析およびコーディングモジュール１５２は、変換モジュール１５４によってＬＳＰに変換されコードブック１６３に基づいて量子化器１５６によって量子化されるＬＰＣのセットを生成することができる。たとえば、ＬＰ分析およびコーディングモジュール１５２、変換モジュール１５４、および量子化器１５６は、ハイバンドサイド情報１７２に含まれるハイバンドフィルタ情報（たとえば、ハイバンドＬＳＰ）を決定するためにハイバンド信号１２４を使用することができる。

[0037]量子化器１５６は、変換モジュール１５４によって供給されるＬＳＰなどのスペクトル周波数値のセットを量子化するように構成され得る。他の実施形態では、量子化器１５６は、ＬＳＦまたはＬＳＰに加えて、またはその代わりに、１つまたは複数の他のタイプのスペクトル周波数値のセットを受け取り量子化することができる。たとえば、量子化器１５６は、ＬＰ分析およびコーディングモジュール１５２によって生成されたＬＰＣのセットを受け取り量子化することができる。他の例は、量子化器１５６で受け取られ量子化され得るＰＡＲＣＯＲ係数、ログ面積比値、およびＩＳＦのセットを含む。量子化器１５６は、入力ベクトル（たとえば、ベクトル形式のスペクトル周波数値のセット）をコードブック１６３などの表またはコードブック中の対応するエントリへのインデックスとして符号化するベクトル量子化器を含むことができる。別の例として、量子化器１５６は、１つまたは複数のパラメータを決定するように構成することができ、疎な（sparse）コードブック実施形態などでは、入力ベクトルは、ストレージから取り出されるのではなく、これらのパラメータから復号器において動的に生成され得る。例証すると、疎なコードブックの例は、ＣＥＬＰなどのコーディング方式と、３ＧＰＰ（登録商標）２（第３世代パートナーシップ２）ＥＶＲＣ（強化型可変速コーデック）などの業界標準に従ったコーデックとに適用され得る。別の実施形態では、ハイバンド分析モジュール１５０は、量子化器１５６を含むことができ、合成信号を生成する（たとえば、フィルタパラメータのセットに従って）ためにいくつかのコードブックベクトルを使用し、知覚的に重み付けされた領域などにおいてハイバンド信号１２４に最も良く一致する合成信号に関連するコードブックベクトルのうち１つを選択するように構成され得る。

[0038]特定の実施形態では、ハイバンドサイド情報１７２は、ハイバンドＬＳＰならびにハイバンド利得パラメータを含むことができる。たとえば、ハイバンド励振信号１６１は、ハイバンドサイド情報１７２に含まれる追加の利得パラメータを決定するために使用され得る。ハイバンド分析モジュール１５０は、第２の利得形状推定器１９４と第２の利得形状調整器１９６とを含むことができる。線形予測係数合成演算が、合成ハイバンド信号を生成するためにハイバンド励振信号１６１に行われ得る。第２の利得形状推定器１９４は、合成ハイバンド信号とハイバンド信号１２４とに基づいて第２の利得形状パラメータを決定することができる。ハイバンドサイド情報１７２は、第２の利得形状パラメータを含むことができる。第２の利得形状調整器１９６は、第２の利得形状パラメータに基づいて合成ハイバンド信号を調整するように構成され得る。たとえば、第２の利得形状調整器１９６は、ハイバンド信号１２４の対応するサブフレームのエネルギーレベルに近づくように、合成ハイバンド信号の特定のサブフレームを拡大縮小することができる。

[0039]ローバンドビットストリーム１４２とハイバンドサイド情報１７２とは、出力ビットストリーム１９９を生成するためにマルチプレクサ（ＭＵＸ）１８０によって多重化され得る。出力ビットストリーム１９９は、入力音声信号１０２に対応する符号化音声信号を表すことができる。たとえば、出力ビットストリーム１９９は、送信され（たとえば、有線チャネル、ワイヤレスチャネル、または光チャネルを介して）および／または記憶され得る。したがって、マルチプレクサ１８０は、入力音声信号１０２を再生している間のハイバンド励振利得調整を可能にするために、第１の利得形状推定器１９０によって決定された第１の利得形状パラメータと第２の利得形状推定器１９４によって決定された第２の利得形状パラメータとを出力ビットストリーム１９９に挿入することができる。受信機において、音声信号（たとえば、スピーカまたは他の出力デバイスに供給される入力音声信号１０２の再構成されたバージョン）を生成するために、逆演算がデマルチプレクサ（ＤＥＭＵＸ）、ローバンド復号器、ハイバンド復号器、およびフィルタバンクによって行われ得る。ローバンドビットストリーム１４２を表すために使用されるビットの数は、ハイバンドサイド情報１７２を表すために使用されるビットの数よりも実質的に多くなり得る。したがって、出力ビットストリーム１９９中のビットの大部分が、ローバンドデータを表すことがある。ハイバンドサイド情報１７２は、信号モデルに従ってローバンドデータからハイバンド励振信号を再生するために受信機において使用され得る。たとえば、信号モデルは、ローバンドデータ（たとえば、ローバンド信号１２２）とハイバンドデータ（たとえば、ハイバンド信号１２４）との間の関係または相関の予測されるセットを表すことができる。したがって、異なる信号モデルが、異なる種類の音声データ（たとえば、発話、音楽など）に使用され得、使用中の特定の信号モデルは、符号化された音声データの通信の前に、送信機と受信機とによって取り決められ得る（または業界標準によって定義され得る）。信号モデルを使用して、送信機におけるハイバンド分析モジュール１５０は、出力ビットストリーム１９９からハイバンド信号１２４を再構成するために受信機における対応するハイバンド分析モジュールが信号モデルを使用することが可能であるように、ハイバンドサイド情報１７２を生成することを可能にすることができる。

[0040]システム１００は、音声信号１０２の高調波的に拡張されたローバンド励振と入力音声信号１０２のハイバンド残差との間のフレームごとのエネルギー相関を改善する（たとえば、時間的展開を改善する）ことができる。たとえば、第１の利得段階の間、第１の利得形状推定器１９０と第１の利得形状調整器１９２とは、高調波的に拡張されたローバンド励振を第１の利得パラメータに基づいて調整することができる。高調波的に拡張されたローバンド励振は、フレーム単位でハイバンドの残差に近づくように調整され得る。高調波的に拡張されたローバンド励振を調整することにより、合成ドメインにおける利得形状推定が改善され、入力音声信号１０２のハイバンド再構成中の可聴アーチファクトが低減され得る。システム１００は、ハイバンド信号１２４とハイバンド信号１２４の合成されたバージョンとの間のフレームごとのエネルギー相関を改善することもできる。たとえば、第２の利得段階の間、第２の利得形状推定器１９４と第２の利得形状調整器１９６とは、ハイバンド信号１２４の合成されたバージョンを第２の利得パラメータに基づいて調整することができる。ハイバンド信号１２４の合成されたバージョンは、フレーム単位でハイバンド信号１２４に近づくように調整され得る。第１および第２の利得形状パラメータは、入力音声信号１０２のハイバンド再構成中の可聴アーチファクトを低減するために復号器に送信され得る。

[0041]図２を参照すると、高調波的に拡張された信号および／またはハイバンド残差信号に基づいて第１の段階において利得形状パラメータを決定するように動作可能なシステム２００の特定の実施形態が示される。システム２００は、線形予測分析フィルタ２０４と、非線形励振発生器２０７と、フレーム識別モジュール２１４と、第１の利得形状推定器１９０と、第１の利得形状調整器１９２とを含む。

[0042]ハイバンド信号１２４は、線形予測分析フィルタ２０４に供給され得る。線形予測分析フィルタ２０４は、ハイバンド信号１２４（たとえば、入力音声信号１０２のハイバンド部分）に基づいてハイバンド残差信号２２４を生成するように構成され得る。たとえば、線形予測分析フィルタ２０４は、ハイバンド信号１２４のスペクトル包絡を、ハイバンド信号１２４の今後のサンプルを予測する（現在のサンプルに基づいて）ために使用されるＬＰＣのセットとして符号化することができる。ハイバンド残差信号２２４は、フレーム識別モジュール２１４と第１の利得形状推定器１９０とに供給され得る。

[0043]フレーム識別モジュール２１４は、ハイバンド残差信号２２４の特定のフレームのコーディングモードを決定し、そのコーディングモードに基づいてコーディングモード表示信号２１６を生成するように構成され得る。たとえば、フレーム識別モジュール２１４は、ハイバンド残差信号２２４の特定のフレームが有声フレームであるかまたは無声フレームであるかを決定することができる。特定の実施形態では、有声フレームは第１のコーディングモード（たとえば、第１のメトリック）に対応することができ、無声フレームは第２のコーディングモード（たとえば、第２のメトリック）に対応することができる。

[0044]ローバンド励振信号１４４は、非線形励振発生器２０７に供給され得る。図１に関して説明されたように、ローバンド励振信号１４４は、ローバンド分析モジュール１３０を使用してローバンド信号１２２（たとえば、入力音声信号１０２のローバンド部分）から生成され得る。非線形励振発生器２０７は、ローバンド励振信号１４４に基づいて、高調波的に拡張された信号２０８を生成するように構成され得る。たとえば、非線形励振発生器２０７は、高調波的に拡張された信号２０８を生成するためにローバンド励振信号１４４のフレーム（またはサブフレーム）に絶対値演算または２乗演算を行うことができる。

[0045]例証すると、非線形励振発生器２０７は、ほぼ０ｋＨｚから１６ｋＨｚに及ぶ１６ｋＨｚ信号（たとえば、ローバンド励振信号１４４の帯域幅のほぼ２倍の帯域幅を有する信号）を生成するためにローバンド励振信号１４４（たとえば、ほぼ０ｋＨｚから８ｋＨｚに及ぶ信号）をアップサンプリングし、続いて、アップサンプリングされた信号に非線形演算を行うことができる。１６ｋＨｚ信号のローバンド部分（たとえば、ほぼ０ｋＨｚから８ｋＨｚまで）は、ローバンド励振信号１４４と実質的に同様の高調波を有することがあり、１６ｋＨｚ信号のハイバンド部分（たとえば、ほぼ８ｋＨｚから１６ｋＨｚまで）は、高調波が実質的にないことがある。非線形励振発生器２０７は、高調波的に拡張された信号２０８を生成するために１６ｋＨｚ信号のローバンド部分の「主要な」高調波を１６ｋＨｚ信号のハイバンド部分に拡張することができる。したがって、高調波的に拡張された信号２０８は、非線形演算（たとえば、２乗演算および／または絶対値演算）を使用して高調波をハイバンドに拡張しているローバンド励振信号１４４の高調波的に拡張されたバージョンであり得る。高調波的に拡張された信号２０８は、第１の利得形状推定器１９０と第１の利得形状調整器１９２とに供給され得る。

[0046]第１の利得形状推定器１９０はコーディングモード表示信号２１６を受信し、そのコーディングモードに基づいてサンプリングレートを決定することができる。たとえば、第１の利得形状推定器１９０は、第１の複数のサブフレームを生成するために高調波的に拡張された信号２０８の第１のフレームをサンプリングすることができ、第２の複数のサブフレームを生成するために同様の時間インスタンスでハイバンド残差信号２２４の第２のフレームをサンプリングすることができる。第１および第２の複数のサブフレームにおけるサブフレーム（たとえば、ベクトル次元）の数は、コーディングモードに基づくことができる。たとえば、第１の（および第２の）複数のサブフレームは、ハイバンド残差信号２２４の特定のフレームが有声フレームであるとコーディングモードが示しているという決定に応じて第１の数のサブフレームを含むことができる。特定の実施形態では、第１および第２の複数のサブフレームは、各々、ハイバンド残差信号２２４の特定のフレームが有声フレームであるという決定に応じて１６個のサブフレームを含むことができる。代替として、第１の（および第２の）複数のサブフレームは、ハイバンド残差信号２２４の特定のフレームが有声フレームではないとコーディングモードが示しているという決定に応じて第１の数のサブフレームよりも少ない第２の数のサブフレームを含むことができる。たとえば、第１および第２の複数のサブフレームは、各々、ハイバンド残差信号２２４の特定のフレームが有声フレームではないとコーディングモードが示しているという決定に応じて８個のサブフレームを含むことができる。

[0047]第１の利得形状推定器１９０は、高調波的に拡張された信号２０８および／またはハイバンド残差信号２２４に基づいて第１の利得形状パラメータ２４２を決定するように構成され得る。第１の利得形状推定器１９０は、第１の複数のサブフレームの各サブフレームのエネルギーレベルを評価し、第２の複数のサブフレームの各対応するサブフレームのエネルギーレベルを評価することができる。たとえば、第１の利得形状パラメータ２４２は、ハイバンド残差信号２２４の対応するサブフレームよりも低いまたは高いエネルギーレベルを有する高調波的に拡張された信号２０８の特定のサブフレームを識別することができる。第１の利得形状推定器１９０は、さらに、コーディングモードに基づいて、高調波的に拡張された信号２０８の各特定のサブフレームに与えるべきエネルギーの拡大縮小の量を決定することができる。エネルギーの拡大縮小は、ハイバンド残差信号２２４の対応するサブフレームと比較して低いまたは高いエネルギーレベルを有する高調波的に拡張された信号２０８のサブフレームレベルで行われ得る。たとえば、コーディングモードが第１のメトリック（たとえば、有声フレーム）を有しているという決定に応じて、高調波的に拡張された信号２０８の特定のサブフレームは、（ΣＲ_HB ²）／（ΣＲ’_LB ²）倍に拡大され得るが、ここで、（ΣＲ’_LB ²）は、高調波的に拡張された信号２０８の特定のサブフレームのエネルギーレベルに対応し、（ΣＲ_HB ²）は、ハイバンド残差信号２２４の対応するサブフレームのエネルギーレベルに対応する。代替として、コーディングモードが第２のメトリック（たとえば、無声フレーム）を有しているという決定に応じて、高調波的に拡張された信号２０８の特定のサブフレームは、Σ［（Ｒ_HB）＊（Ｒ’_LB）］／（ΣＲ’_LB ²）倍に拡大され得る。第１の利得形状パラメータ２４２は、エネルギー拡大縮小を必要とする高調波的に拡張された信号２０８の各サブフレームを識別することができ、それぞれのサブフレームに対する計算されたエネルギー倍率を識別することができる。第１の利得形状パラメータ２４２は、第１の利得形状調整器１９２と、ハイバンドサイド情報１７２として図１のマルチプレクサ１８０とに供給され得る。

[0048]第１の利得形状調整器１９２は、調整済みの高調波的に拡張された信号２４４を生成するために第１の利得形状パラメータ２４２に基づいて高調波的に拡張された信号２０８を調整するように構成され得る。たとえば、第１の利得形状調整器１９２は、調整済みの高調波的に拡張された信号２４４を生成するために、計算されたエネルギー拡大縮小に従って高調波的に拡張された信号２０８の識別されたサブフレームを拡大縮小することができる。調整済みの高調波的に拡張された信号２４４は、包絡追跡器（envelope tracker）２０２と、拡大縮小演算を行うために第１の結合器２５４とに供給され得る。

[0049]包絡追跡器２０２は、調整済みの高調波的に拡張された信号２４４を受信し、調整済みの高調波的に拡張された信号２４４に対応するローバンド時間ドメイン包絡２０３を計算するように構成され得る。たとえば、包絡追跡器２０２は、２乗値のシーケンスを生じさせるために、調整済みの高調波的に拡張された信号２４４のフレームの各サンプルの２乗を計算するように構成され得る。包絡追跡器２０２は、２乗された値のシーケンスに一次無限インパルス応答（ＩＩＲ）ローパスフィルタを適用することなどによって２乗値のシーケンスに対して円滑化演算を行うように構成され得る。包絡追跡器２０２は、ローバンド時間ドメイン包絡２０３を生じさせるために平方根関数を平滑化されたシーケンスの各サンプルに適用するように構成され得る。包絡追跡器２０２は、２乗演算の代わりに絶対演算を使用することもできる。ローバンド時間ドメイン包絡２０３は、雑音結合器２４０に供給され得る。

[0050]雑音結合器２４０は、変調された雑音信号２２０を生じさせるために白色雑音発生器（図示せず）によって生成された白色雑音２０５にローバンド時間ドメイン包絡２０３を組み合わせるように構成され得る。たとえば、雑音結合器２４０は、ローバンド時間ドメイン包絡２０３に従って白色雑音２０５を振幅変調するように構成され得る。特定の実施形態では、雑音結合器２４０は、変調された雑音信号２２０を生じさせるためにローバンド時間ドメイン包絡２０３に従って白色雑音２０５を拡大縮小するように構成された乗算器として実装され得る。変調された雑音信号２２０は、第２の結合器２５６に供給され得る。

[0051]第１の結合器２５４は、第１の拡大縮小された信号を生成するために、調整済みの高調波的に拡張された信号２４４を混合係数（α）に従って拡大縮小するように構成された乗算器として実装され得る。第２の結合器２５６は、第２の拡大縮小された信号を生成するために、変調された雑音信号２２０を混合係数（１−α）に基づいて拡大縮小するように構成された乗算器として実装され得る。たとえば、第２の結合器２５６は、１から混合係数を引いた差（たとえば、１−α）に基づいて、変調された雑音信号２２０を拡大縮小することができる。第１の拡大縮小された信号と第２の拡大縮小された信号とは、混合器２１１に供給され得る。

[0052]混合器２１１は、混合係数（α）と、調整済みの高調波的に拡張された信号２４４と、変調された雑音信号２２０とに基づいてハイバンド励振信号１６１を生成することができる。たとえば、混合器２１１は、ハイバンド励振信号１６１を生成するために第１の拡大縮小された信号と第２の拡大縮小された信号とを組み合わせることができる。

[0053]図２のシステム２００は、高調波的に拡張された信号２０８とハイバンド残差信号２２４との間のエネルギーの時間的展開を改善することができる。たとえば、第１の利得形状推定器１９０と第１の利得形状調整器１９２とは、高調波的に拡張された信号２０８を第１の利得形状パラメータ２４２に基づいて調整することができる。高調波的に拡張された信号２０８は、サブフレーム単位でハイバンド残差信号２２４のエネルギーレベルに近づくように調整され得る。高調波的に拡張された信号２０８を調整することにより、図４に関して説明されるように、合成ドメインにおける可聴アーチファクトが低減され得る。システム２００は、ピッチ変動性に基づいて利得形状パラメータ２４２を修正するためにコーディングモードに基づいてサブフレームの数を動的に調整することもできる。たとえば、比較的少数の利得形状パラメータ２４２（たとえば、比較的少数のサブフレーム）は、フレーム内の時間的展開において比較的低い変動性を有する無声フレームに関して生成され得る。代替として、比較的多数の利得形状パラメータ２４２は、フレーム内の時間的展開において比較的高い変動性を有する有声フレームに関して生成され得る。一代替実施形態では、高調波的に拡張されたローバンドの時間的展開を調整するように選択されたサブフレームの数は、無声フレームならびに有声フレームの両方に対して同じであり得る。

[0054]図３を参照すると、高調波的に拡張された信号とハイバンド残差信号との間のエネルギー不均衡に基づく利得形状パラメータを示すためのタイミング図３００が示されている。タイミング図３００は、ハイバンド残差信号２２４の第１のトレースと、高調波的に拡張された信号２０８の第２のトレースと、推定された利得形状パラメータ２４２の第３のトレースとを含む。

[0055]タイミング図３００は、ハイバンド残差信号２２４の特定のフレームと、高調波的に拡張された信号２０８の対応するフレームとを示している。タイミング図３００は、第１のタイミング窓３０２と、第２のタイミング窓３０４と、第３のタイミング窓３０６と、第４のタイミング窓３０８と、第５のタイミング窓３１０と、第６のタイミング窓３１２と、第７のタイミング窓３１４とを含む。各タイミング窓３０２〜３１４は、それぞれの信号２２４、２０８のサブフレームを表すことができる。７つのタイミング窓が示されているが、他の実施形態では、追加の（またはより少ない）タイミング窓が存在することがある。たとえば、特定の実施形態では、信号２２４、２０８は、それぞれ、４個と少ないタイミング窓または１６個と多いタイミング窓（すなわち、４個のサブフレームまたは１６個のサブフレーム）を含むことがある。タイミング窓の数は、図２に関して説明されたようにコーディングモードに基づくことができる。

[0056]第１のタイミング窓３０２におけるハイバンド残差信号２２４のエネルギーレベルは、第１のタイミング窓３０２における対応する高調波的に拡張された信号２０８のエネルギーレベルとほぼ同じであり得る。たとえば、第１の利得形状推定器１９０は、ハイバンド残差信号２２４のエネルギーレベルを第１のタイミング窓３０２で測定し、高調波的に拡張された信号２０８のエネルギーレベルを第１のタイミング窓３０２で測定し、差を閾値と比較することができる。差が閾値未満である場合、ハイバンド残差信号２２４のエネルギーレベルは、高調波的に拡張された信号２０８のエネルギーレベルとほぼ同じであり得る。したがって、この場合、第１のタイミング窓３０２の第１の利得形状パラメータ２４２は、高調波的に拡張された信号２０８の対応するサブフレームでエネルギー拡大縮小が必要とされないことを示すことができる。第３のタイミング窓３０６および第４のタイミング窓３０８のハイバンド残差信号２２４のエネルギーレベルは、やはり、第３のタイミング窓３０６および第４のタイミング窓３０８の対応する高調波的に拡張された信号２０８のエネルギーレベルとほぼ同じであり得る。したがって、第３のタイミング窓３０６および第４のタイミング窓３０８の第１の利得形状パラメータ２４２は、やはり、高調波的に拡張された信号２０８の対応するサブフレームでエネルギー拡大縮小が必要とされないことがあることを示すことができる。

[0057]第２のタイミング窓３０４および第５のタイミング窓３１０におけるハイバンド残差信号２２４のエネルギーレベルは揺らぐことがあり、第２のタイミング窓３０４および第５のタイミング窓３１０における高調波的に拡張された信号２０８の対応するエネルギーレベルは、ハイバンド残差信号２２４の揺らぎを正確に反映しないことがある。図１〜図２の第１の利得形状推定器１９０は、高調波的に拡張された信号２０８を調整するために第２のタイミング窓３０４および第５のタイミング窓３１０において利得形状パラメータ２４２を生成することができる。たとえば、第１の利得形状推定器１９０は、第２のタイミング窓３０４および第５のタイミング窓３１０（たとえば、第２のサブフレームおよび第５のサブフレーム）において高調波的に拡張された信号２０８を「拡大縮小する」ように第１の利得形状調整器１９２に指示することができる。高調波的に拡張された信号２０８が調整される量は、ハイバンド残差信号２２４のコーディングモードに基づくことができる。たとえば、フレームが有声フレームであることをコーディングモードが示している場合、高調波的に拡張された信号２０８は、（ΣＲ_HB ²）／（ΣＲ’_LB ²）倍に調整され得る。代替として、フレームが無声フレームであることをコーディングモードが示している場合、高調波的に拡張された信号２０８は、Σ［（Ｒ_HB）＊（Ｒ’_LB）］／（ΣＲ’_LB ²）倍に調整され得る。

[0058]第６のタイミング窓３１２および第７のタイミング窓３１４のハイバンド残差信号２２４のエネルギーレベルは、第６のタイミング窓３１２および第７のタイミング窓３１４の対応する高調波的に拡張された信号２０８のエネルギーレベルとほぼ同じであり得る。したがって、第６のタイミング窓３１２および第７のタイミング窓３１４の第１の利得形状パラメータ２４２は、高調波的に拡張された信号２０８の対応するサブフレームでエネルギー拡大縮小が必要とされないことを示すことができる。

[0059]図３に関して説明されたように第１の利得形状パラメータ２４２を生成すると、高調波的に拡張された信号２０８とハイバンド残差信号２２４との間のエネルギーの時間的展開が改善され得る。たとえば、ハイバンド残差信号２２４のエネルギー揺らぎは、高調波的に拡張された信号２０８においてそれを第１の利得形状パラメータ２４２に基づいて調整することによって償われ得る。高調波的に拡張された信号２０８を調整することにより、図４に関して説明されるように、合成ドメインにおける可聴アーチファクトは低減され得る。

[0060]図４を参照すると、合成ハイバンド信号と入力音声信号のハイバンド部分とに基づいて第２の段階において第２の利得形状パラメータを決定するように動作可能なシステム４００の特定の実施形態が示されている。システム４００は、線形予測（ＬＰ）合成器４０２と、第２の利得形状推定器１９４と、第２の利得形状調整器１９６と、利得フレーム推定器４１０とを含むことができる。

[0061]線形予測（ＬＰ）合成器４０２は、ハイバンド励振信号１６１を受信し、合成ハイバンド信号４０４を生成するためにハイバンド励振信号１６１に線形予測合成演算を行うように構成され得る。合成ハイバンド信号４０４は、第２の利得形状推定器１９４と第２の利得形状調整器１９６とに供給され得る。

[0062]第２の利得形状推定器１９４は、合成ハイバンド信号４０４とハイバンド信号１２４とに基づいて第２の利得形状パラメータ４０６を決定するように構成され得る。たとえば、第２の利得形状推定器１９４は、合成ハイバンド信号４０４の各サブフレームのエネルギーレベルを評価し、ハイバンド信号１２４の各対応するサブフレームのエネルギーレベルを評価することができる。たとえば、第２の利得形状パラメータ４０６は、ハイバンド信号１２４の対応するサブフレームよりも低いエネルギーレベルを有する合成ハイバンド信号４０４の特定のサブフレームを識別することができる。第２の利得形状パラメータ４０６は、合成ドメインにおいて決定され得る。たとえば、第２の利得形状パラメータ４０６は、合成信号（たとえば、合成ハイバンド信号４０４）を使用して、励振ドメインの励振信号（たとえば、高調波的に拡張された信号２０８）とは対照的に決定され得る。第２の利得形状パラメータ４０６は、第２の利得形状調整器１９６と、ハイバンドサイド情報１７２としてマルチプレクサ１８０とに供給され得る。

[0063]第２の利得形状調整器１９６は、第２の利得形状パラメータ４０６に基づいて、調整された合成ハイバンド信号４１８を生成するように構成され得る。たとえば、第２の利得形状調整器１９６は、調整された合成ハイバンド信号４１８を生成するために第２の利得形状パラメータ４０６に基づいて、合成ハイバンド信号４０４の特定のサブフレームを「拡大縮小する」ことができる。第２の利得形状調整器１９６は、図１〜図２の第１の利得形状調整器１９２が、第１の利得形状パラメータ２４２に基づいて、高調波的に拡張された信号２０８の特定のサブフレームを調整するのと同様の方法で、合成ハイバンド信号４０４のサブフレームを「拡大縮小する」ことができる。調整された合成ハイバンド信号４１８は、利得フレーム推定器４１０に供給され得る。

[0064]利得フレーム推定器４１０は、調整された合成ハイバンド信号４０４とハイバンド信号１２４とに基づいて利得フレームパラメータ４１２を生成することができる。利得フレームパラメータ４１２は、ハイバンドサイド情報１７２としてマルチプレクサ１８０に供給され得る。

[0065]図４のシステム４００は、合成ハイバンド信号４０４のエネルギーレベルとハイバンド信号１２４の対応するエネルギーレベルとに基づいて第２の利得形状パラメータ４０６を生成することによって図１の入力音声信号１０２のハイバンド再構成を改善することができる。第２の利得形状パラメータ４０６は、入力音声信号１０２のハイバンド再構成中の可聴アーチファクトを低減することができる。

[0066]図５を参照すると、利得形状パラメータを使用して音声信号を再生するように動作可能なシステム５００の特定の実施形態が示されている。システム５００は、非線形励振発生器５０７と、第１の利得形状調整器５９２と、ハイバンド励振発生器５２０と、線形予測（ＬＰ）合成器５２２と、第２の利得形状調整器５２６とを含む。特定の実施形態において、システム５００は、復号化システムまたは装置（たとえば、ワイヤレス電話、ＣＯＤＥＣ、またはＤＳＰにおける）に統合され得る。他の特定の実施形態では、システム５００は、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、エンターテイメントユニット、ナビゲーションデバイス、通信デバイス、ＰＤＡ、固定ロケーションデータユニット、またはコンピュータに統合され得る。

[0067]非線形励振発生器５０７は、図１のローバンド励振信号１４４を受信するように構成され得る。たとえば、図１のローバンドビットストリーム１４２は、ローバンド励振信号１４４を表すデータを含むことができ、ビットストリーム１９９としてシステム５００に送信され得る。非線形励振発生器５０７は、ローバンド励振信号１４４に基づいて、第２の高調波的に拡張された信号５０８を生成するように構成され得る。たとえば、非線形励振発生器５０７は、第２の高調波的に拡張された信号５０８を生成するためにローバンド励振信号１４４のフレーム（またはサブフレーム）に絶対値演算または２乗演算を行うことができる。特定の実施形態では、非線形励振発生器５０７は、図２の非線形励振発生器２０７と実質的に同様の方法で動作することができる。第２の高調波的に拡張された信号５０８は、第１の利得形状調整器５９２に供給され得る。

[0068]図２の第１の利得形状パラメータ２４２などの第１の利得形状パラメータが、さらに、第１の利得形状調整器５９２に供給され得る。たとえば、図１のハイバンドサイド情報１７２は、第１の利得形状パラメータ２４２を表すデータを含むことができ、システム５００に送信され得る。第１の利得形状調整器５９２は、第２の調整済みの高調波的に拡張された信号５４４を生成するために第１の利得形状パラメータ２４２に基づいて第２の高調波的に拡張された信号５０８を調整するように構成され得る。特定の実施形態では、第１の利得形状調整器５９２は、図１〜図２の第１の利得形状調整器１９２と実質的に同様の方法で動作することができる。第２の調整済みの高調波的に拡張された信号５４４は、ハイバンド励振発生器５２０に供給され得る。

[0069]ハイバンド励振発生器５２０は、第２の調整済みの高調波的に拡張された信号５４４に基づいて第２のハイバンド励振信号５６１を生成することができる。たとえば、ハイバンド励振発生器５２０は、包絡追跡器と、雑音結合器と、第１の結合器と、第２の結合器と、混合器とを含むことができる。特定の実施形態では、ハイバンド励振発生器５２０の構成要素は、図２の包絡追跡器２０２、図２の雑音結合器２４０、図２の第１の結合器２５４、図２の第２の結合器２５６、および図２の混合器２１１と実質的に同様の方法で動作することができる。第２のハイバンド励振信号５６１は、線形予測合成器５２２に供給され得る。

[0070]線形予測合成器５２２は、第２のハイバンド励振信号５６１を受信し、第２の合成ハイバンド信号５２４を生成するために第２のハイバンド励振信号５６１に線形予測合成演算を行うように構成され得る。特定の実施形態では、線形予測合成器５２２は、図４の線形予測合成器４０２と実質的に同様の方法で動作することができる。第２の合成ハイバンド信号５２４は、第２の利得形状調整器５２６に供給され得る。

[0071]図４の第２の利得形状パラメータ４０６などの第２の利得形状パラメータは、第２の利得形状調整器５２６にも供給され得る。たとえば、図１のハイバンドサイド情報１７２は、第２の利得形状パラメータ４０６を表すデータを含むことができ、システム５００に送信され得る。第２の利得形状調整器５２６は、第２の調整された合成ハイバンド信号５２８を生成するために第２の利得形状パラメータ４０６に基づいて第２の合成ハイバンド信号５２４を調整するように構成され得る。特定の実施形態では、第２の利得形状調整器５２６は、図１および図４の第２の利得形状調整器１９６と実質的に同様の方法で動作することができる。特定の実施形態では、第２の調整された合成ハイバンド信号５２８は、図１のハイバンド信号１２４の再生されたバージョンであり得る。

[0072]図５のシステム５００は、ハイバンド励振信号１４４と、第１の利得形状パラメータ２４２と、第２の利得形状パラメータ４０６とを使用してハイバンド信号１２４を再生することができる。利得形状パラメータ２４２、４０６を使用することにより、発話符号器において検出されるエネルギーの時間的展開に基づいて第２の高調波的に拡張された信号５０８と第２の合成ハイバンド信号５２４とを調整することによって再生の精度が改善され得る。

[0073]図６を参照すると、ハイバンド再構成のために利得推定を使用する方法６００、６１０の特定の実施形態の流れ図が示されている。第１の方法６００は、図１〜図２のシステム１００〜２００および図４のシステム４００によって行われ得る。第２の方法６１０は、図５のシステム５００によって行われ得る。

[0074]第１の方法６００は、６０２において、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータを発話符号器において決定することを含む。たとえば、図１の第１の利得形状推定器１９０は、高調波的に拡張された信号（たとえば、図２の高調波的に拡張された信号２０８）および／またはハイバンド信号１２４のハイバンド残差に基づいて第１の利得形状パラメータ（たとえば、図２の第１の利得形状パラメータ２４２）を決定することができる。

[0075]方法６００は、６０４において、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータを決定することをさらに含むことができる。たとえば、第２の利得形状推定器１９４は、合成ハイバンド信号４０４とハイバンド信号１２４とに基づいて第２の利得形状パラメータ４０６を決定することができる。

[0076]第１の利得形状パラメータと第２の利得形状パラメータとは、６０６において、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために音声信号の符号化バージョンに挿入され得る。たとえば、図１のハイバンドサイド情報１７２は、第１の利得形状パラメータ２４２と第２の利得形状パラメータ４０６とを含むことができる。マルチプレクサ１８０は、第１の利得形状パラメータ２４２と第２の利得形状パラメータ４０６とをビットストリーム１９９に挿入することができ、ビットストリーム１９９は、復号器（たとえば、図５のシステム５００）に送信され得る。図５の第１の利得形状調整器５９２は、第２の調整済みの高調波的に拡張された信号５４４を生成するために第１の利得形状パラメータ２４２に基づいて高調波的に拡張された信号５０８を調整することができる。第２のハイバンド励振信号５６１は、第２の調整済みの高調波的に拡張された信号５４４に少なくとも部分的に基づく。追加として、図５の第２の利得形状調整器５２６は、ハイバンド信号１２４のバージョンを再生するために第２の利得形状パラメータ４０６に基づいて合成ハイバンド信号５２４を調整することができる。

[0077]第２の方法６１０は、６１２において、発話符号器からの符号化音声信号を発話復号器において受信することを含むことができる。符号化音声信号は、発話符号器において生成された高調波的に拡張された信号２０８および／または発話符号器において生成されたハイバンド残差信号２２４に基づく第１の利得形状パラメータ２４２を含むことができる。符号化音声信号は、合成ハイバンド信号４０４とハイバンド信号１２４とに基づく第２の利得形状パラメータ４０６をさらに含むことができる。

[0078]音声信号は、６１４において、第１の利得形状パラメータに基づいておよび第２の利得形状パラメータに基づいて符号化音声信号から再生され得る。たとえば、図５の第１の利得形状調整器５９２は、第２の調整済みの高調波的に拡張された信号５４４を生成するために第１の利得形状パラメータ２４２に基づいて高調波的に拡張された信号５０８を調整することができる。図５のハイバンド励振発生器５２０は、第２の調整済みの高調波的に拡張された信号５４４に基づいて第２のハイバンド励振信号５６１を生成することができる。線形予測合成器５２２は、第２の合成ハイバンド信号５２４を生成するために第２のハイバンド励振信号５６１に線形予測合成演算を行うことができ、第２の利得形状調整器５２６は、第２の調整された合成ハイバンド信号５２８（たとえば、再生された音声信号）を生成するために第２の利得形状パラメータ４０６に基づいて第２の合成ハイバンド信号５２４を調整することができる。

[0079]図６の方法６００、６１０は、音声信号１０２の高調波的に拡張されたローバンド励振と入力音声信号１０２のハイバンド残差との間のサブフレームごとのエネルギー相関を改善する（たとえば、時間的展開を改善する）ことができる。たとえば、第１の利得段階の間、第１の利得形状推定器１９０と第１の利得形状調整器１９２とは、高調波的に拡張されたローバンド励振をハイバンドの残差に基づいてモデル化するために高調波的に拡張されたローバンド励振を第１の利得パラメータに基づいて調整することができる。方法６００、６１０は、ハイバンド信号１２４とハイバンド信号１２４の合成されたバージョンとの間のサブフレームごとのエネルギー相関を改善することもできる。たとえば、第２の利得段階の間、第２の利得形状推定器１９４と第２の利得形状調整器１９６とは、ハイバンド信号１２４の合成されたバージョンをハイバンド信号１２４に基づいてモデル化するためにハイバンド信号１２４の合成されたバージョンを第２の利得パラメータに基づいて調整することができる。

[0080]特定の実施形態では、図６の方法６００、６１０は、中央処理装置（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、またはコントローラなどの処理ユニットのハードウェア（たとえば、ＦＰＧＡデバイス、ＡＳＩＣなど）を介して、ファームウェアデバイスを介して、またはそれらの任意の組合せで実施され得る。一例として、図６の方法６００、６１０は、図７に関して説明されるように、命令を実行するプロセッサによって行われ得る。

[0081]図７を参照すると、ワイヤレス通信デバイスの特定の例示的な実施形態のブロック図が示されており、全体的に７００と称される。デバイス７００は、メモリ７３２に結合されたプロセッサ７１０（たとえば、ＣＰＵ）を含む。メモリ７３２は、図６の方法６００、６１０などの本明細書で開示されている方法およびプロセスを行うためにプロセッサ７１０および／またはＣＯＤＥＣ７３４で実行可能な命令７６０を含むことができる。

[0082]特定の実施形態では、ＣＯＤＥＣ７３４は、２段階利得推定システム７８２と２段階利得調整システム７８４とを含むことができる。特定の実施形態では、２段階利得推定システム７８２は、図１のシステム１００の１つまたは複数の構成要素、図２のシステム２００の１つまたは複数の構成要素、および／または図４のシステム４００の１つまたは複数の構成要素を含む。たとえば、２段階利得推定システム７８２は、図２のシステム１００〜２００と、図４のシステム４００と、図６の方法６００とに関連する符号化演算を行うことができる。特定の実施形態では、２段階利得調整システム７８４は、図５のシステム５００の１つまたは複数の構成要素を含むことができる。たとえば、２段階利得調整システム７８４は、図５のシステム５００と図６の方法６１０とに関連する復号化演算を行うことができる２段階利得推定システム７８２および／または２段階利得調整システム７８４は、専用ハードウェア（たとえば、回路）を介して、１つまたは複数のタスクを行うための命令を実行するプロセッサによって、またはそれらの組合せで実装され得る。

[0083]一例として、メモリ７３２またはＣＯＤＥＣ７３４のメモリ７９０は、ランダムアクセスメモリ（ＲＡＭ）、磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）、スピントルクトランスファＭＲＡＭ（ＳＴＴ−ＭＲＡＭ）、フラッシュメモリ、読出し専用メモリ（ＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、着脱可能ディスク、またはコンパクトディスク読出し専用メモリ（ＣＤ−ＲＯＭ）などのメモリデバイスであり得る。メモリデバイスは、コンピュータ（たとえば、ＣＯＤＥＣ７３４のプロセッサ、および／またはプロセッサ７１０）によって実行されたとき、コンピュータに図６の方法６００、６１０の一方の少なくとも一部分を行わせることができる命令（たとえば、命令７６０または命令７９５）を含むことができる。一例として、メモリ７３２またはＣＯＤＥＣ７３４のメモリ７９０は、コンピュータ（たとえば、ＣＯＤＥＣ７３４のプロセッサ、および／またはプロセッサ７１０）によって実行されたとき、コンピュータが行う図６の方法６００、６１０の一方の少なくとも一部分を行うを生じる命令（たとえば、それぞれ、命令７６０または命令７９５）を含む非一時的コンピュータ可読媒体であり得る。

[0084]デバイス７００は、ＣＯＤＥＣ７３４とプロセッサ７１０とに結合されたＤＳＰ７９６をさらに含むことができる。特定の実施形態では、ＤＳＰ７９６は、２段階利得推定システム７９７と２段階利得調整システム７９８とを含むことができる。２段階利得推定システム７９７は、図１のシステム１００の１つまたは複数の構成要素、図２のシステム２００の１つまたは複数の構成要素、および／または図４のシステム４００の１つまたは複数の構成要素を含むことができる。たとえば、２段階利得推定システム７９７は、図２のシステム１００〜２００と、図４のシステム４００と、図６の方法６００とに関連する符号化演算を行うことができる。２段階利得調整システム７９８は、図５のシステム５００の１つまたは複数の構成要素を含むことができる。たとえば、２段階利得調整システム７９８は、図５のシステム５００と図６の方法６１０とに関連する復号化演算を行うことができる。２段階利得推定システム７９７および／または２段階利得調整システム７９８は、専用ハードウェア（たとえば、回路）を介して、１つまたは複数のタスクを行うための命令を実行するプロセッサによって、またはそれらの組合せで実装され得る。

[0085]図７は、さらに、プロセッサ７１０とディスプレイ７２８とに結合されるディスプレイコントローラ７２６を示している。ＣＯＤＥＣ７３４は、図示のように、プロセッサ７１０に結合され得る。スピーカ７３６とマイクロホン７３８とはＣＯＤＥＣ７３４に結合され得る。たとえば、マイクロホン７３８は、図１の入力音声信号１０２を生成することができ、ＣＯＤＥＣ７３４は、入力音声信号１０２に基づいて、受信機への送信のための出力ビットストリーム１９９を生成することができる。別の例として、スピーカ７３６は、図１の出力ビットストリーム１９９からＣＯＤＥＣ７３４によって再構成された信号を出力するために使用され得、出力ビットストリーム１９９は送信機から受信される。図７は、さらに、ワイヤレスコントローラ７４０がプロセッサ７１０とワイヤレスアンテナ７４２とに結合され得ることを示している。

[0086]特定の実施形態では、プロセッサ７１０、ディスプレイコントローラ７２６、メモリ７３２、ＣＯＤＥＣ７３４、ＤＳＰ７９６、およびワイヤレスコントローラ７４０は、システムインパッケージまたはシステムオンチップデバイス（たとえば、移動局モデム（ＭＳＭ））７２２に含まれる。特定の実施形態では、タッチスクリーンおよび／またはキーパッドなどの入力デバイス７３０と、電源７４４とが、システムオンチップデバイス７２２に結合される。その上、特定の実施形態では、図７に示されるように、ディスプレイ７２８、入力デバイス７３０、スピーカ７３６、マイクロホン７３８、アンテナ７４２、および電源７４４は、システムオンチップデバイス７２２の外部にある。しかしながら、ディスプレイ７２８、入力デバイス７３０、スピーカ７３６、マイクロホン７３８、アンテナ７４２、および電源７４４の各々は、インターフェースまたはコントローラなどのシステムオンチップデバイス７２２の構成要素に結合され得る。

[0087]説明された実施形態に関連して、高調波的に拡張された信号に基づいておよび／または音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて第１の利得形状パラメータを決定するための手段を含む第１の装置が開示される。たとえば、第１の利得形状パラメータを決定するための手段は、図１〜図２の第１の利得形状推定器１９０、図２のフレーム識別モジュール２１４、図７の２段階利得推定システム７８２、図７の２段階利得推定システム７９７、第１の利得形状パラメータを決定するように構成された１つまたは複数のデバイス（たとえば、非一時的コンピュータ可読記憶媒体における命令を実行するプロセッサ）、またはそれらの任意の組合せを含むことができる。

[0088]第１の装置は、合成ハイバンド信号に基づいておよび音声信号のハイバンド部分に基づいて第２の利得形状パラメータを決定するための手段をさらに含むことができる。たとえば、第２の利得形状パラメータを決定するための手段は、図１および図４の第２の利得形状推定器１９４、図７の２段階利得推定システム７８２、図７の２段階利得推定システム７９７、第２の利得パラメータを決定するように構成された１つまたは複数のデバイス、（たとえば、非一時的コンピュータ可読記憶媒体における命令を実行するプロセッサ）、またはそれらの任意の組合せを含むことができる。

[0089]第１の装置は、音声信号の符号化バージョンから音声信号を再生している間の利得調整を可能にするために、第１の利得形状パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入するための手段をさらに含むことができる。たとえば、第１の利得形状パラメータと第２の利得形状パラメータとを音声信号の符号化バージョンに挿入するための手段は、図１のマルチプレクサ１８０、図７の２段階利得推定システム７８２、図７の２段階利得推定システム７９７、第１の利得パラメータを音声信号の符号化バージョンに挿入するように構成された１つまたは複数のデバイス、（たとえば、非一時的コンピュータ可読記憶媒体における命令を実行するプロセッサ）、またはそれらの任意の組合せを含むことができる。

[0090]説明された実施形態に関連して、発話符号器からの符号化音声信号を受信するための手段を含む第２の装置が開示される。符号化音声信号は、発話符号器において生成された第１の高調波的に拡張された信号に基づくおよび発話符号器において生成されたハイバンド残差信号に基づく第１の利得形状パラメータを含む。符号化音声信号は、発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータをさらに含む。たとえば、符号化音声信号を受信するための手段は、図５の非線形励振発生器５０７、図５の第１の利得形状推定器５９２、図５の第２の利得形状推定器５２６、図７の２段階利得調整システム７８４、図７の２段階利得調整システム７９８、受信、符号化音声信号を決定するように構成された１つまたは複数のデバイス、（たとえば、非一時的コンピュータ可読記憶媒体における命令を実行するプロセッサ）、またはそれらの任意の組合せを含むことができる。

[0091]第２の装置は、第１の利得形状パラメータに基づいておよび第２の利得形状パラメータに基づいて符号化音声信号から音声信号を再生するための手段をさらに含むことができる。たとえば、音声信号を再生するための手段は、図５の非線形励振発生器５０７、図５の第１の利得形状推定器５９２、図５のハイバンド励振発生器５２０、図５の線形予測係数合成器５２２、図５の第２の利得形状推定器５２６、図７の２段階利得調整システム７８４、図７の２段階利得調整システム７９８、音声信号を再生するように構成された１つまたは複数のデバイス、（たとえば、非一時的コンピュータ可読記憶媒体における命令を実行するプロセッサ）、またはそれらの任意の組合せを含むことができる。

[0092]本明細書で開示される実施形態に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、またはハードウェアプロセッサなどの処理デバイスによって実行されるコンピュータソフトウェア、または両方の組合せとして実施され得ることを当業者はさらに正しく理解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップは、機能に関して上記で一般的に説明されている。そのような機能が、ハードウェアとして実装されるか、または実行可能なソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課される設計制約によって決まる。当業者は、説明された機能を特定の適用例ごとに様々な方法で実現できるが、そのような実現の決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。

[0093]本明細書で開示される実施形態に関して説明された方法またはアルゴリズムのステップは、ハードウェアで、プロセッサによって実行されるソフトウェアモジュールで、またはこれら２つの組合せで直接具現され得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）、スピントルクトランスファＭＲＡＭ（ＳＴＴ−ＭＲＡＭ）、フラッシュメモリ、読出し専用メモリ（ＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読出し専用メモリ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、着脱可能ディスク、またはコンパクトディスク読出し専用メモリ（ＣＤ−ＲＯＭ）などのメモリデバイスに存在することができる。例示的なメモリデバイスは、プロセッサがメモリデバイスから情報を読み出し、メモリデバイスに情報を書き込むことができるようにプロセッサに結合される。代替として、メモリデバイスはプロセッサに一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣに存在することができる。ＡＳＩＣは、コンピューティングデバイスまたはユーザ端末に存在することができる。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末に個別の構成要素として存在することができる。

[0094]開示された実施形態の先の説明は、開示された実施形態を当業者が製作または使用することができるように行われている。これらの実施形態への様々な変更は当業者には容易に明らかであり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用され得る。したがって、本開示は、本明細書に示された実施形態に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲が与えられるべきである。

[0094]開示された実施形態の先の説明は、開示された実施形態を当業者が製作または使用することができるように行われている。これらの実施形態への様々な変更は当業者には容易に明らかであり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用され得る。したがって、本開示は、本明細書に示された実施形態に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲が与えられるべきである。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
高調波的に拡張された信号に基づいて、音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて、またはそれらの任意の組合せで第１の利得形状パラメータを発話符号器において決定することと、
合成ハイバンド信号に基づいておよび前記音声信号の前記ハイバンド部分に基づいて第２の利得形状パラメータを決定することと、
前記音声信号の符号化バージョンから前記音声信号を再生している間の利得調整を可能にするために、前記第１の利得形状パラメータと前記第２の利得形状パラメータとを前記音声信号の前記符号化バージョンに挿入することとを備える方法。
［Ｃ２］
前記第１の利得形状パラメータが線形予測残差ドメインにおいて決定される、Ｃ１に記載の方法。
［Ｃ３］
前記第２の利得形状パラメータが線形予測合成ドメインにおいて決定される、Ｃ１に記載の方法。
［Ｃ４］
前記高調波的に拡張された信号が、非線形高調波拡張により前記音声信号のローバンド部分から生成される、Ｃ１に記載の方法。
［Ｃ５］
修正済みの高調波的に拡張された信号を生成するために前記第１の利得形状パラメータに基づいて前記高調波的に拡張された信号を調整することと、
ハイバンド励振信号を生成することと、ここにおいて、前記ハイバンド励振信号が、前記修正済みの高調波的に拡張された信号に少なくとも部分的に基づく、をさらに備える、Ｃ１に記載の方法。
［Ｃ６］
第１の複数のサブフレームを生成するために前記高調波的に拡張された信号のローバンドフレームをサンプリングすることと、
第２の複数のサブフレームを生成するために前記ハイバンド残差信号の対応するハイバンドフレームをサンプリングすることと、
前記第１の複数のサブフレームのエネルギーレベルに基づいて、前記第２の複数のサブフレームのエネルギーレベルに基づいて、またはそれらの任意の組合せで前記第１の利得形状パラメータを生成することとをさらに備える、Ｃ５に記載の方法。
［Ｃ７］
前記高調波的に拡張された信号を調整することが、前記第２の複数のサブフレームの対応するサブフレームのエネルギーレベルに近づくように前記第１の複数のサブフレームの特定のサブフレームを拡大縮小することを備える、Ｃ６に記載の方法。
［Ｃ８］
前記第２の複数のサブフレームは、前記ハイバンドフレームが有声フレームであるという決定に応じて第１の数のサブフレームを含み、前記第２の複数のサブフレームは、前記ハイバンドフレームが有声フレームではないという決定に応じて前記第１の数のサブフレームよりも少ない第２の数のサブフレームを含む、Ｃ６に記載の方法。
［Ｃ９］
前記第１の複数のサブフレームと前記第２の複数のサブフレームとが、有声フレームと無声フレームの両方について同数のサブフレームを含み、前記第１の複数のサブフレームおよび前記第２の複数のサブフレームは、ローバンドコアサンプルレートが１２．８キロヘルツ（ｋＨｚ）である場合、４つのサブフレームを含み、前記第１の複数のサブフレームおよび前記第２の複数のサブフレームは、前記ローバンドコアサンプルレートが１６ｋＨｚである場合、５つのサブフレームを含む、Ｃ６に記載の方法。
［Ｃ１０］
合成ハイバンド信号を生成するために、前記ハイバンド励振信号に線形予測合成演算を行うことと、
前記合成ハイバンド信号に基づいておよび前記音声信号の前記ハイバンド部分に基づいて第２の利得形状パラメータを決定することと、
前記第２の利得形状パラメータを前記音声信号の前記符号化バージョンに挿入することとをさらに備える、Ｃ５に記載の方法。
［Ｃ１１］
前記第２の利得形状パラメータに基づいて前記合成ハイバンド信号を調整することをさらに備える、Ｃ１０に記載の方法。
［Ｃ１２］
高調波的に拡張された信号に基づいて、音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて、またはそれらの任意の組合せで第１の利得形状パラメータを決定するように構成された第１の利得形状推定器と、
合成ハイバンド信号に基づいておよび前記音声信号の前記ハイバンド部分に基づいて第２の利得形状パラメータを決定するように構成された第２の利得形状推定器と、
前記音声信号の符号化バージョンから前記音声信号を再生している間の利得調整を可能にするために、前記第１の利得形状パラメータと前記第２の利得形状パラメータとを前記音声信号の前記符号化バージョンに挿入するように構成された回路とを備える装置。
［Ｃ１３］
前記第１の利得形状パラメータが線形予測残差ドメインにおいて決定される、Ｃ１２に記載の装置。
［Ｃ１４］
前記回路がマルチプレクサを含む、Ｃ１２に記載の装置。
［Ｃ１５］
前記高調波的に拡張された信号が、非線形高調波拡張により前記音声信号のローバンド部分から生成される、Ｃ１２に記載の装置。
［Ｃ１６］
修正済みの高調波的に拡張された信号を生成するために前記第１の利得形状パラメータに基づいて前記高調波的に拡張された信号を調整するように構成された第１の利得形状調整器をさらに備える、Ｃ１２に記載の装置。
［Ｃ１７］
前記第１の利得形状推定器が、
第１の複数のサブフレームを生成するために前記高調波的に拡張された信号のローバンドフレームをサンプリングし、
第２の複数のサブフレームを生成するために前記ハイバンド残差信号の対応するハイバンドフレームをサンプリングし、
前記第１の複数のサブフレームのエネルギーレベルに基づいて、前記第２の複数のサブフレームのエネルギーレベルに基づいて、またはそれらの任意の組合せで前記第１の利得形状パラメータを生成するようにさらに構成される、Ｃ１６に記載の装置。
［Ｃ１８］
前記第２の複数のサブフレームの対応するサブフレームのエネルギーレベルに近づくように前記第１の複数のサブフレームの特定のサブフレームを拡大縮小することによって前記高調波的に拡張された信号を調整するように構成された第１の利得形状調整器をさらに備える、Ｃ１７に記載の装置。
［Ｃ１９］
前記第１の複数のサブフレームは、前記ハイバンドフレームが有声フレームであるという決定に応じて第１の数のサブフレームを含み、前記第１の複数のサブフレームは、前記ハイバンドフレームが有声フレームではないという決定に応じて前記第１の数のサブフレームよりも少ない第２の数のサブフレームを含む、Ｃ１７に記載の装置。
［Ｃ２０］
前記第１の複数のサブフレームは、前記ハイバンドフレームが有声フレームであるという決定に応じて１６個のサブフレームを含む、Ｃ１７に記載の装置。
［Ｃ２１］
前記合成ハイバンド信号を生成するためにハイバンド励振信号に線形予測合成演算を行うように構成された線形予測合成器をさらに備える、Ｃ１６に記載の装置。
［Ｃ２２］
前記第２の利得形状パラメータに基づいて前記合成ハイバンド信号を調整するように構成された第２の利得形状調整器をさらに備える、Ｃ１２に記載の装置。
［Ｃ２３］
発話符号器からの符号化音声信号を発話復号器において受信することと、
ここにおいて、前記符号化音声信号が、
前記発話符号器において生成された第１の高調波的に拡張された信号に基づく、前記発話符号器において生成されたハイバンド残差信号に基づく、またはそれらの任意の組合せによる第１の利得形状パラメータと、
前記発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータとを含む、
前記第１の利得形状パラメータに基づいておよび前記第２の利得形状パラメータに基づいて前記符号化音声信号から前記音声信号を再生することとを備える方法。
［Ｃ２４］
前記発話復号器において前記音声信号を再生することが、
前記符号化音声信号のローバンド励振を非直線的に拡張することに基づいて第２の高調波的に拡張された信号を生成することと、
第２の修正済みの高調波的に拡張された信号を得るために前記第１の利得形状パラメータに基づいて前記第２の高調波的に拡張された信号を調整することとを備える、Ｃ２３に記載の方法。
［Ｃ２５］
前記修正済みの第２の高調波的に拡張された信号に基づいて第２のハイバンド励振信号を生成することをさらに備える、Ｃ２４に記載の方法。
［Ｃ２６］
第２の合成ハイバンド信号を生成するために、前記第２のハイバンド励振信号に線形予測合成演算を行うことをさらに備える、Ｃ２５に記載の方法。
［Ｃ２７］
前記第２の利得形状パラメータに基づいて前記第２の合成ハイバンド信号を調整することをさらに備える、Ｃ２６に記載の方法。
［Ｃ２８］
発話符号器からの符号化音声信号を受信することと、ここにおいて、前記符号化音声信号が、
前記発話符号器において生成された第１の高調波的に拡張された信号に基づく、前記発話符号器において生成されたハイバンド残差信号に基づく、またはそれらの任意の組合せによる第１の利得形状パラメータと、
前記発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータとを備える、
前記第１の利得形状パラメータに基づいておよび前記第２の利得形状パラメータに基づいて前記符号化音声信号から前記音声信号を再生することとを行うように構成された発話復号器。
［Ｃ２９］
前記符号化音声信号のローバンド励振に基づいて第２の高調波的に拡張された信号を生成するように構成された非線形励振発生器と、
第２の修正済みの高調波的に拡張された信号を得るために前記第１の利得形状パラメータに基づいて前記第２の高調波的に拡張された信号を調整するように構成された第１の利得形状調整器とを備える、Ｃ２８に記載の発話復号器。
［Ｃ３０］
前記修正済みの第２の高調波的に拡張された信号に基づいて第２のハイバンド励振信号を生成するように構成されたハイバンド励振発生器をさらに備える、Ｃ２９に記載の発話復号器。

Claims

高調波的に拡張された信号に基づいて、音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて、またはそれらの任意の組合せで第１の利得形状パラメータを発話符号器において決定することと、
合成ハイバンド信号に基づいておよび前記音声信号の前記ハイバンド部分に基づいて第２の利得形状パラメータを決定することと、
前記音声信号の符号化バージョンから前記音声信号を再生している間の利得調整を可能にするために、前記第１の利得形状パラメータと前記第２の利得形状パラメータとを前記音声信号の前記符号化バージョンに挿入することと
を備える方法。
前記第１の利得形状パラメータが線形予測残差ドメインにおいて決定される、請求項１に記載の方法。
前記第２の利得形状パラメータが線形予測合成ドメインにおいて決定される、請求項１に記載の方法。
前記高調波的に拡張された信号が、非線形高調波拡張により前記音声信号のローバンド部分から生成される、請求項１に記載の方法。
修正済みの高調波的に拡張された信号を生成するために前記第１の利得形状パラメータに基づいて前記高調波的に拡張された信号を調整することと、
ハイバンド励振信号を生成することと、ここにおいて、前記ハイバンド励振信号が、前記修正済みの高調波的に拡張された信号に少なくとも部分的に基づく、
をさらに備える、請求項１に記載の方法。
第１の複数のサブフレームを生成するために前記高調波的に拡張された信号のローバンドフレームをサンプリングすることと、
第２の複数のサブフレームを生成するために前記ハイバンド残差信号の対応するハイバンドフレームをサンプリングすることと、
前記第１の複数のサブフレームのエネルギーレベルに基づいて、前記第２の複数のサブフレームのエネルギーレベルに基づいて、またはそれらの任意の組合せで前記第１の利得形状パラメータを生成することと
をさらに備える、請求項５に記載の方法。
前記高調波的に拡張された信号を調整することが、前記第２の複数のサブフレームの対応するサブフレームのエネルギーレベルに近づくように前記第１の複数のサブフレームの特定のサブフレームを拡大縮小することを備える、請求項６に記載の方法。
前記第２の複数のサブフレームは、前記ハイバンドフレームが有声フレームであるという決定に応じて第１の数のサブフレームを含み、前記第２の複数のサブフレームは、前記ハイバンドフレームが有声フレームではないという決定に応じて前記第１の数のサブフレームよりも少ない第２の数のサブフレームを含む、請求項６に記載の方法。
前記第１の複数のサブフレームと前記第２の複数のサブフレームとが、有声フレームと無声フレームの両方について同数のサブフレームを含み、前記第１の複数のサブフレームおよび前記第２の複数のサブフレームは、ローバンドコアサンプルレートが１２．８キロヘルツ（ｋＨｚ）である場合、４つのサブフレームを含み、前記第１の複数のサブフレームおよび前記第２の複数のサブフレームは、前記ローバンドコアサンプルレートが１６ｋＨｚである場合、５つのサブフレームを含む、請求項６に記載の方法。
合成ハイバンド信号を生成するために、前記ハイバンド励振信号に線形予測合成演算を行うことと、
前記合成ハイバンド信号に基づいておよび前記音声信号の前記ハイバンド部分に基づいて第２の利得形状パラメータを決定することと、
前記第２の利得形状パラメータを前記音声信号の前記符号化バージョンに挿入することと
をさらに備える、請求項５に記載の方法。
前記第２の利得形状パラメータに基づいて前記合成ハイバンド信号を調整することをさらに備える、請求項１０に記載の方法。
高調波的に拡張された信号に基づいて、音声信号のハイバンド部分に関連するハイバンド残差信号に基づいて、またはそれらの任意の組合せで第１の利得形状パラメータを決定するように構成された第１の利得形状推定器と、
合成ハイバンド信号に基づいておよび前記音声信号の前記ハイバンド部分に基づいて第２の利得形状パラメータを決定するように構成された第２の利得形状推定器と、
前記音声信号の符号化バージョンから前記音声信号を再生している間の利得調整を可能にするために、前記第１の利得形状パラメータと前記第２の利得形状パラメータとを前記音声信号の前記符号化バージョンに挿入するように構成された回路と
を備える装置。
前記第１の利得形状パラメータが線形予測残差ドメインにおいて決定される、請求項１２に記載の装置。
前記回路がマルチプレクサを含む、請求項１２に記載の装置。
前記高調波的に拡張された信号が、非線形高調波拡張により前記音声信号のローバンド部分から生成される、請求項１２に記載の装置。
修正済みの高調波的に拡張された信号を生成するために前記第１の利得形状パラメータに基づいて前記高調波的に拡張された信号を調整するように構成された第１の利得形状調整器をさらに備える、請求項１２に記載の装置。
前記第１の利得形状推定器が、
第１の複数のサブフレームを生成するために前記高調波的に拡張された信号のローバンドフレームをサンプリングし、
第２の複数のサブフレームを生成するために前記ハイバンド残差信号の対応するハイバンドフレームをサンプリングし、
前記第１の複数のサブフレームのエネルギーレベルに基づいて、前記第２の複数のサブフレームのエネルギーレベルに基づいて、またはそれらの任意の組合せで前記第１の利得形状パラメータを生成する
ようにさらに構成される、請求項１６に記載の装置。
前記第２の複数のサブフレームの対応するサブフレームのエネルギーレベルに近づくように前記第１の複数のサブフレームの特定のサブフレームを拡大縮小することによって前記高調波的に拡張された信号を調整するように構成された第１の利得形状調整器をさらに備える、請求項１７に記載の装置。
前記第１の複数のサブフレームは、前記ハイバンドフレームが有声フレームであるという決定に応じて第１の数のサブフレームを含み、前記第１の複数のサブフレームは、前記ハイバンドフレームが有声フレームではないという決定に応じて前記第１の数のサブフレームよりも少ない第２の数のサブフレームを含む、請求項１７に記載の装置。
前記第１の複数のサブフレームは、前記ハイバンドフレームが有声フレームであるという決定に応じて１６個のサブフレームを含む、請求項１７に記載の装置。
前記合成ハイバンド信号を生成するためにハイバンド励振信号に線形予測合成演算を行うように構成された線形予測合成器をさらに備える、請求項１６に記載の装置。
前記第２の利得形状パラメータに基づいて前記合成ハイバンド信号を調整するように構成された第２の利得形状調整器をさらに備える、請求項１２に記載の装置。
発話符号器からの符号化音声信号を発話復号器において受信することと、
ここにおいて、前記符号化音声信号が、
前記発話符号器において生成された第１の高調波的に拡張された信号に基づく、前記発話符号器において生成されたハイバンド残差信号に基づく、またはそれらの任意の組合せによる第１の利得形状パラメータと、
前記発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータと
を含む、
前記第１の利得形状パラメータに基づいておよび前記第２の利得形状パラメータに基づいて前記符号化音声信号から前記音声信号を再生することと
を備える方法。
前記発話復号器において前記音声信号を再生することが、
前記符号化音声信号のローバンド励振を非直線的に拡張することに基づいて第２の高調波的に拡張された信号を生成することと、
第２の修正済みの高調波的に拡張された信号を得るために前記第１の利得形状パラメータに基づいて前記第２の高調波的に拡張された信号を調整することと
を備える、請求項２３に記載の方法。
前記修正済みの第２の高調波的に拡張された信号に基づいて第２のハイバンド励振信号を生成することをさらに備える、請求項２４に記載の方法。
第２の合成ハイバンド信号を生成するために、前記第２のハイバンド励振信号に線形予測合成演算を行うことをさらに備える、請求項２５に記載の方法。
前記第２の利得形状パラメータに基づいて前記第２の合成ハイバンド信号を調整することをさらに備える、請求項２６に記載の方法。
発話符号器からの符号化音声信号を受信することと、ここにおいて、前記符号化音声信号が、
前記発話符号器において生成された第１の高調波的に拡張された信号に基づく、前記発話符号器において生成されたハイバンド残差信号に基づく、またはそれらの任意の組合せによる第１の利得形状パラメータと、
前記発話符号器において生成された第１の合成ハイバンド信号に基づくおよび音声信号のハイバンドに基づく第２の利得形状パラメータと
を備える、
前記第１の利得形状パラメータに基づいておよび前記第２の利得形状パラメータに基づいて前記符号化音声信号から前記音声信号を再生することと
を行うように構成された発話復号器。
前記符号化音声信号のローバンド励振に基づいて第２の高調波的に拡張された信号を生成するように構成された非線形励振発生器と、
第２の修正済みの高調波的に拡張された信号を得るために前記第１の利得形状パラメータに基づいて前記第２の高調波的に拡張された信号を調整するように構成された第１の利得形状調整器と
を備える、請求項２８に記載の発話復号器。
前記修正済みの第２の高調波的に拡張された信号に基づいて第２のハイバンド励振信号を生成するように構成されたハイバンド励振発生器をさらに備える、請求項２９に記載の発話復号器。