JP2010540990A

JP2010540990A - 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置

Info

Publication number: JP2010540990A
Application number: JP2010526119A
Authority: JP
Inventors: トミー・ヴェヤンクール; レドワン・サラミ
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2007-09-28
Filing date: 2008-09-25
Publication date: 2010-12-24
Also published as: WO2009039645A1; CA2697604A1; RU2010116748A; US8396707B2; US20100292993A1; EP2193348A1

Abstract

量子化ノイズを低減しつつ埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する方法および装置が示される。少なくとも１つの下位層において、前記入力音声信号を符号化して符号化パラメータが生成され、前記入力音声信号を符号化することは、合成音声信号を生成することを含む。誤差信号が入力音声信号と合成信号との間の差として計算され、スペクトルマスクが入力音声信号に関するスペクトルの関数として計算される。少なくとも１つの上位層において、誤差信号を符号化して符号化係数を生成し、符号化係数にスペクトルマスクを施し、マスクされた符号化係数を量子化する。スペクトルマスクを符号化係数に施すことで、符号化係数を量子化する際に生ずる量子化ノイズが低減される。

Description

本発明は、埋め込み符号化（階層符号化ともいう）構造を用いた音声信号（例えば話声信号とオーディオ信号）の符号化に関する。より具体的には、下位層（コア層ともいう）では線形予測符号化が用いられ、上位層では変換符号化が用いられる埋め込みコーデックにおいて、変換ベースの上位層の量子化ノイズを低減するために、入力音声信号に関するスペクトルに基づいてスペクトルマスクを計算し、それを変換係数に適用することであるが、これに限定されるものではない。

階層符号化とも呼ばれる埋め込み符号化においては、音声信号を第１層において符号化し、第１のビットストリームを作り出し、それから、元の音声信号と、第１層からの符号化された信号（合成音声信号）との間の誤差を符号化して第２ビットストリームを作り出す。これは、元の音声信号と、先行するすべての層からの合成音声信号との間の誤差を符号化することによって、より多くの層について繰り返すことができる。すべての層のビットストリームは、伝送に向けて連結される。階層符号化の利点は、ビットストリームの一部（上位層に対応する部分）が、（例えば混雑状態において）ネットワーク内でドロップすることがあっても、受信側で、受信された層の数によって符号化された音声信号を復号することができることである。階層符号化は、エンコーダがすべての層のビットストリームを生成し、ネットワークが、各リンク内の利用可能ビットレートに応じて、異なるビットレートを異なる終点に送るように決定するマルチキャストに用いるのに有用である。

埋め込み符号化または階層符号化は、広く用いられている現行のコーデックを、これらの相互接続性を維持しつつ、その質を高めるのに有用でもある。標準的なコーデック下位層（またはコア層）に層を追加することで、質を高めることができ、符号化されたオーディオ信号の帯域幅を広げることもできる。最近標準化されたＩＴＵ−Ｔ勧告Ｇ.７２９.１が、その一例であり、ここにおいては、下位層（またはコア層）が、８ｋｂｉｔ／ｓで作動する広く使用されている狭帯域ＩＴＵ−Ｔ勧告Ｇ.７２９と相互接続可能である。ＩＴＵ−Ｔ勧告Ｇ.７２９.１の上位層は、（１４ｋｂｉｔ／ｓから開始する広帯域で）最高３２ｋｂｉｔ／ｓのビットレートを作り出す。現在の標準化作業は、モード層を追加して超広帯域（１４ｋＨｚの帯域幅）とステレオ拡張とを達成することを目指している。もう１つの例は、最近ＩＴＵ−Ｔにより認定された、８ｋｂｉｔ、１２ｋｂｉｔ、１６ｋｂｉｔ、２４ｋｂｉｔ、３２ｋｂｉｔ／ｓの広帯域信号の符号化のためのＩＴＵ−Ｔ勧告Ｇ.７１８（文献１参照）である。このコーデックは、以前はＥＶ−ＶＢＲコーデックと呼ばれていたもので、ＩＴＵ−ＴにおいてＱ９／１６によって規格化された。以下の記載において、ＥＶ−ＶＢＲコーデックといった場合、これはＩＴＵ−Ｔ勧告Ｇ.７１８を指しているものとする。またＥＶ−ＶＢＲコーデックは、超広帯域信号およびステレオ信号をより高いビットレートで符号化するために拡張されることが想定されている。本明細書に開示する技術は、ＩＴＵ−Ｔ勧告Ｇ.７１８の一部を成すので、非限定的一例として、ＥＶ−ＶＢＲコーデックが、本発明の方法の非制限的実施例において用いられる。

埋め込みコーデックの要件は、通常、話声信号およびオーディオ信号のいずれにも良好な品質を備えている。スピーチ信号は、モデルベースの方式を用いて比較的低いビットレートで符号化できるので、下位層（または下から１番目と２番目の層）が、話声に特化した技術を用いて符号化され、そして、上位層のための誤差信号は、より一般的なオーディオ符号化技術を用いて符号化される。このような方式は、低いビットレートで良質な話声信号を提供し、ビットレートが上がるにつれ、オーディオ信号の質が上がる。ＥＶ−ＶＢＲコーデックにおいては（またＩＴＵ−Ｔ勧告Ｇ.７２９.１においても）、２つの下位層は、話声信号の符号化に適したＡＣＥＬＰ（代数符号励振線形予測）技術に基づいている。上位層では、オーディオ信号の符号化に適した変換ベースの符号化が、誤差信号（入力音声信号と、２つの下位層からの出力つまり合成音声信号との間の差）の符号化に用いられる。上位層では、周知のＭＤＣＴ変換が用いられ、そこでは、５０％のオーバーラップ率の窓を用いて誤差信号が周波数領域に変換される。ＭＤＣＴ係数は、例えば、ホフマン符号化を用いるスカラー量子化、ベクトル量子化、あるいはその他のいくつかの技術を用いて量子化することができる。ＥＶ−ＶＢＲコーデックにおいては、なかでも、代数ベクトル量子化（ＡＶＱ）が、ＭＤＣＴ係数を量子化するのに用いられる。

スペクトル量子化法では、最大限のビット数で周波数範囲を量子化しなければならない。通常、ビット数は、すべての周波数ビンを完全に量子化できるほど高くない。そこで、先ず最も高いエネルギーの（つまり重み付けスペクトル誤差がより高い範囲の）周波数ビンが量子化され、次に、可能であれば、残りの周波数ビンが量子化される。利用可能なビット数が十分でない場合、最も低いエネルギー周波数ビンは大まかに量子化されるに過ぎず、これらの最も低いエネルギー周波数ビンの量子化は、フレーム毎に異なることがある。このような大まかな量子化の結果、特に２ｋＨｚ〜４ｋＨｚの間で聴覚的量子化ノイズが生じる。したがって、スペクトルのすべての周波数ビンを量子化するにはビット数が足りないかまたは量子化段階が多すぎることにより生ずる量子化ノイズを低減するための技術が必要とされている。

本発明によれば、埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する方法が提供される。前記方法は、前記少なくとも１つの下位層において、（ａ）符号化パラメータを生成するために前記入力音声信号を符号化するステップと、前記入力音声信号と前記合成信号との間の差として誤差信号を計算するステップと、前記入力音声信号に関するスペクトルからスペクトルマスクを計算するステップとを含み、前記少なくとも１つの上位層において、（ａ）前記誤差信号を符号化して符号化係数を生成するステップと、（ｂ）前記符号化係数に前記スペクトルマスクを施すステップと、（ｃ）前記マスクされた符号化係数を量子化するステップとを含み、前記入力音声信号を符号化するステップは合成音声信号を生成するステップを含み、前記スペクトルマスクを前記符号化係数に施すステップは前記符号化係数の量子化に際して生ずる量子化ノイズを低減する。

また本発明は、埋め込みコーデックの少なくとも１つの上位層において誤差信号の符号化の間に生じる量子化ノイズを低減するための方法に関する。この方法において、前記誤差信号の符号化は符号化係数を生成して前記符号化係数を量子化するステップを含み、かつ、前記方法は、スペクトルマスクを提供するステップと、少なくとも１つの上位層において、前記符号化係数の量子化に先立って前記符号化係数に前記スペクトルマスクを施すステップを含む。

さらに本発明によれば、埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する装置が提供される。前記装置は、前記少なくとも１つの下位層において、（ａ）符号化パラメータを生成するために前記入力音声信号を符号化する入力音声信号符号化手段と、前記入力音声信号と前記合成信号との間の差として誤差信号を計算する手段と、前記入力音声信号に関するスペクトルからスペクトルマスクを計算する手段と、前記少なくとも１つの上位層において、（ａ）符号化係数を生成するために前記誤差信号を符号化する手段と、（ｂ）前記符号化係数に前記スペクトルマスクを施す手段と、（ｃ）前記マスクされた符号化係数を量子化する手段とを含み、前記音声信号符号化手段は合成音声信号を生成し、前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する。

本発明は更に、埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する装置に関する。前記装置は、前記少なくとも１つの下位層において、（ａ）符号化パラメータを生成するために前記入力音声信号を符号化する音声信号コーデックと、前記入力音声信号と前記合成信号との間の差として誤差信号を計算する減算器と、前記入力音声信号に関するスペクトルからスペクトルマスクを計算する計算器と、前記少なくとも１つの上位層において、（ａ）符号化係数を生成するための前記誤差信号の符号化器と、（ｂ）前記符号化係数に前記スペクトルマスクを施す前記符号化係数の修正器と、（ｃ）前記マスクされた符号化係数の量子化器とを含み、前記音声信号コーデックは合成音声信号を生成し、前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する。

さらにまた、本発明によれば、埋め込みコーデックの少なくとも１つの上位層において誤差信号の符号化の間に生じる量子化ノイズを低減するための装置が提供され、ここにおいて、前記誤差信号の符号化には、符号化係数を生成して前記符号化係数を量子化することが含まれ、かつ、前記装置は、スペクトルマスクと、少なくとも１つの上位層において、前記符号化係数の量子化に先立って前記符号化係数に前記スペクトルマスクを施すことにより前記符号化係数を修正する修正器とを含む。

上記およびその他の本発明の目的、利点および特長が、以下に説明する本発明の非制限的な、単なる例として示す実施例を、添付の図面を参照して読むことでより明らかになる。

本発明による、量子化ノイズを低減しつつ、埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する方法および装置の非制限的実施例の概略ブロック図である。本発明による、量子化ノイズを低減しつつ、埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を、ＥＶ−ＶＢＲコーデックとの関連において符号化する方法および装置の非制限的実施例の概略ブロック図であり、ここにおいて、１２.８ｋＨｚの内部サンプリング周波数が下位層の符号化に用いられる。スペクトル分析において５０％のオーバーラップ率で窓を掛ける一例を示すグラフである。低域通過フィルタ処理の前と後の対数パワースペクトルの一例を示すグラフである。パワースペクトルの最大値と最小値の選定を説明するグラフである。スペクトルマスクの計算を説明するグラフである。上位層における変換係数に対してスペクトルマスクを計算し適用するための技術の第１の実施例の概略ブロック図である。上位層における変換係数に対してスペクトルマスクを計算し適用するための技術の第２の実施例の概略ブロック図である。

以下の非制限的記載において、スペクトルのすべての周波数ビンを量子化するにはビット数が足りない、または量子化段階が多すぎることにより生ずる量子化ノイズを低減するための技術を開示する。より具体的には、量子化ノイズを低減するために、スペクトルマスクを計算し、それを量子化の前に変換係数に適用する。スペクトルマスクは、入力音声信号に関するスペクトルに関連して生成される。スペクトルマスクは、量子化プロセスに先だって変換係数に用いられる一組のスケーリングファクタ（倍率）に対応する。スペクトルマスクは、スケーリングファクタが、入力音声信号のスペクトルの最大値の領域では大きく（つまり１に近く）なり、入力音声信号のスペクトルの最小値の領域では小さく（０.１５まで低く）なるように計算されている。なぜなら、上位層に起因する量子化ノイズが、入力話声信号の場合、通常はフォルマント間に在るからである。適切なスペクトルマスクを作り出すためには、これらのフォルマントを特定する必要がある。入力音声信号のスペクトルの最小値に対応する領域（話声信号の場合はフォルマント間）の周波数ビンのエネルギーの値を低くすることで、利用可能なビット数が、全体を量子化するには足りない場合に生ずる量子化ノイズが低減される。

この処理により、下位層（コア層）が話声に特化した符号化技術を用いて量子化され且つ上位層は変換ベースの技術を用いて量子化される場合、話声信号の音質が向上する。

要するに、本明細書に開示する技術は、量子化器が、量子化に利用可能なビットを、フォルマント間ではなくフォルマントの領域に使うように仕向けるのである。この目標を達成するため、第１ステップでは、フォルマントの形状を特定するために、エンコーダで下位層に利用できる入力音声信号のスペクトル、または、例えば、やはりエンコーダで下位層に利用できるＬＰ（線形予測）パラメータから導き出されるマスクフィルタのスペクトル応答を用いる。第２ステップで、入力音声信号のスペクトル内の最大値と最小値（スペクトルの頂点と谷間に対応する）が特定される。第３ステップで、最大値と最小値の位置情報を用いてスペクトルマスクが生成される。第４ステップで、現在算定されたスペクトルマスク（これは新たに計算されたスペクトルマスクであっても、以前計算された１つまたは複数のスペクトルマスクを更新したものであってもよい）を変換係数（例えばＭＤＣＴ係数）、つまり量子化すべきスペクトル誤差に施して、フォルマント間のスペクトル誤差による量子化ノイズを低減する。

図１は、本発明による、量子化ノイズを低減しつつ埋め込みコーデックの少なくとも１つの下位層および少なくとも１つの上位層で入力音声信号を符号化するための方法および装置の非制限的実施例の概略ブロック図である。

図１において、入力音声信号１０１は２つ以上の層に符号化される。なお、音声信号１０１は、前処理された入力信号であってもよい。

下位の１つまたは複数の層、つまり少なくとも１つの下位層において、スペクトル、例えば対数領域における入力音声信号１０１のパワースペクトルが、対数パワースペクトル計算器１０２によって計算される。入力音声信号１０１は、また、符号化パラメータ１１３を生成するために話声に特化したコーデック１０３を介して符号化される。さらに話声に特化したコーデック１０３は、合成音声信号１０５も生成する。

次に減算器１０４が、入力音声信号１０１と下位層からの、より具体的には話声に特化したコーデック１０３からの合成音声信号１０５との間の差として誤差信号１０６を計算する。

上位の１つまたは複数の層、つまり少なくとも１つの上位層において、変換が用いられる。より具体的には、変換計算器１０７が誤差信号１０６を変換処理する。

次にスペクトルマスク計算器１０８が、対数パワースペクトル計算器１０２で計算された対数領域における入力音声信号１０１のパワースペクトルに基づいてスペクトルマスク１１０を計算する。

変換修正・量子化器１１１は、（ａ）スペクトルマスク１１０を、変換計算器１０７により計算された変換係数１０９に施し、それから（ｂ）マスクされた変換係数を量子化する。

最終的に、ビットストリーム１１２が、例えばマルチプレクサによって構築される。ビットストリーム１１２は、話声に特化したコーデック１０３からの符号化パラメータ１１３を含む下位層と、変換修正・量子化器１１１によりマスクされ量子化された変換係数１０９を含む上位層を有する。

図２は、本発明による、量子化ノイズを低減しつつ、埋め込みコーデックの少なくとも１つの下位層および少なくとも１つの上位層で、入力音声信号をＥＶ−ＶＢＲコーデックとの関連において符号化するための方法および装置の非制限的実施例の概略ブロック図であり、ここにおいて、１２.８ｋＨｚの内部サンプリング周波数が下位層の符号化に用いられる。

図２において、入力音声信号２０１は２つ以上の層に符号化される。下位の１つまたは複数の層、つまり少なくとも１つの下位層において、再標本化器２０２が、最初に通常１６ｋＨｚの第１入力サンプリング周波数でサンプリング（標本化）された入力音声信号２０１を、１２.８ｋＨｚの第２サンプリング周波数で再標本化する。再標本化された音声信号２０３のスペクトル、例えば対数領域におけるパワースペクトルが、対数パワースペクトル計算器２０４によって計算される。また再標本化された音声信号２０３は、話声に特化したＡＣＥＬＰコーデック２０５によって符号化されて符号化パラメータ２１９を生成する。

話声特化ＡＣＥＬＰコーデック２０５は、合成音声信号２０６も生成する。この下位層からの、つまり話声特化ＡＣＥＬＰコーデック２０５からの合成音声信号２０６は、再標本化器２０７によって、（通常１６ｋＨｚの）第１入力サンプリング周波数に戻るよう再標本化される。

次に減算器２０８が、元の音声信号２０１と、下位層からの再標本化され合成された音声信号、より詳しくは話声特化ＡＣＥＬＰコーデック２０５と再標本化器２０７から得られた音声信号の間の差に対応する誤差信号２０９を計算する。

上位層では、誤差信号２０９が先ず、（ＡＣＥＬＰで用いられる知覚的重み付けフィルタと同様の）知覚的重み付けフィルタ２１１で重み付けされ、それから、計算器２１２でＭＤＣＴ（修正離散コサイン変換）を用いて変換されて、ＭＤＣＴ係数を生成する。

次にスペクトルマスク計算器２１３が、対数パワースペクトル計算機２０４によって計算された対数領域における再標本化された音声信号２０３のパワースペクトル２１４に基づいてスペクトルマスク２１６を計算する。

ＭＤＣＴ修正・量子化器２１７は、スペクトルマスク計算器２１３によって計算されたスペクトルマスク２１６をＭＤＣＴ計算器２１２から得られたＭＤＣＴ係数２１５に施し、マスクされたＭＤＣＴ係数２１５を量子化する。

最終的に、ビットストリーム２１８が、例えばマルチプレクサによって、構築される。ビットストリーム２１８は、話声特化ＡＣＥＬＰコーデック２０５からの符号化パラメータ２１９を含む下位層と、ＭＤＣＴ修正・量子化器２１７によりマスクされ量子化されたＭＤＣＴ係数２１５を含む上位層を有する。

以下に、量子化前に周波数ビンに施されるスペクトルマスクの計算法の説明のために、２つの非制限的実施例を開示する。本発明の範囲を逸脱することなく他の適当なスペクトルマスク計算法を用いることは、本発明の範囲に含まれる。以下に説明する２つの実施例は、ＥＶ−ＶＢＲコーデックを基本としている。ＡＣＥＬＰによる２つの下位層において、ＥＶ−ＶＢＲコーデックが、１２.８ｋＨｚの内部サンプリング周波数で作動する。またこのＥＶ−ＶＢＲコーデックは、１２.８ｋＨｚのサンプリング周波数での２５６サンプル（標本値）に相当する２０ｍｓのフレームを用いる。

§元入力音声信号のスペクトルに基づくマスクの計算
図７は、量子化ノイズを低減しつつ埋め込みコーデックの少なくとも１つの下位層および少なくとも１つの上位層で入力音声信号を符号化するための、上位層における変換係数に対するスペクトルマスクの計算と適用を含む方法および装置の非制限的実施例の概略ブロック図である。図７のブロック図において、図２の構成要素に対応する構成要素には同じ参照符号を用いた。

図７に示す実施例では、スペクトルマスクは、スペクトル、例えば入力音声信号７０１のパワースペクトルに基づいて計算される。ＥＶ−ＶＢＲコーデックでは、スペクトル分析器７０２が、プリプロセッサ７０３によってノイズ低減のために前処理（文献１参照）された後の入力音声信号７０１についてスペクトル解析を行う。スペクトル解析結果が、スペクトルマスクの計算に使われる。

スペクトル分析器７０２では、入力音声信号７０１のパワースペクトルを計算するために、離散的フーリエ変換を用いて、スペクトル解析とスペクトルエネルギー評価が行われる。周波数分析は、図３に示すような５０％のオーバーラップ率で、２５６点での高速フーリエ変換を用いて、フレーム毎に２回ずつ行われる。ハン窓関数（Hanning window）の平方根（サイン窓関数に等しい）を用いて、周波数分析のために入力音声信号が重み付けされる。この窓関数は、オーバーラップ−アド方式に特に適している。平方根ハン窓関数は、次の関係式により表される。

ここで、Ｌ_ＦＦＴ＝２５６は、ＦＦＴ（高速フーリエ変換）分析のサイズである。なお、窓関数は対称であるため、その半分だけ（０〜Ｌ_ＦＦＴ／２）が計算され記憶される。

第１標本値に対応する、指数０の入力音声信号をｓ’（ｎ）で表すものとする。両スペクトル解析のために窓関数を掛けて信号を切り出すには、次の関係式が用いられる。

ここで、ｓ’（ｎ）は現フレームの第１標本化値である。

両窓で切り出された信号に高速フーリエ変換（ＦＦＴ）が以下のようにして行われて、フレーム毎に２組のスペクトルパラメータが得られる。

ここで、Ｎはフレーム毎の標本化値の数である。

ＦＦＴの出力によって、Ｘ_Ｒ（ｋ）、ｋ＝０〜１２８、Ｘ_I（ｋ）、ｋ＝１〜１２７で表されるパワースペクトルの実部と虚部が得られる。なお、Ｘ_Ｒ（０）は、０Ｈｚ（ＤＣ）でのスペクトルに相当し、Ｘ_Ｒ（１２８）は６４００Ｈｚ（ＥＶ−ＶＢＲでは１２.８ｋＨｚの内部周波数を用いる）のパワースペクトルに相当する。これらの点でのパワースペクトルは、実数値化されるに過ぎず、通常はそれ以降の分析で無視される。

ＦＦＴ分析後、その結果得られたスペクトルを、対数領域における臨界帯域当たりのエネルギーを計算する計算器７０３が、次のような上限値を有する周期（文献２参照）を用いて臨界周波数帯域に分割する（すなわち０〜６４００Ｈｚの周波数範囲において２０帯域に分割する）。臨界帯域＝｛１００.０、２００.０、３００.０、４００.０、５１０.０、６３０.０、７７０.０、９２０.０、１０８０.０、１２７０.０、１４８０.０、１７２０.０、２０００.０、２３２０.０、２７００.０、３１５０.０、３７００.０、４４００.０、５３００.０、６３５０.０｝Ｈｚ

２５６点でのＦＦＴにより、５０Ｈｚ（６４００／１２８）の周波数分解能が得られる。このようにして、スペクトルの直流成分を無視した後の臨界帯域当たりの周波数ビンの数は、それぞれ、Ｍ_ＣＢ＝｛２、２、２、２、２、３、３、３、４、４、５、６、６、８、９、１１、１４、１８、２１｝となる。

計算器７０３は、臨界帯域の平均エネルギーを次の関係式を用いて計算する。

ここで、Ｘ_Ｒ（ｋ）およびＸ_Ｉ（ｋ）は、それぞれ、ｋ番目の周波数ビンの実部と虚部であり、ｊ_ｉは、ｉ番目の臨界帯域における１番目のビンの指数であり、次の式で与えられる：ｊ_ｉ＝｛１、３、５、７、９、１１、１３、１６、１９、２２、２６、３０、３５、４１、４７、５５、６４、７５、８９、１０７｝。

計算器７０４は、対数領域における周波数ビンのエネルギーＥ_ＢＩＮ（ｋ）を、次の関係式を用いて計算する。

スペクトルマスクを計算するために、スペクトル中のフォルマントの位置を特定する必要がある。この位置特定のために、先ず、対数領域における入力音声信号７０１のパワースペクトルの最大値と最小値を特定する。

計算器７０４は、対数領域における各周波数ビンのエネルギーを次の関係式を用いて検出する。

ここで、Ｅ_ＢＩＮ ^（０）（ｋ）およびＥ_ＢＩＮ ^（１）（ｋ）は、両スペクトル解析により得られる周波数当たりのエネルギーである。同様に、計算器７０３は、スペクトル解析により得られ対数領域に変換された各臨界帯域のエネルギーの平均を取る。

フォルマントを簡単に見つけ出せるように、スペクトルマスク計算器２１３は低域通過フィルタ７０５を備えており、次の関係式を用いて対数領域における周波数ビンのエネルギーの低域通過フィルタ処理を行う。

図４は、低域通過フィルタ処理前後の対数パワースペクトルの一例を示すグラフである。

スペクトルマスク計算器２１３は、対数領域における臨界帯域間の最大変動量を計算する最大値最小値検出部７０６も備えている。この臨界帯域間の最大変動量の変化が、後に、最大値または最小値が存在するかどうかを検出するための閾値の一部として用いられる。

ここで、ｍａｘ(lg_band(n)_n=0 ⁿ⁼²⁰)は、ある臨界周波数帯域における最大平均エネルギーであり、ｍｉｎ(lg_band(n)_n=0 ⁿ⁼²⁰)は、ある臨界周波数帯域における最小平均エネルギーである。

１.５ｋＨｚから開始して、最大値最小値検出部７０６で用いられるアルゴリズムによって、入力音声信号７０１のパワースペクトルにおける、つまり低域通過フィルタ７０５からの周波数ビンの低域通過フィルタ処理されたエネルギーにおける最大値と最小値の異なる複数の位置を検出する試みがなされる。最大値（または最小値）の位置は、最大値最小値検出部７０６によって、ビンが２つ前のビンと２つ後のビンよりも大きいときに検出される。この前提条件は、局所的変動が最大値（または最小値）として検出されるのを防ぐのに役立つ。

最大値と最小値を検出したら、最大値最小値検出部７０６で使用されているアルゴリズムによって、この最大値と最小値の間の差が、臨界帯域間で観察された上記の最大変動量の１５％より大きいかどうか評価する。差が１５％より大きい場合、２つの異なるスペクトルマスクが、図５に示すように最大値位置と最小値位置に施される。

スペクトルマスク計算器２１３は、スペクトルマスクサブ計算器７０７を備えており、これによって、最終的に、最大値に対応するスペクトル領域のスペクトルマスクを、最大値の位置で１.０となり、そこを中心として次の値となるように決定する。

またスペクトルマスクサブ計算器７０７は、最小値に対応するスペクトル領域のスペクトルマスクを、最小値の位置で０.１５となり、そこを中心として次の値となるように決定する。

他の周波数ビンのスペクトルマスクは変更されず、先行するフレームと同じままとなる。スペクトルマスク全体を変化させるのではないことで、量子化された周波数ビンを安定させることができる。エネルギーが低い周波数ビンのスペクトルマスクは、それらのスペクトル領域に新たな最大値が現れるまで低いままである。

上記の演算後、ＭＤＣＴ修正器２１７_１によってスペクトルマスクがＭＤＣＴ係数に施され、最大値付近のスペクトル誤差はほぼ減衰せず、最小値付近のスペクトル誤差は抑え込まれるようにされる。

ＦＦＴの分解能は５０Ｈｚしかないので、ＭＤＣＴ修正器２１７_１は、１つのＦＦＴビン用のスペクトルマスクを、次のようにして２つのＭＤＣＴ係数に適用する。

より多くのビットを利用できる場合、ＭＤＣＴ_{ｃｏｅｆｆ}入力から量子化された周波数ビンを取り除き、ＭＤＣＴ量子化器２１７_２で新たな信号を量子化することができる。あるいは単に、量子化されていない周波数ビンを量子化することもできる。この量子化の第２段階に利用できるビットレートによっては、先行するスペクトルマスクに基づく第２のスペクトルマスクを用いることが必要となる可能性がある。第２の重み付け段階は、次のように定義される。

多くの誤った周波数ビンを抑え込むことで、利用可能なビットを、重み付けされた入力音声信号中のフォルマントが存在する所に重点的に用いることができる。主観的試聴において、この技術により、平均的評価点（ＭＯＳ：mean opinion score）が０.１５ポイント上昇した。これは、著しい改善である。

§合成フィルタに関するインパルス応答に基づくスペクトルマスクの計算
図８は、本発明による、量子化ノイズを低減しつつ埋め込みコーデックの少なくとも１つの下位層および少なくとも１つの上位層で、入力音声信号を符号化するための、上位層における変換係数に対するスペクトルマスクの計算と適用のための技術を含む方法および装置の別の実施例の概略ブロック図である。図８のブロック図において、図２および図７の構成要素に対応する構成要素には同じ参照符号を用いた。また図８のブロック図では、知覚的重み付けフィルタ８０６が、ＬＰＣ（線形予測符号化）分析・量子化・補間器８０１においてプリプロセッサ７０３からの前処理された音声信号に応答して算定されるＬＰＣ係数に応じて、この前処理された音声信号をフィルタ処理して、ＡＣＥＬＰコーデック２０５に、前処理され知覚的重み付けされた音声信号を、ＡＣＥＬＰ符号化のために供給する（文献１参照）。

図７の実施例に示すように、スペクトルマスクは、スペクトルマスク計算器２１３において、フォルマントの領域で値が約１となり且つフォルマント間の領域で値が約０.１５となるように算定される。しかしＥＶ−ＶＢＲコーデックにおいては、ＬＰＣ分析量子化補間器８０１が、既にＡＣＥＬＰの下位層（つまりコア層）で用いられるＬＰ（線形予測）合成フィルタを算定しており、その合成フィルタは、既にフォルマント構造に関する情報を含んでいる。なぜなら、その合成フィルタは、入力音声信号７０１のスペクトル包絡線をモデルとしているからである。

図８の実施例において、スペクトルマスクはマスク計算器２１３で次のようにして計算される。
― 計算器８０２が、図８のＬＰＣ分析・量子化・補間器８０１で算定されたＬＰパラメータにより導き出されたマスクフィルタのインパルス応答を導き出す。ＣＥＬＰコーデックで用いられる重み付けされた合成フィルタと同様のマスクフィルタを用いることができる。
― 次にＦＦＴ計算器８０３が、計算器８０２により得られたマスクフィルタのインパルス応答のＦＦＴを計算することでマスクフィルタのパワースペクトルを算定する。
― それから計算器８０４が、図７を参照して上述した手順を用いて対数領域における周波数ビンのエネルギーを算定する。
― サブ計算器８０５で、ＦＦＴ計算器８０３からのマスクフィルタのパワースペクトルと計算器８０４からの対数領域における周波数ビンの算定されたエネルギーとに応じて、マスクフィルタのパワースペクトルの最大値と最小値を探し出すことによる上記と同様の方法（図６）で、スペクトルマスクを計算することができる。

より簡単な方法として、マスクフィルタのパワースペクトルを縮尺したものとしてスペクトルマスクを計算する方法がある。これは、対数領域におけるマスクフィルタのパワースペクトルの最大値を見つけ出し、その最大値が１となるように縮尺することで行える。これにより、対数領域におけるマスクフィルタの縮尺されたパワースペクトルによってスペクトルマスクが得られる。入力音声信号７０１に基づいて決定されるＬＰフィルタパラメータからマスクフィルタが導き出されるので、マスクフィルタのパワースペクトルは入力音声信号７０１のパワースペクトルを表してもいる。

スペクトルマスクが導き出されるマスクフィルタを設計するために、先ず、このフィルタのスペクトルが大きな傾きを呈していないことが確かめられる。その理由は、すべてのフォルマントを１の近似値で重み付けするためである。ＥＶ−ＶＢＲコーデックでは、ＬＰフィルタが予め強調された信号に基づいて計算される。これにより、フィルタはもはや目立ったスペクトルの傾きを有することはない。一例において、マスクフィルタは合成フィルタを重み付けしたものであり、次の関係式により表される。

ここで、γは、１より小さい値を有する因数である。別の例において、マスクフィルタは次の関係式による表される。

上記のように、フィルタＨ（ｚ）のパワースペクトルは、マスクフィルタのインパルス応答のＦＦＴを計算することによって見出すことができる。

ＥＶ−ＶＢＲコーデックにおけるＬＰフィルタは、２０ｍｓのフレーム毎に４回（補間を用いて）計算される。この場合、インパする応答を、計算器８０２で、フレームの中心に対応するＬＰフィルタに基づいて計算することができる。これに代わる実施形態として、５ｍｓのサブフレームに対してインパルス応答を計算し、それからすべてのインパルス応答の平均を取ってもよい。

上記の２つの選択可能な実施形態は、話声コンテンツにおいて、より効果的である。これらの実施形態を音楽コンテンツに用いることもできるが、フレームを話声フレームと音楽フレームとに分類するコーデックで用いられるメカニズムの場合には、これら２つの選択肢は、音楽フレームのときには不作動としてもよい。

以上本発明を、その非制限的例示的実施形態を用いて説明してきたが、これらの実施形態は、添付の特許請求項の範囲内で本発明の主旨および性質から逸脱することなく適宜変更可能である。

§参考文献
１． ITU-T Recommendation G.718、Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s、２００８年９月認定
２．Ｊ.Ｄ.Johnston著、Transform coding of audio signal using perceptual noise criteria、IEEE J.Select.Areas Commun、第６号、３１４〜３２３頁、１９８８年２月

１０１入力音声信号
１０２対数パワースペクトル計算器
１０３話声に特化したコーデック
１０４減算器
１０５合成音声信号
１０６誤差信号
１０７変換計算器
１０８スペクトルマスク計算器
１０９変換係数
１１１変換修正・量子化器
１１２ビットストリーム
１１３符号化パラメータ

Claims

埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する方法であって、
前記方法は、
前記少なくとも１つの下位層において、（ａ）符号化パラメータを生成するために前記入力音声信号を符号化するステップと、
前記入力音声信号と前記合成信号との間の差として誤差信号を計算するステップと、
前記入力音声信号に関するスペクトルからスペクトルマスクを計算するステップと、
前記少なくとも１つの上位層において、（ａ）符号化係数を生成するために前記誤差信号を符号化するステップと、（ｂ）前記符号化係数に前記スペクトルマスクを施すステップと、（ｃ）前記マスクされた符号化係数を量子化するステップと
を含み、
前記入力音声信号を符号化するステップは合成音声信号を生成するステップを含み、
前記符号化係数に前記スペクトルマスクを施すステップは、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する、入力音声信号符号化方法。
前記スペクトルは、前記入力音声信号との関連において計算され、かつ、最大値と最小値を含み、
前記符号化係数に前記スペクトルマスクを施すステップは、前記パワースペクトル最小値に対応するスペクトル領域における符号化された誤差信号のエネルギーを低下させて前記量子化ノイズを低減する、請求項１に記載の入力音声信号符号化方法。
前記計算されるスペクトルはパワースペクトルである、請求項２に記載の入力音声信号符号化方法。
前記少なくとも１つの下位層において、
前記入力音声信号を符号化するステップは、線形予測符号化パラメータを生成するために前記入力音声信号を線形予測符号化するステップを含む、請求項１に記載の入力音声信号符号化方法。
前記少なくとも１つの上位層において、
前記誤差信号を号化するステップは、変換係数を生成するために前記誤差信号を変換符号化するステップを含む、請求項１に記載の入力音声信号符号化方法。
前記少なくとも１つの上位層において、
前記誤差信号を変換符号化するステップは、修正離散コサイン変換係数を生成するために前記誤差信号に修正離散コサイン変換を施すステップを含む、請求項５に記載の入力音声信号符号化方法。
前記入力音声信号の符号化の間に生成された前記符号化パラメータを含む少なくとも１つの下位層と、前記量子化されマスクされた符号化係数を含む少なくとも１つの上位層とを有するビットストリームを構成するステップを含む、請求項１に記載の入力音声信号符号化方法。
前記入力音声信号は、先ず第１サンプリング周波数で標本化され、かつ、
前記方法は、更に、少なくとも１つの下位層において、
前記入力音声信号を符号化するステップに先だって、前記入力音声信号を第２サンプリング周波数で再標本化するステップと、
前記入力音声信号を符号化するステップ後に、前記誤差信号を計算するステップに先立って、前記合成音声信号を第１サンプリング周波数に戻すよう再標本化するステップを含む、請求項１に記載の入力音声信号符号化方法。
前記スペクトルは、対数領域で計算される、請求項２に記載の入力音声信号符号化方法。
前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項１に記載の入力音声信号符号化方法。
前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含み、
前記スケーリングファクタは、前記スペクトル最大値に対応するスペクトル領域でより大きく、前記スペクトル最小値に対応するスペクトル領域でより小さい、請求項２に記載の入力音声信号符号化方法。
前記スペクトルの計算は、前記スペクトルを生成するために前記入力音声信号に離散的フーリエ変換を施すステップを含む、請求項２に記載の入力音声信号符号化方法。
前記入力音声信号に離散的フーリエ変換を施すステップ後に、前記スペクトルを、各々複数の周波数ビンを含む臨界周波数帯域に分割するステップを含む、請求項１２に記載の入力音声信号符号化方法。
前記周波数ビンのエネルギーを特定するステップを含む、請求項１３に記載の入力音声信号符号化方法。
前記特定された周波数ビンのエネルギーを低域通過フィルタ処理するステップを更に含む、請求項１４に記載の入力音声信号符号化方法。
前記臨界周波数帯域の平均エネルギーを計算するステップと、
前記臨界周波数帯域の前記平均エネルギーから臨界帯域間の最大変動量を計算するステップと、
前記周波数ビンの前記低域通過フィルタ処理されたエネルギーおよび前記最大変動量に応じて前記スペクトルの最大値および最小値を見つけ出すステップと
を含む、請求項１５に記載の入力音声信号符号化方法。
前記スペクトルマスクを計算するステップは、前記スペクトル最大値に対応するスペクトル領域用の比較的大きなスケーリングファクタと、前記スペクトル最小値に対応するスペクトル領域用の比較的小さなスケーリングファクタを決定するステップを含む、請求項１６に記載の入力音声信号符号化方法。
前記スペクトルマスクを計算するステップは、
マスクフィルタを定義するステップと、
前記マスクフィルタのスペクトルを計算するステップと、
前記マスクフィルタの前記スペクトルの周波数ビンのエネルギーを計算するステップと、
前記マスクフィルタの前記スペクトルと前記周波数ビンの前記エネルギーとに応じて前記スペクトルマスクを計算するステップとを含む、請求項１に記載の入力音声信号符号化方法。
埋め込みコーデックの少なくとも１つの上位層において、誤差信号を符号化するステップ中に生じる量子化ノイズを低減するための方法であって、
前記誤差信号を符号化するステップは、符号化係数を生成するステップと、前記符号化係数を量子化するステップとを含み、かつ、
前記方法は、
スペクトルマスクを提供するステップと、
少なくとも１つの上位層において、前記符号化係数を量子化するステップに先立って、前記符号化係数に前記スペクトルマスクを施すステップと
を含む、量子化ノイズ低減方法。
前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項１９に記載の量子化ノイズ低減方法。
前記スケーリングファクタは、前記埋め込みコーデックの前記入力音声信号に関するスペクトルの最大値に対応するスペクトル領域でより大きく、前記埋め込みコーデックの前記入力音声信号に関する前記スペクトルの最小値に対応するスペクトル領域でより小さい、請求項２０に記載の量子化ノイズ低減方法。
埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する装置であって、
前記装置は、
前記少なくとも１つの下位層において、（ａ）符号化パラメータを生成するために前記入力音声信号を符号化する手段と、
前記入力音声信号と前記合成信号との間の差として誤差信号を計算する手段と、
前記入力音声信号に関するスペクトルからスペクトルマスクを計算する手段と、
前記少なくとも１つの上位層において、（ａ）符号化係数を生成するために前記誤差信号を符号化する手段と、（ｂ）前記符号化係数に前記スペクトルマスクを施す手段と、（ｃ）前記マスクされた符号化係数を量子化する手段と
を含み、
前記音声信号符号化手段は合成音声信号を生成し、
前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する、入力音声信号符号化装置。
埋め込みコーデックの少なくとも１つの下位層と少なくとも１つの上位層で入力音声信号を符号化する装置であって、
前記装置は、
前記少なくとも１つの下位層において、（ａ）符号化パラメータを生成するために前記入力音声信号を符号化する音声信号コーデックと、
前記入力音声信号と前記合成信号との間の差として誤差信号を計算する減算器と、
前記入力音声信号に関するスペクトルからスペクトルマスクを計算する計算器と、
前記少なくとも１つの上位層において、（ａ）符号化係数を生成するための前記誤差信号の符号化器と、（ｂ）前記符号化係数に前記スペクトルマスクを施す前記符号化係数の修正器と、（ｃ）前記マスクされた符号化係数の量子化器とを含み、
前記音声信号コーデックは合成音声信号を生成し、
前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する、入力音声信号符号化装置。
前記入力音声信号との関連において前記スペクトルを計算する計算器を含み、
前記計算されたスペクトルは最大値と最小値を含み、
前記スペクトルマスクを符号化係数に施すことにより、前記パワースペクトル最小値に対応するスペクトル領域における符号化された誤差信号のエネルギーを低下させて前記量子化ノイズを低減する、請求項２３に記載の入力音声信号符号化装置。
前記計算されたスペクトルはパワースペクトルである、請求項２４に記載の入力音声信号符号化装置。
前記少なくとも１つの下位層において、前記入力音声信号の符号化のための前記音声信号コーデックは、線形予測符号化パラメータを生成するための線形予測音声信号コーデックを含む、請求項２３に記載の入力音声信号符号化装置。
前記少なくとも１つの上位層において、前記誤差信号の符号化器は、変換係数を生成する変換計算器を含む、請求項２３に記載の入力音声信号符号化装置。
前記少なくとも１つの上位層において、前記変換計算器は、修正離散コサイン変換係数を生成するために前記誤差信号に修正離散コサイン変換を施す、請求項２７に記載の入力音声信号符号化装置。
前記入力音声信号の符号化の間に生成された前記符号化パラメータを含む少なくとも１つの下位層と、前記量子化されマスクされた符号化係数を含む少なくとも１つの上位層とを有するビットストリームを構成するためのマルチプレクサを含む、請求項２３に記載の入力音声信号符号化装置。
前記入力音声信号は先ず第１サンプリング周波数で標本化され、かつ、
前記装置は、少なくとも１つの下位層において、
前記入力音声信号を符号化に先だって、前記入力音声信号を第２サンプリング周波数で再標本化する再標本化器と、
前記入力音声信号の符号化後に、前記誤差信号の計算に先立って、前記合成音声信号を再標本化して第１サンプリング周波数に戻す再標本化器とを含む、請求項２３に記載の入力音声信号符号化装置。
前記スペクトル計算器は、前記スペクトルを対数領域で計算する、請求項２４に記載の入力音声信号符号化装置。
前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項２３に記載の入力音声信号符号化装置。
前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含み、
前記スケーリングファクタは、前記スペクトル最大値に対応するスペクトル領域でより大きく、前記スペクトル最小値に対応するスペクトル領域でより小さい、請求項２４に記載の入力音声信号符号化装置。
前記スペクトル計算器は、前記スペクトルを生成するために前記入力音声信号に離散的フーリエ変換を施す、請求項２４に記載の入力音声信号符号化装置。
前記スペクトル計算器は、前記入力音声信号に離散的フーリエ変換を施した後に、前記スペクトルを、各々複数の周波数ビンを含む臨界周波数帯域に分割することを含む、請求項３４に記載の入力音声信号符号化装置。
前記周波数ビンのエネルギーの計算器を含む、請求項３５に記載の入力音声信号符号化装置。
前記スペクトルマスク計算器は、前記周波数ビンのエネルギーを低域通過フィルタ処理するための低域通過フィルタを含む、請求項３６に記載の入力音声信号符号化装置。
前記臨界周波数帯域の平均エネルギーの計算器と、前記臨界周波数帯域の前記平均エネルギーから臨界帯域間の最大変動量を計算する計算器とを含み、
前記スペクトルマスク計算器は、前記周波数ビンの前記低域通過フィルタ処理されたエネルギーおよび前記最大変動量に応じて前記スペクトルの最大値および最小値を見つけ出す手段を含む、請求項３７に記載の入力音声信号符号化装置。
前記スペクトルマスク計算器は、前記スペクトル最大値に対応するスペクトル領域用の比較的大きなスケーリングファクタと、前記スペクトル最小値に対応するスペクトル領域用の比較的小さなスケーリングファクタとを計算するサブ計算器を含む、請求項３８に記載の入力音声信号符号化装置。
前記スペクトルマスク計算器は、
予め定義されたマスクフィルタのスペクトルの計算器と、
前記マスクフィルタの前記スペクトルの周波数ビンのエネルギーの計算器と、
前記マスクフィルタの前記スペクトルと前記周波数ビンの前記エネルギーとに応じて前記スペクトルマスクを計算するサブ計算器とを含む、請求項３５に記載の入力音声信号符号化装置。
埋め込みコーデックの少なくとも１つの上位層において誤差信号の符号化の間に生じる量子化ノイズを低減するための装置であって、
前記誤差信号の符号化には、符号化係数を生成して前記符号化係数を量子化することが含まれ、前記装置は、
スペクトルマスクと、
少なくとも１つの上位層において、前記符号化係数の量子化に先立って前記符号化係数に前記スペクトルマスクを施すことにより前記符号化係数を修正する修正器とを含む、量子化ノイズ低減装置。
前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項４１に記載の量子化ノイズ低減装置。
前記スケーリングファクタは、前記埋め込みコーデックの入力音声信号に関するスペクトルの最大値に対応するスペクトル領域でより大きく、前記埋め込みコーデックの前記入力音声信号に関する前記スペクトルの最小値に対応するスペクトル領域でより小さい、請求項４２に記載の量子化ノイズ低減装置。
スペクトルマスクを計算するステップは、少なくとも１つの先に計算されたスペクトルマスクを更新したものを計算するステップを含む、請求項１に記載の入力音声信号符号化方法。
前記スペクトルマスクの前記計算器は、少なくとも１つの先に計算されたスペクトルマスクを更新したものを計算する、請求項２３に記載の入力音声信号符号化装置。