JP2017501430A

JP2017501430A - オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法

Info

Publication number: JP2017501430A
Application number: JP2016526934A
Authority: JP
Inventors: シュミット・コンスタンチン; フォックス・ギヨーム; ノイジンゲア・マッテヤ; ディーツ・マーティン
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-11-13
Filing date: 2014-11-06
Publication date: 2017-01-12
Anticipated expiration: 2034-11-06
Also published as: US20170309284A1; EP3069338B1; EP4475123A3; US20180047403A1; ES2991546T3; US20160247516A1; TWI571867B; PL3483881T3; CA2928882A1; ZA201603823B; KR20160079110A; TW201523594A; EP3483881B1; CN111179953B; EP4475123A2; PT3069338T; RU2016122865A; CA2928882C; CN105723455A; MX2016006208A

Abstract

オーディオ信号を符号化するエンコーダは、オーディオ信号を分析し、オーディオ信号から分析予測係数を判定するように構成されたアナライザを備える。エンコーダは、変換後の予測係数を分析予測係数から導出するように構成されたコンバータと、多数の補正値を記憶するように構成されたメモリと、計算器とをさらに備える。計算器は、スペクトル重み付け係数を取得するために、変換後の予測係数を処理するように構成されたプロセッサを備える。計算器は、補正後の重み付け係数を取得するために、スペクトル重み付け係数と多数の補正値とを結合するように構成された結合器をさらに備える。計算器の量子化器は、変換後の予測係数の量子化表現を取得するために、補正後の重み付け係数を使用して変換後の予測係数を量子化するように構成される。エンコーダは、変換後の予測係数の量子化表現と、オーディオ信号とに基づいて出力信号を形成するように構成されたビットストリーム形成器を備える。

Description

本発明は、オーディオ信号を符号化するエンコーダと、オーディオ伝送システムと、補正値を判定する方法と、コンピュータプログラムとに関する。本発明は、イミタンススペクトル周波数／線スペクトル周波数の重み付けにさらに関する。

今日の音声コーデックおよびオーディオコーデックでは、線形予測によって音声信号またはオーディオ信号のスペクトル包絡線を抽出し、線形予測係数（ＬＰＣ）の変換をさらに量子化かつ符号化することが最先端である。このような変換は、例えば線スペクトル周波数（ＬＳＦ）またはイミタンススペクトル周波数（ＩＳＦ）である。

ＬＰＣ量子化のためにベクトル量子化（ＶＱ）は、高性能化により、通常はスカラ量子化よりも好ましい。しかし、最適なＬＰＣ符号化が、ＬＳＦまたはＩＳＦのベクトルの周波数ごとに異なるスカラ感度を示すことが観察された。直接の結果として、古典的なユークリッド距離を量子化ステップにおける測定基準として使用することは、準最適システムにつながるであろう。これは、ＬＰＣ量子化の性能が、通常、ユークリッド距離と直線比例関係を有さない対数スペクトル距離（ＬＳＤ）または加重対数スペクトル距離（ＷＬＳＤ）などの距離によって測定されるという事実によって説明することができる。

ＬＳＤは、元のＬＰＣ係数のスペクトル包絡線のユークリッド距離の対数、およびそれらの量子化されたバージョンとして定義される。ＷＬＳＤは、低周波が高周波よりも知覚的に関連性があることを考慮する重み付けされたバージョンである。

ＬＳＤおよびＷＬＳＤのいずれも、ＬＰＣ量子化方式内で計算するにはあまりにも複雑である。したがって、ほとんどのＬＰＣ符号化方式は、単純ユークリッド距離またはその重み付けされたバージョン（ＷＥＤ）のいずれかを使用しており、

（式中、ｌｓｆ_ｉは、量子化される予定のパラメータであり、ｑｌｓｆ_ｉは、量子化パラメータである。ｗは、特定の係数に歪みを与え、その他の係数にほとんど歪みを与えない重み付け量である。）として定義される。

Ｌａｒｏｉａら［１］は、フォルマント領域に近いＬＳＦに重点を置く重み付け量を計算するための、逆調和平均として知られる発見的な手法を発表した。２つのＬＳＦパラメータが互いに近接している場合、信号スペクトルは、その周波数付近のピークを含んでいることが予想される。したがって、その近隣のうちの１つに近接しているＬＳＦは、高スカラ感度を有し、より高い重み付け量を与えられるはずである。

最初および最後の重み付け係数は、この疑似ＬＳＦによって算出される。ｌｆｓ_０＝０およびｌｓｆ_ｐ＋１＝πであり、式中、ｐはＬＰモデルの次数である。次数は、通常、８ｋＨｚでサンプリングされる音声信号について１０であり、１６ｋＨｚでサンプリングされる音声信号について１６である。

ＧａｒｄｎｅｒおよびＲａｏ［２］は、（例えば３０またはそれ以上のビットのＶＱを用いた場合に）ＬＳＦについての個別のスカラ感度を高レートの近似値から導出した。このような場合、導出された重み付け量は最適であり、ＬＳＤを最小化する。スカラ重み付け量は、いわゆる感度行列の対角線を形成し、次の式

（式中、Ｒ_Ａは、ＬＰＣ分析の元の予測係数から導出された合成フィルタ１／Ａ（ｚ）のインパルス応答の自己相関行列である。Ｊ_ω（ω）は、ＬＳＦをＬＰＣ係数に変換するヤコビ行列である。）によって得られる。

この解決策の主な欠点は、感度行列を計算するための計算の複雑性である。
ＩＴＵ勧告Ｇ．７１８［３］は、いくつかの音響心理学的な考慮事項を追加することでガードナーの手法を拡張している。行列Ｒ_Ａを考慮する代わりに、知覚的に重み付けられた合成フィルタＷ（ｚ）のインパルス応答を考慮する。

（式中、Ｗ_Ｂ（ｚ）は、低周波により重点が置かれたバークの重み付けフィルタを近似するＩＩＲフィルタである。感度行列は、その後、１／Ａ（ｚ）をＷ（ｚ）と置換することで計算される。）

Ｇ．７１８で使用される重み付けは理論的にほぼ最適な手法であるが、非常に高い複雑性をガードナーの手法から引き継いでいる。今日のオーディオコーデックは、複雑性の制約により標準化されており、それゆえ、知覚品質における複雑性および利益のトレードオフは、この手法では満たされない。

Ｌａｒｏｉａらによって発表された手法は、準最適な重み付け量をもたらすが、複雑性は低い。この手法で生成された重み付け量は、人間の耳の感度が高非線形であるにもかかわらず、全周波数帯域を均等に処理する。低周波における歪みは、高周波における歪みよりもはるかに可聴性がある。
したがって、符号化方式を改善する必要がある。

本発明の目的は、アルゴリズムの計算量および／またはアルゴリズムの高精度を許容する一方で、符号化されたオーディオ信号を復号化する場合に良好なオーディオ品質を維持する符号化方式を提供することである。

この目的は、請求項１に記載のエンコーダ、請求項１０に記載のオーディオ伝送システム、請求項１１に記載の方法、および請求項１５に記載のコンピュータプログラムによって達成される。

発明者たちは、計算量の低い方法を用いてスペクトル重み付け係数を判定すること、および、事前計算された補正情報を用いて得られたスペクトル重み付け係数を少なくとも部分的に補正することで、得られた補正後のスペクトル重み付け係数が、符号化の精度および／または低減された線スペクトル距離（ＬＳＤ）を維持しながら、オーディオ信号を少ない計算量で符号化および復号化することを可能にすることを見出した。

本発明の一実施形態によれば、オーディオ信号を符号化するエンコーダは、オーディオ信号を分析し、オーディオ信号から分析予測係数を判定するアナライザを備える。エンコーダは、変換後の予測係数を分析予測係数から導出するように構成されたコンバータと、多数の補正値を記憶するように構成されたメモリとをさらに備える。エンコーダは、計算器とビットストリーム形成器とをさらに備える。計算器は、プロセッサと、結合器と、量子化器とを備え、プロセッサは、スペクトル重み付け係数を取得するために、変換後の予測係数を処理するように構成される。結合器は、補正後の重み付け係数を取得するために、スペクトル重み付け係数と多数の補正値とを結合するように構成される。量子化器は、補正後の重み付け係数を使用して変換後の予測係数を量子化して、変換後の予測係数の量子化表現、例えば、データベースへの予測係数のエントリに関連する値を取得するように構成される。ビットストリーム形成器は、変換後の予測係数の量子化表現に関連する情報と、オーディオ信号とに基づいて出力信号を形成するように構成される。本実施形態の利点は、計算の複雑性が低い方法および／または概念を使用することで、プロセッサがスペクトル重み付け係数を取得することができることである。その他の概念または方法に関して得られる可能性のある誤差は、多数の補正値を適用することで、少なくとも部分的に補正され得る。これは、［３］に基づく判定ルールと比較した場合の重み付け量の導出の計算量の低減を可能にし、［１］による判定ルールと比較した場合のＬＳＤの低減を可能にする。

さらなる実施形態はエンコーダを提供し、結合器は、正後の重み付け係数を取得するために、スペクトル重み付け係数と、多数の補正値と、入力信号に関連するさらなる情報とを結合するように構成される。特に、さらなる情報を再利用することができるように、その他の符号化ステップの間に、入力信号に関連するさらなる情報が少なくとも部分的に得られた場合、入力信号に関連するさらなる情報を使用することで、少ない計算量を維持しながら、得られた補正後の重み付け係数のさらなる向上を達成することができる。

さらなる実施形態はエンコーダを提供し、結合器は、補正後の重み付け係数を周期的に、１周期ごとに取得するように構成される。計算器は平滑器を備え、この平滑器は、前回の周期に対して取得された第１の量子化後の重み付け係数と、前回の周期に続く周期に対して取得された第２の量子化後の重み付け係数とを重み付け結合して、第１の量子化後の重み付け係数および第２の量子化後の重み付け係数の値の間の値を含む、平滑化された補正後の重み付け係数を取得するように構成される。これは、特に、２つの連続した周期の補正後の重み付け係数が、それぞれを比較して大きな差を含むと判定された場合に、遷移歪みの低減または防止を可能にする。

さらなる実施形態はオーディオ伝送システムを提供し、このオーディオ伝送システムは、エンコーダと、エンコーダの出力信号またはその導出された信号を受信し、かつ、合成後のオーディオ信号を供給するために受信信号を復号化するように構成されたデコーダとを備え、エンコーダの出力信号は有線媒体または無線媒体などの伝送媒体を介して伝送される。オーディオ伝送システムの利点は、不変の方法に基づいて、デコーダが出力信号とオーディオ信号とをそれぞれ復号化することができることである。

さらなる実施形態は、第１の多数の第１重み付け係数に対する補正値を判定する方法を提供する。各重み付け係数は、例えば線スペクトル周波数またはイミタンススペクトル周波数として表されるオーディオ信号の一部を重み付けするのに適している。第１の多数の第１重み付け係数は、オーディオ信号ごとに第１判定ルールに基づいて判定される。第２の多数の第２重み付け係数は、１組のオーディオ信号のオーディオ信号ごとに第２判定ルールに基づいて算出される。第２の多数の重み付け係数の各々は、第１重み付け係数に関連している。つまり、重み付け係数は、異なる可能性がある２つの結果を取得するために、第１判定ルールおよび第２判定ルールに基づいて、オーディオ信号の一部について判定されてもよい。第３の多数の距離値は算出され、この距離値は、いずれもオーディオ信号の一部に関連する第１重み付け係数と第２重み付け係数との間の距離に関連する値を有している。第４の多数の補正値は、第１重み付け係数と結合した場合に、距離値を低減するように算出され、これにより、第１重み付け係数が第４の多数の補正値と結合した場合に、第２重み付け係数と比較して補正後の第１重み付け係数の間の距離が低減される。これは、高計算量および／または高精度を含む第２判定ルールに基づいて１回設定され、かつ、計算量が少なく精度が低い第１判定ルールに基づいて別の回に設定された訓練データに基づいて、重み付け係数を計算することを可能にし、ここで、低精度は、補正によって少なくとも部分的に補償されるか、または低減される。

さらなる実施形態は、多項式係数が補正値に関連する多項式を適用することで距離が低減される方法を提供する。さらなる実施形態はコンピュータプログラムを提供する。

本発明の好ましい実施形態を、添付の図面を参照して詳細に説明する。

一実施形態によるオーディオ信号を符号化するエンコーダの略ブロック図である。図１の計算器と比較して計算器が修正される、一実施形態による計算器の略ブロック図である。一実施形態によるスペクトルアナライザおよびスペクトルプロセッサを追加的に備えるエンコーダの略ブロック図である。一実施形態による判定された予測係数に基づいて、コンバータによって取得される、線スペクトル周波数の１６個の値を含むベクトルを示す図である。一実施形態による結合器によって実行される判定ルールを示す図である。一実施形態による補正後の重み付け係数の取得ステップを説明するための例示的な判定ルールを示す図である。一実施形態による変換後の予測係数の量子化表現を判定するために量子化器によって実施される例示的な判定方式を示す図である。一実施形態による集合に結合される量子化値の例示的なベクトルを示す図である。一実施形態によるオーディオ伝送システムの略ブロック図の図である。補正値を導出する実施形態を示す図である。一実施形態によるオーディオ信号を符号化する方法の概略的なフローチャートを示す図である。

同様または同等の要素、または同様または同等の機能を含む要素は、異なる図面に現れたとしても、同様または同等の参照番号によって以下の説明に示される。

以下の説明では、本発明の実施形態のより完全な説明を提供するために、複数の詳細を記載する。しかし、これら特定の詳細無しで本発明の実施形態を実施することができるは、当業者にとって明らかであろう。他の事例では、周知の構造および装置は、本発明の実施形態を曖昧にすることを避けるために、詳細にではなくブロック図の形態で示されている。また、特に注記がない限り、以下に説明する異なる実施形態の特徴は、互いに組み合わせることができる。

図１は、オーディオ信号を符号化するエンコーダ１００の略ブロック図である。オーディオ信号は、オーディオ信号の一連のフレーム１０２として、エンコーダ１００によって取得されてもよい。エンコーダ１００は、フレーム１０２を分析し、オーディオ信号１０２から分析予測係数１１２を判定するアナライザを備える。分析予測係数（予測係数）１１２は、例えば、線形予測係数（ＬＰＣ）として取得されてもよい。あるいは、非線形予測係数も取得することができ、計算能力をより少なく利用することで、線形予測係数をより速く取得することができる。

エンコーダ１００は、予測係数１１２から変換後の予測係数１２２を導出するように構成されたコンバータ１２０を備える。コンバータ１２０は、例えば線スペクトル周波数（ＬＳＦ）および／またはイミタンススペクトル周波数（ＩＳＦ）を取得するために、変換後の予測係数１２２を判定するように構成されてもよい。変換後の予測係数１２２は、予測係数１１２と比較すると、後の量子化における量子化誤差に対して、より高いロバスト性を含む可能性がある。量子化は、通常は非線形に行われるので、線形予測係数の量子化は、復号化されたオーディオ信号の歪みにつながる可能性がある。

エンコーダ１００は、計算器１３０を備える。計算器１３０は、スペクトル重み付け係数１４２を取得するために、変換後の予測係数１２２を処理するように構成されたプロセッサ１４０を備える。プロセッサは、［１］で公知であるように、または、［２］に記載のより複雑な手法に従って、逆調和平均（ＩＨＭ）などの複数の既知の判定ルールのうちの１つ以上に基づいて、重み付け係数１４２を算出および／または判定するように構成されてもよい。国際電気通信連合（ＩＴＵ）標準Ｇ．７１８は、［３］に記載のように［２］の手法を拡大することで、重み付け係数を判定するさらなる手法を記載している好ましくは、プロセッサ１４０は、低計算量を含む判定ルールに基づいて重み付け係数１４２を判定するように構成される。これは、少ない計算量に基づいてより少ないエネルギーを消費することができるハードウェアによって、符号化されたオーディオ信号の高スループットおよび／またはエンコーダ１００の簡単な実現を可能にする。

計算器１３０は、補正後の重み付け係数１５２を取得するために、スペクトル重み付け係数１４２と多数の補正値１６２とを結合するように構成された結合器１５０を備える。多数の補正値は、補正値１６２が記憶されているメモリ１６０から供給される。補正値１６２は、静的または動的であってもよく、つまり、補正値１６２は、エンコーダ１００の動作中に更新されてもよく、あるいは、動作中に不変のままであってもよく、および／または、エンコーダ１００の較正のための較正手順の間に更新されるのみであってもよい。好ましくは、メモリ１６０は、静的補正値１６２を含む。補正値１６２は、後述するように、例えば事前計算の手順によって取得されてもよい。あるいは、メモリ１６０は、点線で示されるように、計算器１３０によって代替的に構成されてもよい。

計算器１３０は、補正後の重み付け係数１５２を用いて変換後の予測係数１２２を量子化するように構成された量子化器１７０を備える。量子化器１７０は、変換後の予測係数１２２の量子化表現１７２を出力するように構成される。量子化器１７０は、線形量子化器、対数量子化器などの非線形量子化器、または、それぞれベクトル的量子化器、ベクトル量子化器であってもよい。ベクトル的量子化器は、補正後の重み付け係数１５２の複数の部分を、複数の量子化値（部分）に量子化するように構成されてもよい。量子化器１７０は、変換後の予測係数１２２を補正後の重み付け係数１５２で重み付けするように構成されてもよい。量子化器は、データベース内のエントリに関連する符号語（表現）を選択するために、量子化器１７０のデータベースのエントリに対する重み付けされた変換後の予測係数１２２の距離を判定するようにさらに構成されてもよく、ここで、エントリは、重み付けされた変換後の予測係数１２２に対する最小距離を含んでもよい。このような手順は、例示的に後述される。量子化器１７０は、確率的ベクトル量子化器（ＶＱ）であってもよい。あるいは、量子化器１７０はまた、格子ＶＱのようなその他のベクトル量子化器または任意のスカラ量子化器を適用するように構成されてもよい。あるいは、量子化器１７０はまた、線形量子化または対数量子化を適用するように構成されてもよい。

変換後の予測係数１２２の量子化表現１７２、つまり、符号語は、エンコーダ１００のビットストリーム形成器１８０に供給される。エンコーダ１００は、オーディオ信号１０２のオーディオ情報の一部または全ておよび／またはさらなる情報を処理するように構成されたオーディオ処理部１９０を備えてもよい。オーディオ処理部１９０は、有声音信号情報または無声音信号情報などのオーディオデータ１９２を、ビットストリーム形成器１８０に提供するように構成される。ビットストリーム形成器１８０は、変換後の予測係数１２２の量子化表現１７２と、オーディオ信号１０２に基づくオーディオ情報１９２とに基づいて、出力信号（ビットストリーム）１８２を形成するように構成される。

エンコーダ１００の利点は、プロセッサ１４０が、低計算量を含む判定ルールを用いて、重み付け係数１４２を取得する、つまり重み付け係数１４２を算出するように構成されてもよいことである。補正値１６２は、簡約して表される場合、高計算量を含む（基準）判定ルールによって取得される１組の重み付け係数を比較することで取得され得るが、それゆえに、プロセッサ１４０によって実行された判定ルールによって取得された重み付け係数を有する高精度のおよび／または良好なオーディオ品質および／または低ＬＳＤを含む。これは、多数のオーディオ信号に対して行うことができ、両方の判定ルールに基づいて、オーディオ信号ごとに重み付け係数の数が取得される。オーディオ信号ごとに、取得結果を比較して、不一致または誤差に関する情報を取得してもよい。不一致または誤差に関する情報は、より低い計算量の判定ルールを実行する場合、基準判定ルールに対してプロセッサ１４０によって作られる平均誤差に関する情報を取得するために、多数のオーディオ信号について合計および／または平均化されてもよい。平均誤差および／または不一致に関して得られた情報は、結合器によって重み付け係数１４２を補正値１６２と結合して平均誤差を低減または補償することができるように、補正値１６２において表されてもよい。これは、オフラインで使用される基準判定ルールと比較すると、重み付け係数１４２の誤差を低減またはほとんど補償することを可能にする一方で、重み付け係数１４２の判定の複雑性をより少なくすることが依然として可能である。

図２は、修正された計算器１３０’の略ブロック図を示している。計算器１３０’は、変換後の予測係数を表すＬＳＦ１２２’から逆調和平均（ＩＨＭ）の重み付け量を算出するように構成されたプロセッサ１４０’を備える。計算器１３０’は、結合器１５０と比較すると、プロセッサ１４０’のＩＨＭの重み付け量１４２’、補正値１６２、および、「反射係数」として示されるオーディオ信号１０２のさらなる情報１１４を結合するように構成される結合器１５０’を備え、ここで、さらなる情報１１４は、「反射係数」に限定されない。さらなる情報は、その他の符号化ステップの中間結果であってもよく、例えば、反射係数１１４は、図１で説明したように、予測係数１１２の判定中にアナライザ１１０によって取得されてもよい。線形予測係数は、反射アルゴリズムが判定されるレビンソン・ダービンアルゴリズムに従って判定ルールを実行する場合に、アナライザ１１０によって判定されてもよい。パワースペクトルに関連する情報は、予測係数１１２の算出中に取得されてもよい。結合器１５０’の可能な実装については後述する。代替的にまたは追加的に、さらなる情報１１４は、例えばオーディオ信号１０２のパワースペクトルに関連する情報などの、重み付け量１４２または１４２’および補正パラメータ１６２と結合されてもよい。さらなる情報１１４は、計算器１３０または１３０’によって判定された重み付け量１４２または１４２’と基準の重み付け量との差をさらに低減することを可能にする。オーディオ符号化のその他のステップ中にアナライザ１１０などのその他の構成要素によって、さらなる情報１１４はすでに判定されている可能性があるので、計算量の増大は軽度な効果しかない可能性がある。

計算器１３０’は、結合器１５０’からの補正後の重み付け係数１５２’と、平滑器１５５の制御動作（ＯＮ／ＯＦＦ状態）を可能にする任意の情報１５７（制御フラグ）とを受信するように構成された平滑器１５５をさらに備える。制御フラグ１５７は、例えば、不快な遷移を低減するために平滑化が行われることを示すアナライザから取得されてもよい。平滑器１５５は、補正後の重み付け係数１５２’と補正後の重み付け係数１５２’’’とを結合させるように構成されてもよく、これらの係数は、オーディオ信号の先行フレームまたはサブフレームについて判定された補正後の重み付け係数の遅延表現、つまり、ＯＮ状態の前回の周期で判定された補正後の重み付け係数である。平滑器１５５は、無限インパルス応答（ＩＩＲ）フィルタとして実装されてもよい。したがって、計算器１３０’は、最初の周期で平滑器１５５によって提供された補正後の重み付け係数１５２’’を受信し、かつ遅延させて、これらの重み付け量を、後続の周期における補正後の重み付け係数１５２’’’として提供するように構成された遅延ブロック１５９を備える。

遅延ブロック１５９は、例えば、遅延フィルタとして、または受信した補正後の重み付け係数１５２’’を記憶するように構成されたメモリとして実装されてもよい。平滑器１５５は、受信した補正後の重み付け係数１５２’と、過去の受信した補正後の重み付け係数１５２’’’とを重み付け結合するように構成される。例えば、（現在の）補正後の重み付け係数１５２’は、平滑化された補正後の重み付け係数１５２’’において２５％、５０％、７５％または任意のその他の値の割合を占めてもよく、（過去の）重み付け係数１５２’’’は、（１−補正後の重み付け係数１５２’の割合）の割合を占めてもよい。これは、オーディオ信号、つまり、２つの後続フレームが、復号化されたオーディオ信号の歪みにつながるであろう異なる補正後の重み付け係数をもたらす場合、後続のオーディオフレーム間の不快な遷移を回避することができる。ＯＦＦ状態では、平滑器１５５は、補正後の重み付け係数１５２’を転送するように構成される。代替的にまたは追加的に、平滑化は、高レベルの周期性を含むオーディオ信号のための向上したオーディオ品質を可能にする。

あるいは、平滑器１５５は、前回以前の周期の補正後の重み付け係数を追加的に結合するように構成されてもよい。代替的にまたは追加的に、変換後の予測係数１２２’は、イミタンススペクトル周波数であってもよい。

重み付け係数ｗ_ｉを_、例えば逆調和平均（ＩＨＭ）に基づいて取得することができる。判定ルールは、以下の数式

（式中、ｗ_ｉは、添字ｉを含む判定された重み付け量１４２’を示し、ＬＳＦ_ｉは、添字ｉを含む線スペクトル周波数を示す）に基づく。添字ｉは、取得されたスペクトル重み付け係数の数に対応し、アナライザによって判定された予測係数の数に等しくてもよい。予測係数の数、したがって変換後の係数の数は、例えば１６であってもよい。あるいは、その数は８または３２であってもよい。あるいは、例えば、変換後の係数１２２が、予測係数の数と比較してより低い数を含む可能性がある、イミタンススペクトル周波数として判定されると、変換後の係数の数は予測係数の数よりも低くてもよい。

換言すれば、図２は、コンバータ１２０によって実行される重み付け量の導出ステップで行われる処理を詳述している。まず、ＩＨＭの重み付け量は、ＬＳＦから計算される。一実施形態によれば、ＬＰＣ次数１６は、１６ｋＨｚでサンプリングされた信号のために使用される。これは、ＬＳＦが、０〜８ｋＨｚの間で有界であることを意味している。さらなる実施形態によれば、ＬＰＣは次数１６であり、信号は１２．８ｋＨｚでサンプリングされる。この場合、ＬＳＦは、０〜６．４ｋＨｚの間で有界である。さらなる実施形態によれば、信号は８ｋＨｚでサンプリングされ、これは、狭帯域サンプリングと呼ばれる。その後、ＩＨＭの重み付け量は、訓練過程の間に係数がオフラインで最適化される多項式内で、例えばいくつかの反射係数と関連しているさらなる情報と結合されてもよい。最後に、特定の場合において、例えば定常信号に対して、前回の１組の重み付け量によって得られた重み付け量を平滑化することができる。一実施形態によれば、平滑化は決して行われない。その他の実施形態によれば、平滑化は、入力フレームが有声であると分類された場合、つまり、信号が高度に周期的であると検出された場合にのみ行われる。

以降では、導出された重み付け係数の補正についての詳細を参照する。例えば、アナライザは、次数１０または１６の線形予測係数（ＬＰＣ）、つまり、ＬＰＣ１０または１６の数を判定するように構成される。アナライザもまた、任意のその他の数の線形予測係数または異なる種類の係数を判定するように構成されてもよいが、１６個の係数が移動体通信において使用されるので、以下の説明を、１６個の係数を参照して行う。

図３は、スペクトルアナライザ１１５を追加的に備え、エンコーダ１００と比較して、スペクトルプロセッサ１４５を備えるエンコーダ３００の略ブロック図を示している。スペクトルアナライザ１１５は、オーディオ信号１０２からスペクトルパラメータ１１６を導出するように構成される。スペクトルパラメータは、例えばオーディオ信号またはそのフレームのスペクトルの包絡線、および／または包絡線を特徴付けるパラメータであってもよい。あるいは、パワースペクトルに関連する係数を取得してもよい。

スペクトルプロセッサ１４５は、スペクトルパラメータ１１６に基づいて、オーディオ信号１０２のスペクトルの周波数ビンのエネルギーについての量または尺度１４６を計算するように構成されたエネルギー計算器１４５ａを備える。スペクトルプロセッサは、正規化後の予測係数１４７を取得するために、変換後の予測係数１２２’（ＬＳＦ）を正規化する正規化器１４５ｂをさらに備える。変換後の予測係数は、例えば相対的に、複数のＬＳＦの最大値について正規化されてもよく、および／または、絶対的に、つまり使用された計算変数によって予想されるか、または表現可能な最大値などの所定値について正規化されてもよい。

スペクトルプロセッサ１４５は、正規化後の予測パラメータごとにビンエネルギーを判定するように、つまり、ビンエネルギーを含むベクトルＷ１をＬＳＦごとに取得するために、正規化器１４５ｂから取得された各正規化後の予測パラメータ１４７を、計算された尺度１４６に関連付けるように構成された第１判定器１４５ｃをさらに備える。スペクトルプロセッサ１４５は、正規化されたＬＳＦごとに周波数重み付けを求めて（判定して）、周波数重み付けを含むベクトルＷ２を取得するように構成された第２判定器１４５ｄをさらに備える。さらなる情報１１４は、ベクトルＷ１およびベクトルＷ２を含む。つまり、ベクトルＷ１およびベクトルＷ２は、さらなる情報１１４を表す特徴である。

プロセッサ１４２’は、変換後の予測パラメータ１２２’および、例えば二乗などのＩＨＭの指数に基づいてＩＨＭを判定するように構成され、ここで、代替的にまたは追加的に、高い指数を計算することもでき、ＩＨＭおよびその指数は重み付け係数１４２’を形成する。

結合器１５０’’は、さらなる情報１１４および重み付け係数１４２’に基づいて補正後の重み付け係数（補正後のＬＳＦの重み付け量）１５２’を判定するように構成される。

あるいは、プロセッサ１４０’、スペクトルプロセッサ１４５および／または結合器は、中央処理装置、（マイクロ）コントローラ、プログラマブル・ゲート・アレイなどの単一の処理装置として実装されてもよい。

換言すれば、結合器への第１のエントリおよび第２のエントリは、ＩＨＭおよびＩＨＭ^２、つまり、重み付け係数１４２’である。第３のエントリは、ＬＳＦベクトル要素ｉごとである。

（式中、ｗｆｆｔは、Ｗ１およびＷ２の組み合わせであり、ｍｉｎは、ｗｆｆｔの最小値である。
ｉ＝０．．Ｍであり、１６個の予測係数がオーディオ信号から導出された場合、Ｍは１６であってもよい。

式中、ｂｉｎＥｎｅｒは、スペクトルの各ビンのエネルギーを含む。つまり、ｂｉｎＥｎｅｒは、尺度１４６に対応する。）

マッピング

は、スペクトル包絡線内のフォルマントのエネルギーの近似である。ＦｒｅｑＷＴａｂｌｅは、有声または無声の入力信号に応じて選択される追加の重み付け量を含むベクトルである。

Ｗｆｆｔは、ＬＳＦ係数のような予測係数に近いスペクトルエネルギーの近似値である。簡単に言えば、予測（ＬＳＦ）係数が値Ｘを含む場合、これは、オーディオ信号（フレーム）のスペクトルが、周波数Ｘで最大（フォルマント）の、または周波数Ｘの下のエネルギーを含むことを意味する。ｗｆｆｔは、周波数Ｘにおけるエネルギーの対数表現である。つまり、ｗｆｆｔは、この位置における対数エネルギーに対応する。さらなる情報として反射係数を利用する上述の実施形態と比較すると、代替的にまたは追加的に、ｗｆｆｔ（Ｗ１）およびＦｒｅｑｕＷＴａｂｌｅ（Ｗ２）の組み合わせを使用して、さらなる情報１１４を取得してもよい。ＦｒｅｑＷＴａｂｌｅは、複数の使用可能なテーブルのうちの１つを表している。エンコーダ３００の「符号化モード」、例えば、有声の、摩擦音などに基づいて、複数のテーブルのうちの少なくとも１つを選択してもよい。１つ以上の複数のテーブルを、エンコーダ３００の動作中に訓練（プログラムおよび適合）させてもよい。

ｗｆｆｔを使用した結果、フォルマントを表す変換後の予測係数の符号化を向上させる。ノイズが大量の（信号）エネルギーを含む周波数にある古典的なノイズシェーピングとは対照的に、記載の手法は、スペクトル包絡線を量子化することに関連する。パワースペクトルが、変換後の予測係数の周波数を含むか、またはこれに隣接して配置された周波数で大量のエネルギー（大きな尺度）を含む場合、この変換後の予測係数（ＬＳＦ）を良好に、つまり、より低い尺度のエネルギーを含むその他の係数よりも高い重み付け量によって達成される低誤差で、量子化することができる。

図４ａは、判定された線スペクトル周波数のエントリの１６個の値を含むベクトルＬＳＦを示し、これらは、判定された予測係数に基づいて、コンバータによって取得される。プロセッサはまた、１６の重み付け量を取得するように構成され、例示的には、逆調和平均ＩＨＭは、ベクトルＩＨＭで表される補正値１６２は、例えばベクトルａ、ベクトルｂおよびベクトルｃに分類される。ベクトルａ、ベクトルｂおよびベクトルｃの各々は、１６個の値ａ_１−１６、ｂ_１−１６およびｃ_１−１６を含み、同一の添字は、それぞれの補正値が、予測係数、予測係数の変換後の表現および同一の添字を含む重み付け係数に関連していることを示す。図４ｂは、一実施形態による結合器１５０または結合器１５０’によって実行される判定ルールを示している。結合器は、数式ｙ＝ａ＋ｂｘ＋ｃｘ ^２に基づく多項式関数の結果を計算または判定するように構成される。つまり、異なる補正値ａ、ｂ、ｃは、（ｘとして示される）重み付け係数の異なる指数と組み合わせられ（乗算され）る。ｙは、取得された補正後の重み付け係数のベクトルを示す。

代替的にまたは追加的に、結合器はまた、さらなる補正値（ｄ、ｅ、ｆ．．．）、および重み付け係数またはさらなる情報のさらなる指数を追加するように構成されてもよい。例えば、さらなる情報１１４の三乗と乗算される１６個の値を含むベクトルｄによって、図４ｂに示す多項式を拡張することができ、それぞれのベクトルもまた、１６個の値を含む。これは、図３に記載したようなプロセッサ１４０’がＩＨＭのさらなる指数を判定するように構成される場合、例えばＩＨＭ³に基づくベクトルであってもよい。あるいは、少なくともベクトルｂのみ、および必要に応じて１つ以上の高次ベクトルｃ、ｄ．．．を計算してもよい。簡約された多項式の次数は、各項と共に増加し、各タイプは、重み付け係数に基づいて、および／または、必要に応じてさらなる情報に基づいて形成されてもよく、多項式は、高次の項を含む場合に、数式ｙ＝ａ＋ｂｘ＋ｃｘ ^２に基づく。補正値ａ、ｂ、ｃおよび必要に応じてｄ、ｅ．．．は、実数値および／または虚数値を含んでもよく、ゼロの値を含んでもよい。

図４ｃは、補正後の重み付け係数１５２または１５２’の取得ステップを説明するための例示的な判定ルールを示している。補正後の重み付け係数は、１６個の値を含むベクトルｗで表され、変換後の予測係数ごとの１つの重み付け係数は、図４ａに示されている。補正後の重み付け係数ｗ_１−１６の各々は、図４ｂに示す判定ルールによって計算される。上述の説明は、補正後の重み付け係数を判定する原理を説明するだけのものであり、上述の判定ルールに限定されるものではない。上述の判定ルールはまた、変更され、スケーリングされ、交換されるなどしてもよい。一般的に、補正後の重み付け係数は、補正値と判定後の重み付け係数との結合を行うことで取得される。

図５ａは、変換後の予測係数の量子化表現を判定するために量子化器１７０などの量子化器によって実施され得る例示的な判定方式を示す。量子化器は、誤差、例えばＬＳＦ_ｉとして示される判定された変換後の係数とＬＳＦ’_Ｉとして示される基準係数との間の差分または指数を合計してもよく、基準係数は、量子化器のデータベースに記憶されてもよい。判定された距離は、正の値のみ得られるように二乗されてもよい。距離（誤差）の各々は、それぞれの重み付け係数ｗ_ｉによって重み付けされる。これは、オーディオ品質について重要度が高い周波数帯域または変換後の予測係数に、より高い重み付け量を与え、オーディオ品質について重要度が低い周波数帯域に、より低い重み付け量を与えることを可能にする。誤差は、総誤差値を取得するために一部または全ての添字１〜１６について合計される。これは、図５ｂに示すセットＱｕ’、Ｑｕ’’、．．．Ｑｕ^ｎに結合することができる係数の、複数の所定の組み合わせ（データベースエントリ）に対して行われてもよい。量子化器は、判定された補正後の重み付け係数および変換後の予測係数に対する最小誤差を含む、所定の係数のセットに関連する符号語を選択するように構成されてもよい。符号語は、例えば表の見出しであってもよく、これにより、それぞれ受信した指数、受信した符号語に基づいてデコーダが所定のセットＱｕ’、Ｑｕ’’、．．．を復元することができる。

訓練過程中に補正値を取得するために、基準の重み付け量が判定される基準の判定ルールが選択される。エンコーダは、基準の重み付け量に対して判定後の重み付け係数を補正するように構成され、基準の重み付け量の判定はオフラインで、つまり、較正ステップの間などに行われるので、高精度（例えば低ＬＳＤ）の判定ルールは、結果として生じた計算量を無視しながら選択されてもよい。好ましくは、高精度を含み、かつ、おそらくは高計算量を含む方法は、予め大きさが決められた基準の重み付け係数を取得するために選択されてもよい。例えば、Ｇ．７１８標準［３］による重み付け係数を判定する方法を使用してもよい。

エンコーダが重み付け係数を判定する判定ルールを実行してもよい。これは、判定された結果の精度が低いことを受け入れながら、低計算量を含む方法であってもよい。重み付け量は、例えば、音声および／または音楽を含むオーディオ素材のセットを使用しながら、両方の判定ルールに従って計算される。オーディオ素材は、Ｍ個の訓練ベクトルの数で表されてもよく、Ｍは、１００以上、１０００以上または５０００以上の値を含んでもよい。得られた重み付け係数のセットのいずれも、行列に記憶され、各行列は、各々がＭ個の訓練ベクトルのうちの１つに関連するベクトルを含む。

Ｍ個の訓練ベクトルの各々について、第１（基準）判定ルールに基づいて判定された重み付け係数を含むベクトルと、エンコーダ判定ルールに基づいて判定された重み付けベクトルを含むベクトルとの間の距離が判定される。この距離は、総距離（誤差）を取得するために合計され、総誤差は、平均誤差値を取得するために平均化されてもよい。

補正値の判定中の目的は、総誤差および／または平均誤差を低減することであり得る。したがって、図４ｂに示す判定ルールに基づいて、多項式フィッティングが実行されてもよく、ベクトルａ、ｂ、ｃおよび／またはさらなるベクトルは、総誤差および／または平均誤差が低減されるか、あるいは最小化されるように多項式に適合される。多項式は、デコーダで実行される判定ルールに基づいて判定された重み付け係数に適合する。多項式は、総誤差または平均誤差が閾値、例えば０．０１、０．１または０．２を下回るように適合されてもよく、ここで、１は、合計の不一致である。代替的にまたは追加的に、誤差最小化アルゴリズムに基づいて利用することで、総誤差が最小化されるように多項式を適合してもよい。０．０１の値は、差分（距離）および／または距離の商として表される相対誤差を示してもよい。あるいは、結果として生じた総誤差または平均誤差が、数学的最小値に近接した値を含むように補正値を判定することで、多項式フィッティングが行われてもよい。これは、例えば使用される関数の導出、および、得られた導出をゼロに設定することに基づいた最適化によって行うことができる。

距離（誤差）、例えばユークリッド距離のさらなる低減は、エンコーダ側で１１４として示される追加の情報を追加する場合に達成することができる。この追加の情報はまた、補正パラメータを算出する間に使用されてもよい。情報は、補正値を判定する多項式と組み合わせることで使用されてもよい。

換言すれば、第１のＩＨＭの重み付け量およびＧ．７１８の重み付け量は、５０００秒（またはＭ個の訓練ベクトル）以上の音声および音楽の素材を含むデータベースから抽出されてもよい。ＩＨＭの重み付け量は、行列Ｉに記憶されてもよく、Ｇ．７１８の重み付け量は、行列Ｇに記憶されてもよい。Ｉ_ｉおよびＧ_ｉは、全訓練データベースのｉ番目のＩＳＦまたはＬＳＦ係数の全てのＩＨＭおよびＧ．７１８の重み付け量ｗ_ｉを含むベクトルとする。これら２つのベクトル間の平均ユークリッド距離は、以下の式に基づいて判定されてもよい。

これら２つのベクトル間の距離を最小化するために、二次多項式を適用してもよい。

以下の行列

が導入されてもよく、ベクトルＰｉ＝［ｐ_０，ｉｐ_０，ｉｐ_２，ｉ］^Ｔであり、その根拠は、

および

を書き換えるためである。

最低平均ユークリッド距離を有するベクトルＰ_ｉを得るために、導出

をゼロに設定する。つまり、

を得るために

を設定する。

提案された重み付け量とＧ．７１８の重み付け量との間の差（ユークリッド距離）をさらに低減するために、その他の情報の反射係数を、行列ＥＩ_ｉに加えてもよい。例えば反射係数は、ＬＳＦまたはＩＳＦの領域において直接観察不可能であるＬＰＣモデルについてのいくつかの情報を有しているので、ユークリッド距離ｄ_ｉを低減するのに役立つ。実際には、おそらく全ての反射係数が、ユークリッド距離の大幅な低減に導くわけではない。発明者たちは、第１番目および第１４番目の反射係数を使用すればよいことを発見した。反射係数を行列ＥＩ_ｉに加えると、以下の式

（式中、ｒ_ｘ，ｙは、訓練データセット内のｘ番目のインスタンスのｙ番目の反射係数（またはその他の情報）である。）のようになる。したがって、ベクトルＰ_ｉの次元は、行列ＥＩ_ｉのカラムの数に応じて変更された次元を含む。最適ベクトルＰ_ｉの算出は、上述と変わらない。

さらなる情報を加えることで、図４ｂに示した判定ルールは、ｙ＝ａ＋ｂｘ＋ｃｘ ^２＋ｄｒ _１ ^３＋．．．に応じて変更（拡張）されてもよい。

図６は、一実施形態によるオーディオ伝送システム６００の略ブロック図を示している。オーディオ伝送システム６００は、出力信号１８２を、量子化されたＬＳＦ、または量子化されたＬＳＦに関する情報をそれぞれ含むビットストリームとして受信するように構成された、エンコーダ１００およびデコーダ６０２を備える。ビットストリームは、有線接続（ケーブル）または無線接続などの伝送媒体６０４を介して送信される。

換言すれば、図６は、エンコーダ側でのＬＰＣ符号化方式の概要を示している。重み付け量はエンコーダによってのみ使用され、デコーダで必要とされないことは言及する価値がある。まず、ＬＰＣ分析が入力信号に対して行われる。ＬＰＣ分析は、ＬＰＣ係数および反射係数（ＲＣ）を出力する。ＬＰＣ分析の後、ＬＰＣ予測係数がＬＳＦに変換される。これらＬＳＦは、多段ベクトル量子化などの方式を使用して量子化され、その後にデコーダへ送信されるベクトルである。符号語は、前の章で紹介したＷＥＤと呼ばれる重み付けされた二乗誤差の距離に応じて選択される。このために、関連する重み付け量を予め計算しなくてはならない。重み付け量の導出は、元のＬＳＦおよび反射係数の関数である。反射係数は、レビンソン・ダービンアルゴリズムが必要とする内部変数として、ＬＰＣの分析中に直接利用可能である。

図７は、上述したように補正値を導出する実施形態を示している。変換後の予測係数１２２’（ＬＳＦ）または他の係数は、ブロックＡにおけるエンコーダによる重み付け量の判定、および、ブロックＢにおける対応する重み付け量の計算に使用される。得られた重み付け量１４２はいずれも、モデリングに適合させるため、つまり、ブロックＡからブロックＣまで破線で示すようにベクトルＰ_ｉを計算するために、ブロックＣにおいて得られた基準の重み付け量１４２’’と直接結合される。必要に応じて、さらなる情報１１４が例えば反射係数であるか、またはスペクトル指数情報が補正値１６２を判定するために使用される場合、重み付け量１４２’は、反射値によって拡張されたＥＩ_ｉによって説明したように、ブロックＤとして示される回帰ベクトル内のさらなる情報１１４と結合される。得られた重み付け量１４２’’’はその後、ブロックＣにおいて基準重み付け係数１４２’’と結合される。

換言すれば、ブロックＣのフィッティングモデルは、上述のベクトルＰである。以下では、疑似コードは、重み付け量の導出処理を例示的に要約したものである。

入力：ｌｓｆ＝元のＬＳＦベクトル
ｏｒｄｅｒ＝ＬＰＣの次数、ｌｓｆの長さ
ｐａｒｃｏｒｒ［０］＝−１番目の反射係数
ｐａｒｃｏｒｒ［１］＝−１４番目の反射係数
ｓｍｏｏｔｈ＿ｆｌａｇ＝重み付け量を平滑化するフラグ
ｗ＿ｐａｓｔ＝過去の重み付け量
出力
ｗｅｉｇｈｔｓ＝計算された重み付け量
（数１９）
/*Compute IHM weights*/
weights[0] = 1.f/( lsf[0] - 0 ) + 1.f/( lsf[1] - lsf[0] );
for(i=1; i<order-1; i++)
weights[i] = 1.f/( lsf[i] - lsf[i-1] ) + 1.f/( lsf[i+1] - lsf[i] );
weights[order-1] = 1.f/( lsf[order-1] - lsf[order-2] ) + 1.f/( 8000 - lsf[order-1] );
/* Fitting model*/
for(i=0; i<order; i++)
{
weights[i] *= (8000/ PI);
weights[i] = ((float)(lsf_fit_model[0][i])/(1<<12))
+ weights[i]*((float)(lsf_fit_model[1][i])/(1<<14))
+ weights[i]*weights[i]*((float)(lsf_fit_model[2][i])/(1<<19))
+ parcorr[0]* ((float)(lsf_fit_model[3][i])/(1<<13))
+ parcorr[1] * ((float)(lsf_fit_model[4][i])/(1<<10));
/* avoid too low weights and negative weights*/
if(weights[i] < 1.f/(i+1))
weights[i] = 1.f/(i+1);
}
（式中、「ｐａｒｃｏｒｒ」は行列ＥＩの拡張を示し、
（数２０）
if(smooth_flag){
for(i=0; i<order; i++) {
tmp = 0.75f*weights[i] * 0.25f*w_past[i];
w_past[i]=weights[i];
weights[i]=tmp;
}
}
行列ＥＩは、上述の平滑化を示し、現在の重み付け量が０．７５の係数で重み付けされ、過去の重み付け量が０．２５の係数で重み付けされる。）

１６ｋＨｚおよびＬＰＣ次数１６でサンプリングされる信号について以降に例示的に示すように、ベクトルＰについて得られた係数はスカラ値を含んでもよい。

（数２１）
lsf_fit_model[5][16] = {
{679 , 10921 , 10643 , 4998 , 11223 , 6847 , 6637 , 5200 , 3347 , 3423 , 3208 , 3329 , 2785 , 2295 , 2287 , 1743},
{23735 , 14092 , 9659 , 7977 , 4125 , 3600 , 3099 , 2572 , 2695 , 2208 , 1759 , 1474 , 1262 , 1219 , 931 , 1139},
{-6548 , -2496 , -2002 , -1675 , -565 , -529 , -469 , -395 , -477 , -423 , -297 , -248 , -209 , -160 , -125 , -217},
{-10830 , 10563 , 17248 , 19032 , 11645 , 9608 , 7454 , 5045 , 5270 , 3712 , 3567 , 2433 , 2380 , 1895 , 1962 , 1801},
{-17553 , 12265 , -758 , -1524 , 3435 , -2644 , 2013 , -616 , -25 , 651 , -826 , 973 , -379 , 301 , 281 , -165}};

上述の通り、ＬＳＦの代わりに、ＩＳＦもまた、変換後の係数１２２としてコンバータによって提供されてもよい。重み付け量の導出は、以下の疑似コードによって示されるように、非常に類似することがある。次数ＮのＩＳＦは、Ｎ番目の反射係数を付加するＮ−１の第１係数に対して、次数Ｎ−１のＬＳＦと同等である。それゆえ、重み付け量の導出は、ＬＳＦの重み付け量の導出と非常に密接している。重み付け量は、以下の疑似コードによって得られる。

入力：ｉｓｆ＝元のＩＳＦベクトル
ｏｒｄｅｒ＝ＬＰＣの次数、ｌｓｆの長さ
ｐａｒｃｏｒｒ［０］＝−１番目の反射係数
ｐａｒｃｏｒｒ［１］＝−１４番目の反射係数
ｓｍｏｏｔｈ＿ｆｌａｇ＝重み付け量を平滑化するフラグ
ｗ＿ｐａｓｔ＝過去の重み付け量
出力
ｗｅｉｇｈｔｓ＝計算された重み付け量
（数２２）
/*Compute IHM weights*/
weights[0] = 1.f/( lsf[0] - 0 ) + 1.f/( lsf[1] - lsf[0] );
for(i=1; i<order-2; i++)
weights[i] = 1.f/( lsf[i] - lsf[i-1] ) + 1.f/( lsf[i+1] - lsf[i] );

weights[order-2] = 1.f/( lsf[order-2] - lsf[order-3] ) + 1.f/( 6400 - lsf[order-2] );
/* Fitting model*/
for(i=0; i<order-1; i++)
{
weights[i] *= (6400/PI);
weights[i] = ((float)(isf_fit_model[0][i])/(1<<12))
+ weights[i]*((float)(isf_fit_model[1][i])/(1<<14))
+ weights[i]*weights[i]*((float)(isf_fit_model[2][i])/(1<<19))
+ parcorr[0]* ((float)(isf_fit_model[3][i])/(1<<13))
+ parcorr[1] * ((float)(isf_fit_model[4][i])/(1<<10));
/* avoid too low weights and negative weights*/
if(weights[i] < 1.f/(i+1))
weights[i] = 1.f/(i+1);
}
if(smooth_flag){
for(i=0; i<order-1; i++) {
tmp = 0.75f*weights[i] * 0.25f*w_past[i];
w_past[i]=weights[i];
weights[i]=tmp;
}
}
weights[order-1]=1;
式中、周波数成分を有する入力信号のためのフィッティングモデル係数は６．４ｋＨｚまで上昇する。

（数２３）
isf_fit_model[5][15] = {
{8112 , 7326 , 12119 , 6264 , 6398 , 7690 , 5676 , 4712 , 4776 , 3789 , 3059 , 2908 , 2862 , 3266 , 2740},
{16517 , 13269 , 7121 , 7291 , 4981 , 3107 , 3031 , 2493 , 2000 , 1815 , 1747 , 1477 , 1152 , 761 , 728},
{-4481 , -2819 , -1509 , -1578 , -1065 , -378 , -519 , -416 , -300 , -288 , -323 , -242 , -187 , -7 , -45},
{-7787 , 5365 , 12879 , 14908 , 12116 , 8166 , 7215 , 6354 , 4981 , 5116 , 4734 , 4435 , 4901 , 4433 , 5088},
{-11794 , 9971 , -3548 , 1408 , 1108 , -2119 , 2616 , -1814 , 1607 , -714 , 855 , 279 , 52 , 972 , -416}};
式中、周波数成分を有する入力信号のためのフィッティングモデル係数は、４ｋＨｚまで上昇し、４ｋＨｚから６．４ｋＨｚまで上昇する周波数成分に対してエネルギーがゼロである。

（数２４）
isf_fit_model [5][15] = {
{21229 , -746 , 11940 , 205 , 3352 , 5645 , 3765 , 3275 , 3513 , 2982 , 4812 , 4410 , 1036 , -6623 , 6103},
{15704 , 12323 , 7411 , 7416 , 5391 , 3658 , 3578 , 3027 , 2624 , 2086 , 1686 , 1501 , 2294 , 9648 , -6401},
{-4198 , -2228 , -1598 , -1481 , -917 , -538 , -659 , -529 , -486 , -295 , -221 , -174 , -84 , -11874 , 27397},
{-29198 , 25427 , 13679 , 26389 , 16548 , 9738 , 8116 , 6058 , 3812 , 4181 , 2296 , 2357 , 4220 , 2977 , -71},
{-16320 , 15452 , -5600 , 3390 , 589 , -2398 , 2453 , -1999 , 1351 , -1853 , 1628 , -1404 , 113 , -765 , -359}};

基本的には、両方の疑似コードのブロック／＊ｃｏｍｐｕｔｅＩＨＮｗｅｉｇｈｔｓ＊／と比較した場合に見られるＩＳＦの次数が変更される。

図８は、オーディオ信号を符号化する方法８００の概略的なフローチャートを示している。方法８００はステップ８０２を含み、ここで、オーディオ信号が分析され、分析予測係数がオーディオ信号から判定される。方法８００はステップ８０４をさらに含み、ここで、変換後の予測係数が分析予測係数から導出される。ステップ８０６では、多数の補正値が、例えばメモリ１６０などのメモリに記憶される。ステップ８０８では、補正後の重み付け係数を取得するために、変換後の予測係数と多数の補正値とが結合される。ステップ８１２では、変換後の予測係数の量子化表現を取得するために、補正後の重み付け係数を使用して変換後の予測係数が量子化される。ステップ８１４では、変換後の予測係数の表現とオーディオ信号とに基づいて出力信号が形成される。

換言すれば、本発明は、複雑性の低い発見的なアルゴリズムを使用して、最適重み付け量ｗを導出する新規の効率的な方法を提案する。ＩＨＭの重み付け量に対する最適化は、低周波においてはより少ない歪みをもたらす一方で、高周波にはより多くの歪みを与え、全体的な歪みを聞きとりにくくすることを示している。このような最適化は、［１］で提案された重み付け量をまず計算し、その後に、この重み付け量を、Ｇ．７１８の手法［３］を使用して取得された重み付け量と非常に近接にするように変更することで達成される。第２段階は、修正されたＩＨＭの重み付け量とＧ．７１８の重み付け量との間の平均ユークリッド距離を最小化することによって、訓練過程中の単純な二次多項式モデルで構成される。簡略化されたＩＨＭの重み付け量とＧ．７１８の重み付け量との関係は、（おそらく単純な）多項式関数によってモデル化される。

いくつかの態様を装置の文脈で説明してきたが、これらの態様はまた、ブロックまたは装置が、方法ステップまたは方法ステップの特徴に対応する方法の説明を表していることは明らかである。同様に、方法ステップの文脈で説明した態様はまた、対応する装置の対応するブロックまたは項目あるいは機能の説明を表している。

本発明の符号化されたオーディオ信号を、デジタル記憶媒体に記憶させることができ、または、無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。

特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで実施することができる。例えば、電子的に読み取り可能な制御信号を格納して有するフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して実装することができ、これらは、それぞれの方法を行うように、プログラム可能なコンピュータシステムと協働する（または協働することができる）。

本発明のいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、このデータキャリアは、本明細書に記載のいずれかの方法を行うことができるように、プログラム可能なコンピュータシステムと協働することが可能である。

一般的には、プログラムコードを有するコンピュータプログラム製品として、本発明の実施形態を実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行される場合に、いずれかの方法を行うように作動する。プログラムコードは、例えば機械可読キャリアに記憶されてもよい。

他の実施形態は、機械可読キャリアに記憶された、本明細書に記載のいずれかの方法を行うコンピュータプログラムを含む。

したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行される場合に、本明細書に記載のいずれかの方法を行うプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載のいずれかの方法を行うコンピュータプログラムが記録されたデータキャリア（またはデジタル記憶媒体、あるいはコンピュータ可読媒体）である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載のいずれかの方法を行うコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載のいずれかの方法を行うように構成または適合された、例えばコンピュータ、またはプログラム可能な論理デバイスなどの処理手段を含む。

さらなる実施形態は、本明細書に記載のいずれかの方法を行うコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、本明細書に記載の方法の一部または全ての機能を実行するために、プログラム可能な論理デバイス（例えばフィールドプログラマブルゲートアレイ）を使用してもよい。いくつかの実施形態では、本明細書に記載のいずれかの方法を行うために、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働することができる。一般的には、これらの方法は、任意のハードウェア装置によって行われるのが好ましい。

上述の実施形態は、本発明の原理の例示に過ぎない。本明細書に記載の構成および詳細の改変および変更は、当業者には明らかであろうことが理解される。したがって、本明細書の実施形態の記述および説明によって提示される特定の詳細によって限定されるものではなく、間近の特許請求の範囲によって限定されるものである。

［文献］
［１］Ｌａｒｏｉａ，Ｒ．、Ｐｈａｍｄｏ，Ｎ．、Ｆａｒｖａｒｄｉｎ，Ｎ．著、「ＲｏｂｕｓｔａｎｄｅｆｆｉｃｉｅｎｔｑｕａｎｔｉｚａｔｉｏｎｏｆｓｐｅｅｃｈＬＳＰｐａｒａｍｅｔｅｒｓｕｓｉｎｇｓｔｒｕｃｔｕｒｅｄｖｅｃｔｏｒｑｕａｎｔｉｚｅｒｓ」、１９９１年音響・音声・信号処理に関する国際会議、１９９１．ＩＣＡＳＳＰ−９１、１９９１年４月１４日〜１７日、第１巻、ｐ．６４１−６４４

［２］Ｇａｒｄｎｅｒ，ＷｉｌｌｉａｍＲ．、Ｒａｏ，Ｂ．Ｄ．著、「Ｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓｏｆｔｈｅｈｉｇｈ−ｒａｔｅｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎｏｆＬＰＣｐａｒａｍｅｔｅｒｓ」ＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ、１９９５年９月、第３巻、第５号、ｐ．３６７−３８１

［３］電気通信標準化部門（ＩＴＵ−Ｔ）Ｇ．７１８勧告、「Ｆｒａｍｅｅｒｒｏｒｒｏｂｕｓｔｎａｒｒｏｗ−ｂａｎｄａｎｄｗｉｄｅｂａｎｄｅｍｂｅｄｄｅｄｖａｒｉａｂｌｅｂｉｔ−ｒａｔｅｃｏｄｉｎｇｏｆｓｐｅｅｃｈａｎｄａｕｄｉｏｆｒｏｍ８−３２ｋｂｉｔ／ｓ」、２００８年６月、セクション６．８．２．４、「ＩＳＦｗｅｉｇｈｔｉｎｇｆｕｎｃｔｉｏｎｆｏｒｆｒａｍｅ−ｅｎｄＩＳＦｑｕａｎｔｉｚａｔｉｏｎ」

Claims

オーディオ信号（１０２）を符号化するエンコーダ（１００）であって、前記エンコーダ（１００）は、
前記オーディオ信号（１０２）を分析して、前記オーディオ信号（１０２）から分析予測係数（１１２）を判定するように構成されたアナライザ（１００）と、
前記分析予測係数（１１２）から変換後の予測係数（１２２；１２２’）を導出するように構成されたコンバータ（１２０）と、
多数の補正値（１６２）を記憶するように構成されたメモリ（１６０）と、
計算器（１３０；１３０’）とを備え、前記計算器（１３０；１３０’）は、
スペクトル重み付け係数（１４２；１４２’）を取得するために、前記変換後の予測係数（１２２；１２２’）を処理するように構成されたプロセッサ（１４０；１４０’）と、
補正後の重み付け係数（１５２；１５２’）を取得するために、前記スペクトル重み付け係数（１４２；１４２’）と前記多数の補正値（１６２；ａ，ｂ，ｃ）とを結合するように構成された結合器（１５０；１５０’）と、
前記変換後の予測係数（１２２；１２２’）の量子化表現（１７２）を取得するために、前記補正後の重み付け係数（１５２；１５２’）を使用して前記変換後の予測係数（１２２；１２２’）を量子化するように構成された量子化器（１７０）とを備え、
前記エンコーダ（１００）は、
前記変換後の予測係数（１２２）の前記量子化表現（１７２）と、前記オーディオ信号（１０２）とに基づいて、出力信号（１８２）を形成するように構成されたビットストリーム形成器（１８０）を備える、エンコーダ。
前記結合器（１５０’）は、前記補正後の重み付け係数（１５２’）を取得するために、前記スペクトル重み付け係数（１４２；１４２’）と、前記多数の補正値（１６２；ａ，ｂ，ｃ）と、前記入力信号（１０２）に関連するさらなる情報（１１４）とを結合するように構成される、請求項１に記載のエンコーダ。
前記入力信号（１０２）に関連する前記さらなる情報（１１４）は、前記アナライザ（１１０）によって取得された反射係数を含むか、あるいは、前記オーディオ信号（１０２）のパワースペクトルに関連する情報を含む、請求項２に記載のエンコーダ。
前記アナライザ（１１０）は、線形予測係数（ＬＰＣ）を判定するように構成され、前記コンバータ（１２０）は、前記線形予測係数（ＬＰＣ）から線スペクトル周波数（ＬＳＦ；１２２’）またはイミタンススペクトル周波数（ＩＳＦ）を導出するように構成される、請求項１〜３のいずれか１項に記載のエンコーダ。
前記結合器（１５０；１５０’）は、前記補正後の重み付け係数（１５２；１５２’）を周期的に、１周期ごとに取得するように構成され、
前記計算器（１３０’）は、前回の周期に対して取得された第１の量子化後の重み付け係数（１５２’’’）と、前記前回の周期に続く周期に対して取得された第２の量子化後の重み付け係数（１５２’）とを重み付け結合して、前記第１（１５２’’’）および前記第２（１５２’）の量子化後の重み付け係数の値の間の値を含む、平滑化された補正後の重み付け係数（１５２’’）を取得するように構成された平滑器（１５５）をさらに備える、請求項１〜４のいずれか１項に記載のエンコーダ。
前記結合器（１５０；１５０’）は、以下の数式
（数１）
ｗ＝ａ＋ｂｘ＋ｃｘ^２
（式中、ｗは取得された補正後の重み付け係数を示し、ｘは前記スペクトル重み付け係数を示し、ａ、ｂおよびｃは補正値を示す）
に基づく多項式を適用するように構成される、請求項１〜５のいずれか１項に記載のエンコーダ。
前記多数の補正値（１６２；ａ，ｂ，ｃ）は、事前計算後の重み付け量（ＬＳＦ；１４２’’）から導出され、前記事前計算後の重み付け量（ＬＳＦ；１４２’’）を判定するための計算量は、前記スペクトル重み付け係数（１４２；１４２’）を判定するための計算量よりも多い、請求項１〜６のいずれか１項に記載のエンコーダ。
前記プロセッサ（１４０；１４０’）は、逆調和平均によって前記スペクトル重み付け係数（１４２；１４２’）を取得するように構成される、請求項１〜７のいずれか１項に記載のエンコーダ。
前記プロセッサ（１４０；１４０’）は、以下の数式

（式中、ｗ_ｉは添字ｉを含む判定された重み付け量を示し、ｌｓｆ_ｉは添字ｉを含む線スペクトル周波数を示し、前記添字ｉは、取得されたスペクトル重み付け係数（１４２；１４２’）の数に対応する）
に基づいて前記スペクトル重み付け係数（１４２；１４２’）を取得するように構成される、請求項１〜８のいずれか１項に記載のエンコーダ。
オーディオ伝送システム（６００）であって、
請求項１〜９のいずれか１項に記載のエンコーダ（１００）と、
前記エンコーダの前記出力信号（１８２）または導出された信号を受信し、かつ、合成後のオーディオ信号（１０２’）を供給するために前記受信信号（１８２）を復号化するように構成されたデコーダ（６０２）とを備え、
前記エンコーダ（１００）は、伝送媒体（６０４）にアクセスして、前記伝送媒体（６０４）を介して前記出力信号（１８２）を伝送するように構成される、オーディオ伝送システム。
各重み付け係数がオーディオ信号（１０２）の一部（ＬＳＦ；ＩＳＦ）を重み付けするのに適した第１の多数の（ＩＨＭ）第１重み付け係数（１４２；１４２’）に対する補正値（１６２；ａ，ｂ，ｃ）を判定する方法であって、前記方法（７００）は、
１組のオーディオ信号のオーディオ信号ごとに、第１判定ルールに基づいて前記第１の多数の（ＩＨＭ）第１重み付け係数（１４２；１４２’）を算出するステップと、
前記１組のオーディオ信号のオーディオ信号ごとに、第２判定ルールに基づいて第２の多数の第２重み付け係数（１４２’’）を算出するステップであって、前記第２の多数の重み付け係数（１４２’’）の各々は、第１重み付け係数（１４２；１４２’）に関連している、算出するステップと、
各距離値（ｄ_ｉ）が、前記オーディオ信号（１０２）の一部に関連する第１重み付け係数（１４２；１４２’）と第２重み付け係数（１４２’’）との間の距離に関連した値を有する、第３の多数の距離値（ｄ_ｉ）を算出するステップと、
前記第１重み付け係数（１４２；１４２’）と結合された場合に、前記距離値（ｄ_ｉ）を低減するのに適した第４の多数の補正値を算出するステップとを含む、方法。
前記第４の多数の補正値は、多項式フィッティングに基づいて判定され、
前記第１重み付け係数（１４２；１４２’）の値を、前記多項式の項を適合させるための少なくとも１つの変数を含む多項式（ｙ＝ａ＋ｂｘ＋ｃｘ^２）で乗算するステップと、
前記第３の多数の距離値（ｄ_ｉ）が以下の式

（式中、ｄ_ｉは、前記オーディオ信号のｉ番目の部分の距離値を示し、Ｐ_ｉは、以下の式

に基づく数式を含むベクトルを示し、ＥＩ_ｉは、以下の式

に基づく行列を示し、
Ｉ_ｘ，ｉは、前記オーディオ信号（１０２）のｘ番目の部分について前記第１判定ルール（ＩＨＭ）に基づいて判定されるｉ番目の重み付け係数（１４２；１４２’）を示す）に基づく閾値を下回る値を含むように、前記変数に対する値を算出するステップとを含む、請求項１１に記載の方法。
前記第３の多数の距離値（ｄ_ｉ）は、反射係数、または、以下の式

（式中、Ｉ_ｘ，ｉは、前記オーディオ信号（１０２）のｘ番目の部分について前記第１判定ルール（ＩＨＭ）に基づいて判定されるｉ番目の重み付け係数（１４２；１４２’）を示し、ｒ_ａ，ｂは、ｂ番目の重み付け係数（１４２；１４２’）と、前記オーディオ信号（１０２）のｘ番目の部分とに基づくさらなる情報（１１４）を示す）
に基づく、前記１組のオーディオ信号（１０２）のうち少なくとも一方のパワースペクトルに関連する情報を含む前記さらなる情報（１１４）に基づいて算出される、請求項１１または１２に記載の方法。
オーディオ信号を符号化する方法（８００）であって、前記方法は、
前記オーディオ信号（１０２）を分析（８０２）して、前記オーディオ信号（１０２）から分析予測係数（１１２）を判定するステップと、
前記分析予測係数（１１２）から変換後の予測係数（１２２；１２２’）を導出するステップ（８０４）と、
多数の補正値（１６２；ａ〜ｄ）を記憶するステップ（８０６）と、
補正後の重み付け係数（１５２；１５２’）を取得するために、前記変換後の予測係数（１２２；１２２’）と前記多数の補正値（１６２；ａ〜ｄ）とを結合するステップ（８０８）と、
前記変換後の予測係数（１２２；１２２’）の量子化表現（１７２）を取得するために、前記補正後の重み付け係数（１５２；１５２’）を使用して前記変換後の予測係数（１２２；１２２’）を量子化するステップ（８１２）と、
前記変換後の予測係数（１２２）の表現（１７２）と、前記オーディオ信号（１０２）とに基づいて、出力信号（１８２）を形成するステップ（８１４）とを含む、方法。
コンピュータ上で動作している場合に、請求項１１〜１４のいずれか１項に記載の方法を行うためのプログラムコードを有するコンピュータプログラム。