JP5172965B2

JP5172965B2 - 知覚モデルの適応的調整

Info

Publication number: JP5172965B2
Application number: JP2010530556A
Authority: JP
Inventors: ザヴァレヘイ，エスファンダイアー; ハーグリーヴス，デイヴィッド
Original assignee: ケンブリッジシリコンラジオリミテッド
Priority date: 2007-10-31
Filing date: 2008-09-09
Publication date: 2013-03-27
Anticipated expiration: 2028-09-09
Also published as: US8589155B2; EP2203916B1; US20130024201A1; EP2203916A1; JP2011501228A; US8326619B2; GB2454208A; GB0721376D0; WO2009056867A1; US20100204997A1

Description

知覚モデル（ｐｅｒｃｅｐｔｕａｌｍｏｄｅｌ）の適応的調整

音声ファイルを圧縮するのに利用可能な符号化方法がいくつかある。コンスタントビットレート（ＣＢＲ）符号化は、コーデックから一定レートの出力を提供する。すなわち、ＣＢＲエンコーダは、すべてのフレームについて同じフレームサイズを利用する。これは、音声ファイルが固定の帯域幅の媒体を介し（無線チャネルなどを介し）ストリーミングされる際、音声ファイルは利用可能な帯域幅に適合したビットレートにより符号化可能であるため、有用であるかもしれない。しかしながら、音声ストリームの性質が典型的には極めて非一様的なものであるとき、このようなＣＢＲ符号化技術は、複雑なパッセージのためのビット割当てに限定されながら、シンプルなパッセージに必要とされるビットより多く使用する。特定のフレームが複雑な音声を含む場合、エンコーダは、利用可能なビット数により符号化可能となるまで信号の品質を低下させる。

しかしながら、可変的ビットレート（ＶＢＲ）符号化は、何れかのパッセージの複雑さに応答して、複雑なパッセージにはより多くのビットを割当て、複雑でないパッセージにはより少ないビットを割り当てることができる。しかしながら、問題は、ＶＢＲ符号化されたファイルをストリーミングする際に生じうる。なぜなら、結果としてのビットレートが予測不可であり、受信機は限られたバッファしか有しないためである。

ＣＢＲとＶＢＲとの間の妥協案は、平均ビットレート符号化（ＡＢＲ）である。ＡＢＲでは、エンコーダは、規定された期間においてターゲットとなる平均ビットレートを維持しながら、何れかのフレームにおける信号の複雑さに応じてビットをフレームに割り当てる際のフレキシビリティを有する。これは、ＣＢＲより高い品質の信号をもたらすと共に、ＶＢＲより予測可能なビットレートを生じさせる。しかしながら、エンコーダは音声の何れの部分がより複雑であって、このためより多くのビットを必要とするか予め知っていないため、ある形式のビットレート調整が、ターゲットとなる平均ビットレートを達成することを確実にするために通常必要とされる。「後処理」と呼ばれるこのビットレート調整は、しばしばターゲットとなる平均ビットレートが達成されるまでにループの複数回の繰り返しを必要とし、これらの繰り返しの計算量が多いものであるかもしれない。

この概要は、以下の詳細な説明においてさらに説明される簡単化された形式によるコンセプトの選択を紹介するため与えられる。この概要は、請求された主題の主要な特徴又は不可欠な特徴を特定するためのものでなく、また請求される主題の範囲を決定するのに利用されるものでもない。

知覚モデル内の信号対マスク比パラメータが調整される知覚モデルを用いた信号符号化方法が説明される。信号対マスク比パラメータは、すでに符号化された信号の部分のビットレートと当該符号化処理のためのターゲットビットレートとの関数に基づき調整される。調整された信号対マスク比パラメータは、その後に信号を量子化するのに用いられる信号のマスキング閾値を計算するのに用いられる。

第１の態様は、信号を符号化する方法であって、前記信号を知覚モデルに入力するステップと、前記信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するステップと、前記マスキング閾値に基づき前記信号を量子化及び符号化するステップと、前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するステップとを有する方法を提供する。

本方法は、前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップをさらに有してもよい。前記信号は、フレームシーケンスに分割され、前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップは、前記信号対マスク比パラメータを調整するステップをＮ（Ｎは整数）フレーム毎に繰り返してもよい。

前記信号対マスク比パラメータは、前記符号化部分の平均ビットレートを計算し、前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整することによって調整されてもよい。

前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づくものであってもよい。前記符号化部分の一部は、Ｎ（Ｎは整数）フレームから構成されてもよい。

前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づくものであってもよい。前記調整パラメータは、測定されたビットレートの変化に基づき更新されてもよい。

前記信号対マスク比パラメータは、

を用いて調整されてもよく、Ｂ_Ｔは前記ターゲットビットレートであり、

は前記平均ビットレートであり、ｂ（ｎ）は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β（ｎ）は調整パラメータであり、αは所定のパラメータである。

前記調整パラメータは、

を用いて更新されてもよく、ΔＳＭＲは信号対マスク比パラメータの前の変化量であり、Δｂ（ｎ）は前記短期平均ビットレートの対応する結果としての変化量であり、Ｍはスムージングファクタである。

本方法はさらに、信号対マスク比パラメータ及び／又は調整ファクタの変化量を制限してもよい。

前記知覚モデルは、心理音響モデルからなり、前記信号は、音声信号からなるものであってもよい。

第２の態様は、図３乃至８何れか１つを参照して実質的に説明された符号化方法を提供する。

第３の態様は、信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するよう構成される知覚モデルと、前記マスキング閾値に基づき、前記信号を量子化及び符号化する手段と、前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整する手段とを有するエンコーダを提供する。

前記調整する手段は、前記符号化部分の平均ビットレートを計算し、前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するよう構成されてもよい。

前記調整する手段はさらに、

を計算することによって、前記信号対マスク比パラメータを調整するよう構成されてもよく、Ｂ_Ｔは前記ターゲットビットレートであり、

前記調整する手段はさらに、信号対マスク比パラメータ及び／又は調整パラメータの変化量を制限するよう構成されてもよい。

ここに記載される方法は、記憶媒体上のマシーン可読な形式によりファームウェア又はソフトウェアにより実行されてもよい。ソフトウェアは、方法の各ステップが何れか適切な順序又は同時に実行されるように、パラレルプロセッサ又はシリアルプロセッサ上の実行に適したものとすることができる。

第４の態様は、ここに記載された方法の何れかを実行するよう構成されたコンピュータプログラムを提供する。このコンピュータプログラムは、可読なマシーン可読媒体に格納されてもよい。

これは、ファームウェア及びソフトウェアが脆弱で別々に取引可能な商品としうることを認める。所望の機能を実行するため“ダム”又は標準的なハードウェアを実行又は制御するソフトウェアを含むことが意図される。また、所望の機能を実行するため、シリコンチップの設計又はユニバーサルプログラマブルチップの設定に用いられるようなＨＤＬ（ＨａｒｄｗａｒｅＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）などのハードウェアのコンフィグレーションを“記述”又は規定するソフトウェアを含むことが意図される。

好適な特徴は、当業者に明らかなように、適切な場合に合成され、本発明の各態様の何れかと組み合わされてもよい。

以下の図面を参照することによって、本発明の実施例が説明される。
図１は、知覚エンコーダの概略図を示す。図２は、一方がトーンをマスクするノイズを示し、他方がノイズをマスクするトーンを示す２つのグラフを示す。図３は、一例となる信号符号化方法のフロー図を示す。図４は、一例となる心理音響モデル調整方法のフロー図を示す。図５は、図４の方法ステップのより詳細なフロー図を示す。図６は、他の一例となる心理音響モデル調整方法のフロー図を示す。図７は、信号対マスクレシオの変化を制御する一例となる関数の図を示す。図８は、さらなる一例となる心理音響モデル調整方法のフロー図を示す。図面を通じて、同様の特徴を示すため、共通する参照番号が使用される。

本発明の実施例が、以下において例示される。これらの具体例は、達成可能な唯一の方法ではないが、出願人に現在知られている本発明を実践するための最良の方法を表す。本記載は、実施例の機能と、実施例を構成及び処理するためのステップシーケンスとを与える。しかしながら、同一の又は等価な機能及びシーケンスが異なる実施例により実現されてもよい。

図１は、心理音響モデルを利用して人間の聴覚に知覚できない信号部分を破棄するＭＰ３エンコーダなどの知覚エンコーダの概略図を示す。心理音響モデルの特徴は、少なくとも部分的には人間の耳の構造の結果である。心理音響モデルの利用は、エンコーダが知覚された信号の品質に影響を与えることなく高レベルの圧縮を実現することを可能にする。

図１は、一例となるＭＰ３エンコーダ内の機能要素を示し、より多くの又は少ない要素しか存在しないかもしれないことは理解されるであろう。さらに、これらの要素は、全体的な効果を失うことなく異なる方法により組み合わされてもよく、例えば、これらのすべてが単一のチップ内部で実現されてもよい。

図１に示されるような知覚エンコーダでは、入力は実質的に同時にフィルタバンク１０１と心理音響モデル１０２とを通過する。心理音響モデル１０２は、グローバルマスキング閾値を規定するパラメータを出力する。グローバルマスキング閾値は、可聴なアーチファクトを招くことなく許容される何れかのバンドにおける最大ノイズ量（符号化における量子化ノイズなど）を規定する。マスキング閾値の生成が以下において詳細に説明される。心理音響モデルにより出力されるマスキング閾値は、量子化されたサンプルを生成するため、（要素１０３において）ビット割当て及び量子化において利用される。これらの量子化されたサンプルは、その後にそれらがハフマンコードなどを用いて符号化されることによってフォーマット化されたビットストリームフォーマット化要素１０４に入力される。

ターゲットとなるビットレートを実現するため（特にＡＢＲにおいて）、後処理が求められてもよい。この後処理は、ターゲットとなるビットレートが実現されるまで、信号フレームの符号化を繰り返すことを伴う（例えば、量子化ステップサイズ及び／又はサブバンドのスケーリングファクタの調整などを介し）。これらの繰り返しは、プロセッサに負荷のかかるものである。一例では、後処理は、ネスト化されたループを伴い、例えば、フレームのハフマン符号化のためのビット要求が十分小さく（ターゲットビットレートなどにより規定される）なるまで量子化サイズを変化させるインナーループと、バンドの量子化ノイズがマスキング閾値を超える場合にスケーリングファクタを適用するアウターループなどである。これら２つのループが関連付けされるとき（すなわち、量子化サイズの変化が量子化ノイズと共にビットレートに影響を与える）、繰り返し処理は複雑である。

マスキング閾値は、「ちょうど知覚可能なノイズ（ｊｕｓｔｎｏｔｉｃｅａｂｌｅｎｏｉｓｅ）」のエネルギーに対する信号エネルギーの比を決定する信号対マスクレシオ（ＳＭＲ）パラメータを利用して、心理音響モデル１０２内で決定される。ＳＭＲは、音声が他の音声の存在により聴取不可となるという原理に基づき、これに影響を与えるファクタは、音声の周波数と音声の音量（又は音圧レベル（ＳＰＬ））を含む。音声の性質、すなわち、それがトーンかノイズかということはまた、音声のマスキング効果に影響を与える可能性があり、マスキング閾値の決定はまた（心理音響モデルによる）、潜在的なノイズマスカー及びトーンマスカーを特定するため、音声信号の解析を含む。図２を参照して、ノイズマスカー及びトーンマスカーであるＳＭＲが以下においてより詳細に説明される。

図２は、ノイズがトーンをマスクするシナリオ（グラフ２０１）とトーンがノイズをマスクするシナリオ（グラフ２０２）との２つのシナリオを示す。第１のシナリオでは、狭い帯域のノイズ２０３が、ノイズ２０３の強さ（ＳＰＬ）に関する閾値２０５をトーンが下回る同じクリティカルバンド内のトーン２０４をマスクし、ノイズの強さと閾値レベルとの間の差分がノイズマスキングトーン（ＮＭＴ）シナリオのＳＭＲとなる。第２のシナリオでは、トーン２０６は、ノイズの強さがトーン２０６の強さに関する閾値２０８以下である限り、サブクリティカル帯域幅のノイズ２０７をマスクする。トーンの強さと閾値レベルとの間の差分は、トーンマスキングノイズ（ＴＭＮ）シナリオのＳＭＲである。典型的には、ＳＭＲ（ＴＭＮ）はＳＭＴ（ＮＭＴ）よりかなり大きく、文献からの一例では、ＳＭＲ（ＴＭＮ）は約２４ｄＢであり、ＳＭＴ（ＮＭＴ）は約４ｄＢである。ＳＭＲ（ＴＭＮ）とＳＭＲ（ＮＭＴ）との間の固定的な関係が規定されてもよい。ＳＭＲの固定値が、各ターゲットビットレート（例えば、ＡＢＲ符号化のためのターゲットとなる平均ビットレートなど）の展開中に経験的に推定されてもよい。ＳＭＲパラメータは、同様にすべてのＢａｒｋバンドに影響を与える。

心理音響モデル内において、音声フレームが周波数ドメイン表現に変換された後、それは以下のように解析される。すべての潜在的なトーン／ノイズマスカーが決定され、各クリティカルバンドに対して、１つのマスカータイプ（トーン又はノイズ）が選択される。各マスカーのマスキング効果は、その後に近隣の周波数に拡散される。マスキング効果を拡散するのに利用される機能は、マスカーのタイプ（ノイズ／トーン）、エネルギー及び中心周波数に依存する。周波数ビンｉにおいて周波数ビンｊにおけるマスカーのマスキング効果を与える典型的な拡散関数は、

である。ただし、Ｔ（ｉ，ｊ）は、周波数ｊにおけるマスカーによる周波数ｉにおけるノイズ閾値（ｄＢ）であり、Ｐ（ｊ）は、周波数ｊにおけるマスカーのパワー（ｄＢ）であり、ｚ（ｊ）は、ｊのＢａｒｋ等価周波数であり、Ｋ及びＳＭＲはマスカータイプに応じた定数であり、Δ_ｚは、ｉとｊとの間の周波数差分（Ｂａｒｋによる）である。

マスカーの全てに対して拡散関数（ｄＢ）を取得して（式（１）などを用いて）、拡散関数は、グローバルマスキング閾値を取得するため、リニアドメインにおいて重複加算される。異なる周波数における音声に対する人間の耳の感度を表す絶対可聴閾値（ＡＴＨ）の効果がまた、グローバルマスキング閾値の計算に含まれる（例えば、各周波数ポイントにおけるＡＴＨと重複加算された拡散関数の最大値をとるなどによって）。

式（１）及び（２）における定数は、網羅的な心理音響実験を介して取得され、式（２）の定数値は異なる範囲におけるマスキング拡散関数の特徴を変化させうるが、式（１）のものはよりグローバル又は大域的なものである。具体的には、ＳＭＲパラメータは、より広範な効果を有し、マスキング閾値全体に適用される固定的なオフセットを決定する。

図１のエンコーダは、ビット割当量子化要素１０３による量子化に使用される実際のグローバルマスキング閾値を提供するものとして示される。しかしながら、知覚音声エンコーダに用いられる多くの心理音響モデルは、信号エネルギーとグローバルマスキング閾値との間の比を提供する。各サブバンドに対して取得されるこの値（すなわち、信号エネルギーとグローバルマスキング閾値との間の比）はまた、信号対マスク比（ＳＭＲ）として知られるが、この値は、式（１）に規定されるようにＳＭＲパラメータと混同されるべきでない。ここでの説明のため、ＳＭＲのすべての言及は、式（１）に規定されるようなＳＭＲパラメータを表す。ＳＭＲパラメータはまた、所望の知覚信号対ノイズ比（ＳＮＲ）として解釈されてもよい。

典型的には、音声エンコーダは、異なるターゲットビットレートに対して異なるＳＭＲ値を有するルックアップテーブルに基づく心理音響モデルにおいてＳＭＲパラメータ値を使用する。これらのルックアップテーブルは、文献において報告された値に基づくものであってもよい。しかしながら、このようなＳＭＲ値を利用した量子化レベルの決定は、かなり可変的なビットレートをもたらす。上述されるように、その後に平均ビットレートターゲットが所定数のフレーム（ファイル全体であってもよい）において満たされることを確実にするため、後処理が必要とされる。一部のエンコーダは、ビットレートプールを用いてフレーム間のビットレートの可変性を制限する。このようなエンコーダでは、各フレームは、あるパーセンテージのビットレートプールを使用することが許され、ターゲットビットレートを満たすように後処理が依然として必要とされる。

図３は、信号が知覚モデルに入力される（ブロック３０１）一例となる信号符号化方法のフロー図を示す。「知覚モデル（ｐｅｒｃｅｐｔｕａｌｍｏｄｅｌ）」という用語は、ここでは聴覚（知覚モデルが心理音響モデルである場合）、視覚又は他の何れかのタイプの知覚など、人間の知覚に関する情報を利用する任意のモデルを表すのに使用される。知覚モデルは、ＳＭＲを用いて信号を量子化及び符号化する（ブロック３０３）のに以降に使用されるマスキング閾値を生成する（ブロック３０２）。知覚モデル内のＳＭＲパラメータは、すでに符号化された信号部分のビットレートとターゲットビットレートとに基づき調整され（ブロック３０４）、このパラメータはＮフレーム毎に調整される（ただし、Ｎ≧１）。このようにモデルを調整することによって、初期的な符号化信号（繰り返し前）は、ターゲット（平均）ビットレートを生じさせる可能性が高くなり、必要とされる後処理量が低減される。

図３の方法はＳＭＲパラメータの調整（ブロック３０４）前に行われる量子化及び符号化（ブロック３０３）を示すが、これは単なる一例である。本方法のステップは、異なる順序により（ブロック３０４がブロック３０３に先行するなど）又は実質的に同時に実行されてもよい。

以下に説明される方法は、一例として音声信号と心理音響モデルとを利用する。ここに記載される方法は、何れかの信号及び知覚モデルに適用可能である。

図４は、心理音響モデルの一例となる調整方法のフロー図を示す。図４の方法によると、時刻ｔ_ｎまでの符号化信号の平均ビットレートが計算され（ブロック４０１）、その後にＳＭＲパラメータ値が、計算された短期及び／又は長期平均ビットレートとターゲットビットレートとに基づき、以降のフレームについて調整される（ブロック４０２）。ＳＭＲパラメータの調整は、平均値及びターゲット値の比較に基づくものであってもよいし（図５に示されるように）、又は異なるアルゴリズムが使用されてもよい（後述されるものなど）。当該処理は、各フレーム又はＮフレーム毎に繰り返されてもよい。一例では、１０フレーム毎に繰り返されてもよい（Ｎ＝１０）。より大きなＮの値を使用することによって、アルゴリズムはより安定的なものになるが、調整方法の感応度を低下させる。より小さなＮの値の使用は感応度を増加させるが、ＳＭＲパラメータがよりスムース化された信号でなく、ローカルマキシマ／ミニマにより調整される場合、不安定となる。

ＳＭＲパラメータは、短期及び／又は長期ビットレート及びターゲット値に基づき調整されてもよく、これらのビットレートの１以上の何れかの関数、例えば、ビットレートの１以上の平方の関数、ビットレートの１以上の対数などに基づき調整され、及び／又は符号化サンプル数などの他のパラメータの関数（繰り返し回数の増加に伴って増加する）に基づき調整されることを含む。ビットレートの関数は、一例では、ビットレート自体であってもよい。

図４の方法の第２ステップ（ブロック４０２）の一例となる実現形態が図５において詳細に示される。平均ビットレートがターゲットビットレートを超える場合（ブロック５０１において“Ｙｅｓ”）、ＳＭＲパラメータは低下し（ブロック５０２）、平均ビットレートがターゲットビットレート以下である場合（ブロック５０１において“Ｎｏ”）、ＳＭＲパラメータは増加する（ブロック５０３）。この例では、ＳＭＲパラメータは、ＳＭＲ（ＴＭＮ）又はＳＭＲ（ＮＭＴ）の何れかであってもよく、他方のパラメータは、これら２つの間の固定的な関係に従って計算されてもよい。

図４の方法の実現形態では、時間サンプルｎ（時刻ｔ_ｎにおける）までの信号の始めからの平均ビットレートが、

のように計算されてもよい（ブロック４０１において）。ただし、ｂ（ｉ）はフレームｉのビットレートである。他のαｎフレームの後の平均ビットレートがターゲットビットレートＢ_Ｔに等しい場合、次のαｎフレームの平均ビットレートｂ_Ａは、

に等しくなるべきである。

従って、瞬間的なビットレートｂ（ｎ）は、

だけ変化する。

そして、ＳＭＲの変化量は、

となる。ただし、β（ｎ）はＳＭＲの１ｄＢの変化から生じるビットレートの変化量の指標であり、ｋＢ．ｓ^−１．ｄＢ^−１により測定される。この結果、フレームｎ＋１の新たなＳＭＲは、

により与えられる。

β（ｎ）の値は、所定のパラメータであってもよく、固定値又はｎに応じた値であってもよい。いくつかの例では、β（ｎ）の値は、音楽のタイプ及び／又はターゲットビットレートに依存してもよい。一例では、β（ｎ）は１６０ｋｂｐｓにおける１０ｋｂｐｓ／ｄＢであってもよい。β（ｎ）の値は、後述されるように、調整されてもよい。

上記説明と式（５）〜（７）において、ｂ（ｎ）は上述されるような瞬間的なビットレートとして説明されるが、当該処理はフレーム毎に又はＮフレーム毎に繰り返されてもよい。Ｎフレーム毎に処理が繰り返される場合、ｂ（ｎ）はＮフレームにおいて平均化された短期の平均ビットレートであってもよい（例えば、Ｎ＝１０である１０フレームにおいて平均化された短期の平均ビットレートなど）。Ｎ＝１という制限では、短期の平均ビットレートは瞬間的なビットレートと同じである。

の値は、時間サンプルｎ（時刻ｔ_ｎにおける）までの信号の始まりからの平均ビットレートなど、長期の平均ビットレートとして説明されてもよい。

上記説明では、平均は通常の平均値として説明される。しかしながら、他の実施例では、異なる形態の平均値が使用されてもよい。例えば、

は、非可逆（又はスムース化された）平均、すなわち、経時的にスムース化された多数のフレームにおける平均であってもよい。

一実施例では、αの値は２に等しくてもよい。このパラメータは、ＳＭＲの調整が信号及びターゲットビットレートについてこれまで計算された平均ビットレートのミスマッチを訂正するための期間を設定する。このパラメータの値は、適応的調整によるＡＢＲ符号化のパフォーマンスが内部のビット蓄積を用いるより良好に実行するように選択されてもよい。この値は、固定的又は可変的であってもよく、またファイルサイズ及び／又はファイルの現在位置（すなわち、ｎの値）に基づき選択されてもよい。変数αの例では、この値は、

により与えられるものであってもよい。

このようなαの可変的値は、符号化処理の開始時におけるＳＭＲの大きな変動を回避し、それが最小値に達するまで時間と共に減少する（このケースでは、２に等しい）。

ＳＭＲの値を調整することによって、当該値は、文献からの固定値を用いるのでなく実際の信号の統計量に調整可能である。この調整により結果としてのビットレートがターゲットビットレートに近づくに従って、後処理の必要量（すなわち、繰り返し回数）は減少し、品質対ビットレートの妥協が、長期のソフト判定を用いて行われる。さらに、繰り返し回数が低下するに従って、この数はまたより予測可能になり、このことは信号の符号化のための妥当な予測可能処理時間を提供する。

本方法のさらなる変形では、β（ｎ）の値は、ＳＭＲの変化の結果としてのビットレートの測定される変化に基づき調整されてもよい。これは、パラメータβ（ｎ）がより正確になり、実際の信号の統計量に適応可能となる。このような方法が図６に示される。図４の方法と同様に、これまでの符号化信号の平均ビットレートが計算され（ブロック６０１）、以降のフレームのＳＭＲの値が、計算された平均ビットレート、ターゲットビットレート及び調整パラメータβ（ｎ）の比較に基づき調整される（ブロック６０２）。その後、調整パラメータの値β（ｎ）は、測定されるビットレートの変化に基づき更新される（ブロック６０３）。

一例となる実現形態では、

であり、ビットレート変化量Δｂ（ｎ）は測定値であり、ＳＭＲの直近の変化からの短期の平均ビットレートの変化量である。ΔＳＭＲは既知であり（上記式（６）などから）、Ｍはスムージングファクタである（一例では、Ｍ＝１０）。

上述した方法のさらなる変形では、ＳＭＲの変化は、信号におけるフレームｎの位置に応じて制御されてもよい。これは、

により与えられるＳＭＲの制御された変化量（ΔＳＭＲ’）を生じさせる。ただし、ΔＳＭＲは上記式（６）により決定され、ｆ（ｎ）はフレームの位置に応じた関数である。この関数の値は、信号の第１フレーム群について、

などのＳＭＲ値の変化がないように選択されてもよい。

他の例では、ｆ（ｎ）の値は徐々に変化し、図７において、ｎ＝５０において閾値を有し、その後にｆ（１０００）＝１まで増加する一例となる曲線が示される。関数ｆ（ｎ）の選択に応じて、これらの技術は組み合わせて使用されてもよいが、これはαの可変的値を用いたものと同様の効果を有するかもしれない（上述されるような）。

上述されるような（すなわち、関数ｆ（ｎ）を用いて）ＳＭＲの変化量を制御することに加えて又は代わりに、ＳＭＲの最大変化量は制限され、すなわち、ΔＳＭＲ（又は適切な場合にはΔＳＭＲ’）は最大許容値を有してもよい。ＳＭＲのステップ変化を制限することによって、沈黙のパッセージから発話／音楽へ移行する際に行われる過剰補償が低減される。

同様に、調整パラメータβ（ｎ）がまた調整される場合（図６などに示されるように）、調整パラメータの最大変化量Δβ（ｎ）は制限されてもよいし、及び／又は調整パラメータの変化はｎなどの所定のファクタに応じて制御されてもよい。

図６の方法を用いて取得される実験結果が、以下のテーブルに示される。これらは、４０個の音声ファイルにおける１６，４２０個のＭＰ３フレーム（４２９秒の音声）から取得された。

上記テーブルにおける平均繰り返し数は、ターゲットビットレートを実現するのに求められるサブバンドに対する平均繰り返し数である（例えば、量子化ステップサイズ又はスケーリングファクタなどを変更することによって）。１つのサブバンドが複数回繰り返される場合、各繰り返しはこの図に含まれる。

これらの結果では、フレーム毎のビットレートの変化は類似しているが、ファイル毎の変化はここに記載される適応的調整方法を用いることによって実質的に低減される。これは、各ファイルのビットレート全体が、適応的調整を使用しない場合と比較して、適応的調整が適用されるときには平均値にはるかに近くなるという結果を有している。これは特に、音声信号が限られたバッファを有する受信機への又は限られた帯域幅又はパワーの媒体を介した送信のため符号化されるときに重要であるかもしれない。なぜなら、システムは、大きく変動する平均ビットレートによる信号を受信することができないかもしれないためである。繰り返し回数はまた、約１０％だけ低下した。これは、ビットレートの調整はエンコーダの最も計算量を要する部分の１つであるためである。

上述された方法は、ＳＭＲパラメータの１つの値を表し、このパラメータはＳＭＲ（ＴＭＮ）又はＳＭＲ（ＮＭＴ）の何れかであってもよい。１つのＳＭＲパラメータ（ＳＭＲ（ＴＭＮ）など）が上述された方法の１つを用いて適応的に調整される場合、他方のＳＭＲパラメータ（本例では、ＳＭＲ（ＮＭＴ））の値は、２つのＳＭＲパラメータの間の適切な関係（２つの間の一定の差分など）を維持するため、対応する方法により調整されてもよい。

しかしながら、他の例では、これら２つのＳＭＲパラメータ（ＳＭＲ（ＴＭＮ）とＳＭＲ（ＮＭＴ））は、図８の一例となる方法に示され、以下に説明されるように、独立に調整されてもよい。この方法では、これまでの平均ビットレート

が計算され（ブロック８０１）、フレーム内のマスカーが主としてノイズマスカーであるか又は主としてトーンマスカーであるか決定するため、現在フレームｎが解析される（ブロック８０２）。マスカーが主としてトーンマスカーである場合（ブロック８０２において“Ｙｅｓ”）、ＳＭＲ（ＴＭＮ）の値は、上記式（６）又は（９）などを用いて調整され（ブロック８０３）、マスカーが主としてノイズマスカーである場合（ブロック８０２において“Ｎｏ”）、ＳＭＲ（ＮＭＴ）の値は、上記式（６）又は（９）などを用いて調整されてもよい（ブロック８０４）。

図８に示される方法の変形では、トーンマスカーとノイズマスカーとの間のハード判定でなく（ブロック８０２における）、トーンマスカーであるマスカーの比率γを決定するソフト判定が利用されてもよく、この比率が、

などのＳＭＲの結果となる変化を決定するのに利用される。ただし、ΔＳＭＲ（ＴＭＮ）とΔＳＭＲ（ＮＭＴ）の各値は、式（６）又は（９）などを用いて計算されてもよい。

比率γは、多数の異なる方法により計算されてもよく、１つのフレーム又は複数のフレーム（Ｎフレームなど）のデータに基づくものであってもよい。例えば、

であり、ｎ_ＴＭは過去のＮフレームの間のトーンマスカーの個数であり、ｎ_ＮＭは過去のＮフレームのノイズマスカーの個数である。他の変形では、マスカーの個数の決定は、Ｎ’フレームにおいて実行されてもよい。ただし、Ｎ’≠Ｎである。

上記説明は心理音響モデル内のＳＭＲパラメータの調整について言及したが、さらなる実施例では、モデル内の異なるパラメータが同様にして調整されてもよい。例えば、パラメータＫ（式（１）から）が、ＳＭＲパラメータの代わりに又は加えて調整されてもよい。

心理音響モデル（又は非音声アプリケーションに等価である）が上記式（１）に示されるものとは異なる拡散関数を利用するが、この拡散関数内のパラメータは、上述したものに対応して調整されてもよい。

上記説明は本方法がＡＢＲ符号化に有用であることを言及しているが、本方法はまた、ＣＢＲ符号化などの他の符号化技術に適用可能である。このような実施例では、フレームは心理音響モデルにより出力されるパラメータを用いてまず符号化され、フレームの特定のビットレートがターゲットビットレートと同じになることを確実にするため、後処理が利用されてもよい。心理音響モデル内のパラメータを調整する記載された本方法の使用は、ターゲットビットレートを満たすよう求められる後処理量を低減する。一例となる実現形態では、同じ式が使用されてもよいが（上述されるような）、短期及び長期のビットレートが、量子化の最初の繰り返しから得られるビットレートから取得されてもよい。すなわち、ビットレートは、心理音響モデルにより示唆されるビットレートである。ＡＢＲ以外の符号化技術（ＣＢＲなど）のためにこのような技術を使用することは、要求される繰り返し回数を減少させ、また計算要求を低減させる。

本方法は、音声信号の符号化に関して上述されたが、これは単なる一例であり、本方法はまた知覚モデルを利用する他の信号の符号化にも適用可能である。あるいは、音声信号又は心理音響モデルの言及は、任意の信号及び任意の知覚モデルに関する。映像信号について、心理音響モデルは、人間の耳及び人間の聴覚能力の生理機能でなく、人間の目及び人間の視覚能力の生理機能に基づく知覚モデルに置き換えられてもよい。上述されるように、ＳＭＲパラメータはまた所望の知覚ＳＮＲとして解釈されてもよい。

ここに与えられる何れかの範囲又は装置の値は、当業者に明らかなように、求められる効果を失うことなく拡張又は変更されてもよい。

上述される利益及び効果は、１以上の実施例に関するものであることが理解されるであろう。さらに、「ある」アイテムの参照はこれらのアイテムの１以上を意味することが理解されるであろう。

ここに記載される方法のステップは、何れか適切な順序又は適切な場合には同時に実行されてもよい。さらに、個々のブロックは、ここに記載された主題の趣旨及び範囲から逸脱することなく本方法の何れから削除されてもよい。上述された実施例の何れかの態様は、求められる効果を失うことなくさらなる実施例を形成するため、他の実施例の何れかの態様と組み合わされてもよい。

好適な実施例の上記説明は、単なる一例として与えられたものであって、各種変更が当業者により可能であることが理解されるであろう。

Claims

信号を符号化する方法であって、
前記信号を知覚モデルに入力するステップと、
前記信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するステップと、
前記マスキング閾値に基づき前記信号を量子化及び符号化するステップと、
前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するステップと、
を有する方法。
前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップをさらに有する、請求項１記載の方法。
前記信号は、フレームシーケンスに分割され、
前記信号対マスク比パラメータを調整するステップを定期的に繰り返すステップは、前記信号対マスク比パラメータを調整するステップをＮ（Ｎは整数）フレーム毎に繰り返す、請求項２記載の方法。
前記信号対マスク比パラメータを調整するステップは、
前記符号化部分の平均ビットレートを計算するステップと、
前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するステップと、
を有する、請求項１乃至３何れか一項記載の方法。
前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づく、請求項４記載の方法。
前記符号化部分の一部は、Ｎ（Ｎは整数）フレームから構成される、請求項５記載の方法。
前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づく、請求項４乃至６何れか一項記載の方法。
測定されたビットレートの変化に基づき、前記調整パラメータを更新するステップをさらに有する、請求項７記載の方法。
前記信号対マスク比パラメータを調整するステップは、

を計算することからなり、Ｂ_Ｔは前記ターゲットビットレートであり、

は前記平均ビットレートであり、ｂ（ｎ）は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β（ｎ）は調整パラメータであり、αは所定のパラメータである、請求項４乃至８何れか一項記載の方法。
前記調整パラメータは、

を用いて更新され、ΔＳＭＲは信号対マスク比パラメータの前の変化量であり、Δｂ（ｎ）は前記短期平均ビットレートの対応する結果としての変化量であり、Ｍはスムージングファクタである、請求項８又は９記載の方法。
前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき前記信号対マスク比パラメータを調整するステップはさらに、信号対マスク比パラメータの変化量を制限する、請求項１乃至１０何れか一項記載の方法。
前記知覚モデルは、心理音響モデルからなり、
前記信号は、音声信号からなる、請求項１乃至１１何れか一項記載の方法。
信号と信号対マスク比パラメータとに基づき、前記信号のマスキング閾値を生成するよう構成される知覚モデルと、
前記マスキング閾値に基づき、前記信号を量子化及び符号化する手段と、
前記信号の符号化部分のビットレートとターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整する手段と、
を有するエンコーダ。
前記調整する手段は、前記符号化部分の平均ビットレートを計算し、前記平均ビットレートと前記信号のターゲットビットレートとの関数に少なくとも基づき、前記信号対マスク比パラメータを調整するよう構成される、請求項１３記載のエンコーダ。
前記信号対マスク比パラメータの調整はさらに、前記符号化部分の一部に対して計算される短期平均ビットレートの関数に基づく、請求項１４記載のエンコーダ。
前記信号対マスク比パラメータの調整はさらに、調整パラメータに基づく、請求項１４又は１５記載のエンコーダ。
前記調整する手段はさらに、

を計算し、Ｂ_Ｔは前記ターゲットビットレートであり、

は前記平均ビットレートであり、ｂ（ｎ）は前記符号化部分の一部に対して計算される短期平均ビットレートであり、β（ｎ）は調整パラメータであり、αは所定のパラメータである、請求項１４乃至１６何れか一項記載のエンコーダ。
前記調整する手段はさらに、信号対マスク比パラメータの変化量を制限するよう構成される、請求項１３乃至１７何れか一項記載のエンコーダ。
前記知覚モデルは、心理音響モデルからなり、
前記信号は、音声信号からなる、請求項１３乃至１８何れか一項記載のエンコーダ。