JP5539992B2 - レート制御装置、レート制御方法及びレート制御プログラム - Google Patents

レート制御装置、レート制御方法及びレート制御プログラム Download PDF

Info

Publication number
JP5539992B2
JP5539992B2 JP2011527482A JP2011527482A JP5539992B2 JP 5539992 B2 JP5539992 B2 JP 5539992B2 JP 2011527482 A JP2011527482 A JP 2011527482A JP 2011527482 A JP2011527482 A JP 2011527482A JP 5539992 B2 JP5539992 B2 JP 5539992B2
Authority
JP
Japan
Prior art keywords
nmr
scale factor
rate
rate control
candidate value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011527482A
Other languages
English (en)
Other versions
JPWO2011021238A1 (ja
Inventor
庸介 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JPWO2011021238A1 publication Critical patent/JPWO2011021238A1/ja
Application granted granted Critical
Publication of JP5539992B2 publication Critical patent/JP5539992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Description

本発明は、ノイズ・エネルギーとビットレートを最適に制御するレート制御を行うレート制御装置、レート制御方法及びレート制御プログラムに関する。
従来、AAC(Advanced Audio Coding:アドバンスト・オーディオ・コーディング)などのオーディオ符号化におけるレート制御の目標は、オーディオ信号から取得した所定数のデータサンプル(以後、「オーディオ・サンプル」と呼ぶ)を、例えば、MDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)などにより時間周波数変換して得られる周波数スペクトルを、量子化ノイズ・エネルギーが聴覚心理モデルによって求められるマスク・エネルギーを超えないように、量子化することであった。同時に、符号量はある一定値、例えば平均ビットレートを超えないように制御する必要がある。AACでは、ビット・リザバと呼ばれる仕組みによって、ビットレートを短期的に変化させることで品質をできるだけ一定に保ちながら、長期的には一定のビットレートになるように制御することもできる。
聴覚心理モデルによって求められるマスク・エネルギーを量子化ノイズ・エネルギーが超えないという条件、さらに符号量を一定値以下に制御するという条件、という2つの矛盾する条件をどのようにして満たすべきか、あるいは破るべきか、ということが、オーディオ符号化におけるレート制御の課題である。標準化された「最適な」レート制御の方法は存在していない。一例として、AACの規格書のinformative partで説明される、従来用いられている2重ループを用いる方法について説明する。以下の説明ではオーディオ・コーデックをAACと仮定する。
AACの量子化は以下の手順で行われる。バンドごとの量子化の前に、振幅に応じてノイズ整形をするため、周波数スペクトルを非線形変換する。非線形変換した周波数スペクトルを、マスク効果の及ぶ範囲を模した、スケール・ファクタ・バンドに分割し、バンドごとに量子化を制御する。スケール・ファクタ・バンドの量子化は、スケール・ファクタと呼ばれる、約1.5dBステップで変化する量子化スケールによって制御される。スケール・ファクタそれら自身はDPCM(Differential Pulse Code Modulation:差分パルス符号変調)符号化される。各バンドの量子化値は一定の範囲([−8191,+8191])となるように制御し、エントロピー符号化する。量子化値の分布の統計的性質に応じて、あらかじめ定められたエントロピー符号化のテーブルの中から、最適なテーブルを選択することができる。すべての量子化値が0であるバンドについては、スケール・ファクタと量子化値のエントロピー符号を省略して、符号を節約することができる。
従来法では、内部ループと外部ループからなる2重ループを用いて、符号量が平均ビットレート以下になるようにスケール・ファクタを決定する。図16に、従来法の内部ループ(レート制御処理)を説明するフローチャートを、図17に、従来法の外部ループ(歪み制御処理)を説明するフローチャートを示す。
図16を参照して、従来法の内部ループについて説明する。
まず、各バンドごとに与えられたスケール・ファクタで符号量を計算する(S101)。次に、符号量が平均ビットレート以下か否かを判断する(S102)。符号量が平均ビットレートを上回ると判断された場合は、全てのバンドのスケール・ファクタを大きくし(S103)、処理はS101に戻る。符号量が平均ビットレート以下と判断された場合、処理を終了する。
図17を参照して、従来法の外部ループについて説明する。まず、スケール・ファクタを初期化する(S111)。例えば、スケール・ファクタを最小値、すなわち一番細かい量子化となるように初期化する。次に、内部ループを呼び出し(S112)、バンドごとにノイズ・エネルギーを算出する(S113)。具体的には、すべてのバンドについて、逆量子化したスペクトルを求めて、ノイズ・エネルギーを算出する。このように逆量子化してノイズを求める方法をAbS(Analysis−by−Synthesis:合成による分析)と呼ぶ。さらに、ノイズ・エネルギーが、聴覚心理分析によって求めたマスク・エネルギーより大きいバンドについて、スケール・ファクタを小さくして、量子化を細かくする(S114)。ノイズ・エネルギーとマスク・エネルギーとの比を、NMR(Noise−to−Mask Ratio)とすると、スケール・ファクタを小さくする条件はNMR>1となる。
すべてのバンドのスケール・ファクタを変化させたか否かを判断し(S115)、変化させていないと判断した場合は、どのバンドのスケール・ファクタも変化させてないか否かを判断する(S116)。ステップS116で、スケール・ファクタを変化させたバンドが存在すると判断すると、処理はステップS112に戻る。ステップS115で、すべてのバンドでスケール・ファクタを変化させた、あるいは、ステップS116でどのバンドのスケール・ファクタも変化させていない、と判断された場合は、スケール・ファクタを復元する(S117)。
この従来法には、ループが収束する保証がないという問題がある。さらに、例えループが収束する場合であっても、符号量が足りない場合などで、聴覚心理モデルによる要求を満たさなくても、可能な限りノイズが目立たないようにNMRを一定に保つ量子化を行う条件、すなわち最適解を見いだせない場合があった。そして、この従来法には、あらかじめ決められた符号量になるようにレート制御するのでビット・リザバを有効に使えないという課題もある。
本発明は、上述した従来技術に鑑みてなされ、NMRに基づいて、ビットレートを最適に制御するレート制御を行うレート制御装置、レート制御方法及びレート制御プログラムを提供することを目的とする。
本発明の第1の態様によると、入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、前記複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行う音声符号化装置において、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMR(Noise−to−Mask Ratio)に基づくレート制御を行うレート制御装置であって、目標レートを超えないNMRを2分探索によって決定するNMR決定部と、スケール・ファクタ・バンドごとに、前記NMR決定部によって決定したNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定部と、を含み、前記NMR決定部が、NMRを2分探索する際に候補となるNMR候補値を選定する都度、前記スケール・ファクタ決定部が前記NMR候補値に対するスケール・ファクタとレートを決定し、前記NMR決定部は、前記スケール・ファクタ決定部で決定したスケール・ファクタに基づいて算出した前記NMR候補値に対するレートと前記目標レートとの差分に基づいて目標レートを超えない最小のNMRを最適なNMRとして決定する、レート制御装置を提供する。このような構成により、本発明のレート制御装置は、目標レートを満たすと同時に、可能な限りNMRを一定にする、すなわち品質を一定に保つことができる。
また、本発明のレート制御装置において、前記NMR決定部は、NMR予測値と、該NMR予測値に対するレートに対して対応するレートが前記目標レートを挟むようにして選定したNMR候補値により確定される区間から2分探索を開始するようにしてもよい。また、前記スケール・ファクタ決定部は、スケール・ファクタ・バンドごとに、周波数スペクトルの量子化値の絶対値が既定された最大値を超えないスケール・ファクタのうち最小のスケール・ファクタを西のスケール・ファクタとし、周波数スペクトルの量子化値がすべてゼロになるスケール・ファクタのうち最小のスケール・ファクタを東のスケール・ファクタとして算出し、前記西のスケール・ファクタと前記東のスケール・ファクタとによって画定される区間から、前記NMR決定部が選定したNMR候補値に対応する最大のスケール・ファクタの2分探索を開始するようにしてもよい。このような構成によって、本発明のレート制御装置は、2分探索を行う区間を効果的に短縮することができる。
また、本発明のレート制御装置において、前記スケール・ファクタ決定部は、前記スケール・ファクタ決定部が算出した西のスケール・ファクタと東のスケール・ファクタに基づいてNMRの最小値と最大値を算出し、前記スケール・ファクタ決定部は、前記NMR候補値が最小のNMRを下回る場合は前記西のスケール・ファクタを前記NMR候補値に対するスケール・ファクタとして決定し、前記NMR候補値が最大のNMRを上回る場合は前記東のスケール・ファクタを前記NMR候補値に対するスケール・ファクタとして決定するようにしてもよい。
スケール・ファクタのNMRは量子化に伴うノイズ・エネルギーとマスク・エネルギーとの比として計算できる。スケール・ファクタのマスク・エネルギーは、それを超えない信号エネルギーを持つ信号がマスクされる、すなわち人間が聞いても識別できないようなエネルギーである。このような構成によって、本発明のレート制御装置は、例えば、人間の聴覚が識別できない音声信号にはビットを割り当てず、可聴領域の信号成分に適応的にビットを割り当てるように効率的な符号化ができる。
本発明のレート制御装置は、さらに、前記スケール・ファクタ決定部が実行する2分検索の過程を記憶する記憶部を備え、前記スケール・ファクタ決定部は、前記記憶部に記憶された2分検索の過程に基づいて2分検索を実行するようにしてもよい。
このような構成によって、本発明のレート制御装置は、スケール・ファクタ決定部が2分探索を実行する際、その過程を記憶部に保存しておくことで再計算を不要にし、効率的な処理を実現することができる。
また、本発明のレート制御装置において、前記目標レートは、所定の範囲で変動可能としてもよい。目標レートにある程度の幅を持たせれば、NMR決定部はまずNMRの予測値を用いて符号量を計算し、その符号量が目標レート内にあるとき2分探索せずにレート制御を終了してもよい。NMRの予測値として、例えば、前のフレームに用いたNMRを用いてもよい。このような構成によって、本発明のレート制御装置は、例えば、ビット・リザバの目標値、例えばビット・リザバの最大値の80%からのずれに応じて、次のフレームの符号量を増減させるようにNMRの予測値をフィードバック制御することもできる。短期的にレートを変動させることでNMR、あるいは信号の品質をできるだけ一定に保ちながら、長期的には一定のレートで符号化できる。
さらに、前記NMR決定部は、前記フレームが符号化されるごとに、NMRの予測値を更新するようにしてもよい。NMRの予測値を、例えば、フレームを符号化するごとにビット・リザバの目標値からの変動に応じて修正するようにしてもよい。ほぼ一定のNMRの予測値に基づいてスケール・ファクタを決定するので、品質をできるだけ一定に保ちながら、短期的なレート変動はビット・リザバで吸収し、長期的には一定のレートになるように制御できる。このようにビット・リザバを有効に活用することが可能となり、より適応的なレート制御が実現できる。
本発明の第2の態様によると、入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、前記複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行う音声符号化方法において、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMRに基づくレート制御を行うレート制御方法であって、目標レートを超えないNMRを2分探索によって決定するNMR決定ステップと、スケール・ファクタ・バンドごとに、前記NMR決定ステップで決定されたNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定ステップと、前記スケール・ファクタ決定ステップで決定されたスケール・ファクタに基づいて算出した前記NMR候補値に対するレートと前記目標レートとの差分を評価して、前記NMR候補値が目標レートを超えない最小のNMRであるか否かを判断する評価ステップと、を含み、前記NMR決定ステップで、NMRを2分探索する際に候補となるNMR候補値が選定される都度、前記スケール・ファクタ決定ステップで、前記NMRの候補値に対するスケール・ファクタが決定され、前記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRであると判断された場合は、前記NMR候補値を最適なNMRとして決定し、前記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRでないと判断された場合は、前記NMR決定ステップから前記評価ステップまでを反復する、レート制御方法を提供する。
このような構成によって、本発明のレート制御方法は、目標レートを満たすと同時に、できるだけNMRを一定にすなわち品質を一定にできる。
本発明の第3の態様によると、入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、前記複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行う音声符号化方法において、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMRに基づくレート制御を行うレート制御処理をコンピュータに実行させるレート制御プログラムであって、前記レート制御処理は、目標レートを超えないNMRを2分探索によって決定するNMR決定ステップと、スケール・ファクタ・バンドごとに、前記NMR決定ステップで決定されたNMRに対応する最大のスケール・ファクタとレートを2分探索によって決定するスケール・ファクタ決定ステップと、前記スケール・ファクタ決定ステップで決定されたスケール・ファクタに基づいて算出した前記NMR候補値に対するレートと前記目標レートとの差分を評価して、前記NMR候補値が目標レートを超えない最小のNMRであるか否かを判断する評価ステップと、を含み、前記NMR決定ステップで、NMRを2分探索する際に候補となるNMR候補値が選定される都度、前記スケール・ファクタ決定ステップで、前記NMRの候補値に対するスケール・ファクタが決定され、前記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRであると判断された場合は、前記NMR候補値を最適なNMRとして決定し、前記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRでないと判断された場合は、前記NMR決定ステップから前記評価ステップまでを反復するようになっており、前記NMR決定ステップと前記評価ステップとを外部ループとして、前記スケール・ファクタ決定ステップを内部ループとしてコンピュータに実行させる、レート制御プログラムを提供する。このような構成によって、本発明のレート制御プログラムは、目標レートを満たすと同時に、できるだけNMRを一定にすなわち品質を一定にするようにコンピュータにレート制御を実行させることができる。
信号エネルギー、ノイズ・エネルギーとマスク・エネルギーの関係の一例を示す図である。 レートとNMRの関係を示す図である。 スケール・ファクタとNMRの関係の一例を示す図である。 目標NMRに対応するスケール・ファクタを求めるための2分探索木の一例を示す図である。 スケール・ファクタ・バンドごとのNMRの範囲を示す図である。 本発明の一実施の形態のレート制御装置を含むオーディオ符号化装置の機能ブロック図である。 図6のレート制御装置の概略機能ブロック図である。 図6のレート制御装置が実行する処理を説明するフローチャートである。 レート制御装置15のNMR決定部1の機能を実行させる外部ループの流れを説明するフローチャートである。 レート制御装置15のスケール・ファクタ決定部2の機能を実行させる内部ループの流れを説明するフローチャートである。 レート制御装置15のスケール・ファクタ決定部2の機能を実行させる、図10Aに続く内部ループの流れを説明するフローチャートである。 外部ループの疑似コードを示す図である。 外部ループの第1段の擬似コードを示す図である。 外部ループの第2段の擬似コードを示す図である。 内部ループの擬似コードを示す図である。 スケール・ファクタを2分探索で求める擬似コードを示す図である。 従来のレート制御装置が実行する外部ループの処理を説明するフローチャートである。 従来のレート制御装置が実行する内部ループの処理を説明するフローチャートである。
以下、本発明の具体的な実施の形態について、図面を参照して詳細に説明する。
まず、本発明のレート制御の原理について説明する。
<本発明のレート制御の原理>
図1に信号エネルギー、ノイズ・エネルギーとマスク・エネルギーの関係の一例を示す。本明細書では特に断らない限りNMRとして、そのデシベル値NMRdBを用いる。NMRdBを以下のように定義する。
Figure 0005539992
図1に示すように、NMRが正の場合、ノイズはマスクされない。一方で、NMRが負の場合、ノイズはマスクされる。典型的なビットレートでは、聴覚心理モデルによる要求を完全に満たすことはまれであり、正のNMRでレート制御することが多い。
図2に、レートとNMRの関係を示す。図2に示すように、レート、すなわち符号量とNMRには負の相関があるが、必ずしも単調現象とはならない。レート、すなわち符号量もNMRも直接的に制御することはできず、スケール・ファクタを介して制御する。このため、2重のループを使ってレート制御を行ってもよい。
この外部ループでは目標レート(Target Rate)を超えない最小のNMRを探索する。
この探索は2段階からなる。第1の段階では、目標レートを飛び越えるまでより遠くのNMRの候補値を試す。図2の例ではNMRの候補値a、b、cを試して目標レートを挟むNMRの区間(b,c)を得ている。また、NMRの初期候補値aはNMRの予測値と等しくなるようにしてもよい。図2の例では予測値を0としている。目標レートを飛び越えるまで、NMRの候補値の間隔を徐々に増やしてもよい。NMRの予測値として、例えば、前のフレームを符号化する際に用いたNMRの値、又は前のフレームを符号化する際に用いたNMRに基づいて算出した値を用いてもよい。
第2の段階では、区間(b,c)から2分探索を実行し、新たな候補値d,eについてレートを求め、区間を狭めていき((b,c)→(d,c)→(d,e))、目標レートを超えない最小のNMRを見つける。
目標レートにはある程度の幅を持たせてもよい。目標最小符号量を、例えば、平均符号量の50%として、目標最大符号量を、例えば、平均符号量の200%として、符号量が目標最小符号量と目標最大符号量の範囲に収まるようにレート制御してもよい。目標最小符号量から目標最大符号量までの範囲の局所的な符号量、すなわちレートの変動は、ビット・リザバを使って吸収することができる。
また、NMRの予測値は、フレームを符号化するごとに更新してもよい。例えば、ビット・リザバの目標値、例えばビット・リザバの最大占有量の80%からのずれに応じて、次のフレームの符号量を増減させるようにNMRの予測値をフィードバック制御してもよい。以上のようにして、短期的にレートを変動させることでNMR、あるいは品質をできるだけ一定に保ちながら、長期的には一定のレートで符号化できる。このようなレート制御の方式をABRと呼ぶ。
図3に、スケール・ファクタ(SF:Scale Factor)とNMRの関係の一例を示す。図3に示すように、スケール・ファクタとNMRには正の相関があるが、必ずしも単調増加にはならない。ここで、あるバンドにおいて、周波数スペクトルの量子化値がすべて0になるスケール・ファクタのうち、最小のものを東(East)のスケール・ファクタ(東SF)と呼ぶ。図3においてE点がこれに相当する。このときNMRは最大になる。NMRは上述のAbSによって求めることができる。
また、あるバンドにおいて、量子化値の絶対値が規定された最大値(AACでは8191)を超えない最小のスケール・ファクタを西(West)のスケール・ファクタ(西SF)と呼ぶ。図3においてW点がこれに相当する。このときNMRは最小になる。各バンドについて、内部ループを実行する前に、あらかじめ東西のスケール・ファクタとNMRの最大値、最小値を求めることができる。
本実施の形態では、各バンドについて、2分探索を実行して目標NMRに対応するスケール・ファクタを求める。具体的には、目標NMRがそのバンドの最大NMRと最小NMRの間にあるときは、区間(W,E)から2分探索を実行し、与えられた目標NMRを超えない最大のスケール・ファクタを探索する。ただし、目標NMRがそのバンドの最大NMR以上の場合は、東のスケール・ファクタを用い、目標NMRが最小NMR以下の場合は、西のスケール・ファクタを用いる。図4に、目標NMRに対応するスケール・ファクタを求めるための2分探索木の一例を示す。
図3の例では、(W,E)→(a,E)→(b,E)→(b,c)の順で区間が狭められている。この2分探索の過程は、例えば、図4のような2分探索木として保存される。内部ループが再度実行されたとき、保存された2分探索木をたどることで、AbSによるNMRの再計算を省くことができる。外部ループでは、2分探索のため、似通った目標NMRによって内部ループを繰り返し実行する。このため、内部ループの2分探索の反復では、高い確率で保存された2分探索木をたどることが期待でき、再計算を省略する効果も大きくなる。
図5に、スケール・ファクタ・バンドごとのNMRの範囲を示す。図5において、縦軸はNMRを、横軸はSFB(Scale Factor Band:スケール・ファクタ・バンド)インデックスを表し、インデクスが大きいほどより高周波のスケール・ファクタ・バンドを表す。図5に示すように、一般にNMRの範囲はバンドごとに異なる。特に、高周波領域ではマスク・エネルギーが大きくなるため、NMRの最大値が0以下になることが多い。目標NMRが最大NMR以上又は最小NMR以下となるバンドでは、2分探索の必要はない。目標NMRが最大NMR以上となる場合、東のスケール・ファクタを用いて、すべての周波数スペクトルの量子化値を0とし、目標NMRがそのバンドの最大NMRを下回るような場合に初めてNMRの最小値、つまり西のスケール・ファクタにおけるNMRを計算するようにして、常に目標NMRがそのバンドの最大NMRを下回らないバンドでは、最小NMRの計算を省略してもよい。また、東西のスケール・ファクタは、そのバンドにおける周波数スペクトルの最大の絶対値から求めることができる。
<一実施の形態>
図6に本発明の一実施の形態のレート制御装置を制御部に含むオーディオ符号化装置の機能ブロック図を示す。
図6に示すように、オーディオ符号化装置10は、聴覚心理分析部11と、フィルタ・バンク12と、TNS(Temporal Noise Shaping:時間領域ノイズ整形)部13と、M/S(Middle/Side(ミドル/サイド))ステレオ部14と、本実施の形態のレート制御装置15と、量子化部16と、エントロピー符号化部17と、ビット・ストリーム生成部18を備える。オーディオ符号化装置10は、入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行い、符号化ビット・ストリームをビット・ストリーム生成部18から出力する。
音声信号は、聴覚心理分析部11とフィルタ・バンク12に入力される。聴覚心理分析部11は聴覚心理モデルに従って聴覚心理分析を行い、その結果に基づいて、フィルタ・バンク、TNS部13、M/Sステレオ部14などを含む符号化関連部と、制御部20などが動作する。
フィルタ・バンク12は、オーディオ・サンプルからなる時間信号に時間周波数変換を実行し、周波数スペクトルに変換する。周波数スペクトルは、さらにいくつかの符号化関連部(図示されていない)に入力される。これらの符号化関連部は、復号に必要な補助情報をビット・ストリーム生成部18に出力する。図6では、説明を容易にするため、AACで使用可能なTNS部13及びM/Sステレオ部14以外の符号化関連部は省略している。
こうして符号化関連部で処理された周波数スペクトルは、次に、量子化部16に入力される。量子化部16は周波数スペクトルを量子化し量子化スペクトルを生成し、エントロピー符号化部17に出力する。エントロピー符号化部17は量子化スペクトルをエントロピー符号化する。制御部20は、量子化部16とエントロピー符号化部17を制御して、レート制御を行う。具体的には、特に、レート制御装置15には、聴覚心理分析部11からスケール・ファクタ・バンドのマスク・エネルギーの情報が与えられる。さらに、後述する量子化部16からノイズ・エネルギーの情報が与えられる。レート制御装置15のスケール・ファクタ決定部2は、それぞれのスケール・ファクタ・バンドについて、AbSによって求めたノイズ・エネルギーと与えられたマスク・エネルギーとの比としてNMR(Noise−to−Mask Ratio)を算出する。さらに、算出したNMRを目標NMRと比較することで最適なスケール・ファクタを決定する。制御部20は、レート制御装置15から得られる最適なNMRに基づくスケール・ファクタとレートを用いて量子化部16とエントロピー符号化部17とを制御する。
レート制御が終了すると、エントロピー符号化部17はビット・ストリーム生成部18に補助情報と符号化データとを出力する。すべての補助情報と符号化データとをまとめて、ビット・ストリーム生成部は符号化した音声ビット・ストリーム(Coded Audio Bit Stream)として出力する。
図7に、本実施の形態のレート制御装置15の概略機能ブロック図を示す。レート制御装置15は、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMRに基づくレート制御を行うレート制御装置であって、目標レートを超えないNMRを2分探索によって決定するNMR決定部1と、スケール・ファクタ・バンドごとに、NMR決定部1によって決定したNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定部2と、を含み、NMR決定部1は、NMRを2分探索する際に候補となるNMR候補値を選定する都度、スケール・ファクタ決定部2がNMR候補値に対するスケール・ファクタを決定し、NMR決定部1は、スケール・ファクタ決定部で決定したスケール・ファクタに基づいて算出したNMR候補値に対するレートと目標レートとの差分に基づいて最小のNMRを最適なNMRとして決定するようになっている。
図8は、本実施の形態のレート制御装置15が実行するレート制御処理を説明するフローチャートである。以下の処理はレート制御装置15に含まれる、図示されないCPUやCPU関連プログラムの制御の下で実行される。
先ず、ステップS1で、NMR決定部1は2分探索によってNMR候補値を決定する。また、2分探索の第1段階の場合は、NMRの初期候補値として、例えば、前のフレームを符号化する際に用いたNMRを用いてもよい。
ステップS2で、スケール・ファクタ決定部2は、スケール・ファクタ・バンドごとに、NMR決定部1によって決定したNMR候補値に対応する最大のスケール・ファクタを2分探索によって決定する。本実施の形態では、スケール・ファクタ決定部2はさらに、決定したスケール・ファクタに対応するレートも算出する。ただし、本発明はこれに限定されず、スケール・ファクタ決定部2が決定したスケール・ファクタに対応するレートは、他のいかなる構成部が算出してもよいことは当業者であれば明らかである。
ステップS3で、NMR決定部1は、スケール・ファクタ決定部2で決定したスケール・ファクタに基づいて算出したNMR候補値に対するレートと目標レートとの差分を算出して比較する。
ステップS4で、NMR決定部1は、ステップS3で行った目標レートと算出したレートとの差分に基づいて最適なNMR候補値が見つかったか否かを判定する。具体的には、NMR決定部1は、NMRの2分探索の区間が十分に狭められたときに最適なNMRの候補値が見つかったと判断する。
ステップS4で最適なNMR候補値が見つかったと判断された場合は、ステップS5に進み、十分に狭められたNMRの2分探索の区間の東のNMRの候補値、すなわち、目標レートを超えない最小のNMRの候補値を最適なNMRとして出力する。一方で、ステップS4で、最適なNMRが見つかっていないと判断された場合、処理はステップS1に戻る。
このように、本実施のレート制御装置15は、目標レートを超えないNMRを2分探索によって決定するNMR決定部1と、スケール・ファクタ・バンドごとに、NMR決定部によって決定したNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定部2と、を含み、NMR決定部1が、NMRを2分探索する際に候補となるNMR候補値を選定する都度、スケール・ファクタ決定部2がNMR候補値に対するスケール・ファクタとレートを決定し、NMR決定部1は、スケール・ファクタ決定部2で決定したスケール・ファクタに基づいて算出したNMR候補値に対するレートと目標レートとの差分に基づいて最小のNMRを最適なNMRとして決定する。このような構成により、本実施のレート制御装置15は、目標レートを満たすと同時に、可能な限りNMRを一定にする、すなわち品質を一定に保つことができる。
ここで、NMR決定部1は、NMR予測値と、該NMR予測値に対して、対応するレートが目標レートを挟むようにして選定したNMR候補値により確定される区間から2分探索を開始する。また、スケール・ファクタ決定部2は、スケール・ファクタ・バンドごとに、NMRの範囲決定部が選定したNMR候補値に対して、周波数スペクトルの量子化値の絶対値が既定された最大値を超えないスケール・ファクタのうち最小のスケール・ファクタを西のスケール・ファクタとし、周波数スペクトルの量子化値がすべてゼロになるスケール・ファクタのうち最小のスケール・ファクタを東のスケール・ファクタとして算出し、西のスケール・ファクタと東のスケール・ファクタとによって画定される区間からNMRに対応する最大のスケール・ファクタの2分探索を開始する。このため、本実施の形態のレート制御装置15は、2分探索を行う区間を効果的に短縮することができる。
また、スケール・ファクタ決定部2は、スケール・ファクタ決定部が算出した西のスケール・ファクタと東のスケール・ファクタに基づいてNMRの最小値と最大値を算出し、スケール・ファクタ決定部2は、NMR候補値に対して算出したスケール・ファクタが西のスケール・ファクタを下回る場合は西のスケール・ファクタをNMR候補値に対するスケール・ファクタとして決定し、NMR候補値に対して算出したスケール・ファクタが東のスケール・ファクタを下回る場合は西のスケール・ファクタをNMR候補値に対するスケール・ファクタとして決定する。
さらに、レート制御装置15は、スケール・ファクタ決定部2が実行する2分検索の過程を記憶する記憶部3を備え、スケール・ファクタ決定部2は、記憶部3に記憶された2分検索の過程に基づいて2分検索を実行する。また、目標レートは、所定の範囲で変動可能としてもよい。目標レートにある程度の幅を持たせれば、NMR決定部2はまずNMRの予測値を用いて符号量を計算し、その符号量が目標レート内にあるときはこのNMRの予測値を最適なNMRとして決定して、2分探索せずにレート制御を終了してもよい。例えば、ビット・リザバの目標値、例えばビット・リザバの最大値の80%からのずれに応じて、次のフレームの符号量、すなわち、目標レートを増減させるようにNMR決定部をフィードバック制御することもできる。短期的にレートを変動させることでNMR、あるいは信号の品質をできるだけ一定に保ちながら、長期的には一定のレートで符号化できる。
さらに、NMR決定部1は、フレームが符号化されるごとに、NMRの予測値を更新するようにしてもよい。NMRの予測値を、例えば、フレームを符号化するごとにビット・リザバの目標値からの変動に応じて修正する。ほぼ一定のNMRの予測値に基づいてスケール・ファクタを決定するので、品質をできるだけ一定に保ちながら、短期的なレート変動はビット・リザバで吸収し、長期的には一定のレートになるように制御できる。このようにビット・リザバを有効に活用することが可能となり、より適応的なレート制御が実現できる。
なお、本発明のレート制御装置15は、CPUとメモリを含む、一般的なコンピュータを上述した各手段として機能させるレート制御プログラムによって実現させることができる。かかるレート制御プログラムは、通信回線を介して配布することも可能であるし、CD−ROMなどの記録媒体に書き込んで配布することも可能である。
本実施の形態では、CPUとメモリを含むコンピュータに、レート制御装置15のNMR決定部1の機能を外部ループとして、レート制御装置15のスケール・ファクタ決定部2の機能を内部ループとして実現させる場合を想定して説明を続ける。
図9は、CPUとメモリを含むコンピュータに、レート制御装置15のNMR決定部1の機能を実行させる外部ループの流れを説明するフローチャートである。以下の処理はメモリに含まれるプログラムに従って、CPUの制御の下で実行される。
まず、NMR予測値をNMR候補値とし(S11)、NNMR候補値について内部ループを実行し、NMR候補値のレートを取得する(S12)。NMR候補値のレートが目標レートより大きいか否かを判定し(S13)、NMR候補値のレートが目標レートを超えると判定すると、NMR候補値を西のNMRとし、NMR候補値を所定の値だけ増加させる(S14)。一方で、NMR候補値のレートが目標レートを超えないと判定すると、NMR候補値を東のNMRとし、NMR候補値を所定の値だけ減少させる(S15)。
続いて、東西のNMRが両方みつかったか否かを判定し(S16)、見つかっていないと判定した場合はステップS12に戻り、見つかったと判定した場合は、東西のNMRの差が十分に小さいか否かを判定する(S17)。東西のNMRの差が十分に小さいか否かは、例えば、東西のNMRの差を所定の値と比較して、所定の値を下回る場合は東西のNMRの差が十分に小さいと判定し、所定の値以上の場合は東西のNMRの差が十分に小さいくはないと判定する。東西のNMRの差が十分に小さいと判定した場合、東のNMRとレートを、それぞれ、最適なNMRとレートとし(S23)、処理を終了する。東西のNMRの差が十分に小さくはないと判定した場合は、東西のNMRの平均値を、NMR候補値とする(S18)。NMR候補値について内部ループを実行し、NMR候補値のレートを得る(S19)。NMR候補値のレートが目標レートを超えるか否かを判定し(S20)、NMR候補値のレートが目標レートを超える判定した場合は、NMR候補値を西のNMRとし(S21)、NMR候補値のレートが目標レートを超えないと判定した場合は、NMR候補値を東のNMRとする(S22)。次に、ステップS17に戻る。
図10A及び10Bは、CPUとメモリを含むコンピュータに、レート制御装置15のNMR決定部1の機能を実行させる外部ループの流れを説明するフローチャートである。
まず、最初のスケール・ファクタ・バンドを、処理対象のスケール・ファクタ・バンドとする(S31)。続いて処理対象のスケール・ファクタ・バンドに対応する東西のNMRとスケール・ファクタを、それぞれ、処理対象の東西のNMRとスケール・ファクタとする(S32)。処理対象のスケール・ファクタ・バンドの二分探索木のルートを、処理対象の二分探索木として用いる(S33)。
次に、東のNMRが目標NMR以下であるか否かを判定する(S34)。東のNMRが目標NMR以下であると判定した場合は、東のスケール・ファクタを、処理対象のスケール・ファクタ・バンドのスケール・ファクタとして用いて(S35)、処理はステップS48に進む。東のNMRが目標NMRを上回ると判定した場合は、西のNMRが目標NMR以上であるか否かを判定する(S36)。西のNMRが目標NMR以上であると判定した場合は、西のスケール・ファクタを、処理対象のスケール・ファクタ・バンドのスケール・ファクタとして用いて(S37)、処理はステップS48に進む。
次に、東西のスケール・ファクタの差が十分小さいか否かを判定し(S38)、東西のスケール・ファクタの差が十分小さいと判定した場合、処理はステップS47に進む。東西のスケール・ファクタの差が十分小さくはないと判定した場合は、東西のスケール・ファクタの平均値を、スケール・ファクタ候補値とする(S39)。東西のスケール・ファクタの差が十分に小さいか否かは、例えば、東西のスケール・ファクタの差を所定の値と比較して、所定の値を下回る場合は東西のスケール・ファクタの差が十分に小さいと判定し、所定の値以上の場合は東西のスケール・ファクタの差が十分に小さいくはないと判定する。
次に、二分探索木のルートに、スケール・ファクタ候補値に対応するノードが存在するか否かを判定し(S40)、二分探索木のルートに、スケール・ファクタ候補値に対応するノードが存在すると判定した場合、処理はステップS43に進む。二分探索木のルートに、スケール・ファクタ候補値に対応するノードが存在しないと判定した場合は、処理対象のスケール・ファクタ・バンドをスケール・ファクタ候補値で量子化したときの量子化スペクトルを求め、さらに、量子化スペクトルからAbSによってNMRを求める(S41)。さらに、求めた量子化スペクトルとNMRを含む、スケール・ファクタ候補値に対応するノードを、二分探索木のルートに追加する(S42)。スケール・ファクタ候補値に対応するノードから、スケール・ファクタ候補値のNMRを取り出す(S43)。
続いて、スケール・ファクタ候補値のNMRが目標NMRを超えるか否かを判定し(S44)、スケール・ファクタ候補値のNMRが目標NMRを超えると判定した場合は、スケール・ファクタ候補値を東のスケール・ファクタとし、二分探索木を西にたどり(S45)、処理はステップS38に進む。スケール・ファクタ候補値のNMRが目標NMRを越えていないと判定した場合は、スケール・ファクタ候補値を西のスケール・ファクタとし、二分探索木を東にたどり(S46)、処理はステップS38に進む。
ステップS38で東西のスケール・ファクタの差が十分小さいと判定した場合、西のスケール・ファクタを、処理対象のスケール・ファクタ・バンドのスケール・ファクタとして用いる(S47)。次のスケール・ファクタ・バンドが存在するか否かを判定し(S48)、次のスケール・ファクタ・バンドが存在すると判定した場合は、次のスケール・ファクタ・バンドを、処理対象のスケール・ファクタ・バンドとして(S49)、処理はステップS32に戻る。一方で次のスケール・ファクタ・バンドが存在しないと判定した場合は、求めたスケール・ファクタの組み合わせにおけるレートを計算する(S50)。
図11に、CPUとメモリを含むコンピュータにMNR決定部1の機能を実行させる外部ループの流れを説明する擬似コードを示す。
外部ループでは、NMRを変化させて、処理対象のフレームのレートが目標レート以下になるようにレート制御を行う。以下では特に断らない限り、NMRとしてデシベル値を用い、NMRを変化させる最小単位をΔNMRで表すものとする(例えばΔNMR=0.3dB)。量子化したNMRをiとすると、対応するNMRの値は逆量子化iΔNMRで求められる。
関数outer_loop()は、量子化NMRの初期値(予測値)と目標レートの組を引数に受け取る。まず、outer_loop_first()が2分探索を行う区間、すなわち、東西の量子化NMRとそれらに対応するレートを決定する。NMRmaxとNMRminは、それぞれ、処理対象のフレームがとりうる最大と最小のNMRを表し、
Figure 0005539992

Figure 0005539992
は、それぞれ、そのフレームがとりうる最大と最小の量子化NMRを表す。
Figure 0005539992
2分探索の区間が決定されると、次に、outer_loop_second()が2分探索を実行し、最適な量子化NMRとそのときのレートの組を返す。目標レートがそのフレームのとりうるレートの範囲にない場合、2分探索の区間が決定できない。最大レートが目標レートを下回る場合、すなわち西の点が決定できない場合、最大レートとなる東の点を最適値として返す。最小レートが目標レートを上回る場合、すなわち東の点が決定できない場合、すべてのスペクトルとその他の補助情報を省略することを示す、特別な量子化NMRΙと、そのときの符号量の組を返す。
量子化NMRがΙ以上のとき、レートはフレームの内容によらずある一定の値(これをレートの下限と呼ぶ)以下となるので、目標レートを常に下限以上にすることでレート制御が成功すること(目標レート以下にレート制御できること)を保証できる。
図12に、外部ループの第1段階の流れを説明する擬似コードを示す。関数outer_loop_first()は、順に、量子化NMRの初期値、目標レート、量子化NMRの最大値、量子化NMRの最小値を引数にとる。outer_loop_first()は、初期値から初めて、量子化NMRを徐々に変化させて、目標レートを挟む区間を探す。探索を終えると、西と東の量子化NMRとレートを返す。関数inner_loop()は与えられた量子化NMRにおけるレートを計算する。量子化NMRの変化量kは、目標レートと実際のレートのずれによって決まる値に初期化され、一定の割合(例えば1.5倍)で増加する。定数DBRはレート1ビットあたりのNMRの変化量、又はNMRの変化量の近似値を表す。例えば、1サンプルあたりの符号量を1ビット増加させると6dBのNMRの改善が得られると仮定すると、1024サンプルのデータを含むフレームについて、DBR=6/1024となる。
図13に、外部ループの第2段階の流れを説明する擬似コードを示す。関数outer_loop_second()は、2分探索の区間(西と東の量子化NMRとレート)と目標レートを引数にとる。目標レートを上回らない最小の量子化NMR(これを最適化された量子化NMRと呼ぶ)を2分探索によって見つけ、最適化された量子化NMRとそのときのレートの組を返す。具体的には、NMRの2分探索の範囲が十分に狭められたとき、すなわち、東西の量子化NMRの差が1になったとき、西の量子化NMRと西のレートの組を返す。
図14に、CPUとメモリを含むコンピュータにスケール・ファクタ決定部2の機能を実行させる内部ループの流れを説明する擬似コードを示す。関数inner_loop()は(目標)量子化NMRを引数にとる。量子化NMRがΙ以上であれば、関数simulate_zero()によって計算されたレートを返す。関数simulate_zero()は、すべてのスペクトルとその他の補助情報を省略したときのレートを計算する。量子化NMRがΙより小さければ、以下のようにレートを求める。まず、スケール・ファクタ・バンドごとに、与えられたNMRを上回らない最大のスケール・ファクタを、関数allocate_noise()によって見つける。次に、allocate_noise()によって求めたスケール・ファクタの組み合わせについて、レートを関数simulate()によって計算する。ROOTはj番目のバンドの2分探索木のルートノードを表し、&ROOTはそのノードへのポインタを表す。SFBはj番目のバンドのスペクトルなどのデータを表す。SF westとSF eastは、それぞれ、j番目のバンドの西と東のスケール・ファクタを表す。NMR westとNMR eastは、それぞれ、j番目のバンドの西と東のNMRを表す。関数simulate_zero()とsimulate()については擬似コードを省略する。なお、常に目標NMRがそのバンドの最大NMRを下回らないようなバンドでは、最小NMRを計算する必要はない。
図15に、スケール・ファクタを2分探索で求める流れを説明する擬似コードを示す。関数allocate_noise()は、順に、2分探索木のルートノードへのポインタ、スケール・ファクタ・バンドのデータ、西のスケール・ファクタ、東のスケール・ファクタ、西のNMR、東のNMR、目標NMRを引数にとる。引数ttにはルートノードへのポインタが渡されるので、ttに対する変更が呼び出し元に反映される。
関数allocate_noise()は、目標NMRが東と西のNMRの間に存在しなければ、東か西のスケール・ファクタどちらか目標NMRに近いものを返す。目標NMRが東西の間にあれば、2分探索でスケール・ファクタを見つける。ルートノードを含む2分探索木のノードには、最初は、メモリが割り当てられておらず、探索の過程で、新たなノードをたどったときにメモリが割り当てられる。t=φが真ならメモリが割り当てられていない。ノードtはt≠φのとき、少なくとも、そのノードにおけるNMR t:nmr、西の子ノードt:nodewestと東の子ノードt:nodeeastにアクセスできる。
関数new_node()は、スケール・ファクタ・バンドsfbをスケール・ファクタsfで量子化したときのNMRを持つノードを返す(子ノードにはどちらもφを設定する)。AACではスケール・ファクタsfに対応する量子化ステップはq=2sf/4で表される。これは約1.5dBで量子化を制御できることを意味する。ノードに量子化されたスペクトルをさらに含めることによって、レート制御後の符号生成において量子化を繰り返さないようにして計算を省いてもよい。関数new_node()の擬似コードは省略する。
以上説明したように、本実施の形態のレート制御装置は、目標レートを超えない最小のNMRを2分探索によって決定するNMR決定部と、NMR決定部によって決定したNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定部と、を含み、NMR決定部は、NMRを2分探索する際に候補となるNMR候補値を選定する都度、スケール・ファクタ決定部がNMR候補値に対するスケール・ファクタを決定し、NMR決定部は、スケール・ファクタ決定部で決定したスケール・ファクタに基づいて算出したNMR候補値に対するレートと目標レートとの差分に基づいて最小のNMRを決定するため、本実施の形態のレート制御装置は、目標レートと同時にNMRの要件、すなわち品質の要件を満たすことができる。目標レートを下回るNMRを2分探索で求め、こうして求めたNMRに基づいてスケール・ファクタを決定するので、ある程度の幅のレートの変動に対しても対応することができ、ビット・リザバを有効に活用することができる。
以上、本発明について様々な実施の形態を、図面を参照して詳述してきたが、具体的な構成はこれらの実施の形態に限られるものではない。本発明の目的を実現可能な範囲における様々な変形、改良などは本発明の範囲に含まれる。例えば、上述の実施の形態では、AACに従って符号化を行う音声符号化装置の場合について説明したが、本発明はAACに従った符号化方式に限定されず、ノイズ・エネルギーとマスク・エネルギーとに基づくレート制御に適用可能である
1 NMR決定部
2 スケール・ファクタ決定部
3 記憶部
10 オーディオ符号化装置(音声符号化装置)
11 聴覚心理分析部
12 フィルタ・バンク
13 TNS部
14 M/Sステレオ部
15 レート制御装置
16 量子化部
17 エントロピー符号化部
18 ビット・ストリーム生成部
20 制御部

Claims (10)

  1. 入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、前記複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行う音声符号化装置において、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMRに基づくレート制御を行うレート制御装置であって、
    目標レートを超えないNMRを2分探索によって決定するNMR決定部と、
    スケール・ファクタ・バンドごとに、前記NMR決定部によって決定したNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定部と、
    を含み、
    前記NMR決定部が、NMRを2分探索する際に候補となるNMR候補値を選定する都度、前記スケール・ファクタ決定部が前記NMR候補値に対するスケール・ファクタとレートを決定し、
    前記NMR決定部は、前記スケール・ファクタ決定部で決定したスケール・ファクタに基づいて算出した前記NMR候補値に対するレートと前記目標レートとの差分に基づいて目標レートを超えない最小のNMRを最適なNMRとして決定する、前記レート制御装置。
  2. 前記NMR決定部は、
    NMR予測値と、該NMR予測値に対するレートに対して対応するレートが前記目標レートを挟むようにして選定したNMR候補値により確定される区間から、2分探索を開始する、請求項1記載のレート制御装置。
  3. 前記スケール・ファクタ決定部は、
    スケール・ファクタ・バンドごとに、周波数スペクトルの量子化値の絶対値が既定された最大値を超えないスケール・ファクタのうち最小のスケール・ファクタを西のスケール・ファクタとし、周波数スペクトルの量子化値がすべてゼロになるスケール・ファクタのうち最小のスケール・ファクタを東のスケール・ファクタとして算出し、前記西のスケール・ファクタと前記東のスケール・ファクタとによって画定される区間から、前記NMR決定部が選定したNMR候補値に対応する最大のスケール・ファクタの2分探索を開始する、請求項1記載のレート制御装置。
  4. 前記スケール・ファクタ決定部は、前記スケール・ファクタ決定部が算出した西のスケール・ファクタと東のスケール・ファクタに基づいてNMRの最小値と最大値を算出し、
    前記スケール・ファクタ決定部は、
    前記NMR候補値が最小のNMRを下回る場合は前記西のスケール・ファクタを前記NMR候補値に対するスケール・ファクタとして決定し、
    前記NMR候補値が最大のNMRを上回る場合は前記東のスケール・ファクタを前記NMR候補値に対するスケール・ファクタとして決定する、請求項3記載のレート制御装置。
  5. さらに、前記スケール・ファクタ決定部が実行する2分検索の過程を記憶する記憶部を備え、
    前記スケール・ファクタ決定部は、前記記憶部に記憶された2分検索の過程に基づいて2分検索を実行する、請求項1記載のレート制御装置。
  6. 前記目標レートは、所定の範囲で変動可能である、請求項1記載のレート制御装置。
  7. 前記NMR決定部は、NMR予測値に基づいて算出したレートが前記所定の範囲の中にある場合、前記NMRを最適なNMRとして決定する、請求項6記載のレート制御装置。
  8. 前記NMR決定部は、前記フレームが符号化されるごとに、NMRの予測値を更新する、請求項1記載のレート制御装置。
  9. 入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、前記複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行う音声符号化方法において、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMRに基づくレート制御を行うレート制御方法であって、
    目標レートを超えないNMRを2分探索によって決定するNMR決定ステップと、
    スケール・ファクタ・バンドごとに、前記NMR決定ステップで決定されたNMRに対応する最大のスケール・ファクタを2分探索によって決定するスケール・ファクタ決定ステップであって、NMRを2分探索する際に候補となるNMR候補値が前記NMR決定ステップで選定される都度、前記NMR候補値に対するスケール・ファクタを決定するスケール・ファクタ決定ステップと、
    前記スケール・ファクタ決定ステップで決定されたスケール・ファクタに基づいて算出した前記NMR候補値に対するレートと前記目標レートとの差分を評価して、前記NMR候補値が目標レートを超えない最小のNMRであるか否かを判断する評価ステップと、
    を含み
    記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRであると判断された場合は、前記NMR候補値を最適なNMRとして決定し、
    前記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRでないと判断された場合は、前記NMR決定ステップから前記評価ステップまでを反復する、前記レート制御方法。
  10. 入力信号から生成したフレームを複数のスケール・ファクタ・バンドに分割し、前記複数のスケール・ファクタ・バンドの各々をスケール・ファクタを用いて符号化を行う音声符号化方法において、ノイズ・エネルギーと所定の聴覚心理モデルに基づくマスク・エネルギーとの比であるNMRに基づくレート制御を行うレート制御処理をコンピュータに実行させるレート制御プログラムであって、
    前記レート制御処理は、
    目標レートを超えないNMRを2分探索によって決定するNMR決定ステップと、
    スケール・ファクタ・バンドごとに、前記NMR決定ステップで決定されたNMRに対応する最大のスケール・ファクタとレートを2分探索によって決定するスケール・ファクタ決定ステップであって、NMRを2分探索する際に候補となるNMR候補値が前記NMR決定ステップで選定される都度、前記NMR候補値に対するスケール・ファクタを決定するスケール・ファクタ決定ステップと、
    前記スケール・ファクタ決定ステップで決定されたスケール・ファクタに基づいて算出した前記NMR候補値に対するレートと前記目標レートとの差分を評価して、前記NMR候補値が目標レートを超えない最小のNMRであるか否かを判断する評価ステップと、
    を含み
    記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRであると判断された場合は、前記NMR候補値を最適なNMRとして決定し、
    前記評価ステップで前記NMR候補値が目標レートを超えない最小のNMRでないと判断された場合は、前記NMR決定ステップから前記評価ステップまでを反復するようになっており、
    前記NMR決定ステップと前記評価ステップとを外部ループとして、前記スケール・ファクタ決定ステップを内部ループとしてコンピュータに実行させる、レート制御プログラム。
JP2011527482A 2009-08-20 2009-08-20 レート制御装置、レート制御方法及びレート制御プログラム Active JP5539992B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/003966 WO2011021238A1 (ja) 2009-08-20 2009-08-20 レート制御装置、レート制御方法及びレート制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2011021238A1 JPWO2011021238A1 (ja) 2013-01-17
JP5539992B2 true JP5539992B2 (ja) 2014-07-02

Family

ID=43606709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011527482A Active JP5539992B2 (ja) 2009-08-20 2009-08-20 レート制御装置、レート制御方法及びレート制御プログラム

Country Status (3)

Country Link
US (1) US9159330B2 (ja)
JP (1) JP5539992B2 (ja)
WO (1) WO2011021238A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5985850B2 (ja) * 2012-03-27 2016-09-06 ラピスセミコンダクタ株式会社 基準電圧調整部を含む半導体集積装置及び基準電圧調整方法
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JPH07210195A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 高品質ディジタル・オーディオの効率的な圧縮のための方法および装置
JPH10136362A (ja) * 1996-10-29 1998-05-22 Sony Corp データ圧縮装置およびディジタルビデオ信号処理装置
JPH10207489A (ja) * 1997-01-22 1998-08-07 Sharp Corp デジタルデータの符号化方法
JP2000501846A (ja) * 1995-12-01 2000-02-15 デジタル・シアター・システムズ・インコーポレーテッド 心理音響学的アダプティブ・ビット割り当てを用いたマルチ・チャネル予測サブバンド・コーダ
JP2004172770A (ja) * 2002-11-18 2004-06-17 Tokai Univ 量子化ステップパラメータ決定装置と量子化ステップパラメータ決定方法と量子化ステップパラメータ決定プログラム、ならびに非線形量子化方法と非線形量子化装置と非線形量子化プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
SG120118A1 (en) * 2003-09-15 2006-03-28 St Microelectronics Asia A device and process for encoding audio data
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JPH07210195A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 高品質ディジタル・オーディオの効率的な圧縮のための方法および装置
JP2000501846A (ja) * 1995-12-01 2000-02-15 デジタル・シアター・システムズ・インコーポレーテッド 心理音響学的アダプティブ・ビット割り当てを用いたマルチ・チャネル予測サブバンド・コーダ
JPH10136362A (ja) * 1996-10-29 1998-05-22 Sony Corp データ圧縮装置およびディジタルビデオ信号処理装置
JPH10207489A (ja) * 1997-01-22 1998-08-07 Sharp Corp デジタルデータの符号化方法
JP2004172770A (ja) * 2002-11-18 2004-06-17 Tokai Univ 量子化ステップパラメータ決定装置と量子化ステップパラメータ決定方法と量子化ステップパラメータ決定プログラム、ならびに非線形量子化方法と非線形量子化装置と非線形量子化プログラム

Also Published As

Publication number Publication date
WO2011021238A1 (ja) 2011-02-24
JPWO2011021238A1 (ja) 2013-01-17
US20120263312A1 (en) 2012-10-18
US9159330B2 (en) 2015-10-13

Similar Documents

Publication Publication Date Title
RU2696292C2 (ru) Аудиокодер и декодер
JP5474088B2 (ja) スケーラブルエンコーダでのノイズ変換を伴う音声デジタル信号の符号化
KR101190875B1 (ko) 차원 벡터 및 가변 분해능 양자화
KR101175651B1 (ko) 다중 압축 부호화 방법 및 장치
JP6452759B2 (ja) 先進量子化器
CN101057275B (zh) 矢量变换装置以及矢量变换方法
KR101693280B1 (ko) 오디오 데이터 처리 방법, 장치 및 시스템
JP3636094B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP5539992B2 (ja) レート制御装置、レート制御方法及びレート制御プログラム
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
WO2011045926A1 (ja) 符号化装置、復号装置およびこれらの方法
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP5451603B2 (ja) デジタルオーディオ信号の符号化
JP2005345707A (ja) 音声処理装置及び音声符号化方法
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
RU2793725C2 (ru) Аудиокодер и декодер
EP2526546A1 (en) Method and device for determining a number of bits for encoding an audio signal
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JP4626261B2 (ja) 音声符号化装置及び音声符号化方法
JP2002311993A (ja) オーディオ符号化装置
Krasner et al. Efficient Encoding and Decoding of Speech.
SECTOR et al. ITU-Tg. 711.0
JPH03243996A (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5539992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140501

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250