JP2016206244A

JP2016206244A - 符号化装置、符号化方法、及びプログラム

Info

Publication number: JP2016206244A
Application number: JP2015083660A
Authority: JP
Inventors: 周作伊藤; Shusaku Ito; 洋平岸; Yohei Kishi; 舞子平原; Maiko Hirahara; 土永　義照; Yoshiteru Tsuchinaga; 義照土永; 美由紀白川; Miyuki Shirakawa; 祥吾中村; Shogo Nakamura; 晃釜野; Akira Kamano; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-04-15
Filing date: 2015-04-15
Publication date: 2016-12-08
Anticipated expiration: 2035-04-15
Also published as: JP6492915B2

Abstract

【課題】聴覚特性に基づくマスキング閾値を用いてオーディオ信号を符号化する際の音質の劣化を抑制する。
【解決手段】オーディオ信号を周波数スペクトルに変換し、当該周波数スペクトルの量子化及び符号化を行う符号化装置１は、周波数スペクトルに基づいて量子化する際の初期マスキング閾値を生成するマスキング閾値生成部１４と、周波数スペクトルの量子化に使用可能なビット量に基づいて初期マスキング閾値を補正するマスキング閾値補正部１８と、補正されたマスキング閾値と初期マスキング閾値との概形の類似度が基準値以下の場合に、周波数スペクトルの帯域毎に量子化による欠落を許容するか否かを設定し、マスキング閾値補正部１８に初期マスキング閾値を再度補正させる再補正制御部２０と、を備える。
【選択図】図１

Description

本発明は、符号化装置、符号化方法、及びプログラムに関する。

オーディオ信号や音声信号（以下、まとめて「オーディオ信号」という）の符号化方式には、Advanced Audio Cording（ＡＡＣ）方式等、人間の聴覚特性を利用して情報量を低減する方式がある。この種の符号化方式では、オーディオ信号を少ないビット数で量子化した場合に増える量子化誤差を所定のマスキング閾値以下に抑えることで、知覚できる雑音を増やすことなく符号化に必要なビット数（すなわち情報量）を低減する。

マスキング閾値の理想的な値は、人間が知覚することのできない量子化誤差量の上限値である。そのため、マスキング閾値は、聴覚心理モデルに基づいて算出している。以下、聴覚心理モデルに基づいて算出した理想的なマスキング閾値を初期マスキング閾値という。

ところが、低ビットレート条件（例えば６４ｋｂｐｓ以下）での符号化においては、使用可能なビット数が少ないため、量子化誤差を初期マスキング閾値以下に抑えられない場合が多い。量子化誤差を初期マスキング閾値以下に抑えられない場合、ビットレート条件に基づいて初期マスキング閾値を補正する。（例えば、非特許文献１を参照。）。

また、低ビットレート条件での符号化において限られた量のビットを効率よく利用する方法として、オーディオ信号に応じて各帯域へのビット数の割り当てを固定又は可変に適応的に切り替える方法が知られている（例えば、特許文献１を参照）。

特開２０００−１５１４１３号公報

"3GPP TS 26.403 V9.0.0"，[online]，3GPP，平成27年3月8日検索，インターネット〈URL: http://www.arib.or.jp/IMT-2000/V900Jul11/5_Appendix/Rel9/26/26403-900.pdf〉

マスキング閾値の補正方法は、量子化により帯域が欠落することを許容する条件で行う方法と、帯域の欠落を許容しない条件で行う方法とに大別される。

帯域の欠落を許容する条件でマスキング閾値を補正した場合、補正量が多くなると、人間が知覚可能な音を含む帯域が量子化により欠落してしまうことがある。量子化（符号化）により知覚可能な音を含む帯域が欠落すると、符号化されたオーディオ信号を再生（復号化）したときに再生音を聴く人に違和感を与える。そのため、欠落する帯域が増えると音質の劣化につながる。

一方、帯域の欠落を許容しない条件でマスキング閾値を補正する場合、各帯域のマスキング閾値に上限値を設定して行う。そのため、補正量が上限値に達して更なる補正をできない帯域が生じた場合、その帯域の補正量を増やせない（言い換えると割り当てるビット数を減らせない）分、他の帯域の補正量を増やすこととなる。したがって、初期マスキング閾値と上限値との差が大きい帯域のマスキング閾値が過度に補正され、当該帯域の符号化に割り当てるビットが少なくなってしまう。初期マスキング閾値と上限値との差が大きい帯域は、音質的に重要な帯域である。すなわち、帯域の欠落を許容しない条件でマスキング閾値を補正した場合、音質的に重要な帯域に割り当てるビット数が少なくなり、音質の劣化につながる。

一つの側面において、本発明は、聴覚特性に基づくマスキング閾値を用いてオーディオ信号を符号化する際の音質の劣化を抑制することを目的とする。

本発明の１つの態様である符号化装置は、オーディオ信号を周波数スペクトルに変換し、当該周波数スペクトルの量子化及び符号化を行う符号化装置において、閾値生成部と、閾値補正部と、再補正制御部と、を備える。前記閾値生成部は、前記周波数スペクトルに基づいて量子化する際の初期マスキング閾値を生成する。前記閾値補正部は、前記周波数スペクトルの量子化に使用可能なビット量に基づいて前記初期マスキング閾値を補正する。前記再補正制御部は、前記閾値補正部で補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合に、前記周波数スペクトルの帯域毎に欠落を許容するか否かを設定し、前記閾値補正部に前記初期マスキング閾値を再度補正させる。

上述の態様によれば、聴覚特性に基づくマスキング閾値を用いてオーディオ信号を符号化する際の音質の劣化を抑制することができる。

本発明の第１の実施形態に係る符号化装置の構成例を示すブロック図である。第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その１）である。第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その２）である。第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その３）である。第１の実施形態における欠落許容帯域設定処理の内容を示すフローチャートである。周波数スペクトル及び初期マスキング閾値の一例を示すグラフである。１回目の補正で得られたマスキング閾値と初期マスキング閾値との関係を説明するグラフである。２回目の補正で得られたマスキング閾値と１回目の補正で得られたマスキング閾値との関係を説明するグラフである。３回目の補正で得られたマスキング閾値と２回目の補正で得られたマスキング閾値との関係を説明するグラフである。符号化装置として用いるコンピュータのハードウェア構成例を示す模式図である。第１の実施形態に係るマスキング閾値の補正処理の変形例を示すフローチャートである。本発明の第２の実施形態に係るマスキング閾値の補正処理を示すフローチャートである。第２の実施形態における欠落許容帯域設定処理の内容を示すフローチャートである。欠落を許容する帯域の割合の決定方法を説明するグラフである。本発明の第３の実施形態に係る欠落許容帯域設定処理の内容を示すフローチャートである。欠落を許容する帯域の割合の決定方法を説明するグラフである。

［第１の実施形態］
図１は、本発明の第１の実施形態に係る符号化装置の構成例を示すブロック図である。

図１に示すように、本実施形態の符号化装置１は、ブロック切替部１０、ＭＤＣＴ処理部１２、マスキング閾値生成部１４、聴覚特性算出部１６、マスキング閾値補正部１８、再補正制御部２０、量子化部２２、符号化部２４、及び多重化部２６を備える。

ブロック切替部１０は、入力信号（オーディオ信号）の特性に基づいて、入力信号に対しModified Discrete Cosine Transform（ＭＤＣＴ）処理を行う際のブロック長を切り替える。ＡＡＣ方式での符号化においては、長ブロック（１０２４点）又は短ブロック（１２８点）にブロック長を切り替える。

ＭＤＣＴ処理部１２は、入力信号に対し長ブロック又は短ブロックに応じた窓長のＭＤＣＴ処理を行い、入力信号を周波数スペクトルに変換する。ＡＡＣ方式での符号化においては、ブロック長が長ブロックであれば窓長２０４８のＭＤＣＴ処理を行い、短ブロックであれば窓長２５６のＭＤＣＴ処理を行う。

マスキング閾値生成部１４は、入力信号に対して聴覚心理分析を行い、当該入力信号から得た周波数スペクトルの量子化において最適なマスキング閾値（初期マスキング閾値）sfbThr₀を生成する。初期マスキング閾値sfbThr₀は、周波数スペクトルにおけるスケールファクタバンドsfb（以下「帯域sfb」ともいう）毎に生成する。また、マスキング閾値生成部１４は、周波数スペクトルの各帯域sfbにおける電力値（入力パワー）mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)とに基づいて、符号化対象の帯域sfbを決定する。更に、マスキング閾値生成部１４は、符号化対象の帯域sfbを決定した後、初期マスキング閾値を用いた量子化が可能か否か、言い換えるとマスキング閾値を補正する必要があるか否かを判断する。

聴覚特性算出部１６は、マスキング閾値の補正に必要な聴覚特性を算出する。本実施形態の聴覚特性算出部１６は、聴覚特性として、各帯域sfbの信号対マスク比（Signal Mask Ratio；ＳＭＲ）を算出する。

マスキング閾値補正部１８は、聴覚特性（信号対マスク比）及び各帯域sfbに設定されたマスキング閾値の上限値に基づいて、マスキング閾値を補正する。なお、本実施形態におけるマスキング閾値補正部１８は、一組の初期マスキング閾値に対する補正が１回目の場合、補正を行う前に、全ての帯域sfbのマスキング閾値の上限値を、量子化による欠落を許容しないことを表す値に設定する。また、後述するように、一組の初期マスキング閾値に対する補正が２回目以降の場合、マスキング閾値補正部１８は、いくつかの帯域の欠落を許容する条件下で補正を行う。

再補正制御部２０は、補正されたマスキング閾値の採否を判定し、採用しない場合にはマスキング閾値補正部１８にマスキング閾値の補正を再度行わせる。マスキング閾値の補正を再度行わせる場合、再補正制御部２０は、量子化による欠落を許容する帯域を設定する。この再補正制御部２０は、採否判定部２０ａ、欠落許容帯域設定部２０ｂ、及び記憶部２０ｃを有する。

採否判定部２０ａは、補正されたマスキング閾値の採否を判定する。本実施形態では、補正後のマスキング閾値と初期マスキング閾値との概形の類似度に基づいて、マスキング閾値の採否を判定する。概形の類似度には、補正後のマスキング閾値sfbThr(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値を用いる。

欠落許容帯域設定部２０ｂは、採否判定部２０ａにおいて不採用と判定した場合に、欠落を許容する帯域を設定する。本実施形態では、マスキング閾値の上限値が欠落を許容しない値に設定された帯域のうち重要度が最も低い帯域の欠落を許容する。帯域の重要度には信号対マスク比（ＳＭＲ）を用い、信号対マスク比が大きいほど重要度が高い帯域とする。

記憶部２０ｃには、マスキング閾値を補正しなおす際に必要な情報を記憶させる。本実施形態では、符号化対象の各帯域sfbについての初期マスキング閾値sfbThr₀(sfb)、信号対マスク比、マスキング閾値の上限値、及び重要度を含む情報を記憶させる。

量子化部２２は、初期マスキング閾値及び補正されたマスキング閾値のいずれかを用いて、周波数スペクトルにおける符号化対象の帯域を量子化する。

符号化部２４は、周波数スペクトルを量子化して得られた値を符号化する。ＡＡＣ方式での符号化の場合、符号化部２４は量子化して得られた値をハフマン符号化する。

多重化部２６は、符号化されたオーディオ信号を多重化して符号化ストリームを生成する。

次に、本実施形態に係る符号化装置１における符号化処理について説明する。
図２Ａは、第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その１）である。図２Ｂは、第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その２）である。図２Ｃは、第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その３）である。

本実施形態の符号化装置１は、入力信号（オーディオ信号）におけるフレーム等の符号化単位のデータのそれぞれに対し、図２Ａ〜図２Ｃに示すような符号化処理を行う。

符号化装置１は、図２Ａに示すように、まず、１フレーム分の入力信号を周波数スペクトルに変換し、各帯域sfbの電力値mdct_pow(sfb)を算出する（ステップＳ１０）。ステップＳ１０の処理は、ブロック切替部１０及びＭＤＣＴ処理部１２が行う。

ブロック切替部１０は、ＭＤＣＴ処理のブロック長を長ブロック及び短ブロックのいずれにするかを選択して切り替える。ブロック長は、既知の選択方法、例えば入力信号の電力変動比と予測利得変動比とに基づいて選択する。

また、ＭＤＣＴ処理部１２は、ブロック切替部１０で選択したブロック長に応じた窓長のＭＤＣＴ処理を行い、入力信号を周波数スペクトルに変換する。ＭＤＣＴ処理部１２は、例えば、下記式（１）により入力信号ｘinを周波数スペクトル mdct(k) に変換する。

式（１）におけるＮは、ＭＤＣＴ処理の窓長である。ＡＡＣ方式での符号化の場合、ブロック長が長ブロックであれば窓長Ｎを２０４８とし、短ブロックであれば窓長Ｎを２５６としてＭＤＣＴ処理を行う。

また、ＭＤＣＴ処理部１２は、得られた周波数スペクトルに基づき、各帯域（スケールファクターバンド sfb）の電力値mdct_pow(sfb)を算出する。電力値mdct_pow(sfb)は、例えば、下記式（２）により算出する。

なお、オーディオ信号の周波数スペクトルへの変換は、式（１）を用いた変換に限らず、既知の変換方法のいずれかを用いて行えばよい。同様に、周波数スペクトルの各帯域sfbの電力値mdct_pow(sfb)は、式（２）に限らず、既知の算出方法のいずれかを用いて算出すればよい。

符号化装置１は、次に、周波数スペクトルを量子化する際の初期マスキング閾値sbfThr₀(sfb)を生成する（ステップＳ１２）。ステップＳ１２の処理は、マスキング閾値生成部１４が行う。

マスキング閾値生成部１４は、入力信号に対して聴覚心理分析を行い、帯域sfb毎に初期マスキング閾値sfbThr₀(sfb)を求める。初期マスキング閾値sfbThr₀(sfb)は、各帯域sfbにおける最小可聴レベルやマスキング効果等に基づき、既知の算出方法のいずれかを用いて算出する。

また、マスキング閾値生成部１４は、初期マスキング閾値sfbThr₀(sfb)を生成すると、次に、初期マスキング閾値sfbThr₀(sfb)と周波数スペクトルの電力値mdct_pow(sfb)とに基づいて符号化対象の帯域を決定する（ステップＳ１４）。ステップＳ１４の処理において、マスキング閾値生成部１４は、周波数スペクトルの全帯域のうち、sfbThr₀(sfb)＜mdct_pow(sfb)である帯域のみを符号化対象とする。

符号化対象の帯域を決定した後、マスキング閾値生成部１４は、マスキング閾値を補正するか否かを判定するため、初期ＰＥ値及び目標ＰＥ値を算出する（ステップＳ１６）。本実施形態では、初期ＰＥ値が目標ＰＥ値より大きいか否かにより、マスキング閾値を補正するか否かを判定する（ステップＳ１８）。

ここで、ＰＥ値とは、音響パラメータの１つである知覚エントロピー（Perceptual Entropy）の値であり、符号化の難しさを表す。初期ＰＥ値は、符号化対象の帯域における電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)とに基づいて算出されるＰＥ値である。また、目標ＰＥ値は、符号化に使用可能なビット数に基づいて算出されるＰＥ値である。初期ＰＥ値及び目標ＰＥ値は、既知の算出方法のいずれか（例えば、非特許文献１に記載された算出方法）を用いて算出する。

知覚エントロピーの値は、上記のように量子化に必要なビット数と関係があり、目標ＰＥ値に対して初期ＰＥ値が大きい場合、初期マスキング閾値を用いた量子化で使用するビット量がビットレートに応じて与えられるビット数を超えると判断できる。一方、初期ＰＥ値が目標ＰＥ値以下である場合、初期マスキング閾値を用いた量子化で使用するビット量がビットレートに応じて与えられるビット数内に収まると判断できる。よって、初期ＰＥ値と目標ＰＥ値との大小関係に基づいて初期マスキング閾値を用いた量子化が可能であるか否か、すなわちマスキング閾値を補正する必要があるか否かを判断できる。

初期ＰＥ値が目標ＰＥ値以下の場合（ステップＳ１８；Ｎｏ）、マスキング閾値生成部１４は、マスキング閾値を補正しないと判定し、量子化部２２に初期マスキング閾値sfbThr₀(sfb)を渡す。この場合、符号化装置１は、図２Ｃに示すように、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３２）。ステップＳ３２の量子化は、量子化部２２が行う。量子化部２２は、既知の量子化方法のいずれかを用いて周波数スペクトルを量子化する。

一方、初期ＰＥ値が目標ＰＥ値より大きい場合（ステップＳ１８；Ｙｅｓ）、マスキング閾値生成部１４は、マスキング閾値を補正すると判定し、初期マスキング閾値sfbThr₀(sfb)及び目標ＰＥ値を、聴覚特性算出部１６及び採否判定部２０ａに渡す。この場合、符号化装置１は、図２Ｂに示したステップＳ２０〜Ｓ３０のようなマスキング閾値の補正処理を行う。

マスキング閾値を補正する場合、符号化装置１は、次に、周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。ステップＳ２０の処理は、聴覚特性算出部１６が行う。

聴覚特性算出部１６は、各帯域sfbにおける信号対マスク比（ＳＭＲ）、すなわち各帯域における電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)との差分値を算出する。信号対マスク比を算出すると、聴覚特性算出部１６は、初期マスキング閾値sfbThr₀(sfb)、目標ＰＥ値、及び信号対マスク比をマスキング閾値補正部１８に渡すとともに、信号対マスク比を再補正制御部２０の記憶部２０ｃに記憶させる。

次に、符号化装置１は、欠落防止処理及びマスキング閾値の補正処理を行う。欠落防止処理及びマスキング閾値の補正処理は、マスキング閾値補正部１８が行う。

欠落防止処理は、補正により得たマスキング閾値を用いて周波数スペクトルを量子化した際に帯域が欠落することを防止する処理である。マスキング閾値補正部１８は、欠落防止処理として、各帯域sfbにおける補正後のマスキング閾値sfbThr(sfb)の上限値を、欠落を許容しない値に設定する処理を行う（ステップＳ２２）。量子化した際の帯域の欠落を防止するには、補正後のマスキング閾値sfbThr(sfb)が電力値mdct_pow(sfb)よりも大きくならないようにすればよい。よって、ステップＳ２２では、補正後のマスキング閾値sfbThr(sfb)の上限値を、電力値mdct_pow(sfb)よりもわずかに小さな値に設定する。

マスキング閾値補正部１８は、次に、聴覚特性及びマスキング閾値の上限値、並びにビットレートに基づいてマスキング閾値を補正する（ステップＳ２４）。ステップＳ２４では、例えば、下記式（３）を用い、電力値mdct_pow(sfb)と補正後のマスキング閾値sfbThr(sfb)とに基づいて算出されるＰＥ値が目標ＰＥ値になるようマスキング閾値を補正する。

式（３）において、ｒは補正パラメータである（非特許文献１を参照）。

ステップＳ２４における１回目のマスキング閾値の補正は、補正後のマスキング閾値を用いて周波数スペクトルを量子化した場合に欠落する帯域がない条件下で行っている。このように欠落する帯域がない条件下でマスキング閾値を補正した場合、補正後のマスキング閾値の概形が初期マスキング閾値の概形から大きくずれてしまい、音質が劣化する恐れがある。そこで、本実施形態の符号化装置１では、補正前後のマスキング閾値の概形の類似度と予め定めた基準値とを比較して、補正後のマスキング閾値を採用するか否かを判定する。そして、概形の類似度が基準値以下の場合、直前の補正処理により補正されたマスキング閾値を採用せず、マスキング閾値の補正を再度行う。補正後のマスキング閾値sfbThr(sfb)の採否の判定等は、再補正制御部２０が行う。

マスキング閾値補正部１８は、マスキング閾値を補正した後、得られたマスキング閾値sfbThr(sfb)を再補正制御部２０の採否判定部２０ａに渡すとともに、マスキング閾値の上限値を記憶部２０ｃに記憶させる。すると、採否判定部２０ａは、補正後のマスキング閾値sfbThr(sfb)の採否を判定するため、初期マスキング閾値sfbThr₀(sfb)と補正後のマスキング閾値sfbThr(sfb)との相互相関値correを算出する（ステップＳ２６）。補正後のマスキング閾値sfbThr(sfb)の採否は、算出した相互相関値correが予め定めた基準値（相関閾値ＴＨ_１）より大きいか否かで判定する（ステップＳ２８）。

閾値概形判定部２０ａは、例えば、下記式（４）により相互相関値correを算出する。

なお、相互相関値correは、符号化対象の帯域のマスキング閾値のみを用いて算出する。

式（４）により算出される相互相関値correは、０＜corre≦１となり、補正前後のマスキング閾値の概形の類似度が高いほど値が大きくなる。そのため、算出した相互相関値correが相関閾値ＴＨ_１（例えばＴＨ_１＝０．８）よりも大きい場合（ステップＳ２８；Ｙｅｓ）、採否判定部２０ａは、直前の補正処理で得た補正後のマスキング閾値sfbThr(sfb)を採用すると判定する。そして、採否判定部２０ａは、直前の補正処理で得たマスキング閾値sfbThr(sfb)を量子化部２２に渡す。この場合、符号化装置１は、図２Ｃに示すように、補正後のマスキング閾値sfbThr(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３４）。

一方、相互相関値correが相関閾値ＴＨ_１以下の場合（ステップＳ２８；Ｎｏ）、採否判定部２０ａは、直前の補正処理で得た補正後のマスキング閾値sfbThr(sfb)を採用しない（すなわちマスキング閾値を補正しなおす）と判定する。この場合、採否判定部２０ａは、欠落許容帯域設定部２０ｂに欠落許容帯域設定処理（ステップＳ３０）を行わせる。

なお、図２Ｂでは省略しているが、マスキング閾値を補正しなおす場合、採否判定部２０ａは、初期マスキング閾値sfbThr₀(sfb)を記憶部２０ｃに記憶させる。記憶部２０ｃに記憶させた初期マスキング閾値sfbThr₀(sfb)は、補正しなおしたマスキング閾値との相互相関値correの算出に用いる。

欠落許容帯域設定処理（ステップＳ３０）では、量子化した際に欠落することを許容する帯域を設定する。本実施形態では、ステップＳ３０の処理を行う毎に、マスキング閾値の上限値が欠落を許容しない値に設定された帯域のうち重要度が最も低い帯域を、欠落を許容する帯域に設定する。帯域の重要度は、量子化により欠落した場合の音質劣化への影響の度合いである。本実施形態では、後述するように、帯域の重要度として電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)との差分値（すなわち信号対マスク比）を用いる。また、欠落を許容する帯域は、マスキング閾値の上限値を「０」又は「−１」等の欠落を許容しない場合の値と識別可能な値に設定する。

欠落許容帯域設定部２０ｂは、欠落を許容する帯域の設定を終えると、記憶部２０ｃが記憶しているマスキング閾値の上限値を更新するとともに、マスキング閾値の補正を指示する制御信号をマスキング閾値補正部１８に送る。これにより、欠落許容帯域設定処理（ステップＳ３０）が終了する。

欠落許容帯域設定処理（ステップＳ３０）が終了すると、符号化装置１が行う符号化処理は、マスキング閾値を補正する処理（ステップＳ２４）に戻る。以後、符号化装置１は、相互相関値correが相関閾値ＴＨ_１より大きくなるまで、ステップＳ２４〜Ｓ３０の処理を繰り返す。そして、相互相関値correが相関閾値ＴＨ_１より大きくなると（ステップＳ２８；Ｙｅｓ）、直前の補正処理で得られたマスキング閾値sfbThr(sfb)を用いた量子化（ステップＳ３４）を行う。

以上の手順により初期マスキング閾値sfbThr₀(sfb)を用いた量子化（ステップＳ３２）又は補正後のマスキング閾値sfbThr(sfb)を用いた量子化（ステップＳ３４）を終えると、符号化装置１は、量子化された値を符号化する（ステップＳ３６）。ステップＳ３６は、符号化部２４が行う。

符号化部２４は、固定ハフマン符号化等の既知の符号化方法を用いた符号化を行う。そして、符号化を終えると、符号化部２４は、符号化したデータを多重化部２６に渡す。これにより、入力信号（オーディオデータ）の１フレーム分の符号化処理が終了する。

符号化処理を終えると、符号化装置１（多重化部２６）は、符号化されたオーディオデータにヘッダ情報等を付加した符号化ストリームを生成して出力する。

このように、本実施形態に係る符号化装置１が行う符号化処理では、初期マスキング閾値を補正する際、まず、全ての帯域sfbに対し量子化による欠落を許容しない条件を付して補正する。そして、補正後のマスキング閾値sfbThr(sfb)と初期マスキング閾値sfbThr₀(sfb)との概形の類似度が基準値より低い場合、概形の類似度が基準値を超えるまで、重要度が低い帯域から順に欠落を許容しながらマスキング閾値の補正を繰り返す。これにより、帯域が欠落することによる音質の劣化を抑制しつつ、概形の類似度の低下（過度の補正）による音質劣化を抑制できる。

次に、本実施形態における欠落許容帯域設定処理（ステップＳ３０）の内容について説明する。

図３は、第１の実施形態における欠落許容帯域設定処理の内容を示すフローチャートである。

本実施形態では、上記のように、各帯域sfbの重要度として電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)との差分値を用いる。この差分値は、ステップＳ２０で算出した信号対マスク比であり、１回目の欠落許容帯域設定処理（ステップＳ３０）を開始する前に記憶部２０ｃに記憶させている。そのため、欠落許容帯域設定部２０ｂが欠落許容帯域設定処理を行う際には、図３に示すように、まず、記憶部２０ｃから符号化対象の各帯域の信号対マスク比及びマスキング閾値の上限値を読み出す（ステップＳ３０００）。

次に、欠落許容帯域設定部２０ｂは、マスキング閾値の上限値が欠落を許容しない値に設定された帯域のうち信号対マスク比が最も小さい帯域を、重要度が最も低い帯域に特定する（ステップＳ３００２）。欠落を許容しないマスキング閾値の上限値は、上記のように電力値よりも小さな正の値である。

次に、欠落許容帯域設定部２０ｂは、重要度が最も低い帯域に対するマスキング閾値の上限値を、欠落を許容する値に変更して記憶部２０ｃのデータを更新する（ステップＳ３００４）。欠落を許容する値は、欠落を許容しないマスキング閾値の上限値との判別ができる値であればよく、例えば「０」又は「−１」にする。

ステップＳ３００４の処理を終えると、欠落許容帯域設定部２０ｂは、欠落許容帯域設定処理を終了する（リターン）。

初期マスキング閾値sfbThr₀(sfb)は、聴覚心理モデルに基づいて算出した値であり、人間が知覚することのできない量子化誤差量の制限値である。そして、周波数スペクトルにおける電力値mdct_pow(sfb)が初期マスキング閾値より小さい帯域の音は知覚できない。また、電力値が初期マスキング閾値より大きくても両者の差が非常に小さい帯域の音は知覚が困難である。よって、ステップＳ２０で算出した信号対マスク比が非常に小さい帯域は、信号対マスク比が大きい帯域に比べ、量子化により欠落したときに音質劣化に及ぼす影響が小さい。したがって、帯域の重要度として信号対マスク比を用い、信号対マスク比が小さい帯域から順に欠落を許容することで、帯域の欠落による音質劣化を抑制することができる。

更に、マスキング閾値を補正しなおす際にいくつかの帯域に対し量子化による欠落を許容した場合、欠落を許容した帯域に対するマスキング閾値は、前回の補正時の値より大きな値にすることが可能となる。欠落を許容した帯域のマスキング閾値を大きな値に補正すれば、その帯域の符号化に使用されるビット量を低減する、又は「０」にすることができる。このように、欠落を許容した帯域に使用されるビット量を減らすことができれば、減らした分のビットを他の帯域の符号化に使用することができる。欠落を許容した帯域で使用するビット量を減らして得たビットは、例えば前回の補正において補正前後のマスキング閾値の差が大きかった帯域に充当される。そのため、補正後のマスキング閾値を初期マスキング閾値に近づけることができる。よって、量子化に用いるマスキング閾値sfbThr(sfb)の概形と初期マスキング閾値sfbThr₀(sfb)の概形とのずれによる音質の劣化を抑制することができる。

上記のマスキング閾値の補正処理について、図４Ａ〜図４Ｄを参照しながら具体的に説明する。

図４Ａは、周波数スペクトル及び初期マスキング閾値の一例を示すグラフである。
１フレーム分の入力信号に対しステップＳ１０〜Ｓ１４の処理を行うと、例えば、図４Ａに示すような、周波数スペクトルの各帯域sfbの電力値mdct_pow(sfb)及び初期マスキング閾値sfbThr₀(sfb)が得られる。

初期マスキング閾値sfbThr₀(sfb)は、上記のように、対応する周波数スペクトルの量子化に最適なマスキング閾値である。そのため、ステップＳ１６，Ｓ１８の処理により初期マスキング閾値sfbThr₀(sfb)を用いた量子化が可能であると判定した場合、符号化装置１は、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３２）。

しかしながら、低ビットレート条件で符号化する場合、すなわち周波数スペクトルの符号化に使用可能なビット数が少ない場合、量子化誤差を初期マスキング閾値以下にできないことが多い。量子化誤差を初期マスキング閾値以下にできない場合、符号化装置１は、ビットレート条件や聴覚特性等に基づいて、音質がなるべく劣化しない範囲でマスキング閾値を大きくする（緩める）補正を行う。

図４Ｂは、１回目の補正で得られたマスキング閾値と初期マスキング閾値との関係を説明するグラフである。

本実施形態における初期マスキング閾値に対する１回目の補正は、全ての帯域に対し量子化による欠落を許容しない条件を付して行われる。この１回目の補正を行うと、補正後のマスキング閾値sfbThr(sfb)は、例えば、図４Ｂに実線の折れ線で示したような概形になる。

この補正後のマスキング閾値sfbThr(sfb)の概形と、図４Ｂに点線で示した初期マスキング閾値sfbThr₀(sfb)の概形とを比較すると、低周波の帯域sfb1〜sfb3や、高周波の帯域sfb15〜sfb18において両者の類似度が低くなっている。それでも、補正前後のマスキング閾値sfbThr(sfb)，sfbThr₀(sfb)から算出した相互相関値correが相関閾値ＴＨ_１よりも大きければ、量子化による帯域の欠落を防ぎつつ、マスキング閾値の概形のずれによる音質劣化を抑制することができる。

しかしながら、補正前後のマスキング閾値sfbThr(sfb)，sfbThr₀(sfb)から算出した相互相関値correが相関閾値ＴＨ_１以下である場合、いくつかの帯域のマスキング閾値が過度に補正されており音質劣化につながる。よって、図４Ｂに示した補正前後のマスキング閾値sfbThr(sfb)，sfbThr0(sfb)から算出した相互相関値correが相関閾値ＴＨ_１以下である場合、重要度が最も低い帯域の欠落を許容してマスキング閾値を補正しなおす。

本実施形態において重要度が最も低い帯域は、信号対マスク比が最も小さい帯域である。図４Ａに示した帯域sfb1〜sfb5及びSfb11〜sfb18において信号対マスク比が最も小さい帯域は、帯域sfb5である。よって、符号化装置１は、帯域sfb5のマスキング閾値の上限値を、欠落を許容する値に変更して、初期マスキング閾値に対する２回目の補正を行う。

帯域sfb5の欠落のみを許容する条件下でマスキング閾値を補正しなおすと、補正後のマスキング閾値sfbThr₂(sfb)は、例えば、図４Ｃに実線の折れ線で示したような概形になる。図４Ｃは、２回目の補正で得られたマスキング閾値と１回目の補正で得られたマスキング閾値との関係を説明するグラフである。

２回目の補正で得られたマスキング閾値sfbThr₂(sfb)と、図４Ｃに破線で示した１回目の補正で得られたマスキング閾値sfbThr(sfb)とを比較すると、いくつかの帯域で２回目の補正で得られたマスキング閾値sfbThr₂(sfb)のほうが小さくなっている。これは、２回目の補正では帯域sfb5の欠落を許容しているためである。

２回目の補正では、帯域sfb5に対するマスキング閾値sfbThr₂(sfb5)を１回目の補正時よりも大きくすることができる。帯域sfb5に対するマスキング閾値sfbThr₂(sfb5)が１回目の補正時よりも大きくなれば、帯域sfb5の符号化に使用されるビット量が低減し、低減した分だけ他の帯域の符号化に使用するビット量を増加させることができる。そして、１つの帯域の符号化に使用するビット量が増加すれば、その帯域のマスキング閾値は、１回目の補正時より小さくすることができる。そのため、２回目の補正で得られたマスキング閾値sfbThr₂(sfb)では、図４Ｃに示したように、１回目の補正において初期マスキング閾値sfbThr₀(sfb)との差が大きかった帯域sfb1，sfb2等の閾値が１回目の補正時の値よりも小さくなっている。すなわち、２回目の補正では、帯域sfb5の欠落を許容したことにより、帯域sfb1，sfb2のマスキング閾値に対する過度の補正が抑制されている。

図４Ｃからもわかるように、２回目の補正で得られたマスキング閾値sfbThr₂(sfb)は、１回目の補正で得られたマスキング閾値sfbThr(sfb)に比べて、初期マスキング閾値sfbThr₀(sfb)との概形の類似度が高い。よって、２回目の補正で得られたマスキング閾値sfbThr₂(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値correは、１回目の補正で得られたマスキング閾値sfbThr(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値より大きくなる。そして、２回目の補正で得られたマスキング閾値sfbThr₂(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値correが相関閾値ＴＨ_１よりも大きい場合、符号化装置１は、２回目の補正で得られたマスキング閾値sfbThr₂(sfb)を用いて量子化する。これにより、量子化に用いたマスキング閾値と初期マスキング閾値の概形とのずれ、言い換えるとマスキング閾値の過度の補正による音質劣化を抑制することができる。また、図４Ｃに示した２回目の補正で得られたマスキング閾値sfbThr₂(sfb)は、欠落を許容した帯域sfb5を含む全ての帯域でマスキング閾値が電力値mdct_pow(sfb)以下となっている。したがって、量子化により帯域が欠落することによる音質の劣化も防げる。

しかしながら、２回目の補正で得られたマスキング閾値sfbThr₂(sfb)と初期マスキング閾値sfbThr₀(sfb)とを比較すると、高周波の帯域sfb15〜sfb18の類似度が依然低い。そのため、相関閾値ＴＨ_１の値によっては、２回目の補正で得られたマスキング閾値と初期マスキング閾値との相互相関値correが相関閾値ＴＨ_１以下になることもある。その場合、符号化装置１は、初期マスキング閾値sfbThr₀(sfb)に対し３回目の補正を行う。３回目の補正は、欠落を許容していない帯域のうち重要度が最も低い帯域、すなわち帯域sfb5の次に信号対マスク比が小さい帯域を、欠落を許容する帯域に追加設定して行う。図４Ａ（図４Ｃ）に示した帯域sfb1〜sfb5及びsfb11〜sfb18において、帯域sfb5の次に信号対マスク比が最も小さい帯域は、帯域sfb15である。よって、符号化装置１は、帯域sfb5，sfb15のマスキング閾値の上限値を、欠落を許容する値に変更した状態で、初期マスキング閾値sfbThr₀(sfb)に対する３回目の補正を行う。

帯域sfb5，sfb15の欠落を許容する条件下でマスキング閾値を補正しなおすと、補正後のマスキング閾値sfbThr₃(sfb)は、図４Ｄに実線の折れ線で示したような概形になる。図４Ｄは、３回目の補正で得られたマスキング閾値と２回目の補正で得られたマスキング閾値との関係を説明するグラフである。

３回目の補正で得られたマスキング閾値sfbThr₃(sfb)と、図４Ｄに破線の折れ線で示した２回目の補正で得られたマスキング閾値sfbThr₂(sfb)とを比較すると、いくつかの帯域で３回目の補正で得られたマスキング閾値のほうが小さくなっている。これは、欠落を許容した帯域sfb5の符号化に使用されるビット量を低減させた分、他の帯域sfb1，sfb2，sfb17，sfb18等の符号化に使用されるビット量が増加したためである。

図４Ｄ及び図４Ｃからわかるように、３回目の補正で得られたマスキング閾値sfbThr₃(sfb)は、１回目及び２回目の補正で得られたマスキング閾値sfbThr(sfb)，sfbThr₂(sfb)に比べ、初期マスキング閾値sfbThr₀(sfb)との概形の類似度が高い。よって、３回目の補正で得られたマスキング閾値sfbThr₃(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値correは、１回目及び２回目の補正で得られたマスキング閾値と初期マスキング閾値sfbThr₀(sfb)との相互相関値より大きくなる。そして、３回目の補正で得られたマスキング閾値sfbThr₃(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値correが相関閾値ＴＨ_１よりも大きい場合、符号化装置１は、３回目の補正で得られたマスキング閾値sfbThr₃(sfb)を用いて量子化する。これにより、量子化に用いたマスキング閾値と初期マスキング閾値の概形とのずれ、すなわちマスキング閾値の過度の補正による音質劣化を抑制することができる。

また、図４Ｄに示した３回目の補正で得られたマスキング閾値sfbThr₃(sfb)は、欠落を許容した帯域sfb5を除く全ての帯域でマスキング閾値が電力値mdct_pow(sfb)以下となっている。したがって、量子化により欠落するのは重要度が最も低い帯域sfb5のみである。よって、帯域の欠落による音質の劣化も最小限に抑えることができる。

なお、相関閾値ＴＨ_１の値によっては、３回目の補正で得られたマスキング閾値sfbThr₃(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値correが相関閾値ＴＨ_１以下になることもある。その場合、符号化装置１は、初期マスキング閾値sfbThr₀(sfb)に対する４回目の補正を行う。４回目の補正は、欠落を許容していない帯域のうち重要度が最も低い帯域、すなわち帯域sfb15の次に信号対マスク比が小さい帯域（例えば帯域sfb14）を、欠落を許容する帯域に追加設定して行う。以後、符号化装置１は、補正後のマスキング閾値と初期マスキング閾値との相互相関値correが相関閾値ＴＨ_１より大きくなるまで、欠落を許容する帯域を追加設定しながらマスキング閾値の補正を繰り返す。これにより、帯域の欠落による音質の劣化を抑制しつつ、マスキング閾値の過度の補正による音質劣化を抑制できる。

上記のような符号化処理を行う本実施形態の符号化装置１は、例えばコンピュータと、コンピュータに上記の符号化処理を実行させるプログラムとにより実現可能である。以下、コンピュータとプログラムにより実現される符号化装置１について、図５を参照しながら説明する。

図５は、符号化装置として動作させるコンピュータのハードウェア構成例を示す模式図である。

図５に示すように、符号化装置として動作させるコンピュータ５は、Central Processing Unit（ＣＰＵ）５０と、主記憶装置５２と、補助記憶装置５４と、入力装置５６と、出力装置５８と、を備える。また、コンピュータ５は、Digital Signal Processor（ＤＳＰ）６０と、記憶媒体駆動装置６２と、インタフェース装置６４と、を更に備える。コンピュータ５におけるこれらの要素５０〜６４は、バス６８により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

ＣＰＵ５０は、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ５の全体の動作を制御する演算処理装置である。

主記憶装置５２は、Read Only Memory（ＲＯＭ）５２ａ及びRandom Access Memory（ＲＡＭ）５２ｂを有する。ＲＯＭ５２ａには、例えばコンピュータ５の起動時にプロセッサ５０が読み出す所定の基本制御プログラム等が予め記録されている。また、ＲＡＭ５２ｂは、プロセッサ５０が各種のプログラムを実行する際に、必要に応じて作業用記憶領域として使用する。本実施形態においては、例えば符号化するオーディオ信号、マスキング閾値等の一時的な記憶にＲＡＭ５２ｂを使用する。

補助記憶装置５４は、Hard Disk Drive（ＨＤＤ）やSolid State Disk（ＳＳＤ）等の主記憶装置５２に比べて大容量の記憶装置である。補助記憶装置５４には、ＣＰＵ５０によって実行される各種のプログラムや各種のデータ等を記憶させる。補助記憶装置５４に記憶させるプログラムとしては、例えば、オーディオ信号の符号化や再生を行うオーディオプレイヤーのプログラムが挙げられる。また、補助記憶装置５４に記憶させるデータとしては、例えば、上記のプレイヤーにより符号化されたオーディオ信号のデータが挙げられる。

入力装置５６は、例えばキーボード装置やマウス装置であり、コンピュータ５のオペレータにより操作されると、その操作内容に対応付けられている入力情報をＣＰＵ５０に送信する。

出力装置５８は、例えば液晶ディスプレイやスピーカである。液晶ディスプレイは、ＣＰＵ５０等から送信される表示データに従って各種のテキスト、画像等を表示する。また、スピーカは、ＣＰＵ５０やＤＳＰ６０等から送信される音声データやオーディオデータを出力する。

ＤＳＰ６０は、ＣＰＵ５０からの制御信号等に従ってオーディオ信号の符号化処理、復号化（再生）処理等を行う演算処理装置である。

記憶媒体駆動装置６４は、図示しない可搬型記憶媒体に記録されているプログラムやデータの読み出し、補助記憶装置５４に記憶されたデータ等の可搬型記憶媒体への書き込みを行う。可搬型記憶媒体としては、例えば、ＵＳＢ規格のコネクタが備えられているフラッシュメモリが利用可能である。また、可搬型記憶媒体としては、Compact Disk（ＣＤ）、Digital Versatile Disc（ＤＶＤ）、Blu-ray Disc（Blu-rayは登録商標）等の光ディスクも利用可能である。

インタフェース装置６４は、例えばオーディオ入出力装置や通信制御装置である。オーディオ入出力装置は、例えばコンピュータ５とマイクやオーディオ装置とを接続してオーディオ信号の入力や出力を行う。通信制御装置は、コンピュータ５とインターネット等の通信ネットワークとを通信可能に接続し、通信ネットワークを介した外部通信装置等との通信によりオーディオデータ等の送受信を行う。

このコンピュータ５は、ＣＰＵ５０が補助記憶装置５４から上述した符号化処理を含むプログラムを読み出し、ＤＳＰ６０、主記憶装置５２、補助記憶装置５４等と協働してオーディオ信号の符号化処理を実行する。この際、ＣＰＵ５０は、符号化処理における演算処理をＤＳＰ６０に実行させる。ＤＳＰ６０は、オーディオ信号を周波数スペクトルに変換し、初期マスキング閾値を生成する。オーディオ信号は、例えば音楽ＣＤ等の可搬型記憶媒体から読み出して入力してもよいし、インタフェース装置６４を介した通信でコンピュータ５に入力してもよい。また、ＤＳＰ６０は、初期ＰＥ値及び目標ＰＥ値を算出し、それらの大小関係から初期マスキング閾値を用いてオーディオ信号を量子化することができるか否かを判定する。そして、初期マスキング閾値を用いて量子化することができない場合、ＤＳＰ６０は、聴覚特性を算出し、マスキング閾値を補正する。更に、ＤＳＰ６０は、補正されたマスキング閾値の採否を判定し、不採用の場合には欠落を許容する帯域を設定してマスキング閾値の補正を再度行う。そして、補正されたマスキング閾値を採用すると判定すると、採用したマスキング閾値を用いてオーディオ信号（周波数スペクトル）を量子化、符号化する。また、ＤＳＰ６０は、上記の処理の実行中、初期マスキング閾値、目標ＰＥ値、補正後のマスキング閾値の上限値等をＲＡＭ５２ｂや補助記憶装置５４に記憶させる処理、及びＲＡＭ５２ｂや補助記憶装置５４から読み出す処理を行う。

コンピュータ５で符号化したオーディオ信号のデータ（オーディオデータ）は、例えば、補助記憶装置５４に記憶させておき、必要に応じてコンピュータ５で復号化（再生）する。また、インタフェース装置６４として通信制御装置を備えたコンピュータ５であれば、例えば、オーディオデータを、通信ネットワークを介して他のコンピュータ等に提供（配信）することができる。

なお、符号化装置１として用いるコンピュータ５は、図５に示した構成に限らず、ＣＰＵ５０においてオーディオ信号の符号化を行う構成であってもよい。また、符号化装置１として用いるコンピュータ５は、種々のプログラムを実行することにより複数の機能を実現する汎用型のものに限らず、オーディオ信号の符号化、復号化に特化されたオーディオ装置でもよい。

以上説明したように、第１の実施形態に係る符号化装置１を用いた符号化方法では、聴覚心理モデルに基づいて生成した初期マスキング閾値を用いてオーディオ信号（周波数スペクトル）を量子化できない場合、マスキング閾値を補正する。その際、１回目の補正は全ての帯域が量子化により欠落しない条件で行い、補正前後のマスキング閾値の概形の類似度が基準値を満たしているか判定する。そして、概形の類似度が基準値を満たしていない場合、補正前後のマスキング閾値の概形の類似度が基準値を満たすようになるまで、重要度が低い帯域から順に欠落を許容しながらマスキング閾値の補正を繰り返す。そのため、量子化でいくつかの帯域が欠落することによる音質劣化を抑制しつつ、量子化に用いるマスキング閾値と初期マスキング閾値との概形の類似度のずれ（すなわちマスキング閾値の過度の補正）による音質劣化を抑制することができる。

なお、欠落許容帯域設定処理は、例えば、１度の設定処理において、相互相関値correと相関閾値ＴＨ_１との差の大きさに応じて重要度が最も低い帯域から順に複数の帯域の欠落を許容するようにしてもよい。

また、補正後のマスキング閾値の採否の判定は、式（４）で表される相互相関値correに限らず、補正前後のマスキング閾値の概形の類似度と対応する値を用いて行えばよい。

また、ステップＳ２０で算出する聴覚特性は、信号対マスク比に限らず、他の特性であってもよい。

更に、符号化装置１は、図１に示したようなオーディオ信号の符号化のみを行う装置に限らず、映像信号の符号化を行う装置であってもよい。映像信号の符号化を行う装置では、図１に示した構成に加え、動画像の符号化を行う構成を備える。このような装置では、入力された映像信号の符号化を動画像の符号化と音声の符号化とに分けて行った後、符号化した動画像と音声とを多重化する。

［第１の実施形態の変形例］
図２Ｂに示したマスキング閾値の補正処理においては、補正後のマスキング閾値sfbThr(sfb)と初期マスキング閾値sfbThr₀(sfb)との相互相関値correが相関閾値ＴＨ_１より大きくなるまでマスキング閾値の補正を繰り返す。しかしながら、第１の実施形態に係る符号化処理においては、これに限らず、例えばマスキング閾値の補正回数に上限を設けてもよい。

図６は、第１の実施形態に係るマスキング閾値の補正処理の変形例を示すフローチャートである。なお、図６に示した補正処理は、図２Ａに示したステップＳ１８において初期ＰＥ値が目標ＰＥ値よりも大きいと判定された場合（ステップＳ１８；Ｙｅｓ）に行われる。

初期ＰＥ値が目標ＰＥ値よりも大きい場合、符号化装置１は、図６に示すように、続けて、周波数スペクトル等に基づく聴覚特性の算出（ステップＳ２０）、及び補正後のマスキング閾値sfbThr(sfb)の上限値の設定（ステップＳ２２）を行う。その後、符号化装置１（マスキング閾値補正部１８）は、補正回数ＭをＭ＝１に初期化する（ステップＳ２３）。

ステップＳ２３の後、符号化装置１は、マスキング閾値の補正（ステップＳ２４）、及び相互相関値correの算出（ステップＳ２６）を行い、相互相関値correが相関閾値ＴＨ_１より大きいか判定する（ステップＳ２８）。そして、相互相関値correが相関閾値ＴＨ_１より大きい場合（ステップＳ２８；Ｙｅｓ）、図２Ｃに示したように直前の補正で得られたマスキング閾値sfbThr(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３４）。

一方、相互相関値correが相関閾値ＴＨ_１以下の場合（ステップＳ２８；Ｎｏ）、図６に示したように、補正回数Ｍが閾値ＴＨＭ以上であるか判定する（ステップＳ２９）。Ｍ≧ＴＨＭの場合（ステップＳ２９；Ｙｅｓ）、マスキング閾値の補正処理を終了し、直前の補正で得られたマスキング閾値sfbThr(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３４）。また、Ｍ＜ＴＨＭの場合（ステップＳ２９；Ｎｏ）、欠落許容帯域設定処理（ステップＳ３０）を行った後、補正回数Ｍを１だけ増加させ（ステップＳ３１）、ステップＳ２４の補正処理に戻る。補正回数の閾値ＴＨＭは、適宜設定すればよく、例えば５〜１０程度にする。

図２Ｂに示したマスキング閾値の補正処理では、補正回数が多くなると欠落を許容する帯域も多くなる。そのため、オーディオ信号の周波数スペクトルによっては、補正回数が多くなり重要度が高い帯域の欠落が許容され、量子化により欠落してしまう恐れがある。

これに対し、図６に示したように補正回数に上限を設けた場合、重要度が高い帯域の欠落を抑制することができる。また、図６に示したように補正回数に上限を設けた場合、マスキング閾値の補正を繰り返すことによる符号化処理の遅延等を抑制することができ、AAC-Enhanced Low Delay（ＡＡＣ−ＥＬＤ）等の低遅延符号化への適用も容易になる。

なお、補正回数の閾値ＴＨＭは、特定の回数に固定してもよいし、例えば、重要度（信号対マスク比）が所定の値よりも小さい帯域の数にする等、周波数スペクトルのパターンに応じて都度変えてもよい。

［第２の実施形態］
本実施形態は、本発明に係る符号化装置におけるマスキング閾値の補正処理を効率よく行えるようにしたものである。本実施形態のマスキング閾値の補正処理は、第１の実施形態と同様、図２Ａに示したステップＳ１８の判定において初期ＰＥ値が目標ＰＥ値より大きい場合（ステップＳ１８；Ｙｅｓ）に行われる。

なお、本実施形態で説明するマスキング閾値の補正処理を行う符号化装置は、図１に示した符号化装置１におけるマスキング閾値生成部１４、及び再補正制御部２０で行う処理の一部を下記のように変更したものでよい。

本実施形態に係る符号化装置１におけるマスキング閾値生成部１４は、初期ＰＥ値が目標ＰＥ値よりも大きい場合、初期マスキング閾値sfbThr₀(sfb)及び目標ＰＥ値、並びに周波数スペクトルの電力値mdct_pow(sfb)を、採否判定部２０ａに渡す。また、マスキング閾値生成部１４は、初期マスキング閾値sfbThr₀(sfb)及び目標ＰＥ値を聴覚特性算出部１６に渡す。更に、マスキング閾値生成部１４は、初期ＰＥ値、又は目標ＰＥ値と初期ＰＥ値との差分値を再補正制御部２０の記憶部２０ｃに記憶させる。

一方、本実施形態に係る符号化装置１における再補正制御部２０は、図７及び図８に示すような処理を行う。

図７は、本発明の第２の実施形態に係るマスキング閾値の補正処理を示すフローチャートである。

本実施形態に係るマスキング閾値の補正処理は、上記のように、初期ＰＥ値が目標ＰＥ値より大きい場合（ステップＳ１８；Ｙｅｓ）に行われる。初期ＰＥ値が目標ＰＥ値より大きい場合、第１の実施形態で説明したとおり、初期マスキング閾値を用いて周波数スペクトルを量子化することができない。そのため、初期ＰＥ値が目標ＰＥ値より大きい場合、符号化装置１は、図７に示した手順でマスキング閾値を補正する。

本実施形態においても、マスキング閾値を補正する際には、まず聴覚特性算出部１６が周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。聴覚特性算出部１６は、聴覚特性として、周波数スペクトルの電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)との差分値（信号対マスク比）を算出する。

聴覚特性（信号対マスク比）の算出を終えると、次に、マスキング閾値補正部１８が、補正後のマスキング閾値sfbThr(sfb)の上限値を、欠落を許容する値に設定する（ステップＳ２１）。そして、閾値の上限値の設定を終えると、マスキング閾値補正部１８は、聴覚特性及び閾値の上限値に基づいてマスキング閾値を補正する（ステップＳ２４）。すなわち、本実施形態では、符号化対象の全帯域が量子化による欠落を許容された条件下で、１回目のマスキング閾値の補正を行う。なお、マスキング閾値は、第１の実施形態と同様、式（３）を用い、電力値mdct_pow(sfb)と補正後のマスキング閾値sfbThr(sfb)とに基づいて算出されるＰＥ値が目標ＰＥ値になるように補正する。

マスキング閾値の補正を終えると、次に、再補正制御部２０の採否判定部２０ａが、補正後のマスキング閾値sfbThr(sfb)と電力値mdct_pow(sfb)とを比較する。そして、採否判定部２０ａは、符号化対象の全ての帯域でsfbThr(sfb）＜mdct_pow(sfb)であるかを判定する（ステップＳ２７）。符号化対象の全ての帯域でsfbThr(sfb）＜mdct_pow(sfb)である場合（ステップＳ２７；Ｙｅｓ）、量子化により欠落する帯域はないので、採否判定部２０ａは補正後のマスキング閾値sfbThr(sfb)を採用すると判定する。この場合、符号化装置１は、図２Ｃに示したように、直前の補正により得られたマスキング閾値sfbThr(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３４）。

一方、sfbThr(sfb）≧mdct_pow(sfb)の帯域がある場合（ステップＳ２７；Ｎｏ）、その帯域は、判定に係る補正後のマスキング閾値sfbThr(sfb)を用いて周波数スペクトルを量子化すると欠落する。１回目のマスキング閾値の補正は、上記のように全ての帯域が欠落を許容された条件下で行っている。そのため、sfbThr(sfb）≧mdct_pow(sfb)である帯域は、音質についての重要度が高い場合もありうる。重要度の高い帯域が量子化により欠落すると音質が著しく劣化する。よって、sfbThr(sfb）≧mdct_pow(sfb)の帯域がある場合、欠落許容帯域設定処理（ステップＳ３０）を行い、重要度が低い帯域の欠落のみを許容するようマスキング閾値の上限値の設定を変更してマスキング閾値を補正しなおす。欠落許容帯域設定処理は、第１の実施形態と同様、欠落許容帯域設定部２０ｂが行う。

図８は、第２の実施形態における欠落許容帯域設定処理の内容を示すフローチャートである。図９は、欠落を許容する帯域の割合の決定方法を説明するグラフである。

欠落許容帯域設定部２０ｂは、本実施形態の欠落許容帯域設定処理（ステップＳ３０）として、図８に示すように、まず、目標ＰＥ値と初期ＰＥ値との差分値に基づいて、全帯域に対する欠落を許容する帯域の割合を決定する（ステップＳ３０２０）。ステップＳ３０２０では、例えば記憶部２０ｃから初期ＰＥ値及び目標ＰＥ値を読み出して差分値diffPeを算出する。その後、例えば、図９に示す関数ｆ(diffPe)に基づいて、欠落を許容する帯域の割合lack_ratioを決定する。関数ｆ(diffPe)は、差分値diffPeをパラメータとする関数であり、下記式（５）で表される。

図９及び式（５）におけるＴＨ_２，ＴＨ_３，及びＴＨ_４は、いずれも任意の値であり、ビットレートや許容する音質劣化の度合い等に基づいて適宜設定すればよい。

欠落を許容する帯域の割合を設定すると、欠落許容帯域設定部２０ｂは、次に、記憶部２０ｃから符号化対象の各帯域の信号対マスク比及びマスキング閾値の上限値を読み出す（ステップＳ３０２２）。続けて、欠落許容帯域設定部２０ｂは、信号対マスク比（重要度）が最も低い帯域から順に、ステップＳ３０２０で決定した割合に応じた順位の帯域まで欠落を許容する（ステップＳ３０２４）。

その後、欠落許容帯域設定部２０ｂは、欠落を許容する帯域以外の帯域についてのマスキング閾値の上限値を、欠落を許容しない値に変更し、記憶部２０ｃのデータを更新する（ステップＳ３０２６）。欠落を許容しないマスキング閾値の上限値は、第１の実施形態で説明したように、sfbThr(sfb)＜mdct_pow(sfb)を満たす正の値である。

ステップＳ３０２６の処理を終えると、欠落許容帯域設定部２０ｂは、欠落許容帯域設定処理を終了する（リターン）。欠落許容帯域設定処理が終了すると、図７に示したステップＳ２４に戻り、初期マスキング閾値に対する補正が再度行われる。

上記のように、本実施形態では、初期マスキング閾値に対する１回目の補正を全ての帯域の欠落を許容した条件下で行う。帯域の欠落を許容する条件下では補正後のマスキング閾値に上限値がないので、上述したような過剰な補正を防ぐことができ、補正前後のマスキング閾値の概形の類似度の低下を抑制できる。そのため、１回目の補正で得られたマスキング閾値が全ての帯域でsfbThr(sfb）＜mdct_pow(sfb)であれば、補正前後のマスキング閾値の概形の類似度は、音質が著しく劣化しない程度に高いといえる。したがって、１回目の補正で得られたマスキング閾値が採用された場合、帯域が欠落することによる音質劣化がない上、マスキング閾値の概形のずれ（過度の補正）による音質劣化も抑えられる。

また、本実施形態では、１回目の補正で得られたマスキング閾値にsfbThr（sfb）≧mdct_pow(sfb)の帯域がある場合、sfbThr（sfb）≧mdct_pow(sfb)の帯域ではなく、音質における重要度の低い帯域の欠落を許容してマスキング閾値を再度補正する。これにより、帯域が欠落することによる音質の劣化を抑制しつつ、マスキング閾値の概形のずれ（過度の補正）による音質劣化を抑制する。

また、本実施形態では、目標ＰＥ値と初期ＰＥ値との差分値diffPeに基づいて欠落を許容する帯域を設定してマスキング閾値を補正しなおす。

オーディオ信号の符号化においては、目標ＰＥ値と初期ＰＥ値との差分値diffPeが大きくなると符号化時のビット数の不足量が増大する。そのため、差分値diffPeが大きい場合にはマスキング閾値の補正量を多くしなければならない。ところが、帯域の欠落を許容しない条件下では、各帯域のマスキング閾値を上限値（電力値mdct_pow(sfb)）より大きくすることができない。すなわち、式（３）を用いた補正処理の過程においてマスキング閾値が上限値に達した帯域については、マスキング閾値を更に大きくして量子化に使用されるビット量を低減することができない。したがって、マスキング閾値が上限値に達した帯域があるにもかかわらずビット数が不足している場合、マスキング閾値が上限値に達していない帯域のマスキング閾値を大きくして符号化に使用するビット量を低減することとなる。よって、マスキング閾値の補正量が多くなると、欠落を許容しない条件下では補正後のマスキング閾値の概形と初期マスキング閾値との概形の類似度が低くなる。このように、帯域の欠落を許容しない条件で補正されたマスキング閾値の概形と初期マスキング閾値との概形の類似度は、目標ＰＥ値と初期ＰＥ値との差分値diffPeの大きさから間接的に把握することができる。すなわち、帯域の欠落を許容しない条件でマスキング閾値を補正する処理、及び式（４）を用いて相互相関値correを算出する処理を行わなくても、帯域の欠落を許容しない条件下における補正前後のマスキング閾値の概形の類似度を把握することができる。

第１の実施形態からわかるように、マスキング閾値の概形の類似度と所定の基準値との差が大きいほど、類似度を基準値より大きくするために欠落を許容する帯域の数が多くなる。そのため、本実施形態では、図９に示した関数ｆ(diffPe)のように、目標ＰＥ値と初期ＰＥ値との差分値diffPeがある閾値ＴＨ_２より大きくなると差分値diffPeに比例して欠落を許容する帯域の割合（数）が増すようにしている。ただし、欠落を許容する帯域の割合（数）を大きくすると、補正後のマスキング閾値が上限値を超えてしまい量子化により欠落する帯域が多くなる恐れがある。そのため、差分値diffPeが別の閾値ＴＨ_３（＞ＴＨ_２）よりも大きい場合には、欠落を許容する帯域の割合を閾値ＴＨ_４に制限する。

このように、本実施形態では、マスキング閾値を補正しなおす際に、目標ＰＥ値と初期ＰＥ値との差分値に基づいて、補正後のマスキング閾値と初期マスキング閾値との概形の類似度が基準値を満たすよう欠落を許容する帯域の割合を設定する。そのため、帯域が欠落することによる音質劣化を抑制しつつ、マスキング閾値の概形のずれ（過度の補正）による音質劣化を抑制することができる。

また、本実施形態で欠落を許容する帯域を設定する際に用いる目標ＰＥ値と初期ＰＥ値との差分値diffPeや各帯域の重要度（信号対マスク比）等の計算量は、式（４）を用いて算出する相互相関値correの計算量よりも少ない。加えて、目標ＰＥ値、初期ＰＥ値、及び信号対マスク比は、欠落許容帯域設定処理（ステップＳ３０）を行う前に、マスキング閾値生成部１４や聴覚特性算出部１６で算出している。そのため、本実施形態に係るマスキング閾値の補正処理は、マスキング閾値の相互相関値correを算出して概形の類似度を判定する第１の実施形態に比べて計算量を低減することができる。よって、本実施形態によれば、マスキング閾値の補正処理を効率よく行うことができる。

更に、本実施形態に係るマスキング閾値の補正処理では、目標ＰＥ値と初期ＰＥ値との差分値diffPeが大きい場合、１度の欠落許容帯域設定処理において重要度が異なる２つ以上の帯域の欠落を許容することができる。そのため、マスキング閾値を補正しなおす際の補正処理を一層効率よく行うことができ、AAC-Enhanced Low Delay（ＡＡＣ−ＥＬＤ）等の低遅延符号化への適用が一層容易になる。

なお、本実施形態では、図９及び式（５）で表される関数ｆ(diffPe)に基づいて、マスキング閾値を補正しなす際の欠落を許容する帯域の割合lack_ratioを決定している。しかしながら、関数ｆ(diffPe)は、これに限らず、例えば任意のシグモイド関数を用いてもよい。

［第３の実施形態］
本実施形態は、第２の実施形態とは異なる値に基づいて欠落を許容する帯域を設定することで、本発明に係る符号化装置におけるマスキング閾値の補正処理を効率よく行えるようにしたものである。本実施形態のマスキング閾値の補正処理は、第１の実施形態と同様、図２Ａに示したステップＳ１８の判定において初期ＰＥ値が目標ＰＥ値より大きい場合（ステップＳ１８；Ｙｅｓ）に行われる。また、本実施形態に係るマスキング閾値の補正処理は、図７に示した手順で行う。すなわち、本実施形態のマスキング閾値の補正処理では、初期マスキング閾値に対する１回目の補正を、全ての帯域の欠落を許容した条件下で行う（ステップＳ２１，Ｓ２４）。そして、周波数スペクトルの電力値mdct_pow(sfb)と補正後のマスキング閾値sfbThr(sfb)との関係がsfbThr(sfb)≧mdct_pow(sfb)となる帯域があった場合（ステップＳ２７；Ｙｅｓ）、マスキング閾値を補正しなおす。また、マスキング閾値を補正しなおす場合、欠落許容帯域設定処理（ステップＳ３０）を行って、量子化による欠落を許容する帯域を設定する。

本実施形態に係る符号化装置１におけるマスキング閾値生成部１４は、初期ＰＥ値が目標ＰＥ値よりも大きい場合、初期マスキング閾値sfbThr₀(sfb)及び目標ＰＥ値、並びに周波数スペクトルの電力値mdct_pow(sfb)を、採否判定部２０ａに渡す。また、マスキング閾値生成部１４は、初期マスキング閾値sfbThr₀(sfb)及び目標ＰＥ値を聴覚特性算出部１６に渡す。

また、本実施形態に係る符号化装置１における再補正制御部２０は、上記のように図７に示したマスキング閾値の補正処理を行うが、欠落許容帯域設定処理（ステップＳ３０）として、図１０に示すような処理を行う。

図１０は、本発明の第３の実施形態に係る欠落許容帯域設定処理の内容を示すフローチャートである。図１１は、欠落を許容する帯域の割合の決定方法を説明するグラフである。

図１０に示した欠落許容帯域設定処理は、再補正制御部２０の欠落許容帯域設定部２０ｂが行う。欠落許容帯域設定部２０ｂは、まず、符号化対象の帯域の数に対するsfbThr(sfb)≧mdct_pow(sfb)の帯域の数の割合に基づいて、欠落を許容する帯域の割合を決定する（ステップＳ３０２１）。ステップＳ３０２１では、例えば、図１１に示す関数ｆ(sat_ratio)に基づいて、欠落を許容する帯域の割合lack_ratioを決定する。関数ｆ(sat_ratio)は、符号化対象の帯域の数に対するsfbThr(sfb)≧mdct_pow(sfb)の帯域の数の割合をパラメータとする関数であり、下記式（６）で表される。

式（６）において、encode_sfb_numは符号化対象の帯域の数である。また、sat_sfb_numは、sfbThr(sfb)≧mdct_pow(sfb)の帯域の数である。

図１１及び式（６）におけるＴＨ_５，ＴＨ_６，及びＴＨ_７は、いずれも任意の値であり、ビットレートや許容する音質劣化の度合い等に基づいて適宜設定すればよい。

欠落を許容する帯域の割合を設定すると、欠落許容帯域設定部２０ｂは、次に、記憶部２０ｃから符号化対象の各帯域の信号対マスク比及びマスキング閾値の上限値を読み出す（ステップＳ３０２２）。続けて、欠落許容帯域設定部２０ｂは、信号対マスク比（重要度）が最も低い帯域から順に、ステップＳ３０２１で決定した割合に応じた順位の帯域まで欠落を許容する（ステップＳ３０２４）。

上記のように、本実施形態では、初期マスキング閾値に対する１回目の補正を全ての帯域の欠落を許容した条件下で行う。帯域の欠落を許容する条件下でのマスキング閾値の補正処理においては、補正前後のマスキング閾値の概形の類似度の低下が抑制される。そのため、１回目の補正で得られたマスキング閾値が全ての帯域でsfbThr(sfb）＜mdct_pow(sfb)であれば、補正前後のマスキング閾値の概形の類似度は、音質が著しく劣化しない程度に高いといえる。したがって、１回目の補正で得られたマスキング閾値が採用された場合、帯域が欠落することによる音質劣化がない上、マスキング閾値の概形のずれ（過度の補正）による音質劣化も抑えられる。

また、本実施形態においても、補正されたマスキング閾値にsfbThr(sfb）≧mdct_pow(sfb)の帯域がある場合、欠落を許容する帯域を設定してマスキング閾値を補正しなおす。この際、欠落を許容する帯域は、符号化対象の帯域の数に対するsfbThr(sfb）≧mdct_pow(sfb)の帯域の数の割合に基づいて、重要度の低い帯域から順に欠落を許容するよう設定する。これにより、帯域が欠落することによる音質の劣化を抑制しつつ、マスキング閾値の概形のずれ（過度の補正）による音質劣化を抑制する。

量子化に用いるマスキング閾値にsfbThr(sfb）≧mdct_pow(sfb)の帯域がある場合、その帯域は量子化により欠落する。そのため、量子化による帯域の欠落を抑制するには、sfbThr（sfb）≧mdct_pow(sfb)の帯域のマスキング閾値がsfbThr（sfb）＜mdct_pow(sfb)になるよう補正しなおさなければならない。すなわち、sfbThr(sfb）≧mdct_pow(sfb)の帯域のマスキング閾値が小さくなるよう、その帯域の量子化に使用されるビット量を増加しなければならない。しかしながら、周波数スペクトルの量子化に使用可能なビット数にはビットレートに応じた上限がある。したがって、sfbThr(sfb）≧mdct_pow(sfb)の帯域のマスキング閾値を小さくするには、sfbThr(sfb）＜mdct_pow(sfb)である他の帯域のマスキング閾値を大きくしなければならない。よって、欠落を許容する条件下で補正したマスキング閾値にsfbThr(sfb）≧mdct_pow(sfb)となる帯域の数が多い場合、欠落を許容しない条件下での補正により得られるマスキング閾値の概形と初期マスキング閾値との概形の類似度が低くなる。すなわち、帯域の欠落を許容しない条件で補正したマスキング閾値と初期マスキング閾値との概形の類似度は、欠落を許容する条件で補正したマスキング閾値においてsfbThr(sfb）≧mdct_pow(sfb)となる帯域の数から間接的に把握することができる。

第１の実施形態からわかるように、マスキング閾値の概形の類似度と所定の基準値との差が大きいほど、類似度を基準値より大きくするために欠落を許容する帯域の数が多くなる。そのため、本実施形態では、図１１に示した関数ｆ(sat_ratio)のように、sfbThr(sfb）≧mdct_pow(sfb)となる帯域の割合sat_ratioが閾値ＴＨ_５より大きくなると割合sat_ratioに比例して欠落を許容する帯域の割合（数）が増すようにしている。ただし、欠落を許容する帯域の割合（数）を多くすると、補正後のマスキング閾値が上限値を超えてしまい量子化により欠落する帯域が多くなる恐れがある。そのため、符号化対象の帯域の数に対するsfbThr(sfb）≧mdct_pow(sfb)の帯域の数の割合sat_ratioが別の閾値ＴＨ_６（＞ＴＨ_５）よりも大きい場合には、欠落を許容する帯域の割合を閾値ＴＨ_７に制限する。

このように、本実施形態では、マスキング閾値を補正しなおす際に、符号化対象の帯域の数に対するsfbThr(sfb）≧mdct_pow(sfb)の帯域の数の割合に基づいて、重要度の低い帯域から順に欠落を許容する。そして、補正後のマスキング閾値と初期マスキング閾値との概形の類似度が基準値を満たすようになるまで、欠落を許容する帯域を追加しながらマスキング閾値の補正を繰り返す。そのため、帯域が欠落することによる音質劣化を抑制しつつ、マスキング閾値の概形のずれ（過度の補正）による音質劣化を抑制することができる。

また、本実施形態で欠落を許容する帯域を設定する際に用いる値は、欠落許容帯域設定処理（ステップＳ３０）を行う前に、マスキング閾値生成部１４、聴覚特性算出部１６、及びマスキング閾値補正部１８で算出している。そのため、本実施形態に係るマスキング閾値の補正処理は、マスキング閾値の相互相関値correを算出して概形の類似度を判定する第１の実施形態に比べて計算量を低減することができる。よって、本実施形態によれば、マスキング閾値の補正処理を効率よく行うことができる。

更に、本実施形態に係るマスキング閾値の補正処理では、符号化対象の帯域の数に対するsfbThr(sfb）≧mdct_pow(sfb)の帯域の数の割合が大きい場合、１度の欠落帯域設定処理において重要度が異なる２つ以上の帯域の欠落を許容することができる。そのため、マスキング閾値を補正しなおす際の補正処理を一層効率よく行うことができ、ＡＡＣ−ＥＬＤ等の低遅延符号化への適用が一層容易になる。

なお、本実施形態では、図１１及び式（６）で表される関数ｆ(sat_ratio)に基づいて、マスキング閾値を補正しなす際の欠落を許容する帯域の割合lack_ratioを決定している。しかしながら、関数ｆ(sat_ratio)は、これに限らず、例えば任意のシグモイド関数を用いてもよい。

以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
オーディオ信号を周波数スペクトルに変換し、当該周波数スペクトルの量子化及び符号化を行う符号化装置において、
前記周波数スペクトルに基づいて量子化する際の初期マスキング閾値を生成する閾値生成部と、
前記周波数スペクトルの量子化に使用可能なビット量に基づいて前記初期マスキング閾値を補正する閾値補正部と、
前記閾値補正部で補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合に、前記周波数スペクトルの帯域毎に量子化による欠落を許容するか否かを設定し、前記閾値補正部に前記初期マスキング閾値を再度補正させる再補正制御部と、
を備えることを特徴とする符号化装置。
（付記２）
前記再補正制御部は、前記初期マスキング閾値及び補正された前記マスキング閾値における欠落を許容しない帯域の概形の類似度が前記基準値以下の場合に、前記閾値補正部に前記初期マスキング閾値を再度補正させる、
ことを特徴とする付記１に記載の符号化装置。
（付記３）
前記再補正制御部は、前記マスキング閾値の概形の類似度として前記初期マスキング閾値と前記閾値補正部で補正されたマスキング閾値との相互相関値を算出する、
ことを特徴とする付記２に記載の符号化装置。
（付記４）
前記再補正制御部は、前記初期マスキング閾値と補正された前記マスキング閾値との概形の類似度に基づいて符号化対象の全帯域に対する欠落を許容する帯域の割合を決定し、決定した前記割合に基づいて前記周波数スペクトルの各帯域に対し欠落を許容するか否かを設定する設定部を有する、
ことを特徴とする付記１に記載の符号化装置。
（付記５）
前記設定部は、前記マスキング閾値の概形の類似度として前記周波数スペクトル及び前記初期マスキング閾値に基づく第１の知覚エントロピー値と、前記周波数スペクトルの量子化に使用可能なビット数に基づく第２の知覚エントロピー値との差分値を用い、当該差分値に基づいて前記割合を決定する、
ことを特徴とする付記４に記載の符号化装置。
（付記６）
前記設定部は、前記マスキング閾値の概形の類似度として符号化対象の帯域の数に対する、補正された前記マスキング閾値が前記周波数スペクトルの電力値よりも大きい帯域の数の割合を用い、当該割合に基づいて前記符号化対象の全帯域に対する欠落を許容する帯域の割合を決定する、
ことを特徴とする付記４に記載の符号化装置。
（付記７）
前記再補正制御部は、前記周波数スペクトルの帯域のうち重要度の低い帯域から順に欠落を許容する、
ことを特徴とする付記１に記載の符号化装置。
（付記８）
前記再補正制御部は、前記重要度として、各帯域における電力値と初期マスキング閾値との差分値を用いる、
ことを特徴とする付記７に記載の符号化装置。
（付記９）
前記再補正制御部は、前記初期マスキング閾値に対する補正回数が所定の回数に達すると、補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度によらず補正されたマスキング閾値を採用する、
ことを特徴とする付記１に記載の符号化装置。
（付記１０）
前記閾値生成部は、聴覚心理モデルに基づいて前記初期マスキング閾値を生成する、
ことを特徴とする付記１に記載の符号化装置。
（付記１１）
コンピュータが、
オーディオ信号から得た周波数スペクトルに基づいて生成した初期マスキング閾値が当該周波数スペクトルを量子化するための条件を満たしていない場合に、
前記周波数スペクトルの各帯域に対し量子化による欠落を許容するか否かを設定し、
前記周波数スペクトルの量子化に使用可能なビット量及び各帯域の欠落を許容するか否かの設定に基づいて前記初期マスキング閾値を補正し、
補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合、１つ以上の帯域の欠落を許容するか否かの設定を変更して初期マスキング閾値を再度補正する、
処理を実行することを特徴とする符号化方法。
（付記１２）
前記コンピュータが、前記概形の類似度として、補正された前記マスキング閾値と前記初期マスキング閾値との相互相関値を算出する、
処理を実行することを特徴とする付記１１に記載の符号化方法。
（付記１３）
前記コンピュータが、
前記周波数スペクトル及び前記初期マスキング閾値に基づく第１の知覚エントロピー値と、前記周波数スペクトルの量子化に使用可能なビット数に基づく第２の知覚エントロピー値との差分値を算出し、
算出した前記差分値に基づいて符号化対象の帯域に対する欠落を許容する帯域の割合を決定する、
処理を実行することを特徴とする付記１１に記載の符号化方法。
（付記１４）
前記コンピュータが、
符号化対象の帯域の数に対する、補正された前記マスキング閾値が前記周波数スペクトルの電力値よりも大きい帯域の数の割合に基づいて、符号化対象の帯域に対する欠落を許容する帯域の割合を決定する、
処理を実行することを特徴とする付記１１に記載の符号化方法。
（付記１５）
補正された前記マスキング閾値が所定の採用条件を満たしていない場合、前記周波数スペクトルの各帯域のうち電力値と前記初期マスキング閾値との差分値が小さい帯域から順に欠落を許容する、
ことを特徴とする付記１１に記載の符号化方法。
（付記１６）
オーディオ信号から得た周波数スペクトルに基づいて生成した初期マスキング閾値が当該周波数スペクトルを量子化するための条件を満たしていない場合に、
前記周波数スペクトルの各帯域に対し量子化による欠落を許容するか否かを設定し、
前記周波数スペクトルの量子化に使用可能なビット量及び各帯域の欠落を許容するか否かの設定に基づいて前記初期マスキング閾値を補正し、
補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合、１つ以上の帯域欠落を許容するか否かの設定を変更して初期マスキング閾値を再度補正する、
処理をコンピュータに実行させるためのプログラム。

１符号化装置
１０ブロック切替部
１２ＭＤＣＴ処理部
１４マスキング閾値生成部
１６聴覚特性算出部
１８マスキング閾値補正部
２０再補正制御部
２０ａ採否判定部
２０ｂ欠落許容帯域設定部
２０ｃ記憶部
２２量子化部
２４符号化部
２６多重化部
５コンピュータ
５０ＣＰＵ
５２主記憶装置
５２ａＲＯＭ
５２ｂＲＡＭ
５４補助記憶装置
５６入力装置
５８出力装置
６０ＤＳＰ
６２記憶媒体駆動装置
６４インタフェース装置

Claims

オーディオ信号を周波数スペクトルに変換し、当該周波数スペクトルの量子化及び符号化を行う符号化装置において、
前記周波数スペクトルに基づいて量子化する際の初期マスキング閾値を生成する閾値生成部と、
前記周波数スペクトルの量子化に使用可能なビット量に基づいて前記初期マスキング閾値を補正する閾値補正部と、
前記閾値補正部で補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合に、前記周波数スペクトルの帯域毎に量子化による欠落を許容するか否かを設定し、前記閾値補正部に前記初期マスキング閾値を再度補正させる再補正制御部と、
を備えることを特徴とする符号化装置。
前記再補正制御部は、前記初期マスキング閾値及び補正された前記マスキング閾値における欠落を許容しない帯域の概形の類似度が前記基準値以下の場合に、前記閾値補正部に前記初期マスキング閾値を再度補正させる、
ことを特徴とする請求項１に記載の符号化装置。
前記再補正制御部は、前記初期マスキング閾値と補正された前記マスキング閾値との概形の類似度に基づいて符号化対象の全帯域に対する欠落を許容する帯域の割合を決定し、決定した前記割合に基づいて前記周波数スペクトルの各帯域に対し欠落を許容するか否かを設定する設定部を有する、
ことを特徴とする請求項１に記載の符号化装置。
前記設定部は、前記マスキング閾値の概形の類似度として前記周波数スペクトル及び前記初期マスキング閾値に基づく第１の知覚エントロピー値と、前記周波数スペクトルの量子化に使用可能なビット数に基づく第２の知覚エントロピー値との差分値を用い、当該差分値に基づいて前記割合を決定する、
ことを特徴とする請求項３に記載の符号化装置。
前記設定部は、前記マスキング閾値の概形の類似度として符号化対象の帯域の数に対する、補正された前記マスキング閾値が前記周波数スペクトルの電力値よりも大きい帯域の数の割合を用い、当該割合に基づいて前記符号化対象の全帯域に対する欠落を許容する帯域の割合を決定する、
ことを特徴とする請求項３に記載の符号化装置。
前記再補正制御部は、前記周波数スペクトルの帯域のうち重要度の低い帯域から順に欠落を許容する、
ことを特徴とする請求項１に記載の符号化装置。
コンピュータが、
オーディオ信号から得た周波数スペクトルに基づいて生成した初期マスキング閾値が当該周波数スペクトルの量子化に用いるための条件を満たしていない場合に、
前記周波数スペクトルの各帯域に対し量子化による欠落を許容するか否かを設定し、
前記周波数スペクトルの量子化に使用可能なビット量及び各帯域の欠落を許容するか否かの設定に基づいて前記初期マスキング閾値を補正し、
補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合、１つ以上の帯域の欠落を許容するか否かの設定を変更して前記初期マスキング閾値を再度補正する、
処理を実行することを特徴とする符号化方法。
オーディオ信号から得た周波数スペクトルに基づいて生成した初期マスキング閾値が当該周波数スペクトルの量子化に用いるための条件を満たしていない場合に、
前記周波数スペクトルの各帯域に対し量子化による欠落を許容するか否かを設定し、
前記周波数スペクトルの量子化に使用可能なビット量及び各帯域の欠落を許容するか否かの設定に基づいて前記初期マスキング閾値を補正し、
補正されたマスキング閾値と前記初期マスキング閾値との概形の類似度が基準値以下の場合、１つ以上の帯域の欠落を許容するか否かの設定を変更して前記初期マスキング閾値を再度補正する、
処理をコンピュータに実行させるためのプログラム。