JP6586804B2

JP6586804B2 - 符号化装置、符号化方法、及びプログラム

Info

Publication number: JP6586804B2
Application number: JP2015140119A
Authority: JP
Inventors: 舞子平原; 周作伊藤; 土永　義照; 義照土永; 美由紀白川; 洋平岸; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2019-10-09
Anticipated expiration: 2035-07-14
Also published as: JP2017021257A

Description

本発明は、符号化装置、符号化方法、及びプログラムに関する。

オーディオ信号や音声信号（以下、まとめて「オーディオ信号」という）の符号化方式には、Advanced Audio Cording（ＡＡＣ）方式等、人間の聴覚特性を利用して情報量を低減する方式がある。この種の符号化方式では、オーディオ信号を少ないビット数で量子化した場合に増える量子化誤差を所定のマスキング閾値以下に抑えることで、知覚できる雑音を増やすことなく符号化に必要なビット数（すなわち情報量）を低減する。

マスキング閾値の理想的な値は、人間が知覚することのできない量子化誤差量の上限値である。そのため、マスキング閾値は、聴覚心理モデルに基づいて算出している。以下、聴覚心理モデルに基づいて算出した理想的なマスキング閾値を初期マスキング閾値という。

ところが、６４ｋｂｐｓ以下等の低ビットレート条件での符号化においては、使用可能なビット数が少ないため、量子化誤差を初期マスキング閾値以下に抑えられない場合が多い。量子化誤差を初期マスキング閾値以下に抑えられない場合、ビットレート条件に基づいて初期マスキング閾値を補正する（例えば、非特許文献１を参照）。

また、低ビットレート条件での符号化において限られた量のビットを効率よく利用する方法として、周波数スペクトルの各帯域に優先順位をつけ量子化（符号化）に使用するビット量を帯域間で調整する方法が知られている（例えば、特許文献１を参照）。

更に、低ビットレート条件での符号化における音質劣化を防止する方法として、隣接する複数個のスケールファクタから求めたスケールファクタ代表値に基づいてビット量の割り当てを決定し、量子化する方法が知られている（例えば、特許文献２を参照）。

特開平６−１６４４０９号公報特開平６−３１８８７５号公報

"3GPP TS 26.403 V9.0.0"，[online]，3GPP，平成27年3月8日検索，インターネット〈URL: http://www.arib.or.jp/IMT-2000/V900Jul11/5_Appendix/Rel9/26/26403-900.pdf〉

マスキング閾値の補正方法は、量子化により帯域が欠落することを許容する条件で行う方法と、帯域の欠落を許容しない条件で行う方法とに大別される。

帯域の欠落を許容する条件でマスキング閾値を補正した場合、補正量が多くなると、人間が知覚可能な音を含む帯域が量子化により欠落してしまうことがある。量子化（符号化）により知覚可能な音を含む帯域が欠落すると、符号化されたオーディオ信号を再生（復号化）したときに再生音を聴く人に違和感を与える。そのため、欠落する帯域が増えると音質の劣化につながる。このような帯域の欠落による音質の劣化は、例えば周波数スペクトルのピーク位置が激しく変動するオーディオ信号において顕著となる。

一方、帯域の欠落を許容しない条件でマスキング閾値を補正する場合、各帯域のマスキング閾値に上限値を設定して行う。そのため、補正量が上限値に達して更なる補正をできない帯域が生じた場合、その帯域の補正量を増やせない（言い換えると割り当てるビット数を減らせない）分、他の帯域の補正量を増やすこととなる。したがって、初期マスキング閾値と上限値との差が大きい帯域のマスキング閾値が過度に補正され、当該帯域の符号化に割り当てるビットが少なくなってしまう。初期マスキング閾値と上限値との差が大きい帯域は、音質的に重要な帯域である。すなわち、帯域の欠落を許容しない条件でマスキング閾値を補正した場合、音質的に重要な帯域に割り当てるビット数が少なくなり、音質の劣化につながる。このようなマスキング閾値の過度の補正による音質の劣化は、例えば、ハープシコード等の周波数スペクトルのピーク位置の変動が緩やかなオーディオ信号において顕著となる。

一つの側面において、本発明は、聴覚特性に基づくマスキング閾値を用いてオーディオ信号を符号化する際の音質の劣化を抑制することを目的とする。

本発明の１つの態様の符号化装置は、オーディオ信号をフレーム毎に周波数スペクトルに変換し、当該周波数スペクトルを量子化して符号化する符号化装置であって、閾値生成部と、閾値補正部と、閾値決定部と、を備える。前記閾値生成部は、前記周波数スペクトルに基づいて当該周波数スペクトルを量子化する際の初期マスキング閾値を生成する。前記閾値補正部は、前記周波数スペクトルの量子化に与えられたビット量と量子化による帯域の欠落を許容するか否かの条件に基づいて前記初期マスキング閾値を補正する。前記閾値決定部は、量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定する。ここで、前記閾値決定部は、前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した場合に欠落する帯域を抽出し、複数の前記フレームにおける前記欠落する帯域の変動率を求め、当該変動率に基づいて前記決定を行う。

上述の態様によれば、聴覚特性に基づくマスキング閾値を用いてオーディオ信号を符号化する際の音質の劣化を抑制することができる。

本発明の第１の実施形態に係る符号化装置の機能ブロック図である。第１の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その１）である。第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その２）である。第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その３）である。第１の補正部で補正されたマスキング閾値と周波数スペクトルとの関係の一例を示すグラフである。第２の補正部で補正されたマスキング閾値と周波数スペクトルとの関係の一例を示すグラフである。符号化装置として動作させるコンピュータのハードウェア構成の例を示す模式図である。本発明の第２の実施形態に係る符号化装置の機能ブロック図である。第２の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。第２の実施形態に係る符号化処理におけるマスキング閾値の補正処理の手順を示すフローチャートである。本発明の第３の実施形態に係る符号化装置の機能ブロック図である。第３の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。第３の実施形態に係る符号化処理におけるマスキング閾値の補正処理の手順を示すフローチャートである。第３の実施形態に係る符号化装置の変形例を示すブロック図である。第３の実施形態の変形例における符号化処理の一部を示すフローチャートである。本発明の第４の実施形態に係る符号化装置の機能ブロック図である。第４の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。第４の実施形態に係る符号化処理の一部を示すフローチャートである。第４の実施形態に係る符号化処理の他の一部を示すフローチャートである。本発明の第５の実施形態に係る符号化装置の機能ブロック図である。第５の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。第５の実施形態に係る符号化処理の一部を示すフローチャートである。第５の実施形態に係る符号化処理の他の一部を示すフローチャートである。

［第１の実施形態］
図１は、本発明の第１の実施形態に係る符号化装置の機能ブロック図である。

図１に示すように、本実施形態に係る符号化装置１は、ブロック切替部１０と、ＭＤＣＴ処理部１１と、マスキング閾値生成部１２と、聴覚特性算出部１３と、マスキング閾値補正部１４と、量子化部１５と、符号化部１６と、多重化部１７とを備える。また、符号化装置１は、記憶部１８を備える。

ブロック切替部１０は、入力信号（オーディオ信号）の特性に基づいて、入力信号に対しModified Discrete Cosine Transform（ＭＤＣＴ）処理を行う際のブロック長を切り替える。例えば、ＡＡＣ方式での符号化においては、長ブロック（１０２４点）又は短ブロック（１２８点）にブロック長を切り替える。

ＭＤＣＴ処理部１１は、入力信号に対し長ブロック又は短ブロックに応じた窓長のＭＤＣＴ処理を行い、入力信号を周波数スペクトルに変換する。例えば、ＡＡＣ方式での符号化においては、ブロック長が長ブロックであれば窓長２０４８のＭＤＣＴ処理を行い、短ブロックであれば窓長２５６のＭＤＣＴ処理を行う。

マスキング閾値生成部１２は、入力信号に対して聴覚心理分析を行い、当該入力信号から得た周波数スペクトルの量子化において最適なマスキング閾値（初期マスキング閾値）sfbThr₀(sfb)を生成する。初期マスキング閾値sfbThr₀(sfb)は、帯域（ＡＡＣ方式におけるスケールファクタバンドsfb。以下「帯域sfb」ともいう）毎に生成する。また、マスキング閾値生成部１２は、周波数スペクトルの各帯域sfbにおける電力値（入力パワー）mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)とに基づいて、符号化対象の帯域sfbを決定する。更に、マスキング閾値生成部１２は、符号化対象の帯域sfbを決定した後、初期マスキング閾値を用いた量子化が可能か否か、言い換えると初期マスキング閾値を補正する必要があるか否かを判断する。初期マスキング閾値を用いた量子化が可能な場合、マスキング閾値生成部１２は、初期マスキング閾値を量子化部１５に渡す。一方、初期マスキング閾値を用いて量子化できない場合、マスキング閾値生成部１２は、初期マスキング閾値sfbThr₀(sfb)を、聴覚特性算出部１３及びマスキング閾値補正部１４の第１の補正部１４１に渡すとともに、記憶部１８に記憶させる。

聴覚特性算出部１３は、マスキング閾値の補正に必要な聴覚特性を算出する。本実施形態の聴覚特性算出部１３は、聴覚特性として、各帯域sfbの信号対マスク比（Signal Mask Ratio；ＳＭＲ）を算出する。また、聴覚特性算出部１３は、算出した信号対マスク比smr(sfb)を、マスキング閾値補正部１４の第１の補正部１４１に渡すとともに、記憶部１８に記憶させる。

マスキング閾値補正部１４は、聴覚特性（信号対マスク比smr(sfb)）及びビットレート条件に基づいて初期マスキング閾値を補正する。本実施形態のマスキング閾値補正部１４は、第１の補正部１４１と、第２の補正部１４２と、補正閾値決定部１４３と、を備える。

第１の補正部１４１は、量子化による帯域の欠落を許容する条件で初期マスキング閾値を補正する。第２の補正部１４２は、量子化による帯域の欠落を許容しない条件で初期マスキング閾値を補正する。補正閾値決定部１４３は、第１の補正部１４１で補正されたマスキング閾値sfbThr₁(sfb)と、第２の補正部１４２で補正されたマスキング閾値sfbThr₂(sfb)とのどちらを量子化に用いるか決定する。以下、第１の補正部１４１で補正されたマスキング閾値sfbThr₁(sfb)を第１の補正閾値ともいい、第２の補正１４２で補正されたマスキング閾値sfbThr₂(sfb)を第２の補正閾値ともいう。

マスキング閾値補正部１４では、まず、第１の補正部１４１で初期マスキング閾値sfbThr₀(sfb)を第１の補正閾値sfbThr₁(sfb)に補正する。そして、補正閾値決定部１４３において第１の補正閾値sfbThr₁(sfb)を採用するか否かを判定する。補正閾値決定部１４３は、後述するように、第１の補正閾値についての欠落ＳＦＢ変動率に基づいて、第１の補正閾値を採用するか否かを決定する。そして、第１の補正閾値を採用すると判定した場合、補正閾値決定部１４３は、第１の補正閾値を量子化に用いるマスキング閾値に決定し、第１の補正閾値を量子化部１５に渡す。一方、第１の補正閾値を採用しないと判定した場合、補正閾値決定部１４３は、第２の補正閾値を量子化に用いると決定し、第２の補正部１４２に初期マスキング閾値を補正させる。第２の補正部１４２は、初期マスキング閾値を第２の補正閾値sfbThr₂(sfb)に補正した後、第２の補正閾値sfbThr₂(sfb)を量子化部１５に渡す。

量子化部１５は、初期マスキング閾値sfbThr₀(sfb)、第１の補正閾値sfbThr₁(sfb)、及び第２の補正閾値sfbThr₂(sfb)のいずれかを用いて、周波数スペクトルにおける符号化対象の帯域を量子化する。

符号化部１６は、周波数スペクトルを量子化して得られた値を符号化する。ＡＡＣ方式での符号化の場合、符号化部１６は量子化して得られた値をハフマン符号化する。

多重化部１７は、符号化されたオーディオ信号を多重化して符号化ストリームを生成する。

記憶部１８は、初期マスキング閾値sfbThr₀(sfb)及び信号対マスク比smr(sfb)等のマスキング閾値の補正に用いる情報を、読み出し及び書き換えが可能な状態で記憶する。

図２は、第１の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。

図２に示すように、補正閾値決定部１４３は、欠落ＳＦＢ変動率算出部１４３ａと、欠落ＳＦＢ情報保持部１４３ｂと、判定部１４３ｃと、を有する。

欠落ＳＦＢ変動率算出部１４３ａは、第１の補正閾値sfbThr₁(sfb)及び周波数スペクトルの電力値mdct_pow(sfb)に基づいて、量子化により欠落する帯域sfbの変動率Ｖsfbを算出する。以下、欠落ＳＦＢ変動率算出部１４３ａで算出した変動率Ｖsfbを、欠落ＳＦＢ変動率という。

本実施形態における欠落ＳＦＢ変動率Ｖsfbは、現時点の符号化対象のフレーム（Ｔフレーム）で欠落する帯域における数フレームに渡り連続して欠落している帯域の割合を表す。欠落する帯域は、第１の補正閾値sfbThr₁(sfb)と周波数スペクトルの電力値mdct_pow(sfb)との関係がsfbThr₁(sfb)＞mdct_pow(sfb)である帯域である。また、本実施形態では、Ｔフレームで欠落する帯域について、Ｔフレームより時間的に前のフレームにおいて同じ帯域又はその前後の帯域が欠落している場合、連続して欠落していると判断する。

欠落ＳＦＢ情報保持部１４３ｂは、欠落ＳＦＢ変動率Ｖsfbの算出に用いる数フレーム分の欠落ＳＦＢ情報を保持する。欠落ＳＦＢ情報は、各フレームにおける欠落する帯域の集合である。本実施形態では、図２に示すように、Ｔ−１フレーム（Ｔフレームの１フレーム前）の欠落ＳＦＢ情報と、Ｔ−２フレーム（Ｔフレームの２フレーム前）の欠落ＳＦＢ情報とを保持する。

判定部１４３ｃは、算出した欠落ＳＦＢ変動率Ｖsfbに基づいて、量子化する際のマスキング閾値に第１の補正閾値sfbThr₁(sfb)を採用するか否かを判定する。判定部１４３ｃは、欠落ＳＦＢ変動率Ｖsfbが予め定めた閾値ＴＨ_１以下の場合、量子化する際のマスキング閾値に第１の補正閾値を採用すると判定する。すなわち、第１の補正閾値を量子化に用いると決定する。この場合、判定部１４３は、第１の補正閾値を量子化部１５に渡す。

一方、欠落ＳＦＢ変動率Ｖsfbが閾値よりも小さい場合、判定部１４３は、第１の補正閾値を採用しない、すなわち第２の補正閾値sfbThr₂(sfb)を量子化に用いると決定する。この場合、判定部１４３ｃは、第２の補正部１４２に初期マスキング閾値を補正させる。

このように、本実施形態に係る符号化装置１では、帯域の欠落を許容する条件で補正した第１の補正閾値sfbThr₁(sfb)が所定の採用条件を満たしている場合、第１の補正閾値を用いて周波数スペクトルを量子化する。一方、第１の補正閾値が所定の採用条件を満たしていない場合、帯域の欠落を許容しない条件で補正した第２の補正閾値sfbThr₂(sfb)を用いて周波数スペクトルを量子化する。

以下、本実施形態に係る符号化装置１における符号化処理の内容を説明する。
図３Ａは、第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その１）である。図３Ｂは、第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その２）である。図３Ｃは、第１の実施形態に係る符号化装置における符号化処理を示すフローチャート（その３）である。

本実施形態の符号化装置１は、入力信号（オーディオ信号）におけるフレーム等の符号化単位のデータのそれぞれに対し、図３Ａ〜図３Ｃに示すような符号化処理を行う。

符号化装置１は、図３Ａに示すように、まず、１フレーム分の入力信号を周波数スペクトルに変換し、各帯域sfbの電力値mdct_pow(sfb)を算出する（ステップＳ１０）。ステップＳ１０の処理は、ブロック切替部１０及びＭＤＣＴ処理部１１が行う。

ブロック切替部１０は、ＭＤＣＴ処理のブロック長を長ブロック及び短ブロックのいずれにするかを選択して切り替える。ブロック長は、既知の選択方法、例えば入力信号の電力変動比と予測利得変動比とに基づいて選択する。

また、ＭＤＣＴ処理部１１は、ブロック切替部１０で選択したブロック長に応じた窓長のＭＤＣＴ処理を行い、入力信号を周波数スペクトルに変換する。その後、ＭＤＣＴ処理部１１は、得られた周波数スペクトルに基づき、各帯域sfbの電力値mdct_pow(sfb)を算出する。ＭＤＣＴ処理及び電力値の算出は、それぞれ既知の変換方法及び算出方法のいずれかを用いて行う。

符号化装置１は、次に、周波数スペクトルを量子化する際の初期マスキング閾値sbfThr₀(sfb)を生成する（ステップＳ１２）。ステップＳ１２の処理は、マスキング閾値生成部１２が行う。

マスキング閾値生成部１２は、入力信号に対して聴覚心理分析を行い、帯域sfb毎に初期マスキング閾値sfbThr₀(sfb)を求める。初期マスキング閾値sfbThr₀(sfb)は、各帯域sfbにおける最小可聴レベルやマスキング効果等に基づき、既知の算出方法のいずれかを用いて算出する。

また、マスキング閾値生成部１２は、初期マスキング閾値sfbThr₀(sfb)を生成すると、次に、初期マスキング閾値sfbThr₀(sfb)と周波数スペクトルの電力値mdct_pow(sfb)とに基づいて符号化対象の帯域を決定する（ステップＳ１４）。ステップＳ１４の処理において、マスキング閾値生成部１２は、周波数スペクトルの全帯域のうち、sfbThr₀(sfb)＜mdct_pow(sfb)である帯域のみを符号化対象とする。

符号化対象の帯域を決定した後、マスキング閾値生成部１２は、初期マスキング閾値を補正するか否かを判定するため、初期ＰＥ値及び目標ＰＥ値を算出する（ステップＳ１６）。本実施形態では、初期ＰＥ値が目標ＰＥ値より大きいか否かにより、マスキング閾値を補正するか否かを判定する（ステップＳ１８）。

ここで、ＰＥ値とは、音響パラメータの１つである知覚エントロピー（Perceptual Entropy）の値であり、雑音を知覚することがないよう量子化するのに必要なビット数を表す。初期ＰＥ値は、符号化対象の帯域における電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)とに基づいて算出されるＰＥ値である。また、目標ＰＥ値は、符号化に使用可能なビット数に基づいて算出されるＰＥ値である。初期ＰＥ値及び目標ＰＥ値は、既知の算出方法のいずれか（例えば、非特許文献１に記載された算出方法）を用いて算出する。

知覚エントロピーの値は、上記のように量子化に必要なビット数と関係があり、初期ＰＥ値が目標ＰＥ値よりも大きい場合、初期マスキング閾値を用いた量子化で使用するビット量が使用可能なビット数を超えると判断できる。一方、初期ＰＥ値が目標ＰＥ値以下である場合、初期マスキング閾値を用いた量子化で使用するビット量が使用可能なビット数内に収まると判断できる。よって、初期ＰＥ値と目標ＰＥ値との大小関係に基づいて初期マスキング閾値を用いた量子化が可能であるか否か、すなわち初期マスキング閾値を補正する必要があるか否かを判断できる。

初期ＰＥ値が目標ＰＥ値以下の場合（ステップＳ１８；Ｎｏ）、マスキング閾値生成部１２は、マスキング閾値を補正しないと判定し、量子化部１５に初期マスキング閾値sfbThr₀(sfb)を渡す。この場合、符号化装置１は、図３Ｃに示すように、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３０）。ステップＳ３０の量子化は、量子化部１５が行う。量子化部１５は、既知の量子化方法のいずれかを用いて周波数スペクトルを量子化する。

一方、初期ＰＥ値が目標ＰＥ値より大きい場合（ステップＳ１８；Ｙｅｓ）、マスキング閾値生成部１２は、マスキング閾値を補正すると判定する。この場合、マスキング閾値生成部１２は、初期マスキング閾値sfbThr₀(sfb)を聴覚特性算出部１３に渡す。また、マスキング閾値生成部１２は、初期マスキング閾値sfbThr₀(sfb)及び目標ＰＥ値を、マスキング閾値補正部１４の第１の補正部１４１に渡すとともに、記憶部１８に記憶させる。その後、符号化装置１は、図３Ｂに示したステップＳ２０〜Ｓ２８のようなマスキング閾値の補正処理を行う。

マスキング閾値を補正する場合、符号化装置１は、次に、周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。ステップＳ２０の処理は、聴覚特性算出部１６が行う。

聴覚特性算出部１６は、各帯域sfbにおける信号対マスク比smr(sfb)、すなわち各帯域における電力値mdct_pow(sfb)と初期マスキング閾値sfbThr₀(sfb)との差分値を算出する。信号対マスク比smr(sfb)を算出すると、聴覚特性算出部１６は、算出した信号対マスク比smr(sfb)を、マスキング閾値補正部１４の第１の補正部１４１に渡すとともに、記憶部１８に記憶させる。

聴覚特性（信号対マスク比）の算出が終わると、符号化装置１は、次に、聴覚特性等に基づいて、量子化による帯域の欠落を許容する条件で初期マスキング閾値を補正する（ステップＳ２２）。ステップＳ２２は、マスキング閾値補正部１４の第１の補正部１４１が行う。

第１の補正部１４１は、例えば、下記式（１）を用い、電力値mdct_pow(sfb)と補正後のマスキング閾値sfbThr₁(sfb)とに基づいて算出されるＰＥ値が目標ＰＥ値になるようマスキング閾値を補正する。

式（１）において、ｒは補正パラメータである（非特許文献１を参照）。

また、第１の補正部１４１は、帯域の欠落を許容するため、補正後のマスキング閾値sfbThr₁(sfb)に上限値を設定せずにステップＳ２２の補正処理を行う。また、第１の補正部１４１は、マスキング閾値の補正を終えると、補正されたマスキング閾値（第１の補正閾値sfbThr₁(sfb)）を、補正閾値決定部１４３の欠落ＳＦＢ変動率算出部１４３ａ、及び判定部１４３ｃに送る。

初期マスキング閾値を第１の補正閾値に補正する処理が終わると、符号化装置１は、次に、補正されたマスキング閾値（第１の補正閾値）の欠落ＳＦＢ変動率Ｖsfbを算出する（ステップＳ２４）。ステップＳ２４は、欠落ＳＦＢ変動率算出部１４３ａが行う。

欠落ＳＦＢ変動率算出部１４３ａは、ステップＳ２４の処理として、まず、現在の符号化対象フレーム（Ｔフレーム）に対する第１の補正閾値sfbThr₁(sfb)と電力値mdct_pow(sfb)とを用いて欠落する帯域を抽出する。次に、欠落ＳＦＢ変動率算出部１４３ａは、欠落ＳＦＢ情報保持部１４３ｂからＴ−１フレームの欠落ＳＦＢ情報及びＴ−２フレームの欠落ＳＦＢ情報を読み出し、Ｔフレームの欠落する帯域毎に、各欠落ＳＦＢ情報に含まれる欠落する帯域と照合する。そして、Ｔフレームにおける１つの欠落する帯域と同じ帯域又はその前後の帯域が各欠落ＳＦＢ情報に含まれる場合、その１つの欠落する帯域を連続して欠落する帯域と判定する。その後、欠落ＳＦＢ変動率算出部１４３ａは、連続して欠落する帯域の数をＴフレームの欠落する帯域の総数で除した値を欠落ＳＦＢ変動率Ｖsfbとして判定部１４３ｃに渡す。また、欠落ＳＦＢ変動率算出部１４３ａは、欠落ＳＦＢ変動率Ｖsfbの算出を終えると、欠落ＳＦＢ情報保持部１４３ｂで保持する情報を更新する。すなわち、Ｔ−１フレームの欠落ＳＦＢ情報をＴ−２フレームの欠落ＳＦＢ情報として保持し、Ｔフレームの欠落ＳＦＢ情報をＴ−１フレームの欠落ＳＦＢ情報として保持する。

なお、欠落ＳＦＢ変動率Ｖsfbは、上記の方法に限らず、他の方法で算出してもよい。また、オーディオ信号における先頭の数フレームを符号化するときのように、１フレーム前及び２フレーム前の欠落ＳＦＢ情報を保持していない場合、欠落ＳＦＢ変動率算出部１４３ａは、予め定めた値を欠落ＳＦＢ変動率Ｖsfbとする。この予め定めた値は、例えば、次のステップで欠落ＳＦＢ変動率Ｖsfbと比較する閾値ＴＨ_１よりも小さな値とする。

欠落ＳＦＢ変動率Ｖsfbの算出を終えると、符号化装置１は、次に、第１の補正閾値及び第２の補正閾値のどちらを量子化に用いるかを決定するため、欠落ＳＦＢ変動率Ｖsfbと予め定めた閾値ＴＨ_１とを比較する（ステップＳ２６）。ステップＳ２６は、判定部１４３ｃが行う。Ｖsfb＞ＴＨ_１の場合（ステップＳ２６；Ｙｅｓ）、判定部１４３ｃは、量子化する際のマスキング閾値に第１の補正閾値を採用すると判定し、第１の補正閾値を量子化部１５に渡す。これにより、量子化に用いるマスキング閾値が第１の補正閾値sfbThr₁(sfb)に決定される。この場合、図３Ｃに示すように、量子化部１５は、第１の補正閾値、すなわち帯域の欠落を許容する条件で補正したマスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３２）。一方、Ｖsfb≦ＴＨ_１の場合（ステップＳ２６；Ｎｏ）、判定部１４３ｃは、量子化する際のマスキング閾値に第１の補正閾値を採用しないと判定し、第２の補正部１４２にマスキング閾値を補正させる。これにより、量子化に用いるマスキング閾値が第２の補正閾値sfbThr₂(sfb)に決定される。

第２の補正部１４２は、判定部１４３ｃからのマスキング閾値の補正を指示する信号を受け取ると、聴覚特性等に基づいて、量子化による帯域の欠落を許容しない条件でマスキング閾値を補正する（ステップＳ２８）。ステップＳ２８は、ステップＳ２２と同様、式（１）を用い、補正後のマスキング閾値と電力値とから算出されるＰＥ値が目標ＰＥ値になるようマスキング閾値を補正する。ただし、ステップＳ２８では、帯域の欠落を許容しない条件で初期マスキング閾値を補正する。そのため、第２の補正部１４２は、補正後のマスキング閾値sfbThr₂(sfb)に帯域が欠落しない上限値を設定してステップＳ２８の補正処理を行う。量子化により欠落する帯域は、マスキング閾値が周波数スペクトルの電力値mdct_pow(sfb)よりも大きい帯域である。そのため、補正後のマスキング閾値sfbThr₂(sfb)の上限値は、周波数スペクトルの電力値mdct_pow(sfb)以下の値に設定する。

第２の補正部１４２は、マスキング閾値の補正を終えると、補正されたマスキング閾値（第２の補正閾値）を量子化部１５に渡す。この場合、図３Ｃに示すように、量子化部１５は、帯域の欠落を許容しない条件で補正したマスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３４）。

こうして初期マスキング閾値sfbThr₀(sfb)、第１の補正閾値sfbThr₁(sfb)、及び第２の補正閾値sfbThr₂(sfb)のいずれかを用いて周波数スペクトルを量子化すると、量子化部１５は、量子化された値を符号化部１６に渡す。すると、符号化部１６は、固定ハフマン符号化等の既知の符号化方法を用いて、量子化された値を符号化する（ステップＳ３６）。そして、符号化を終えると、符号化部１６は、符号化したデータを多重化部１７に渡す。これにより、入力信号（オーディオ信号）の１フレーム分の符号化処理が終了する。

符号化処理を終えると、符号化装置１（多重化部１７）は、符号化されたオーディオ信号（オーディオデータ）にヘッダ情報等を付加した符号化ストリームを生成して出力する。

本実施形態で算出する欠落ＳＦＢ変動率Ｖsfbは、現時点の符号化対象のフレームにおいて欠落する帯域における、３つの連続するフレームで欠落する帯域sfbの数の割合である。そのため、複数のフレームで連続して欠落する帯域の割合が大きいほど、欠落ＳＦＢ変動率Ｖsfbが大きくなる。すなわち、複数のフレームで連続して欠落する帯域の割合が小さいほど、欠落ＳＦＢ変動率Ｖsfbは小さくなる。

周波数スペクトルのピーク位置（電力値のパターン）が激しく変化するオーディオ信号では、欠落する帯域も激しく変化するため、連続する数フレームにおいて欠落する帯域はフレーム毎にばらばらである。そのため、周波数スペクトルのピーク位置が激しく変化するオーディオ信号を、欠落を許容する条件で補正したマスキング閾値を用いて量子化すると、例えば、連続して聞こえる原音が途切れて聞こえる等の音質の劣化につながる。よって、この種のオーディオ信号を量子化する際には、帯域の欠落を許容しない条件で補正したマスキング閾値を用いて量子化することが好ましい。

周波数スペクトルのピーク位置が激しく変化し連続する数フレームにおいて欠落する帯域がばらばらのオーディオ信号は、複数のフレームで連続して欠落する帯域の割合が小さい。そのため、上記の方法で算出した欠落ＳＦＢ変動率Ｖsfbは小さくなる。したがって、本実施形態では、オーディオ信号の欠落ＳＦＢ変動率Ｖsfbが所定の閾値ＴＨ_１よりも小さい場合、欠落を許容しない条件で補正したマスキング閾値を量子化に用いる。これにより、周波数スペクトルのピーク位置が激しく変化するオーディオ信号は、欠落を許容しない条件で補正したマスキング閾値を用いて量子化することができる。よって、連続して聞こえる原音が符号化後は途切れて聞こえる等の音質の劣化を抑制できる。

一方、欠落を許容しない条件で補正したマスキング閾値は、音質の面で重要な帯域が過度に補正されている。このような過度に補正されたマスキング閾値を用いて量子化すると、知覚可能な量子化誤差が発生しやすく、音質の劣化につながる。このような過度の補正による音質の劣化は、ハープシコード等の周波数スペクトルのピーク位置の変化が緩やかなオーディオ信号、欠落を許容しない条件で補正したマスキング閾値を用いて量子化した場合に顕著となる。

周波数スペクトルのピーク位置の変化が緩やかなオーディオ信号は、欠落する帯域の変動も緩やかであり、連続する数フレームに渡って欠落する帯域が多い。そのため、周波数スペクトルのピーク位置の変化が緩やかなオーディオ信号は、上記の方法で算出した欠落ＳＦＢ変動率Ｖsfbが大きくなる。本実施形態では、オーディオ信号の欠落ＳＦＢ変動率Ｖsfbが所定の閾値ＴＨ_１以上の場合、欠落を許容する条件で補正したマスキング閾値を量子化に用いる。したがって、周波数スペクトルのピーク位置の変化が緩やかなオーディオ信号は、欠落を許容する条件で補正したマスキング閾値を用いて量子化される。よって、音質的に重要な帯域のマスキング閾値が過度に補正されることによる音質の劣化を抑制できる。

上記のマスキング閾値の補正処理について、図４Ａ及び図４Ｂを参照しながら具体的に説明する。

図４Ａは、第１の補正部で補正されたマスキング閾値と周波数スペクトルとの関係の一例を示すグラフである。

１フレーム分の入力信号に対しステップＳ１０〜Ｓ１４の処理を行うと、例えば、図４Ａに示すような、周波数スペクトルの各帯域sfbの電力値mdct_pow(sfb)及び初期マスキング閾値sfbThr₀(sfb)が得られる。なお、図４Ａには、Ｔ−２フレーム、Ｔ−１フレーム、及びＴフレームの連続する３フレーム分の周波数スペクトルの各帯域sfbの電力値mdct_pow(sfb)及び初期マスキング閾値sfbThr₀(sfb)を示している。この３フレームのうち、下段のＴフレームが現時点で符号化対象のフレームである。また、中段のＴ−１フレームはＴフレームの１つ前のフレームであり、上段のＴ−２フレームはＴフレームの２つ前のフレームである。図４Ａに示したグラフでは、下段のＴフレームと上段のＴ−２フレームとは電力値mdct_pow(sfb)及び初期マスキング閾値sfbThr₀(sfb)の概形がほぼ同じであるが、中断のＴ−１フレームは概形が全く異なる。

初期マスキング閾値sfbThr₀(sfb)は、上記のように、対応する周波数スペクトルの量子化に最適なマスキング閾値である。そのため、ステップＳ１６，Ｓ１８の処理により初期マスキング閾値sfbThr₀(sfb)を用いた量子化が可能であると判定した場合、符号化装置１は、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３０）。

しかしながら、低ビットレート条件で符号化する場合、すなわち周波数スペクトルの符号化に使用可能なビット数が少ない場合、量子化誤差を初期マスキング閾値以下にできないことが多い。量子化誤差を初期マスキング閾値以下にできない場合、符号化装置１は、ビットレート条件や聴覚特性等に基づいて、音質がなるべく劣化しない範囲でマスキング閾値を大きくする（緩める）補正を行う。

本実施形態の符号化装置１では、上述のように、まず、量子化による帯域の欠落を許容する条件でマスキング閾値を補正する（ステップＳ２２）。この際、図４Ａに示した３つのフレームにおける補正後のマスキング閾値（第１の補正閾値）sfbThr₁(sfb)は、それぞれ実線の折れ線で示した概形となる。そして、Ｔフレームの量子化に第１の補正閾値sfbThr₁(sfb)を用いるか否かは、欠落ＳＦＢ変動率Ｖsfbに基づいて決定する。

Ｔフレームの量子化に第１の補正閾値sfbThr₁(sfb)を用いた場合に欠落する帯域は、sfbThr₁(sfb)＞mdct_pow(sfb)となる帯域である。図４Ａの下段に示した例において、量子化により欠落する帯域は、帯域ｓｆｂ５、ｓｆｂ９、及びｓｆｂ１２の３つである。一方、Ｔ−１フレームで欠落するのは帯域ｓｆｂ３、ｓｆｂ８であり、Ｔ−２フレームで欠落するのは帯域ｓｆｂ５、ｓｆｂ９、及びｓｆｂ１２である。

Ｔ−１フレームでは帯域ｓｆｂ５及びその前後の帯域ｓｆｂ４及びｓｆｂ６の３つの帯域が欠落していない。また、Ｔ−１フレームでは、帯域ｓｆｂ１２及びその前の帯域ｓｆｂ１１が欠落していない。一方、Ｔ−１フレームでは帯域ｓｆｂ９の前の帯域ｓｆｂ８が欠落しており、Ｔ−２フレームでは帯域ｓｆｂ９が欠落している。すなわち、図４Ａに示した例において、Ｔフレームの欠落する３つの帯域ｓｆｂ５，ｓｆｂ９，ｓｆｂ１２のうち、３フレームに渡り連続して欠落していると判断されるのは帯域ｓｆｂ９のみである。したがって、図４Ａに示した例におけるＴフレームについての欠落ＳＦＢ変動率Ｖsfbは、１／３となる。よって、ステップＳ２６で欠落ＳＦＢ変動率Ｖsfbと比較する閾値ＴＨ_１が１／３よりも小さい値であれば、ステップＳ２６の判定は「Ｙｅｓ」となり、Ｔフレームの周波数スペクトルは第１の補正閾値sfbThr₁(sfb)を用いて量子化することになる。一方、閾値ＴＨ_１が１／３以上の値であれば、ステップＳ２６の判定は「Ｎｏ」となり、Ｔフレームの周波数スペクトルは第２の補正閾値sfbThr₂(sfb)を用いて量子化することになる。

図４Ｂは、第２の補正部で補正されたマスキング閾値と周波数スペクトルとの関係の一例を示すグラフである。

第２の補正部１４２でマスキング閾値を補正した場合の補正されたマスキング閾値sfbThr₂(sfb)は、例えば、図４Ｂに実線の折れ線で示したような概形になる。なお、図４Ｂには、図４Ａの下段に示したＴフレームに対する初期マスキング閾値を第２の補正部１４２で補正した例を示している。また、図４Ｂには、比較のため第１の補正閾値sfbThr₁(sfb)を二点鎖線で示している。

第２の補正閾値sfbThr₂(sfb)は、帯域の欠落を許容しない条件で補正したマスキング閾値である。したがって、図４Ｂに示したように、第１の補正閾値では欠落する帯域ｓｆｂ５、ｓｆｂ９、及びｓｆｂ１２を含む全ての帯域で、sfbThr₂(sfb)＜mdct_pow(sfb)となっている。ただし、帯域ｓｆｂ５、ｓｆｂ９、及びｓｆｂ１２の欠落を防ぐため、これらの帯域のビット数を低減できない分、他の帯域でマスキング閾値の補正量を多くしてビット数を減らしている。そのため、帯域ｓｆｂ１及びｓｆｂ２についてのマスキング閾値が過剰に補正されることとなる。

オーディオ信号の符号化においては、初期マスキング閾値を用いて量子化することが理想的である。そのため、マスキング閾値を補正する場合、補正後のマスキング閾値の概形と初期マスキング閾値の概形との類似度が高くなるようにすることが好ましい。しかしながら、帯域の欠落を許容しない条件でマスキング閾値を補正した場合、図４Ｂに示したように、初期マスキング閾値との概形の類似度のずれが大きくなる。よって、周波数スペクトルのピーク位置の変動が緩やかなオーディオ信号の場合、例えば図４ＢのＴフレームと似たスペクトルパターンが続くオーディオ信号の場合、過剰に補正された帯域での量子化誤差が知覚されるようになり、音質の劣化につながる。そのため、周波数スペクトルのピーク位置の変動が緩やかで欠落ＳＦＢ変動率Ｖsfbが閾値ＴＨ_１より大きい場合、欠落を許容する条件で補正したマスキング閾値を用いて量子化する。これにより、帯域の欠落を許容しない条件で補正したマスキング閾値を用いた量子化した場合に生じうる音質の劣化を抑制する。

上記のような符号化処理を行う本実施形態の符号化装置１は、例えばコンピュータと、コンピュータに上記の符号化処理を実行させるプログラムとにより実現可能である。以下、コンピュータとプログラムにより実現される符号化装置１について、図５を参照しながら説明する。

図５は、符号化装置として動作させるコンピュータのハードウェア構成の例を示す模式図である。

図５に示すように、符号化装置として動作させるコンピュータ５は、Central Processing Unit（ＣＰＵ）５０と、主記憶装置５１と、補助記憶装置５２と、入力装置５３と、出力装置５４と、を備える。また、コンピュータ５は、Digital Signal Processor（ＤＳＰ）５５と、記憶媒体駆動装置５６と、インタフェース装置５７と、を更に備える。コンピュータ５におけるこれらの要素５０〜５７は、バス５９により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

ＣＰＵ５０は、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ５の全体の動作を制御する演算処理装置である。

主記憶装置５１は、Read Only Memory（ＲＯＭ）５１ａ及びRandom Access Memory（ＲＡＭ）５１ｂを有する。ＲＯＭ５１ａには、例えばコンピュータ５の起動時にＣＰＵ５０が読み出す所定の基本制御プログラム等が予め記録されている。また、ＲＡＭ５１ｂは、ＣＰＵ５０が各種のプログラムを実行する際に、必要に応じて作業用記憶領域として使用する。本実施形態においては、例えば符号化するオーディオ信号、マスキング閾値等の一時的な記憶にＲＡＭ５１ｂを使用する。

補助記憶装置５２は、Hard Disk Drive（ＨＤＤ）やSolid State Drive（ＳＳＤ）等の主記憶装置５１に比べて大容量の記憶装置である。補助記憶装置５２には、ＣＰＵ５０によって実行される各種のプログラムや各種のデータ等を記憶させる。補助記憶装置５２に記憶させるプログラムとしては、例えば、オーディオ信号の符号化や再生を行うオーディオプレイヤーのプログラムが挙げられる。また、補助記憶装置５２に記憶させるデータとしては、例えば、上記のプレイヤーにより符号化されたオーディオ信号のデータが挙げられる。

入力装置５３は、例えばキーボード装置やマウス装置であり、コンピュータ５のオペレータにより操作されると、その操作内容に対応付けられている入力情報をＣＰＵ５０に送信する。

出力装置５４は、例えば液晶ディスプレイやスピーカである。液晶ディスプレイは、ＣＰＵ５０等から送信される表示データに従って各種のテキスト、画像等を表示する。また、スピーカは、ＣＰＵ５０やＤＳＰ５５等から送信される音声データやオーディオデータを出力する。

ＤＳＰ５５は、ＣＰＵ５０からの制御信号等に従ってオーディオ信号の符号化処理、復号化（再生）処理等を行う演算処理装置である。

記憶媒体駆動装置５６は、図示しない可搬型記憶媒体に記録されているプログラムやデータの読み出し、補助記憶装置５２に記憶されたデータ等の可搬型記憶媒体への書き込みを行う。可搬型記憶媒体としては、例えば、ＵＳＢ規格のコネクタが備えられているフラッシュメモリが利用可能である。また、可搬型記憶媒体としては、Compact Disk（ＣＤ）、Digital Versatile Disc（ＤＶＤ）、Blu-ray Disc（Blu-rayは登録商標）等の光ディスクも利用可能である。

インタフェース装置５７は、例えばオーディオ入出力装置や通信制御装置である。オーディオ入出力装置は、例えばコンピュータ５とマイクやオーディオ装置とを接続してオーディオ信号の入力や出力を行う。通信制御装置は、コンピュータ５とインターネット等の通信ネットワークとを通信可能に接続し、通信ネットワークを介した外部通信装置等との通信によりオーディオデータ等の送受信を行う。

このコンピュータ５は、ＣＰＵ５０が補助記憶装置５２から上述した符号化処理を含むプログラムを読み出し、ＤＳＰ５５、主記憶装置５１、補助記憶装置５２等と協働してオーディオ信号の符号化処理を実行する。この際、ＣＰＵ５０は、符号化処理における演算処理をＤＳＰ５５に実行させる。ＤＳＰ５５は、オーディオ信号を周波数スペクトルに変換し、初期マスキング閾値を生成する。オーディオ信号は、例えば音楽ＣＤ等の可搬型記憶媒体から読み出して入力してもよいし、インタフェース装置５７を介した通信でコンピュータ５に入力してもよい。また、ＤＳＰ５５は、初期ＰＥ値及び目標ＰＥ値を算出し、それらの大小関係から初期マスキング閾値を用いたオーディオ信号の量子化が可能か否かを判定する。そして、初期マスキング閾値を用いて量子化することができない場合、ＤＳＰ５５は、聴覚特性を算出し、量子化による帯域の欠落を許容する条件でマスキング閾値を補正する。更に、ＤＳＰ５５は、補正されたマスキング閾値（第１の補正閾値）に基づいて欠落ＳＦＢ変動率Ｖsfbを算出し、第１の補正閾値を量子化に用いるか否かを判定する。そして、第１の補正閾値を量子化に用いると決定した場合、第１の補正閾値を用いて周波数スペクトルを量子化する。一方、第１の補正閾値を量子化に用いないと決定した場合、帯域の欠落を許容しない条件で初期マスキング閾値を補正し、補正後のマスキング閾値を用いて周波数スペクトルを量子化する。また、量子化の後、ＤＳＰ５５は、続けて符号化及び多重化を行う。加えて、ＤＳＰ５５は、上記の処理の実行中、初期マスキング閾値、目標ＰＥ値、及び聴覚特性（信号対マスク比）等をＲＡＭ５１ｂや補助記憶装置５２に記憶させる処理、及びＲＡＭ５１ｂや補助記憶装置５２から読み出す処理を行う。

コンピュータ５で符号化したオーディオ信号のデータ（オーディオデータ）は、例えば、補助記憶装置５２に記憶させておき、必要に応じてコンピュータ５で復号化（再生）する。また、インタフェース装置５７として通信制御装置を備えたコンピュータ５であれば、例えば、オーディオデータを、通信ネットワークを介して他のコンピュータ等に提供（配信）することができる。

なお、符号化装置１として用いるコンピュータ５は、図５に示した構成に限らず、ＣＰＵ５０においてオーディオ信号の符号化処理を行う構成であってもよい。また、符号化装置１として用いるコンピュータ５は、種々のプログラムを実行することにより複数の機能を実現する汎用型のものに限らず、オーディオ信号の符号化、復号化に特化されたオーディオ装置でもよい。

以上説明したように、第１の実施形態によれば、量子化に用いるマスキング閾値を補正する際に、まず、第１の補正部１４１において量子化による帯域の欠落を許容する条件でマスキング閾値を補正する。そして、第１の補正部１４１で補正したマスキング閾値を量子化に用いた場合に欠落する帯域sfbの変動率（時間連続性）に基づいて、帯域の欠落を許容する条件及び許容しない条件のいずれの条件で補正したマスキング閾値を量子化に用いるか決定する。そのため、符号化対象のオーディオ信号の特性に応じて、帯域の欠落を許容して補正したマスキングと許容しない補正したマスキング閾値のうち音質が劣化しにくいほうのマスキング閾値を用いて量子化することができる。例えば、周波数スペクトルのピーク位置の変動が激しいオーディオ信号を符号化する場合には欠落を許容しない条件で補正したマスキング閾値を用いて量子化することで、連続音の途切れ等による音質の劣化を抑制できる。一方、周波数スペクトルのピーク位置の変動が緩やかなオーディオ信号を符号化する場合には欠落を許容する条件で補正したマスキング閾値を用いて量子化することで、マスキング閾値が過剰に補正され量子化誤差が大きくなることによる音質の劣化を抑制できる。

また、帯域の欠落を許容する条件で補正したマスキング閾値と、欠落を許容しない条件で補正したマスキング閾値とのどちらを量子化に用いるかを、欠落ＳＦＢ変動率Ｖsfbに基づいて判定している。欠落ＳＦＢ変動率Ｖsfbは、上記のように、現時点の符号化対象のフレームにおいて欠落する帯域sfbのうち数フレームの間連続して欠落する帯域の割合である。そのため、入力信号（オーディオ信号）の特性等を解析することなく、帯域の欠落を許容する条件で補正したマスキング閾値と、欠落を許容しない条件で補正したマスキング閾値とのどちらを量子化に用いるかを容易に判定することができる。

更に、本実施形態では、符号化処理の最中に、符号化装置１がリアルタイムかつ自動的に、欠落を許容するマスキング閾値と許容しないマスキング閾値とのどちらを量子化に用いるかを決定する。また、欠落した帯域の数及び欠落の連続性から算出した欠落ＳＦＢ変動率に基づいてマスキング閾値を決定するので、少ない計算量で音質劣化をより抑制できるマスキング閾値を決定し、量子化することができる。そのため、本実施形態の符号化装置及び符号化方法は、ライブ放送等の入力されたオーディオ信号を逐次符号化しながら出力（配信）する用途への適用が容易である。

なお、本実施形態では１つ前のフレーム及び２つ前のフレームについての欠落ＳＦＢ情報を用いて欠落する帯域の変動率を判定しているが、これに限らず、更に多くのフレームについての欠落ＳＦＢ情報を用いて欠落する帯域の変動率を判定してもよい。加えて、欠落する帯域の変動率は、欠落する帯域における複数フレームで連続して欠落する帯域の割合に限らず、他の算出方法で算出しても良い。

また、本実施形態では、図１に示したように、マスキング閾値を補正する補正部として、第１の補正部１４１と第２の補正部１４２との２つの補正部を設けている。しかしながら、マスキング閾値の補正は、これに限らず、１つの補正部で行ってもよいことはもちろんである。その場合、マスキング閾値の補正は、１つの初期マスキング閾値に対する１回目の補正は帯域の欠落を許容する条件で行うようにする。一方、補正閾値決定部１４３から２回目の補正の指示を受けた場合には、帯域の欠落を許容しない条件で行うようにする。

また、ステップＳ２０で算出する聴覚特性は、信号対マスク比に限らず、他の特性であってもよい。

更に、符号化装置１は、図１に示したようなオーディオ信号の符号化のみを行う装置に限らず、映像信号の符号化を行う装置であってもよい。映像信号の符号化を行う装置では、図１に示した構成に加え、動画像の符号化を行う構成を備える。このような装置では、入力された映像信号の符号化を動画像の符号化と音声の符号化とに分けて行った後、符号化した動画像と音声とを多重化する。

［第２の実施形態］
図６は、本発明の第２の実施形態に係る符号化装置の機能ブロック図である。図７は、第２の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。

図６に示すように、本実施形態に係る符号化装置１は、ブロック切替部１０と、ＭＤＣＴ処理部１１と、マスキング閾値生成部１２と、聴覚特性算出部１３と、マスキング閾値補正部１４と、量子化部１５と、符号化部１６と、多重化部１７とを備える。また、本実施形態に係る符号化装置１におけるマスキング閾値補正部１４は、第１の補正部１４１と、第２の補正部１４２と、補正閾値決定部１４３とを備える。

本実施形態におけるこれらの構成要素の機能は、第１の実施形態で説明したとおりである。ただし、第１の実施形態とは異なり、補正閾値決定部１４３には、第１の補正部１４１で補正したマスキング閾値（第１の補正閾値）sfbThr₁(sfb)と、第２の補正部１４２で補正したマスキング閾値（第２の補正閾値）sfbThr₂(sfb)とが入力される。そして、補正閾値決定部１４３は、第１の補正閾値sfbThr₁(sfb)と第２の補正閾値sfbThr₂(sfb)とのどちらを量子化に用いるかを決定した後、量子化に用いるほうの補正閾値のみを量子化部１５に渡す。

本実施形態における補正閾値決定部１４３は、図７に示すように、欠落ＳＦＢ変動率算出部１４３ａと、欠落ＳＦＢ情報保持部１４３ｂと、判定部１４３ｃと、を有する。このうち、欠落ＳＦＢ変動率算出部１４３ａ及び欠落ＳＦＢ情報保持部１４３ｂは、第１の実施形態で説明したとおりである。一方、判定部１４３ｃは、第１の補正部１４１で補正した第１の補正閾値sfbThr₁(sfb)、及び欠落ＳＦＢ変動率算出部１４３ａで算出した欠落ＳＦＢ変動率Ｖsfbに加え、第２の補正部１４２で補正した第２の補正閾値sfbThr₂(sfb)が入力される。判定部１４３ｃは、欠落ＳＦＢ変動率Ｖsfbと閾値ＴＨ_１とに基づいて第１の補正閾値sfbThr₁(sfb)を採用すると判定した場合、第１の補正閾値を量子化部１５に渡す。一方、第１の補正閾値sfbThr₁(sfb)を採用しないと判定した場合、第２の補正閾値sfbThr₂(sfb)を量子化部１５に渡す。

本実施形態の符号化装置１を用いた符号化処理では、まず、図３Ａに示したステップＳ１０〜ステップＳ１６の処理、及びステップＳ１８の判定を行う。そして、初期ＰＥ値が目標ＰＥ値以下の場合（ステップＳ１８；Ｎｏ）、図３Ｃに示したように、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３０）。

一方、初期ＰＥ値が目標ＰＥ値よりも大きい場合（ステップＳ１８；Ｙｅｓ）、本実施形態の符号化装置１では、続けて、図８に示したマスキング閾値の補正処理を行う。なお、マスキング閾値の補正処理を行う場合、マスキング閾値生成部１２は、聴覚特性算出部１３に初期マスキング閾値sfbThr₀(sfb)を渡す。また、初期マスキング閾値生成部１２は、マスキング閾値補正部１４の第１の補正部１４１及び第２の補正部１４２のそれぞれに、初期マスキング閾値及び目標ＰＥ値を渡す。

図８は、第２の実施形態に係る符号化処理におけるマスキング閾値の補正処理の手順を示すフローチャートである。

マスキング閾値の補正処理では、図８に示すように、まず、周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。ステップＳ２０は、聴覚特性算出部１３が行う。聴覚特性算出部１３は、聴覚特性として信号対マスク比を算出し、第１の補正部１４１及び第２の補正部１４２に渡す。

次に、符号化装置１のマスキング閾値補正部１４が、第１の補正部１４１によるマスキング閾値の補正と、第２の補正部１４２によるマスキング閾値の補正とを並行して行う。第１の補正部１４１は、聴覚特性（信号対マスク比）を受け取ると、帯域の欠落を許容する条件で初期マスキング閾値を補正する（ステップＳ２２）。また、第１の補正部１４１は、マスキング閾値の補正を終えると、補正したマスキング閾値を補正閾値決定部１４３の欠落ＳＦＢ変動率算出部１４３ａ及び判定部１４３ｃに渡す。すると、欠落ＳＦＢ変動率算出部１４３ａは、補正されたマスキング閾値sfbThr₁(sfb)を用いて欠落ＳＦＢ変動率Ｖsfbを算出する（ステップＳ２４）。欠落ＳＦＢ変動率算出部１４３ａは、第１の実施形態で説明した方法により欠落ＳＦＢ変動率Ｖsfbを算出する。そして、欠落ＳＦＢ変動率算出部１４３ａは、算出した欠落ＳＦＢ変動率Ｖsfbを判定部１４３ｃに渡す。

一方、第２の補正部１４２は、聴覚特性（信号対マスク比）を受け取ると、帯域の欠落を許容する条件で初期マスキング閾値を補正する（ステップＳ２８）。また、第２の補正部１４２は、マスキング閾値の補正を終えると、補正したマスキング閾値を補正閾値決定部１４３の判定部１４３ｃに渡す。

判定部１４３ｃは、第１の補正閾値sfbThr₁(sfb)、第２の補正閾値sfbThr₂(sfb)、及び欠落ＳＦＢ変動率Ｖsfbを受け取ると、欠落ＳＦＢ変動率Ｖsfbと閾値ＴＨ_１とを比較する（ステップＳ２６）。そして、Ｖsfb＞ＴＨ_１の場合（ステップＳ２６；Ｙｅｓ）、判定部１４３ｃは、第１の補正閾値sfbThr_１(sfb)を採用すると判定し、第１の補正閾値を量子化部１５に渡す。これにより、量子化に用いるマスキング閾値が第１の補正閾値sfbThr₁(sfb)に決定する。よって、量子化部１５は、図３Ｃに示したように、第１の補正閾値、すなわち帯域の欠落を許容する条件で補正したマスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３２）。

一方、Ｖsfb≦ＴＨ_１の場合（ステップＳ２６；Ｎｏ）、判定部１４３ｃは、第２の補正閾値sfbThr₂(sfb)を量子化に用いると判定し、第２の補正閾値を量子化部１５に渡す。これにより、量子化に用いるマスキング閾値が第２の補正閾値sfbThr₂(sfb)に決定する。よって、量子化部１５は、図３Ｃに示したように、第２の補正閾値、すなわち帯域の欠落を許容しない条件で補正したマスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３４）。

こうして初期マスキング閾値sfbThr₀(sfb)、第１の補正閾値sfbThr₁(sfb)、及び第２の補正閾値sfbThr₂(sfb)のいずれかを用いた周波数スペクトルを量子化すると、量子化部１５は、量子化された値を符号化部１６に渡す。すると、符号化部１６は、図３Ｃに示したように、固定ハフマン符号化等の既知の符号化方法を用いて、量子化された値を符号化する（ステップＳ３６）。そして、符号化を終えると、符号化部１６は、符号化したデータを多重化部１７に渡す。これにより、入力信号（オーディオ信号）の１フレーム分の符号化処理が終了する。

このように、本実施形態の符号化装置１における符号化処理においても、量子化に用いるマスキング閾値を補正する際に、帯域の欠落を許容する条件及び許容しない条件のいずれの条件で補正したマスキング閾値を量子化に用いるか決定する。この際、符号化装置１は、第１の実施形態と同様、帯域の欠落を許容する条件で補正したマスキング閾値を量子化に用いた場合に欠落する帯域sfbの変動率（時間連続性）に基づいて、帯域の欠落を許容するか否かを決定する。そのため、符号化対象のオーディオ信号の特性に応じて、帯域の欠落を許容して補正したマスキングと許容しない補正したマスキング閾値のうち音質が劣化しにくいほうのマスキング閾値を用いて量子化することができる。

また、本実施形態では、初期マスキング閾値を補正する場合、第１の補正部１４１における欠落を許容する条件でのマスキング閾値の補正と、第２の補正部１４２における欠落を許容しない条件でのマスキング閾値の補正とを並行して行う。そのため、欠落ＳＦＢ変動率Ｖsfbと閾値ＴＨ_１との比較（ステップＳ２６）の結果、第２の補正部１４２で補正したマスキング閾値を量子化に用いると決定した場合に、量子化を速やかに行うことができる。すなわち、本実施形態によれば、第１の補正部１４１で補正されたマスキング閾値が採用条件を満たしていない場合の符号化処理の遅延を抑制することができる。よって、本実施形態に係る符号化装置及び符号化方法は、AAC-Enhanced Low Delay（ＡＡＣ−ＥＬＤ）等の低遅延符号化方式における音質劣化の抑制に適しているといえる。

なお、本実施形態の符号化装置１は、第１の実施形態と同様、コンピュータと、コンピュータに実行させるプログラムにより実現可能である。この際、符号化装置１として動作させるコンピュータは、図５に示したようなハードウェア構成であればよい。また、プログラムは、図３Ａ、図８、及び図３Ｃに示した符号化処理をコンピュータに実行させる内容であればよい。

［第３の実施形態］
図９は、本発明の第３の実施形態に係る符号化装置の機能ブロック図である。図１０は、第３の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。

図９に示すように、本実施形態に係る符号化装置１は、ブロック切替部１０と、ＭＤＣＴ処理部１１と、マスキング閾値生成部１２と、聴覚特性算出部１３と、マスキング閾値補正部１４と、量子化部１５と、符号化部１６と、多重化部１７とを備える。また、符号化装置１は、記憶部１８を備える。更に、本実施形態に係る符号化装置１におけるマスキング閾値補正部１４は、第１の補正部１４１と、第２の補正部１４２と、補正閾値決定部１４４と、を有する。

本実施形態の符号化装置１において、補正閾値決定部１４４を除く各部の機能は、第１の実施形態で説明したとおりである。

本実施形態における補正閾値決定部１４４は、図１０に示すように、量子化部１４４ａと、欠落ＭＤＣＴ変動率算出部１４４ｂと、欠落ＭＤＣＴ情報保持部１４４ｃと、判定部１４４ｄと、を有する。

量子化部１４４ａは、ビットレート条件、信号対マスク比、及び第１の補正部１４１で補正したマスキング閾値sfbThr₁(sfb)を用いて周波数スペクトルを量子化する。

欠落ＭＤＣＴ変動率算出部１４４ｂは、量子化部１４４ａでの量子化の結果と、欠落ＭＤＣＴ情報保持部１４４ｃが保持する情報とに基づき、欠落ＭＤＣＴ変動率Ｖmdctを算出する。欠落ＭＤＣＴ変動率Ｖmdctは、量子化により欠落した帯域の変動率をＭＤＣＴ係数単位で算出した値である。この欠落ＭＤＣＴ変動率Ｖmdctは、現時点の符号化対象のフレーム（Ｔフレーム）に対する量子化で欠落した帯域における数フレームに渡り連続して欠落している帯域の割合を表す。すなわち、欠落ＭＤＣＴ変動率Ｖmdctは、第１の実施形態における欠落ＳＦＢ変動率Ｖsfbと同様の算出方法で算出する。

欠落ＭＤＣＴ情報保持部１４４ｃは、欠落ＭＤＣＴ変動率Ｖmdctの算出に用いる数フレーム分の欠落ＭＤＣＴ情報を保持する。欠落ＭＤＣＴ情報は、各フレームにおける量子化で欠落した帯域の集合である。なお、欠落ＭＤＣＴ情報における欠落した帯域は、量子化後のＭＤＣＴ係数単位の帯域である。本実施形態では、欠落ＭＤＣＴ情報保持部１４４ｃは、図１０に示すように、Ｔ−１フレーム（Ｔフレームの１フレーム前）の欠落ＭＤＣＴ情報と、Ｔ−２フレーム（Ｔフレームの２フレーム前）の欠落ＭＤＣＴ情報とを保持する。

判定部１４４ｄは、算出した欠落ＭＤＣＴ変動率Ｖmdctに基づいて、量子化する際のマスキング閾値に第１の補正閾値sfbThr₁(sfb)を採用するか否かを判定する。判定部１４４ｄは、欠落ＭＤＣＴ変動率Ｖmdctが予め定めた閾値ＴＨ_２より大きい場合、量子化する際のマスキング閾値に第１の補正閾値sfbThr₁(sfb)を採用すると判定する。すなわち、この場合、判定部１４４ｄは、第１の補正閾値を量子化に用いると決定する。この場合、判定部１４４ｄは、第１の補正閾値を量子化部１５に渡す。

一方、欠落ＭＤＣＴ変動率Ｖmdctが閾値ＴＨ_２以下の場合、判定部１４４ｄは、第１の補正閾値sfbThr₁(sfb)を採用しない、すなわち第２の補正閾値sfbThr₂(sfb)を量子化に用いると決定する。この場合、判定部１４４ｄは、第２の補正部１４２に初期マスキング閾値sfbThr₀(sfb)を補正させる。

このように、本実施形態に係る符号化装置１では、帯域の欠落を許容する条件で補正した第１の補正閾値を用いて周波数スペクトルを量子化し、その結果が所定の条件を満たしている場合、第１の補正閾値を量子化に用いると決定する。一方、第１の補正閾値を用いて量子化した結果が所定の条件を満たしていない場合、帯域の欠落を許容しない条件で補正した第２の補正閾値を量子化に用いると決定する。すなわち、本実施形態に係る符号化装置１では、第１の補正閾値を用いて量子化した周波数スペクトルの値に基づいて、第１の補正閾値及び第２の補正閾値のどちらを量子化に用いるか決定する。

一方、初期ＰＥ値が目標ＰＥ値よりも大きい場合（ステップＳ１８；Ｙｅｓ）、本実施形態の符号化装置１では、続けて、図１１に示したマスキング閾値の補正処理を行う。なお、マスキング閾値の補正処理を行う場合、初期マスキング閾値生成部１２は、初期マスキング閾値を、聴覚特性算出部１３に渡す。また、初期マスキング閾値生成部１２は、初期マスキング閾値及び目標ＰＥ値を、マスキング閾値補正部１４の第１の補正部１４１に渡すとともに、記憶部１８に記憶させる。

図１１は、第３の実施形態に係る符号化処理におけるマスキング閾値の補正処理の手順を示すフローチャートである。

マスキング閾値の補正処理では、図１１に示すように、まず、周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。ステップＳ２０は、聴覚特性算出部１３が行う。聴覚特性算出部１３は、聴覚特性として信号対マスク比を算出し、算出した信号対マスク比を、第１の補正部１４１に渡すとともに記憶部１８に記憶させる。

第１の補正部１４１は、聴覚特性（信号対マスク比）を受け取ると、帯域の欠落を許容する条件で初期マスキング閾値を補正する（ステップＳ２２）。第１の補正部１４１は、マスキング閾値の補正を終えると、補正したマスキング閾値（第１の補正閾値）を補正閾値決定部１４４の量子化部１４４ａ及び判定部１４４ｄに渡す。すると、補正閾値決定部１４４の量子化部１４４ａは、第１の補正閾値sfbThr₁(sfb)を用いて周波数スペクトルを量子化する（ステップＳ２３）。量子化部１４４ａは、周波数スペクトルの量子化を終えると、その結果を欠落ＭＤＣＴ変動率算出部１４４ｂ及び判定部１４４ｄに渡す。

欠落ＭＤＣＴ変動率算出部１４４ｂは、量子化の結果を受け取ると、その結果に基づいて欠落ＭＤＣＴ変動率Ｖmdctを算出する（ステップＳ２５）。欠落ＭＤＣＴ変動率算出部１４４ａは、第１の実施形態で説明した欠落ＳＦＢ変動率Ｖsfbの算出方法と同様の方法で、第１の補正閾値sfbThr₁(sfb)を用いて量子化された周波数スペクトルにおける欠落ＭＤＣＴ変動率Ｖmdctを算出する。ただし、ステップＳ２５では、ＳＦＢ単位ではなく、量子化後のＭＤＣＴ係数単位で欠落する帯域を抽出して変動率を算出する。そして、欠落ＭＤＣＴ変動率算出部１４４ｂは、算出した欠落ＭＤＣＴ変動率Ｖmdctを判定部１４４ｄに渡す。また、欠落ＭＤＣＴ変動率算出部１４４ｂは、欠落ＭＤＣＴ変動率Ｖmdctの算出を終えると、欠落ＭＤＣＴ情報保持部１４４ｃで保持する情報を更新する。すなわち、Ｔ−１フレームの欠落ＭＤＣＴ情報をＴ−２フレームの欠落ＭＤＣＴ情報として保持し、Ｔフレームの欠落ＭＤＣＴ情報をＴ−１フレームの欠落ＭＤＣＴ情報として保持する。

なお、オーディオ信号における先頭の数フレームを符号化するときのように、１フレーム前及び２フレーム前の欠落ＭＤＣＴ情報を保持していない場合、欠落ＭＤＣＴ変動率算出部１４４ｂは、予め定めた値を欠落ＭＤＣＴ変動率Ｖmdctとする。この予め定めた値は、例えば、次のステップで欠落ＭＤＣＴ変動率Ｖmdctと比較する閾値ＴＨ_２よりも小さな値とする。

欠落ＭＤＣＴ変動率Ｖmdctを受け取った判定部１４４ｄは、欠落ＭＤＣＴ変動率Ｖmdctと予め定めた閾値ＴＨ_２とを比較する（ステップＳ２７）。そして、Ｖmdct＞ＴＨ_２の場合（ステップＳ２７；Ｙｅｓ）、判定部１４４ｄは、量子化する際のマスキング閾値に第１の補正閾値sfbThr₁(sfb)を採用すると判定し、第１の補正閾値を量子化部１５に渡す。これにより、量子化に用いるマスキング閾値が第１の補正閾値sfbThr₁(sfb)に決定される。この場合、図３Ｃに示したように、量子化部１５は、第１の補正閾値、すなわち帯域の欠落を許容する条件で補正したマスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３２）。一方、Ｖmdct≦ＴＨ_２の場合（ステップＳ２７；Ｎｏ）、判定部１４４ｄは、量子化する際のマスキング閾値に第１の補正閾値sfbThr₁(sfb)を採用しないと判定し、第２の補正部１４２にマスキング閾値を補正させる。これにより、量子化に用いるマスキング閾値が第２の補正閾値sfbThr₂(sfb)に決定される。第２の補正部１４２は、聴覚特性等に基づいて、量子化による帯域の欠落を許容しない条件でマスキング閾値を補正し（ステップＳ２８）、補正されたマスキング閾値（第２の補正閾値）を量子化部１５に渡す。この場合、図３Ｃに示したように、量子化部１５は、帯域の欠落を許容しない条件で補正した第２の補正閾値sfbThr₂(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３４）。

本実施形態で算出する欠落ＭＤＣＴ変動率Ｖmdctと第１の実施形態における欠落ＳＦＢ変動率Ｖsfbとは、帯域を量子化後のＭＤＣＴ係数単位にするかＳＦＢ単位にするかが異なるだけで、算出方法自体は同じである。そのため、本実施形態においても、複数のフレームで連続して欠落する帯域の割合が大きいほど、欠落ＭＤＣＴ変動率Ｖmdctが大きくなる。すなわち、複数のフレームで連続して欠落する帯域の割合が小さいほど、欠落ＭＤＣＴ変動率Ｖmdctは小さくなる。そのため、欠落ＭＤＣＴ変動率Ｖmdctが閾値ＴＨ_２以下の場合、符号化するオーディオ信号は周波数スペクトルのピーク位置が激しく変化していると判断できる。したがって、本実施形態の符号化処理では、欠落ＭＤＣＴ変動率Ｖmdctが閾値ＴＨ_２以下の場合、欠落を許容しない条件で補正した第２の補正閾値sfbThr₂(sfb)を用いて量子化する。これにより、周波数スペクトルのピーク位置が激しく変化するオーディオ信号において連続して聞こえる原音が符号化後は途切れて聞こえる等の音質の劣化を抑制できる。

また、本実施形態の符号化処理では、欠落ＭＤＣＴ変動率Ｖmdctが閾値ＴＨ_２より大きい場合、欠落を許容する条件で補正した第１の補正閾値sfbThr₁(sfb)を用いて量子化する。そのため、ハープシコード等の周波数スペクトルのピーク位置の変化が緩やかなオーディオ信号を符号化する際に音質的に重要な帯域のマスキング閾値が過度に補正されることによる音質の劣化を抑制できる。

更に、本実施形態では、欠落ＭＤＣＴ変動率Ｖmdctに基づいて、第１の補正部１４１で補正したマスキング閾値と第２の補正部１４２で補正したマスキング閾値のどちらを量子化に用いるかを決定する。第１の実施形態で使用した欠落ＳＦＢ変動率Ｖsfbは、周波数スペクトルにおけるＭＤＣＴ係数を複数のスケールファクタバンドsfbに分け、スケールファクタバンドsfb単位で算出した値である。一方、本実施形態の欠落ＭＤＣＴ変動率Ｖmdctは、上記のように、第１の補正部１４１で補正したマスキング閾値を用いて量子化された周波数スペクトルにおいて欠落している帯域の変動率をＭＤＣＴ係数単位で算出した値である。そのため、本実施形態によれば、欠落ＳＦＢ変動率Ｖsfbに比べて欠落した帯域の変動率をより細かい粒度で算出することができ、第１の補正閾値sfbThr₁(sfb)を採用するか否かの判定精度を高くすることができる。よって、帯域の欠落による音質の劣化をより抑制することができる。

なお、本実施形態の符号化装置１は、第１の実施形態と同様、コンピュータと、コンピュータに実行させるプログラムにより実現可能である。この際、符号化装置１として動作させるコンピュータは、図５に示したようなハードウェア構成であればよい。また、プログラムは、図３Ａ、図１１、及び図３Ｃに示した符号化処理をコンピュータに実行させる内容であればよい。

［第３の実施形態の変形例］
本実施形態に係る符号化装置１の補正閾値決定部１４４は、図１０に示したような構成に限らず、図１２に示したような構成であってもよい。

図１２は、第３の実施形態に係る符号化装置の変形例を示すブロック図である。図１３は、第３の実施形態の変形例における符号化処理の一部を示すフローチャートである。

図１２に示した補正閾値決定部１４４では、第１の補正部１４１で補正したマスキング閾値（第１の補正閾値）ではなく、量子化部１４４ａで量子化された周波数スペクトルの値が判定部１４４ｄに入力される。そして、判定部１４４ｄは、図１１に示したステップＳ２６の判定により欠落ＭＤＣＴ変動率Ｖmdctに基づいて第１の補正閾値sfbThr₁(sfb)を量子化に用いると決定した場合、量子化部１４４ａで量子化された周波数スペクトルの値を符号化部１６に渡す。よって、第１の補正閾値sfbThr₁(sfb)を量子化に用いると決定した場合、符号化装置１は、図１３に示すように、次に量子化された値を用いた符号化（ステップＳ３６）を行う。

一方、図１１に示したステップＳ２６の判定により第２の補正閾値sfbThr₂(sfb)を量子化に用いると決定した場合、判定部１４４ｄは、第２の補正部１４２にマスキング閾値を補正させる（ステップＳ２８）。

補正閾値決定部１４４の量子化部１４４ａは、上述のように、外部に設けられた量子化部１５と同様の処理を行って周波数スペクトルを量子化する。そのため、ビットレート条件、初期マスキング閾値、及び周波数スペクトルが同じであれば、量子化部１４４ａで量子化した結果は、マスキング閾値補正部１４の外部に設けた量子化部１５で量子化した結果と同じになる。したがって、第１の補正閾値sfbThr₁(sfb)を量子化に用いる場合、判定部１４４ｄにおける判定の前に補正閾値決定部１４４の量子化部１４４ａで量子化した値を符号化することで、図３Ｃに示したステップＳ３２の処理を省略することができる。よって、ここで例示した変形例によれば、第１の補正閾値sfbThr₁(sfb)を量子化に用いると決定した場合に、決定後に第１の補正閾値sfbThr₁(sfb)を用いた量子化を再度行うことによる処理効率の低下を抑制することができる。

［第４の実施形態］
図１４は、本発明の第４の実施形態に係る符号化装置の機能ブロック図である。図１５は、第４の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。

図１４に示すように、本実施形態に係る符号化装置１は、ブロック切替部１０と、ＭＤＣＴ処理部１１と、マスキング閾値生成部１２と、聴覚特性算出部１３と、マスキング閾値補正部１４と、量子化部１５と、符号化部１６と、多重化部１７とを備える。

本実施形態の符号化装置１において、マスキング閾値補正部１４を除く各部の機能は、第１の実施形態で説明したとおりである。ただし、量子化部１５は、初期マスキング閾値sfbThr_０(sfb)を用いて周波数スペクトルを量子化する場合にのみ使用される。

本実施形態におけるマスキング閾値補正部１４は、第１の補正部１４１と、第２の補正部１４２と、補正閾値決定部１４４と、第１の量子化部１４５と、第２の量子化部１４６と、を備える。

第１の補正部１４１は、量子化による帯域の欠落を許容する条件でマスキング閾値を補正する。また、第２の補正部１４２は、量子化による帯域の欠落を許容しない条件でマスキング閾値を補正する。

第１の量子化部１４５は、第１の補正部１４１で補正したマスキング閾値（第１の補正閾値）を用いて周波数スペクトルを量子化する。また、第２の量子化部１４６は、第２の補正部１４２で補正したマスキング閾値（第２の補正閾値）を用いて周波数スペクトルを量子化する。

補正閾値決定部１４４は、第１の量子化部１４５で量子化された周波数スペクトルの値と、第２の量子化部１４６で量子化された周波数スペクトルの値とのいずれを符号化に用いるかを決定する。この補正閾値決定部１４４は、図１５に示すように、欠落ＭＤＣＴ変動率算出部１４４ｂと、欠落ＭＤＣＴ情報保持部１４４ｃと、判定部１４４ｄと、を有する。

欠落ＭＤＣＴ変動率算出部１４４ｂ及び欠落ＭＤＣＴ情報保持部１４４ｃは、第３の実施形態で説明したとおりである。

判定部１４４ｄは、欠落ＭＤＣＴ変動率算出部１４４ｂで算出した欠落ＭＤＣＴ変動率Ｖmdctに基づいて、第１の量子化部１４５で量子化された周波数スペクトルの値、又は第２の量子化部１４６で量子化された周波数スペクトルの値を符号化部１６に渡す。

このように、本実施形態に係る符号化装置１は、第１の補正部１４１で補正したマスキング閾値を用いた量子化と、第２の補正部１４２で補正したマスキング閾値を用いた量子化とを行った後、どちらの量子化の結果を採用するかを決定する。すなわち、本実施形態に係る符号化装置１は、どちらの量子化の結果を採用するか決定することで、第１の補正部１４１で補正したマスキング閾値と第２の補正部１４２で補正したマスキング閾値とのどちらを量子化に用いるかを間接的に決定する。

本実施形態の符号化装置１を用いた符号化処理では、まず、図３Ａに示したステップＳ１０〜ステップＳ１６の処理、及びステップＳ１８の判定を行う。そして、初期ＰＥ値が目標ＰＥ値以下の場合（ステップＳ１８；Ｎｏ）、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する。

一方、初期ＰＥ値が目標ＰＥ値よりも大きい場合（ステップＳ１８；Ｙｅｓ）、本実施形態の符号化装置１は、続けて、図１６Ａ及び図１６Ｂに示したマスキング閾値の補正処理を含む各種の処理を行う。なお、マスキング閾値の補正処理を行う場合、マスキング閾値生成部１２は、聴覚特性算出部１３に初期マスキング閾値sfbThr₀(sfb)を渡す。また、マスキング閾値生成部１２は、マスキング閾値補正部１４の第１の補正部１４１及び第２の補正部１４２のそれぞれに、初期マスキング閾値及び目標ＰＥ値を渡す。

図１６Ａは、第４の実施形態に係る符号化処理の一部を示すフローチャートである。図１６Ｂは、第４の実施形態に係る符号化処理の他の一部を示すフローチャートである。

本実施形態の符号化装置１においてマスキング閾値を補正する場合、図１６Ａに示すように、まず、周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。ステップＳ２０は、聴覚特性算出部１３が行う。聴覚特性算出部１３は、聴覚特性として信号対マスク比smr(sfb)を算出し、第１の補正部１４１及び第２の補正部１４２に渡す。

次に、符号化装置１のマスキング閾値補正部１４が、第１の補正部１４１によるマスキング閾値の補正及び第１の量子化部１４５による量子化と、第２の補正部１４２によるマスキング閾値の補正及び第２の量子化部１４６による量子化とを並行して行う。

第１の補正部１４１は、聴覚特性（信号対マスク比）を受け取ると、帯域の欠落を許容する条件で初期マスキング閾値を補正する（ステップＳ２２）。第１の補正部１４１は、マスキング閾値の補正を終えると、補正された第１の補正閾値sfbThr₁(sfb)を第１の量子化部１４５に渡す。

第１の量子化部１４５は、受け取ったマスキング閾値（第１の補正閾値）を用いて周波数スペクトルを量子化する（ステップＳ２３）。第１の量子化部１４５は、量子化を終えると、量子化された周波数スペクトルの値を補正閾値決定部１４４の欠落ＭＤＣＴ変動率算出部１４４ｂ及び判定部１４４ｄに渡す。

欠落ＭＤＣＴ変動率算出部１４４ｂは、第１の補正閾値sfbThr₁(sfb)を用いた量子化の結果に基づき、欠落ＭＤＣＴ変動率Ｖmdctを算出する（ステップＳ２５）。ステップＳ２５は、前述のように、現時点（Ｔフレーム）の量子化の結果において欠落している帯域と、欠落ＭＤＣＴ情報保持部１４４ｂで保持しているＴ−１フレーム及びＴ−２フレームの欠落した帯域の情報とを比較して算出する。欠落ＭＤＣＴ変動率算出部１４４ｂは、算出した欠落ＭＤＣＴ変動率Ｖmdctを判定部１４４ｄに渡す。

一方、第２の補正部１４２は、聴覚特性（信号対マスク比）を受け取ると、帯域の欠落を許容しない条件で初期マスキング閾値を補正する（ステップＳ２８）。第２の補正部１４２は、マスキング閾値の補正を終えると、補正したマスキング閾値を第２の量子化部１４６に渡す。

第２の量子化部１４６は、受け取ったマスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３４）。第２の量子化部１４６は、量子化を終えると、量子化された周波数スペクトルの値を補正閾値決定部１４４の判定部１４４ｄに渡す。

判定部１４４ｄは、第１の補正閾値を用いた量子化の結果、第２の補正閾値を用いた量子化の結果、及び欠落ＭＤＣＴ変動率Ｖmdctを受け取ると、欠落ＭＤＣＴ変動率Ｖmdctと閾値ＴＨ_２とを比較する（ステップＳ２７）。そして、Ｖmdct＞ＴＨ_２の場合（ステップＳ２７；Ｙｅｓ）、判定部１４４ｄは、第１の補正閾値sfbThr₁(sfb)を採用すると判定し、第１の補正閾値を用いて量子化した結果を符号化部１６に渡す。これにより、事後的に、量子化に用いるマスキング閾値が第１の補正閾値sfbThr₁(sfb)に決定する。また、判定部１４４ｄは、第１の補正閾値を用いて周波数スペクトルを量子化した結果を符号化部１６に渡す。そのため、図１６Ｂに示したように、ステップＳ２７の判定の後、続けて量子化された値を符号化する（ステップＳ３６）。

一方、Ｖmdct≦ＴＨ_２の場合（ステップＳ２７；Ｎｏ）、判定部１４４ｄは、第２の補正閾値sfbThr₂(sfb)を量子化に採用すると判定し、第２の補正閾値を用いて量子化した結果を符号化部１６に渡す。これにより、事後的に、量子化に用いるマスキング閾値が第２の補正閾値sfbThr₂(sfb)に決定する。また、判定部１４４ｄは、第２の補正閾値を用いて周波数スペクトルを量子化した結果を符号化部１６に渡す。そのため、符号化装置１は、図１６Ｂに示したように、ステップＳ２６の判定の後、続けて符号化部１６により量子化された値を符号化する（ステップＳ３６）。

符号化部１６は、固定ハフマン符号化等の既知の符号化方法を用いて、量子化された値を符号化する。そして、符号化を終えると、符号化部１６は、符号化したデータを多重化部１７に渡す。これにより、入力信号（オーディオ信号）の１フレーム分の符号化処理が終了する。

このように、本実施形態では、第１の補正部１４１によるマスキング閾値の補正及び第１の量子化部１４５による量子化と、第２の補正部１４２によるマスキング閾値の補正及び第２の量子化部１４６による量子化とを並行して行う。そのため、第１の補正部１４１で補正したマスキング閾値を採用しないことが決定した後、第２の補正部１４２で補正したマスキング閾値を用いて量子化された周波数スペクトルの値を用いた符号化処理を速やかに開始することができる。よって、本実施形態の符号化装置１及び符号化方法によれば、第２の補正部１４２で補正したマスキング閾値を用いて量子化する場合の処理効率の低下を抑制することができる。

また、本実施形態では、量子化後のＭＤＣＴ係数単位の帯域で欠落する帯域の変動率Ｖmdctを算出している。そのため、ＳＦＢ単位で欠落する帯域の変動率Ｖsfbを算出する場合に比べて欠落した帯域の変動率をより細かい粒度で算出することができ、第１の補正閾値を採用するか否かの判定精度を高くすることができる。よって、帯域の欠落による音質の劣化をより抑制することができる。

なお、本実施形態の符号化装置１は、第１の実施形態と同様、コンピュータと、コンピュータに実行させるプログラムにより実現可能である。この際、符号化装置１として動作させるコンピュータは、図５に示したようなハードウェア構成であればよい。また、プログラムは、図３Ａ、図１６Ａ、及び図１６Ｂに示した符号化処理をコンピュータに実行させる内容であればよい。

［第５の実施形態］
図１７は、本発明の第５の実施形態に係る符号化装置の機能ブロック図である。図１８は、第５の実施形態に係る符号化装置における補正閾値決定部の構成例を示すブロック図である。

図１７に示すように、本実施形態に係る符号化装置１は、ブロック切替部１０と、ＭＤＣＴ処理部１１と、マスキング閾値生成部１２と、聴覚特性算出部１３と、マスキング閾値補正部１４と、量子化部１５と、符号化部１６と、多重化部１７とを備える。また、符号化装置１は、補正閾値決定部１９を備える。

本実施形態の符号化装置１において、補正閾値決定部１９を除く各部の機能は、第１の実施形態で説明したとおりである。なお、図１７に示した符号化装置１では、補正閾値決定部１９をマスキング閾値補正部１４の外部に設けている。そのため、マスキング閾値補正部１４は、マスキング閾値を補正する第１の補正部１４１及び第２の補正部１４２のみを有する。

本実施形態の符号化装置１における補正閾値決定部１９は、第１〜第４の実施形態の補正閾値決定部１４３，１４４とは異なり、第１の補正部１４１と第２の補正部１４２とのどちらにマスキング閾値を補正させるかを決定する。また、本実施形態の補正閾値決定部１９は、周波数スペクトルの電力値mdct_pow(sfb)の自己相関値に基づいて、マスキング閾値を補正させる補正部を決定する。

本実施形態の補正閾値決定部１９は、図１８に示すように、自己相関値算出部１９ａと、スペクトル電力値保持部１９ｂと、判定部１９ｃと、を有する。

自己相関値算出部１９ａは、周波数スペクトルの電力値（スペクトル電力値）mdct_pow(sfb)の自己相関値correを算出する。本実施形態では、下記の式（２）により自己相関値correを算出する。

式（２）において、corre(sfb)は、帯域sfbのスペクトル電力値mdct_pow(sfb)の自己相関値である。また、mdct_pow_Ｔ(sfb)は、現時点の符号化対象のフレーム（Ｔフレーム）のスペクトル電力値である。また、mdct_pow_Ｔ−１(sfb)は、現時点の符号化対象のフレームの１つ前のフレーム（Ｔ−１フレーム）のスペクトル電力値である。また、mdct_pow_Ｔ−２(sfb)は、現時点の符号化対象のフレームの２つ前のフレーム（Ｔ−２フレーム）のスペクトル電力値である。

スペクトル電力値保持部１９ｂは、自己相関値correの算出に用いるＴ−１フレームのスペクトル電力値及びＴ−２フレームのスペクトル電力値を保持する。

判定部１９ｃは、算出した自己相関値correに基づいて、第１の補正部１４１と第２の補正部１４２とのどちらにマスキング閾値を補正させるかを決定する。

本実施形態の符号化装置１を用いた符号化処理では、まず、図３Ａに示したステップＳ１０〜ステップＳ１６の処理、及びステップＳ１８の判定を行う。そして、初期ＰＥ値が目標ＰＥ値以下の場合（ステップＳ１８；Ｎｏ）、初期マスキング閾値sfbThr₀(sfb)を用いて周波数スペクトルを量子化する（ステップＳ３０）。

一方、初期ＰＥ値が目標ＰＥ値よりも大きい場合（ステップＳ１８；Ｙｅｓ）、本実施形態の符号化装置１では、続けて、図１９Ａ及び図１９Ｂに示したマスキング閾値の補正処理を含む各種の処理を行う。なお、マスキング閾値の補正処理を行う場合、マスキング閾値生成部１２は、聴覚特性算出部１３に初期マスキング閾値を渡す。また、マスキング閾値生成部１２は、マスキング閾値補正部１４の第１の補正部１４１及び第２の補正部１４２のそれぞれに、初期マスキング閾値及び目標ＰＥ値を渡す。

図１９Ａは、第５の実施形態に係る符号化処理の一部を示すフローチャートである。図１９Ｂは、第５の実施形態に係る符号化処理の他の一部を示すフローチャートである。

本実施形態の符号化装置１においてマスキング閾値を補正する場合、図１９Ａに示すように、まず、周波数スペクトル等に基づき聴覚特性を算出する（ステップＳ２０）。ステップＳ２０は、聴覚特性算出部１３が行う。聴覚特性算出部１３は、聴覚特性として信号対マスク比を算出し、第１の補正部１４１及び第２の補正部１４２に渡す。

また、マスキング閾値を補正する場合、符号化装置１では、聴覚特性の算出と並行して、第１の補正部１４１と第２の補正部１４２とのどちらでマスキング閾値を補正するかを決定する処理が行われる（ステップＳ４０〜Ｓ４６）。

このマスキング閾値を補正する補正部を決定する処理では、まず、スペクトル電力値mdct_pow(sfb)の自己相関値correを算出する（ステップＳ４０）。ステップＳ４０は、補正閾値決定部１９の自己相関値算出部１９ａが行う。

自己相関値算出部１９ａは、スペクトル電力値保持部１９ｂからＴ−１フレームのスペクトル電力値及びＴ−２フレームのスペクトル電力値を読み出し、式（２）を用いて自己相関値correを算出する。自己相関値算出部１９ａは、算出した自己相関値correを判定部１９ｃに渡す。また、自己相関値算出部１９ａは、自己相関値correの算出を終えると、スペクトル電力値保持部１９ｂで保持する電力値を更新する。すなわち、Ｔ−１フレームの電力値をＴ−２フレームの電力値として保持し、Ｔフレームの電力値をＴ−１フレームの電力値として保持する。

自己相関値correを受け取った判定部１９ｃは、自己相関値correと予め定めた閾値ＴＨ３との大小関係を判定する（ステップＳ４２）。そして、corre＞ＴＨ_３の場合（ステップＳ４２；Ｙｅｓ）、判定部１９ｃは、第１の補正部１４１によるマスキング閾値の補正を選択する（ステップＳ４４）。この場合、判定部１９ｃは、第１の補正部１４１にのみマスキング閾値の補正を指示する信号を送る。

一方、corre≦ＴＨ_３の場合（ステップＳ４２；Ｎｏ）、判定部１９ｃは、第２の補正部１４２によるマスキング閾値の補正を選択する（ステップＳ４６）。この場合、判定部１９ｃは、第２の補正部１４２にのみマスキング閾値の補正を指示する信号を送る。

こうして、第１の補正部１４１又は第２の補正部１４２にマスキング閾値の補正を指示する信号が送られると、その信号を受け取ったほうの補正部のみが、マスキング閾値を補正する（ステップＳ４８）。第１の補正部１４１でマスキング閾値を補正する場合、ステップＳ４８は、量子化による帯域の欠落を許容する条件で行う。一方、第２の補正部１４２でマスキング閾値を補正する場合、ステップＳ４８は、量子化による帯域の欠落を許容しない条件で行う。また、第１の補正部１４１及び第２の補正部１４２のいずれでマスキング閾値を補正する場合も、例えば、上記の式（１）を用いて補正後のマスキング閾値と電力値とから算出されるＰＥ値が目標ＰＥ値になるように初期マスキング閾値を補正する。

第１の補正部１４１は、マスキング閾値の補正が終わると、補正したマスキング閾値（第１の補正閾値）を量子化部１５に渡す。同様に、第２の補正部１４２は、マスキング閾値の補正が終わると、補正したマスキング閾値（第２の補正閾値）を量子化部１５に渡す。

本実施形態の符号化装置１では、現時点の符号化対象のフレーム（周波数スペクトル）についての初期マスキング閾値を補正する場合、第１の補正部１４１又は第２の補正部１４２のいずれか一方のみで補正する。よって、マスキング閾値を補正した場合、量子化部１５は、図１９Ｂに示すように、第１又は第２の補正閾値を用いて周波数スペクトルを量子化する（ステップＳ５０）。また、マスキング閾値を補正しない場合、量子化部１５は、初期マスキング閾値を用いて周波数スペクトルを量子化する（ステップＳ３０）。

式（２）から算出される自己相関値correは、フレーム間での電力値の相関が高いほど、言い換えるとフレーム間での電力値の差が小さいほど、大きな値となる。よって、複数の連続したフレームにおける周波数スペクトルのピーク位置の変化が激しい場合は、自己相関値correが小さくなる。本実施形態では、上述した各実施形態と同様、周波数スペクトルのピーク位置の変化が激しい場合、帯域の欠落を許容しない条件で補正したマスキング閾値で周波数スペクトルを量子化する。そのため、上記のように、自己相関値correが閾値ＴＨ_３以下の場合（ステップＳ４２；Ｎｏ）、判定部１９ｃは、第２の補正部１４２によるマスキング閾値の補正を選択する（ステップＳ４６）。これにより、周波数スペクトルのピーク位置の変化が激しいオーディオ信号を符号化した場合に、原音では連続して聞こえる音が途切れて聞こえる等の音質の劣化を抑制できる。

一方、ハープシコード等の連続したフレームにおける周波数スペクトルのピーク位置の変化が緩やかな場合は、自己相関値correが大きくなる。そのため、自己相関値correが閾値よりも大きい場合（ステップＳ４２；Ｙｅｓ）、判定部１９ｃは、第１の補正部１４１によるマスキング閾値の補正を選択する（ステップＳ４４）。これにより、周波数スペクトルのピーク位置の変化が緩やかなオーディオ信号を符号化した場合に、音質的に重要な帯域のマスキング閾値が過度に補正され量子化誤差（量子化雑音）が知覚可能になることによる音質の劣化を抑制できる。

また、本実施形態の符号化処理では、マスキング閾値の補正処理を第１の補正部１４１及び第２の補正部１４２のいずれかで１回だけ行えばよい。しかも、第１の補正部１４１及び第２の補正部１４２のいずれで補正するかは、スペクトル電力値mdct_pow(sfb)の自己相関値correに基づいて選択する。そのため、第１の補正閾値を用いた量子化により欠落する帯域の変動率を算出し、その変動率に基づいて量子化に用いるマスキング閾値を決定する上述の各実施形態と比べて、処理量を減らすことができる。

また、本実施形態の符号化処理では、上記のように、マスキング閾値を補正する場合に自己相関値correを算出するとともにスペクトル電力値保持部１９ｂで保持する電力値を更新している。しかしながら、本実施形態に係る符号化処理では、これに限らず、マスキング閾値を補正するか否かによらず、図３ＡのステップＳ１０を行う毎にスペクトル電力値保持部１９ｂで保持する電力値を更新してもよい。

なお、本実施形態の符号化装置１は、第１の実施形態と同様、コンピュータと、コンピュータに実行させるプログラムにより実現可能である。この際、符号化装置１として動作させるコンピュータは、図５に示したようなハードウェア構成であればよい。また、プログラムは、図３Ａ、図１９Ａ、及び図１９Ｂに示した符号化処理をコンピュータに実行させる内容であればよい。

以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
オーディオ信号をフレーム毎に周波数スペクトルに変換し、当該周波数スペクトルを量子化して符号化する符号化装置であって、
前記周波数スペクトルに基づいて当該周波数スペクトルを量子化する際の初期マスキング閾値を生成する閾値生成部と、
前記周波数スペクトルの量子化に与えられたビット量と量子化による帯域の欠落を許容するか否かの条件に基づいて前記初期マスキング閾値を補正する閾値補正部と、
連続する複数の前記フレームにおける前記周波数スペクトルの変化の程度に基づいて、量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定する閾値決定部と、
を備えることを特徴とする符号化装置。
（付記２）
前記閾値決定部は、前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した場合に欠落する帯域を抽出し、前記周波数スペクトルの変化の程度として複数の前記フレームにおける前記欠落する帯域の変動率を求め、当該変動率に基づいて、前記第１のマスキング閾値と前記第２のマスキング閾値とのいずれを量子化に用いるか決定する、
ことを特徴とする付記１に記載の符号化装置。
（付記３）
前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化する量子化部を更に備え、
前記閾値決定部は、前記量子化部による量子化で欠落した帯域を抽出し、前記周波数スペクトルの変化の程度として複数の前記フレームにおける前記欠落した帯域の変動率を求め、当該変動率に基づいて、前記第１のマスキング閾値を量子化に用いるか否かを判定する、
ことを特徴とする付記１に記載の符号化装置。
（付記４）
量子化された周波数スペクトルの値を符号化する符号化部を更に備え、
前記閾値決定部は、前記第１のマスキング閾値を量子化に用いると判定した場合、前記符号化部に、前記量子化部で量子化された前記周波数スペクトルの値を符号化させる、
ことを特徴とする付記３に記載の符号化装置。
（付記５）
前記閾値決定部は、複数の前記フレームにおける前記欠落する帯域の変動率を算出する算出部と、
算出した前記変動率に基づいて前記第１のマスキング閾値を量子化に用いるか否かを判定する判定部と、を有する、
ことを特徴とする付記２〜４のいずれかに記載の符号化装置。
（付記６）
前記算出部は、現時点の符号化対象のフレームにおいて欠落する帯域の数と、当該欠落する帯域のうち他のフレームでも欠落している帯域の数とから、欠落する帯域の変動率を算出する、
ことを特徴とする付記５に記載の符号化装置。
（付記７）
前記算出部は、現時点の符号化対象のフレームにおいて欠落する帯域及びその前後の帯域が他のフレームでも欠落している場合、前記欠落する帯域を他のフレームでも欠落している帯域として係数する、
ことを特徴とする付記５に記載の符号化装置。
（付記８）
前記閾値決定部は、前記周波数スペクトルの変化の程度として複数の前記フレームにおける前記周波数スペクトルから自己相関値を算出する算出部と、
前記自己相関値に基づいて、量子化による帯域の欠落を許容する条件と、量子化による帯域の欠落を許容しない条件とのいずれで前記初期マスキング閾値を補正させるか判定する判定部と、を有する、
ことを特徴とする付記１に記載の符号化装置。
（付記９）
前記閾値補正部は、量子化による帯域の欠落を許容する条件で前記初期マスキング閾値を補正する第１の補正部と、量子化による帯域の欠落を許容しない条件で前記初期マスキング閾値を補正する第２の補正部と、を有する
ことを特徴とする付記１に記載の符号化装置。
（付記１０）
前記閾値生成部は、聴覚心理モデルに基づいて前記初期マスキング閾値を生成する、
ことを特徴とする付記１に記載の符号化装置。
（付記１１）
コンピュータが、
オーディオ信号の周波数スペクトルに基づいて生成した初期マスキング閾値が当該周波数スペクトルを量子化するための条件を満たしていない場合に、
前記オーディオ信号の連続する複数のフレームにおける前記周波数スペクトルの変化の程度に基づいて、量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定する処理、
を実行することを特徴とする符号化方法。
（付記１２）
前記コンピュータが、
前記初期マスキング閾値を前記第１のマスキング閾値に補正した後、
前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した場合に欠落する帯域を抽出し、
前記周波数スペクトルの変化の程度として複数の前記フレームにおける前記欠落する帯域の変動率を算出し、
算出した前記変動率に基づいて、前記第１のマスキング閾値を量子化に用いるか否かを判定する、
ことを特徴とする付記１１に記載の符号化方法。
（付記１３）
前記コンピュータが、
前記初期マスキング閾値を前記第１のマスキング閾値に補正し、
前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した後、
量子化された前記周波数スペクトルにおいて欠落した帯域を抽出し、
前記周波数スペクトルの変化の程度として複数の前記フレームにおける前記欠落した帯域の変動率を算出し、
算出した前記変動率相関に基づいて、前記第１のマスキング閾値を量子化に用いるか否かを判定する、
ことを特徴とする付記１１に記載の符号化方法。
（付記１４）
前記コンピュータが、
前記第１のマスキング閾値を量子化に用いると判定した場合、当該判定前に前記第１のマスキング閾値を用いて量子化した前記周波数スペクトルの値を符号化する、
ことを特徴とする付記１３に記載の符号化方法。
（付記１５）
前記コンピュータが、
前記初期マスキング閾値を前記第１のマスキング閾値に補正する処理、及び前記初期マスキング閾値を前記第２のマスキング閾値に補正する処理を並行して行う、
ことを特徴とする付記１１〜１４のいずれかに記載の符号化方法。
（付記１６）
前記コンピュータが、
複数の前記フレームにおける前記周波数スペクトルの自己相関値を算出し、
前記自己相関値に基づいて、前記初期マスキング閾値を前記第１のマスキング閾値及び前記第２のマスキング閾値のいずれに補正するかを決定する、
ことを特徴とする付記１１に記載の符号化方法。
（付記１７）
オーディオ信号の周波数スペクトルを量子化する際の初期マスキング閾値を生成し、
生成した初期マスキング閾値が当該周波数スペクトルを量子化するための条件を満たしていない場合に、前記オーディオ信号の連続する複数のフレームにおける前記周波数スペクトルの変化の程度に基づいて、量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定し、
前記初期マスキング閾値、前記第１のマスキング閾値、及び前記第２のマスキング閾値のいずれかを用いて前記周波数スペクトルを量子化し、
量子化した前記周波数スペクトルの値を符号化する処理、
をコンピュータに実行させるためのプログラム。

１符号化装置
１０ブロック切替部
１１ＭＤＣＴ処理部
１２マスキング閾値生成部
１３聴覚特性算出部
１４マスキング閾値補正部
１４１第１の補正部
１４２第２の補正部
１４３補正閾値決定部
１４３ａ欠落ＳＦＢ変動率算出部
１４３ｂ欠落ＳＦＢ情報保持部
１４３ｃ判定部
１４４補正閾値決定部
１４４ａ量子化部
１４４ｂ欠落ＭＤＣＴ変動率算出部
１４４ｃ欠落ＭＤＣＴ情報保持部
１４４ｄ判定部
１５量子化部
１６符号化部
１７多重化部
１８記憶部
１９補正閾値決定部
１９ａ自己相関値算出部
１９ｂスペクトル電力値保持部
１９ｃ判定部

Claims

オーディオ信号をフレーム毎に周波数スペクトルに変換し、当該周波数スペクトルを量子化して符号化する符号化装置であって、
前記周波数スペクトルに基づいて当該周波数スペクトルを量子化する際の初期マスキング閾値を生成する閾値生成部と、
前記周波数スペクトルの量子化に与えられたビット量と量子化による帯域の欠落を許容するか否かの条件に基づいて前記初期マスキング閾値を補正する閾値補正部と、
量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定する閾値決定部であって、前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した場合に欠落する帯域を抽出し、複数の前記フレームにおける前記欠落する帯域の変動率を求め、当該変動率に基づいて前記決定を行う前記閾値決定部と、
を備えることを特徴とする符号化装置。
前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化する量子化部を更に備え、
前記閾値決定部は、前記量子化部による量子化で欠落した帯域を抽出し、複数の前記フレームにおける前記欠落した帯域の変動率を求め、当該変動率に基づいて、前記第１のマスキング閾値を量子化に用いるか否かを判定する、
ことを特徴とする請求項１に記載の符号化装置。
前記閾値決定部は、複数の前記フレームにおける前記欠落する帯域の変動率を算出する算出部と、
算出した前記変動率に基づいて前記第１のマスキング閾値を量子化に用いるか否かを判定する判定部と、を有する、
ことを特徴とする請求項１又は２に記載の符号化装置。
前記算出部は、現時点の符号化対象のフレームにおいて欠落する帯域の数と、当該欠落する帯域のうち他のフレームでも欠落している帯域の数とから、欠落する帯域の変動率を算出する、
ことを特徴とする請求項３に記載の符号化装置。
オーディオ信号をフレーム毎に周波数スペクトルに変換し、当該周波数スペクトルを量子化して符号化する符号化装置であって、
前記周波数スペクトルに基づいて当該周波数スペクトルを量子化する際の初期マスキング閾値を生成する閾値生成部と、
複数の前記フレームにおける前記周波数スペクトルから自己相関値を算出する算出部と、
前記自己相関値に基づいて、量子化による帯域の欠落を許容する条件と、量子化による帯域の欠落を許容しない条件とのいずれで前記初期マスキング閾値を補正させるか判定する判定部と、
前記判定部による前記判定の結果に従った条件で前記初期マスキング閾値を補正する閾値補正部と、
を備えることを特徴とする符号化装置。
コンピュータが、
オーディオ信号の周波数スペクトルに基づいて生成した初期マスキング閾値が当該周波数スペクトルを量子化するための条件を満たしていない場合に、
量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定する処理、
を実行し、
前記第１のマスキング閾値と前記第２のマスキング閾値とのいずれを量子化に用いるかの決定では、前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した場合に欠落する帯域を抽出し、前記オーディオ信号の連続する複数のフレームにおける前記欠落する帯域の変動率を求め、当該変動率に基づいて前記決定を行う、
ことを特徴とする符号化方法。
オーディオ信号をフレーム毎に周波数スペクトルに変換し、当該周波数スペクトルを量子化して符号化する符号化方法であって、コンピュータが、
前記周波数スペクトルに基づいて当該周波数スペクトルを量子化する際の初期マスキング閾値を生成し、
複数の前記フレームにおける前記周波数スペクトルから自己相関値を算出し、
前記自己相関値に基づいて、量子化による帯域の欠落を許容する条件と、量子化による帯域の欠落を許容しない条件とのいずれで前記初期マスキング閾値を補正させるか判定し、
前記判定の結果に従った条件で前記初期マスキング閾値を補正する処理、
を実行することを特徴とする符号化方法。
オーディオ信号の周波数スペクトルを量子化する際の初期マスキング閾値を生成し、
生成した初期マスキング閾値が当該周波数スペクトルを量子化するための条件を満たしていない場合に、量子化による帯域の欠落を許容する条件で補正した第１のマスキング閾値と、量子化による帯域の欠落を許容しない条件で補正した第２のマスキング閾値とのいずれを量子化に用いるか決定し、
前記初期マスキング閾値、前記第１のマスキング閾値、及び前記第２のマスキング閾値のいずれかを用いて前記周波数スペクトルを量子化し、
量子化した前記周波数スペクトルの値を符号化する処理、
をコンピュータに実行させ、
前記第１のマスキング閾値と前記第２のマスキング閾値とのいずれを量子化に用いるかの決定では、前記第１のマスキング閾値を用いて前記周波数スペクトルを量子化した場合に欠落する帯域を抽出し、前記オーディオ信号の連続する複数のフレームにおける前記欠落する帯域の変動率を求め、当該変動率に基づいて前記決定を行う、
プログラム。
オーディオ信号をフレーム毎に周波数スペクトルに変換し、当該周波数スペクトルを量子化して符号化する符号化処理をコンピュータに行わせるためのプログラムであって、
前記周波数スペクトルに基づいて当該周波数スペクトルを量子化する際の初期マスキング閾値を生成し、
複数の前記フレームにおける前記周波数スペクトルから自己相関値を算出し、
前記自己相関値に基づいて、量子化による帯域の欠落を許容する条件と、量子化による帯域の欠落を許容しない条件とのいずれで前記初期マスキング閾値を補正させるか判定し、
前記判定の結果に従った条件で前記初期マスキング閾値を補正する処理、
を前記コンピュータに実行させるプログラム。