JP3739959B2

JP3739959B2 - デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Info

Publication number: JP3739959B2
Application number: JP07770399A
Authority: JP
Inventors: 禎史荒木
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-03-23
Filing date: 1999-03-23
Publication date: 2006-01-25
Anticipated expiration: 2019-03-23
Also published as: JP2000276197A; US6456963B1

Description

【０００１】
【発明の属する技術分野】
本発明はデジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体に関し、特に例えばＤＶＤ、デジタル放送等に利用するデジタル音響信号の圧縮・符号化に関する。
【０００２】
【従来の技術】
従来より、デジタル音響信号の高品質圧縮・符号化においては、人間の聴覚心理特性が利用されている。その特性は、小さな音が大きな音によってマスキングされて聴こえなくなるというものである。即ち、ある周波数で大きな音が発生すると、その近傍の周波数の小さな音はマスクされて人間の耳には感知されなくなる。ここで、マスクされて聴こえなくなる限界の強度をマスキング閾値という。一方、人間の耳はマスキングとは無関係に、４ｋＨｚ付近の音に対して最も感度が良く、それより上下の帯域になればなるほど次第に感度が悪くなっていくという性質もある。この性質は、静寂な状況で音を感知し得る限界の強度として表され、これを絶対可聴閾値という。
【０００３】
これらのことを音響信号の強度分布を示す図６に従って説明する。太い実線（Ａ）が音響信号の強度分布、点線（Ｂ）がこの音響信号に対するマスキング閾値、そして、細い実線（Ｃ）が絶対可聴閾値を、それぞれ表す。同図に示すように、人間の耳には、音響信号に対するマスキング閾値及び絶対可聴閾値よりも大きな強度の音のみ感知できる。従って、音響信号の強度分布の中で、音響信号に対するマスキング閾値及び絶対可聴閾値よりも大きな部分の情報のみを取りだしても、聴覚的には元の音響信号と同じように感じられるのである。
【０００４】
このことは、音響信号の符号化においては、図６の斜線で示した部分のみに符号化ビットを割り当てることと等価である。ただし、ここでのビット割り当ては、音響信号の全体域を複数の小帯域に分割して、その分割帯域（Ｄ）の単位で行っている。各斜線の領域の横幅は、その分割体域幅に相当する。
【０００５】
各分割帯域で、斜線領域の下限の強度以下の音は耳に聴こえない。よって、原音と符号／復号化音の強度の誤差がこの下限を超えなければ両者の差を感知できない。その意味で、この下限の強度を許容誤差強度と呼ぶ。音響信号を量子化して圧縮するに際し、原音に対する符号／復号化音の量子化誤差強度が許容誤差強度以下になるように量子化すれば、原音の音質を損なわずに音響信号を圧縮できる。よって、図６の斜線領域のみに符号化ビットを割り当てるということは、各分割帯域での量子化誤差強度がちょうど許容誤差強度になるように量子化することと等価である。
【０００６】
この音響信号の符号化方式としては、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）ＡｕｄｉｏやＤｏｌｂｙＤｉｇｉｔａｌ等があるが、いずれもここで説明したような性質を用いている。その中で、現在最も符号化効率がよいとされているが、ＩＳＯ／ＩＥＣ１３８１８−７にて標準化されているＭＰＥＧ−２ＡｕｄｉｏＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）という方式である。
【０００７】
図７はＡＡＣの符号化の基本的な構成を示すブロック図である。同図において、聴覚心理モデル部７１は時間軸に沿ってブロック化された入力音響信号の各分割帯域毎に許容誤差強度を算出する。一方、同じくブロック化された入力信号に対して、ゲインコントロール７２及びフィルタバンク７３ではＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）による周波数領域への変換を行い、ＴＮＳ（ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ）７４、予測器７６では予測符号化、そしてインテンシティ／カップリング７５及びＭＳステレオ（ＭｉｄｄｌｅＳｉｄｅＳｔｅｒｅｏ）（以下Ｍ／Ｓと略す）７７では、ステレオ相関符号化処理を、それぞれ行う。その後、正規化係数７８を決定し、量子化器７９ではその正規化係数７８を基に音響信号を量子化する。この正規化係数は図６の許容誤差強度に対応するもので、各分割帯域毎に定められる。量子化後、ノイズレスコーディング８０では予め定められたハフマン符号表に基づいて、正規化係数と量子化値にそれぞれハフマン符号を与えてノイズレスコーディングを行い、最後にマルチプレクサ８１にて符号ビットストリームを形成する。
【０００８】
さて、上述のフィルタバンク７３におけるＭＤＣＴとは、図８に示すように時間軸に沿って変換領域を５０％ずつオーバーラップさせながらＤＣＴを施すものである。これによって、各変換領域の境界部での歪みの発生が抑えられる。また、生成されるＭＤＣＴ係数の数は変換領域のサンプル数の半分である。ＡＡＣでは入力音響信号ブロックに対して、２０４８サンプルの長い変換領域（ロングブロック）、又は各２５６サンプルの８個の短い変換領域（ショートブロック）のいずれかを適用する。よって、ＭＤＣＴ係数の数はロングの場合は１０２４、ショートでは１２８となる。ショートブロックは常に８ブロックを連続して適用することにより、ロングブロックを用いた場合とＭＤＣＴ係数の数を合わせるようになっている。
【０００９】
一般に、図９のように信号波形の変化の少ない定常的な部分にはロングブロックを、図１０のように変化の激しいアタック部にはショートブロックを用いる。この両者の使い分けは重要で、もし図１０のような信号にロングブロックを適用すると、本来のアタックの前にプリエコーとよばれるノイズが発生する。また、図９のような信号にショートブロックを適用すると、周波数領域での解像度の不足から適切なビット割り当てがなされずに符号化効率が低下し、やはりノイズが発生し、特に低周波数の音に対しては顕著である。
【００１０】
ショートブロックについては、さらに、グループ分けの問題がある。グループ分けとは、上記の８つのショートブロックを、正規化係数の同じ連続するブロックごとにまとめてグループ化することである。グループ内で正規化係数を共通化することで、情報量の削減効果が上がる。具体的には、図７のノイズレスコーディング８０にて正規化係数にハフマン符号を割り当てる際に、各ショートブロック単位ではなく、グループ単位で割り当てるのである。図１１にグループ分けの一例を示す。ここではグループ数が３で、各グループ内のブロック数は、最初の第０グループでは５、次の第１グループでは１、最後の第２グループでは２、となっている。グループ分けを適切に行わないと、符号量の増加や音質の低下を招く。グループの分割数が多すぎると、本来共通化できるはずの正規化係数を重複して符号化することになり、符号化効率が低下する。逆に、グループ数が少なすぎると、音響信号の変化が激しいにも拘わらず共通の正規化係数で量子化することになるので、音質が低下する。なお、ＩＳＯ／ＩＥＣ１３８１８−７では、グループ分けに関して、符号のシンタクスの規定はあるものの、具体的なグループ分けの基準や手法については考慮されていない。
【００１１】
前述のように、符号化に際しては入力音響信号ブロックに対して適切にロングブロックとショートブロックを区別して適用しなければならない。このロング／ショートの判定を行うのは図７の聴覚心理モデル部７１である。ＩＳＯ／ＩＥＣ１３８１８−７では、聴覚心理モデル部７１における、各着目ブロックに対するロング／ショートの判定方法の一例が示されている。その判定処理の概要を以下に説明する。
【００１２】
ステップ１：音響信号の再構築
ロングブロック用に１０２４サンプル（ショートブロック用には１２８サンプル）を新たに読み込み、前ブロックにて既に読み込んでいる１０２４サンプル（１２８サンプル）と合わせて２０４８サンプル（２５６サンプル）の信号系列を再構築する。
【００１３】
ステップ２：ハン窓の掛け合わせとＦＦＴ
ステップ１にて構築した２０４８サンプル（２５６サンプル）の音響信号にハン窓を掛け合わせ、さらに、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を施して１０２４個（１２８個）のＦＦＴ係数を算出する。
【００１４】
ステップ３：ＦＦＴ係数の予測値の計算
先行する２ブロック分のＦＦＴ係数の実数部と虚数部から、現在着目しているブロックのＦＦＴ係数の実数部と虚数部を予測し、それぞれ１０２４個（１２８個）の予測値を算出する。
【００１５】
ステップ４：非予測可能性値の計算
ステップ２にて算出した各ＦＦＴ係数の実数部と虚数部と、ステップ３にて算出した各ＦＦＴ係数の実数部と虚数部の予測値から、それぞれの非予測可能性値を算出する。ここで、非予測可能性値は０から１の間の値をとり、０に近いほど音響信号の純音性が高く、１に近いほど雑音性が高い、言い替えれば純音性が低いことを示す。
【００１６】
ステップ５：各分割帯域での音響信号の強度と非予測可能性値の計算
ここでの分割帯域は、図７で示したものに相当する。各分割帯域毎に、ステップ２にて算出した各ＦＦＴ係数を基にして音響信号の強度を算出する。さらに、ステップ４にて算出した非予測可能性値を強度で重み付けして、各分割帯域毎の非予測可能性値を算出する。
【００１７】
ステップ６：広がり関数を掛けた強度と非予測可能性値の畳み込み
各分割帯域における他の分割帯域の音響信号強度及び非予測可能性値の影響を広がり関数で求め、それぞれを畳み込んで正規化する。
【００１８】
ステップ７：純音性指標の計算
各分割帯域ｂにおいて、ステップ６にて算出した畳み込み非予測可能性値（ｃｂ（ｂ））を基に、純音性指標ｔｂ（ｂ）（＝−０．２９９−０．４３ｌｏｇ_e（ｃｂ（ｂ）））を算出する。さらに、純音性指標を０から１の間に制限する。ここで、指標が１に近いほど音響信号の純音性が高く、０に近いほど雑音性が高いことを示す。
【００１９】
ステップ８：Ｓ／Ｎ比の計算
各分割帯域において、ステップ７にて算出した純音性指標を基に、Ｓ／Ｎ比を算出する。ここで、一般に雑音成分のほうが純音成分よりもマスキング効果が大きいという性質を利用する。
【００２０】
ステップ９：強度比の計算
各分割帯域において、ステップ８にて算出したＳ／Ｎ比を基に、畳み込み音響信号強度とマスキング閾値の比を算出する。
【００２１】
ステップ１０：許容誤差強度の計算
各分割帯域において、ステップ６にて算出した畳み込み音響信号強度と、ステップ９にて算出した音響信号強度とマスキング閾値の比を基に、マスキング閾値を算出する。
【００２２】
ステップ１１：プリエコー調整と絶対可聴閾値の考慮
各分割帯域において、ステップ１０にて算出したマスキング閾値を、前ブロックでの許容誤差強度を用いてプリエコー調整する。さらに、この調整値と絶対可聴閾値の大きい方の値を、現ブロックでの許容誤差強度とする。
【００２３】
ステップ１２：知覚エントロピーの計算
ロングブロック用とショートブロック用のそれぞれについて、式（１）で定義される知覚エントロピー（ＰｅｒｃｅｐｔｕａｌＥｎｔｒｏｐｙ（ＰＥ））を算出する。
【００２４】
【数１】

【００２５】
ただし、ｗ（ｂ）は分割帯域ｂの幅、ｎｂ（ｂ）はステップ１１にて算出した分割帯域ｂにおける許容誤差強度、ｅ（ｂ）はステップ５にて算出した分割帯域ｂにおける音響信号の強度、をそれぞれ示す。ここで、ＰＥは図７におけるビット割り当て領域（斜線領域）の面積の総和に対応すると考えられる。
【００２６】
ステップ１３：ロング／ショートブロックの判定（図１２に示すロング／ショートブロック判定動作フローを参照）
ステップ１２にて算出したロングブロック用のＰＥの値（ステップＳ１０）が、予め定められた定数（ｓｗｉｔｃｈ＿ｐｅ）より大きい場合は、着目ブロックをショートブロックと判定し（ステップＳ１１，Ｓ１２）、小さい場合はロングブロックと判定する（ステップＳ１１，Ｓ１３）。ここで、ｓｗｉｔｃｈ＿ｐｅはアプリケーションに依存して決められる値である。
【００２７】
以上が、ＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートの判定方法である。ところが、上述のＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートブロックの判定方法では、必ずしも適切な判定がなされない。つまり、本来ショートと判定すべき部分をロングと判定して（またはその逆で）、音質の劣化を生じる場合がある。
【００２８】
一方、特開平９−２３２９６４号公報では、入力信号を所定区間毎に取り込んで２乗和をそれぞれ求め、各区間毎に２乗和された信号の少なくとも２以上の区間にわたる変化度によって上記信号の過渡状態を検出するように過渡状態検出回路２を構成し、直交変換処理やフィルタ処理を行わずに、時間軸上の入力信号の２乗和計算を行うだけで過渡状態、即ち、ロング／ショートが変化する部分を検出することができるようにしている。この方法では入力信号の２乗和のみを用いて、知覚エントロピーを考慮していないので、必ずしも聴覚上の特性に合致した判定ができず、音質が劣化する恐れがある。
【００２９】
そこで、同一グループ内の各ショートブロックに関する知覚エントロピーの最大値と最小値の差が予め定められた閾値より小さくなるように入力音響信号ブロックをグループ分けし、その結果、グループ数が１の場合、又はこれと他の条件を満足する場合は入力音響信号ブロックを１つのロングブロックで周波数領域に変換し、それ以外の場合は複数のショートブロックで変換するという方法がある。この方法について動作フローを示す図１３に従って以下に説明する。なお、入力音響信号の例として、図１４の音響データを用い、図１４では連続する８つの各ショートブロックに対応する通し番号を付している。
【００３０】
先ず、入力された音響信号は連続する８つのショートブロックに分割される。そして、この８つのショートブロックの知覚エントロピーをそれぞれ計算し、これらを順にＰＥ（ｉ）（０≦ｉ≦７）とする（ステップＳ２０）。この計算は、上述のＩＳＯ／ＩＥＣ１３８１８−７における各着目ブロックに対するロング／ショートの判定方法のステップ１からステップ１２にて説明した方法を各ショートブロックに対して行うことで実現する。次に、ｇｒｏｕｐ＿ｌｅｎ［０］＝１，ｇｒｏｕｐ＿ｌｅｎ［ｇｎｕｍ］＝０（０≦ｇｎｕｍ≦７）と初期化する（ステップＳ２１）。ここで、ｇｎｕｍはグループ分におけるグループの通し番号、ｇｒｏｕｐ＿ｌｅｎ［ｇｎｕｍ］は第ｇｎｕｍグループ内に含まれるショートブロックの数、をそれぞれ表す。そして、ｇｎｕｍ＝０，ｍｉｎ＝ＰＥ（０），ｍａｘ＝ＰＥ（０）とそれぞれ初期化する（ステップＳ２２）。このｍｉｎ，ｍａｘは、ＰＥ（ｉ）の最小値、最大値をそれぞれ表す。さらに、インデックスｉをｉ＝１と初期化する（ステップＳ２３）。このインデックスはショートブロックの通し番号に対応する。
【００３１】
次に、ＰＥ（ｉ）によってｍｉｎ、又はｍａｘの更新をする。即ち、ＰＥ（ｉ）＜ｍｉｎならｍｉｎ＝ＰＥ（ｉ）、ＰＥ（ｉ）＞ｍａｘならｍａｘ＝ＰＥ（ｉ）とする（ステップＳ２４）。そして、グループ分けの判定をする（ステップＳ２５）。即ち、求めたｍａｘ−ｍｉｎが予め定められた閾値ｔｈと比較されて当該閾値ｔｈ以上の場合は、ショートブロックｉ−１とｉの間でグループ分けを行うためにステップＳ２６に進み、ｔｈより小さい場合は、ショートブロックｉ−１とｉが同一グループに含まれると判定してステップＳ２７に進むのである。この例ではｔｈ＝５０としておく。即ち、同一のグループに含まれる各ショートブロックのＰＥ（ｉ）の最大値と最小値の差が５０より小さくなるように、グループ分けするということである。ショートブロック０と１は同一グループに含まれると判定されてステップＳ２７へ進む。なお、ここではｇｎｕｍ＝０なので、ショートブロック０と１は第０グループに含まれる。そして、ｇｒｏｕｐ＿ｌｅｎ［ｇｎｕｍ］の値を１だけインクリメントする（ステップＳ２８）。これは、第ｇｎｕｍグループに含まれるショートブロックの数を１だけ増やすということである。この例では、ステップＳ２１，Ｓ２２でｇｎｕｍ＝０かつｇｒｏｕｐ＿ｌｅｎ［０］＝１と初期化されているので、ステップＳ２７ではｇｒｏｕｐ＿ｌｅｎ［０］＝２となる。これは、第０グループに含まれるショートブロックとしてブロック０，１の２つのブロックが既に確定していることに対応する。
【００３２】
次に、インデックスｉを１だけインクリメントし（ステップＳ２８）、ｉが７より小さい場合はステップＳ２４へ戻る（ステップＳ２９）。
【００３３】
その後、以上で説明したのと同様の動作がｉ＝４まで続く。ｉ＝４のときは、図１５より、図１３のステップＳ２４にてｍｉｎ＝９６，ｍａｘ＝１３７となるので、ステップＳ２５ではｍａｘ−ｍｉｎ＝４１＜５０＝ｔｈと判定され、やはり、ステップＳ２５からそのままステップＳ２７へ進む。そして、ステップＳ２７にて、ｇｒｏｕｐ＿ｌｅｎ［０］＝５となる。これは即ち、第０グループに含まれるショートブロックとしてブロック０，１，２，３，４の５つのブロックが確定したことに対応する。そして、ステップＳ２８にてｉ＝５となった後、ステップＳ２９を経て再びステップＳ２４に戻ると、今度はＰＥ（５）＝１５２なのでｍｉｎ＝９６，ｍａｘ＝１５２となる。すると、ステップＳ２５ではｍａｘ−ｍｉｎ＝５６＞５０＝ｔｈと判定されるので、ステップＳ２６へ進む。これはショートブロック４と５の間でグループ分けを行うことを意味する。ステップＳ２６ではｇｎｕｍの値を１だけインクリメントし、かつ、ｍｉｎ，ｍａｘをそれぞれ最新のＰＥ（ｉ）に置き換える。ここでは、ｇｎｕｍ＝１，ｍｉｎ＝１５２，ｍａｘ＝１５２となる。ｇｎｕｍ＝１はショートブロック５が含まれるグループが第１グループであることに対応する。
【００３４】
次に、ステップＳ２７でｇｒｏｕｐ＿ｌｅｎ［１］を１だけインクリメントする。ｇｒｏｕｐ＿ｌｅｎ［１］はステップＳ２１にて０に初期化されていたので、ここで改めてｇｒｏｕｐ＿ｌｅｎ［１］＝１となる。これは、第１グループに含まれるショートブロックとしてブロック５の１つのブロックが確定したことに対応する。
【００３５】
以下同様に、図１３のステップＳ２８でｉ＝６となり、ステップＳ２９からまたステップＳ２４へ戻ると、今度は図１５よりＰＥ（６）＝２６９なので、ｍｉｎ＝１５２，ｍａｘ＝２６９となり、ステップＳ２５にてｍａｘ−ｍｉｎ＝１１７＞５０と判定され、ステップＳ２６へ進む。つまり、ショートブロック５と６の間でもグループ分けがなされるのである。そして、ステップＳ２６にてｇｎｕｍ＝２，ｍｉｎ＝２６９，ｍａｘ＝２６９となり、さらにステップＳ２７でｇｒｏｕｐ＿ｌｅｎ［２］＝１となる。そして、ステップＳ２８でｉ＝７とした後これまでと同様に、ステップＳ２４でＰＥ（７）＝２３１なので、ｍｉｎ＝２３１，ｍａｘ＝２６９となり、ステップＳ２５にてｍａｘ−ｍｉｎ＝３８＜５０と判定され、ステップＳ２７へ進む。つまり、ショートブロック６と７はいずれも第２グループに含まれる。これに対応して、ステップＳ２７でｇｒｏｕｐ＿ｌｅｎ［２］＝２となる。さて、次のステップＳ２８でｉ＝８となるとステップＳ２９の判定により、ステップＳ３０へ進む。これで、８つのショートブロック全てについてのグループ分けが完了したことになる。
【００３６】
この例では、結局、ｇｎｕｍ＝２，ｇｒｏｕｐ＿ｌｅｎ［０］＝５，ｇｒｏｕｐ＿ｌｅｎ［１］＝１，ｇｒｏｕｐ＿ｌｅｎ［２］＝２となる。即ち、グループの数は３で、各グループに含まれるショートブロックの数は、第０グループが５、第１グループが１、第２グループが２という結果である。
【００３７】
次に、グループ分けの結果グループ数によってロング／ショートを判定する方法を説明する。即ち、ステップＳ３０にて、ｇｎｕｍの値が０か否かを判定する。もし０ならば、グループの数は１であり、０でないならばグループの数は２以上ということになる。そこで、ｇｎｕｍ＝０ならばステップＳ３１へ進んで入力音響ブロックを１つのロングブロックによってＭＤＣＴ変換するものと判定し、ｇｎｕｍ＝０でないならばステップＳ３２へ進んで入力音響ブロックを８つのショートブロックによってＭＤＣＴ変換するものと判定する。この例ではｇｎｕｍ＝２なので、ステップＳ３２へ進み、ショートブロックで変換すると判定する。
【００３８】
しかし、この方法でも適切なロング／ショートの判定ができない場合がある。それは、低周波成分に純音性の高い成分を含む音響データを符号化する場合である。ショートブロックによる変換は時間領域での解像度が増す反面、周波数領域での解像度は低下する。一方、人間の耳は低周波領域で高い解像度のマスキング特性を有し、特に純音性の高い音響データに対しては非常に狭い周波数帯域のみがマスキングされる。ところが、低周波巣成分に純音性の高い成分を含む音響データをショートブロックで変換すると、ショートブロックに起因する周波数領域での解像度の不足によってもとの音響データのエネルギーが周辺の周波数帯域に分散し、それが人間の耳の低周波成分におけるマスキングの幅を超えて広がることで、結果的に音質の劣化を感じてしまう。このことは、単にショートブロックに関する知覚エントロピーのみに基づいてロング／ショートの判定を行なうのは不十分であり、更に音響データの純音性とマスキング特性の周波数依存性を組み合わせて考慮する必要があることを示している。
【００３９】
そこで、入力音響信号ブロックを複数のショートブロックに分割し、それぞれのショートブロックについて、予め定めた１つ又は複数の分割帯域に含まれる音響成分の純音性指標が、分割帯域毎に予め定めた閾値より大きいかどうかを判定し、予め定めた１つ又は複数の分割帯域の全てにおいて純音性指標が予め定めた閾値より大きいようなショートブロックが少なくとも１つ存在する場合は、入力音響信号ブロックを１つのロングブロックで周波数領域に変換すると判定するという方法がある。この方法について動作フローを示す図１６に従って以下に説明する。なお、上記方法と同様に、入力音響信号の例として図１４の音響データを用いる。
【００４０】
先ず、音響信号は連続する８つのショートブロックｉ（０≦ｉ≦７）に関し、各分割帯域ｓｆｂでの純音性指標をそれぞれ計算し、これらをｔｂ［ｉ］［ｓｆｂ］とする（ステップＳ４０）。ここで、ｓｆｂは図１７に示すように、各分割帯域を識別するための通し番号である。なお、この純音性指標の計算は、上述ＩＳＯ／ＩＥＣ１３８１８−７における各着目ブロックに対するロング／ショートの判定ステップの内ステップ７にて説明した方法による。次に、ｔｏｎａｌ＿ｆｌａｇ＝０と初期化する（ステップＳ４１）。更に、ショートブロックの通し番号ｉをｉ＝０と初期化する（ステップＳ４２）。そして、ショートブロックｉに関し、予め定めた１つ又は複数の分割領域において各純音性指標がそれぞれの分割帯域について予め定めた閾値より大きいかどうかを調べる（ステップＳ４３）。図１６の例では、ｓｆｂ＝７，８，９である分割領域に関して調べており、それぞれ純音性指標の閾値を、ｔｈ７，ｔｈ８，ｔｈ９としている。
【００４１】
さて、ここにおける例では、それぞれのショートブロックｉに関し、ｓｔｂ＝７，８，９における純音性指標の値が図１８に示したようなものであったとする。また、ｔｈ７＝０．６，ｔｈ８＝０．９，ｔｈ９＝０．８と定められているものとする。すると、最初のｉ＝０のときは、ｔｂ［０］［７］＝０．１２＜０．６＝ｔｈ７，ｔｂ［０］［８］＝０．０８＜０．９＝ｔｈ８，ｔｂ［０］［９］＝０．１５＜０．８＝ｔｈ９なので、ステップＳ４３における判定はｎｏとなり、次のステップＳ４５に進む。そして、ｉの値が１つだけインクリメントされてｉ＝１となり、ステップＳ４６の判定を経て、再びステップＳ４３に戻る。
【００４２】
その後、以上説明した動作と同様の動作がｉ＝５まで続く。ｉ＝６となった後（ステップＳ４５）、ステップＳ４６を経て再びステップＳ４３に戻る。今後は、ｔｂ［６］［７］＝０．６７＞０．６＝ｔｈ７，ｔｂ［６］［８］＝０．９５＞０．９＝ｔｈ８，ｔｂ［６］［９］＝０．８９＞０．８＝ｔｈ９なので、ステップＳ４３における判定はｙｅｓとなり、ステップＳ４４に進む。そして、ｔｏｎａｌ＿ｆｌａｇ＝１となる（ステップＳ４４）。次に、ｉ＝７となり（ステップＳ４５）、ステップＳ４６を経てまたステップＳ４３へ戻る。ｉ＝７ではｔｂ［７］［７］＝０．４２＜０．６＝ｔｈ７，ｔｂ［７］［８］＝０．８４＜０．９＝ｔｈ８，ｔｂ［７］［９］＝０．８１＞０．８＝ｔｈ９なので、ステップＳ４３の判定はｎｏであり、ステップＳ４５へ進む。一方、ｔｏｎａｌ＿ｆｌａｇ＝１のまま変わらない。そして、ｉ＝８となった後（ステップＳ４５）、ステップＳ４６の判定を経て今度はステップＳ４７へ進む。そして、ｔｏｎａｌ＿ｆｌａｇの値を調べる（ステップＳ４７）。この例ではｔｏｎａｌ＿ｆｌａｇ＝１なので判定はｙｅｓとなりステップＳ４８へ進む。よって、入力された音響ブロックを１つのロングブロックによってＭＤＣＴ変換するものと判定される。なお、ｔｏｎａｌ＿ｆｌａｇ＝１でないならばステップＳ４９へ進んで入力音響ブロックを８つのショートブロックによってＭＤＣＴ変換するものと判定する。
【００４３】
【発明が解決しようとする課題】
しかしながら、この方法では、判定に用いる分割帯域の数が少ない場合、その限られた分割帯域での純音性しか考慮しないため、それ以外の周波数帯域で純音性が高くて本来ロングブロックを用いるべき場合でも、ショートブロックを採用するように判定しまう。逆に、判定に用いる分割領域が多い場合は、その全てにおいて純音性が高いような特殊な場合しか、ロングブロックを採用するという判定がなされない。このような問題が起こるのは、予め定めた１つ又は複数の分割帯域の全てにおいて純音性指標が予め定めた閾値より大きいことを判定条件としているからである。
【００４４】
また、一般に、入力音響信号のサンプリング周波数が小さいと各分割領域の周波数領域での解像度は上がるので、同じ周波数でもサンプリング周波数が小さくなるほど相対的に上位の分割帯域に含まれるようになる。よって、サンプリング周波数によらずに、ロング／ショートの判定に用いる分割領域家純音性指標の閾値等を固定しておくと、適切な判定がなされない。更に、サンプリング周波数が十分に小さい場合は、分割帯域の解像度も十分に大きくなるので、前述の、ショートブロックに起因する周波数帯域での解像度の不足によってもとの音響データのエネルギーが周辺の周波数帯域に分散し、それが人間の耳の低周波成分におけるマスキングの幅を超えて広る、ということがなくなるので純音性指標を利用した判定は不要になる。
【００４５】
本発明はこれらの問題点を解決するためのものであり、入力音響データの純音性と人間の耳のマスキング特性の周波数依存性を考慮しつつ、音質が劣化しないように適切にロング／ショートブロックの別を判定できるように、より適切な判定条件を与えることである。また、入力音響データのサンプリング周波数に応じて適切にロング／ショートの別が判別できる、デジタル音響信号装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体を提供することを目的とする。
【００４６】
【課題を解決するための手段】
前記問題点を解決するために、本発明のデジタル音響信号符号化方法によれば、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎に周波数領域への変換の処理を施し、特定の周波数領域において複数の周波数帯域に分割する。そして、分割した各周波数帯域毎の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出し、算出した各周波数帯域毎の純音性指標と各周波数帯域毎において予め定めた閾値とを比較する。複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定する。よって、限られた分割帯域以外の周波数帯域で純音性が高く本来ロングブロックを用いる場合でもショートブロックを採用するように判定してしまうとか、逆に多くの分割領域の全てにおいて純音性が高いような特殊な場合しかロングブロックを採用するという判定がなされないという、不都合を解消できる。
【００４７】
また、判定条件は、分割した各周波数帯域の中の連続した複数の周波数帯域において、各周波数帯域における各比較結果の全て又は少なくとも１つが純音性指標が閾値より大きい比較結果となる判定条件である。あるいは、分割した各周波数帯域の中の連続した複数の周波数帯域の組を複数設定し、複数の組のうち少なくとも１つの組における各周波数帯域における各比較結果の全てが、純音性指標が前記閾値より大きい比較結果となる判定条件である。また、組に含まれる周波数帯域の一部は、重複している。更に、重複している周波数帯域を含む組において同一の周波数帯域における閾値は、互いに異なる値である。よって、適切にロング・ショートの判定を行うことができる。また、入力音響データの純音性と人間の耳のマスキング特性の周波数依存性を考慮しつつ、よりふさわしい判定条件を与えられ、この判定条件に基づいて音質が劣化しないように適切にロング・ショートの判定を行うことができる。
【００４８】
更に、別の発明として、コンピュータにより、デジタル音響信号を時間軸に沿って入力してブロック化する機能と、各ブロック毎に周波数領域への変換の処理を施す機能と、特定の周波数領域において複数の周波数帯域に分割する機能と、分割した各周波数帯域毎の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する機能と、算出した各周波数帯域毎の純音性指標と各周波数帯域毎において予め定めた閾値とを比較する機能と、複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定する機能とを実行するデジタル音響信号符号化プログラムを記録した媒体に特徴がある。よって、既存のシステムを変えることなく、かつデジタル音響信号符号化システムを構築する装置を汎用的に使用することができる。
【００４９】
また、別の発明としてのデジタル音響信号符号化装置は、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎に周波数領域への変換の処理を施し、特定の周波数領域において複数の周波数帯域に分割し、各周波数帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、音響信号を正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、周波数領域への変換を行う際に、ブロック化した音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、１つの長いまたは複数の短い変換ブロックに共通の正規化係数を対応させて音響信号を量子化する。そして、本発明のデジタル音響信号符号化装置は、特定の周波数領域において複数の周波数帯域に分割した各周波数帯域の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する純音性指標算出手段と、純音性指標算出手段によって算出された各周波数帯域の純音性指標と各周波数帯域において予め定めた閾値とを比較する比較手段と、比較手段による複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定するロングブロック判定手段とを具備している。よって、限られた分割帯域以外の周波数帯域で純音性が高く本来ロングブロックを用いる場合でもショートブロックを採用するように判定してしまうとか、逆に多くの分割領域の全てにおいて純音性が高いような特殊な場合しかロングブロックを採用するという判定がなされないという、不都合を解消できる。
【００５０】
本発明のデジタル音響信号符号化装置は、特定の周波数領域において複数の周波数帯域に分割した各周波数帯域の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する純音性指標算出手段と、該純音性指標算出手段によって算出された各周波数帯域の純音性指標と各周波数帯域において予め定めた閾値とを比較する比較手段と、該比較手段による複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定するロングブロック判定手段とを具備する。
【００５１】
【実施例】
以下、本発明の実施例を図面に基づいて説明する。
図１は本発明の一実施例に係るデジタル音響信号符号化装置の構成を示すブロックである。同図に示す本実施例のデジタル音響信号符号化装置は、入力された音響信号を所定の数、以下の説明では８つの連続するブロックに分割するブロック分割手段１１、分割された各ブロックの純音性指標を上述した算出式によって計算する純音性指標算出手段１２、算出された純音性指標と予め定めた閾値とを比較する比較手段１３、比較結果に応じてロングブロック又はショートブロックのいずれかを判定するロング／ショートブロック判定手段１４及び各手段の動作を制御する制御手段１５を含んで構成されている。ここで、図２はデジタル音響信号符号化装置の動作を示すフローチャートである。以下、両図を用いて本実施例の具体的な動作を説明する。その際、入力音響信号の例として、図１４の音響データを用いる。
【００５２】
先ず、ブロック分割手段１１によって入力された音響信号は連続する８つのショートブロックｉ（０≦ｉ≦７）に関し、純音性指標算出手段１２によって各分割帯域ｓｆｂでの純音性指標をそれぞれ計算し、これらをｔｂ［ｉ］［ｓｆｂ］とする（ステップＳ５０）。ここで、ｓｆｂは図１７に示すように、各分割帯域を識別するための通し番号である。なお、この純音性指標の計算は、上述ＩＳＯ／ＩＥＣ１３８１８−７における各着目ブロックに対するロング／ショートの判定ステップの内ステップ７にて説明した方法による。次に、ｔｏｎａｌ＿ｆｌａｇ＝０と初期化する（ステップＳ５１）。更に、ショートブロックの通し番号ｉをｉ＝０と初期化する（ステップＳ５２）。そして、ショートブロックｉに関し、比較手段１３によって予め定めた１つ又は複数の分割領域において各純音性指標がそれぞれの分割帯域について予め定めた閾値より大きいかどうかを調べる（ステップＳ５３）。図２の例では、ｓｆｂ＝６，７，８，９である分割領域に関して調べており、それぞれ純音性指標の閾値を、ｓｆｂ＝６についてｔｈ６１、ｓｆｂ＝７についてｔｈ７１とｔｈ７２、ｓｆｂ＝８についてｔｈ８１とｔｈ８２、ｓｆｂ＝９についてｔｈ９１と定めている。そして、｛ｔｂ［ｉ］［６］＞ｔｈ６１ＡＮＤｔｂ［ｉ］［７］＞ｔｈ７１｝ＯＲ｛ｔｂ［ｉ］［７］＞ｔｈ７２ＡＮＤｔｂ［ｉ］［８］＞ｔｈ８１｝ＯＲ｛ｔｂ［ｉ］［８］＞ｔｈ８２ＡＮＤ［ｉ］［９］＞ｔｈ９１｝という論理判定式を満足するかどうかを判定する（ステップＳ５３）。
【００５３】
今回の例で、それぞれのショートブロックｉに関し、ｓｆｂ＝６，７，８，９における純音性指標の値が図１８に示したようなものであったとする。また、ｔｈ６１＝０．７，ｔｈ７１＝０．８，ｔｈ７２＝０．８，ｔｈ８１＝０．９，ｔｈ８２＝０．８，ｔｈ９１＝０．９と定めているとする。すると、ステップＳ５３での論理判定式は、｛ｔｂ［ｉ］［６］＞０．７ＡＮＤｔｂ［ｉ］［７］＞０．８｝ＯＲ｛ｔｂ［ｉ］［７］＞０．８ＡＮＤｔｂ［ｉ］［８］＞０．９｝ＯＲ｛ｔｂ［ｉ］［８］＞０．８ＡＮＤｔｂ［ｉ］［９］＞０．９｝となる。ここには、ｔｂ［ｉ］［７］＞０．８という判定式が２つ含まれている。また、ｔｂ［ｉ］［８］に対しては、ｔｂ［ｉ］［８］＞０．９とｔｂ［ｉ］［８］＞０．８という２つの異なる判定式が存在している。
【００５４】
さて、図１８における例では、最初のｉ＝０のときは、ｔｂ［０］［６］＝０．０９，ｔｂ［０］［７］＝０．１２，ｔｂ［０］［８］＝０．０８，ｔｂ［０］［９］＝０．１５なので、比較手段１３によるステップＳ５３における判定はｎｏとなり、次のステップＳ５５に進む。そして、ステップＳ５５では、ｉの値が１つだけインクリメントされてｉ＝１となり、ステップＳ５６の判定を経て、再びステップＳ５３に戻る。
【００５５】
その後、以上説明した動作と同様の動作がｉ＝５まで続く。ｉ＝６となった後（ステップＳ５５）、ステップＳ５６を経て再びステップＳ５３に戻る。今後は、ｔｂ［６］［６］＝０．６７，ｔｂ［６］［７］＝０．８２，ｔｂ［６］［８］＝０．９５，ｔｂ［６］［９］＝０．８９なので、比較手段１３によるステップＳ５３における判定はｙｅｓとなり、ステップＳ５４に進む。そして、ｔｏｎａｌ＿ｆｌａｇ＝１となる（ステップＳ５４）。次に、ｉ＝７となり（ステップＳ５５）、ステップＳ５６を経てまたステップＳ５３へ戻る。ｉ＝７ではｔｂ［７］［６］＝０．２３，ｔｂ［７］［７］＝０．４２，ｔｂ［７］［８］＝０．８４，ｔｂ［７］［９］＝０．８１なので、比較手段１３によるステップＳ５３の判定はｎｏであり、ステップＳ５５へ進む。しかし、ｔｏｎａｌ＿ｆｌａｇ＝１のまま変わらない。そして、ｉ＝８となった後（ステップＳ５５）、ステップＳ５６５の判定を経て今度はステップＳ５７へ進む。そして、ｔｏｎａｌ＿ｆｌａｇの値を調べる（ステップＳ５７）。この例ではｔｏｎａｌ＿ｆｌａｇ＝１なので判定はｙｅｓとなりステップＳ５８へ進む。よって、ロング／ショートブロック判定手段１４によって、入力された音響ブロックを１つのロングブロックによってＭＤＣＴ変換するものと判定される。
【００５６】
次に、別の例として、ｓｆｂ＝６，７，８，９における純音性指標の値が図３に示したような場合を考える。ただし、ｔｈ６１＝０．７，ｔｈ７１＝０．８，ｔｈ７２＝０．８，ｔｈ８１＝０．９，ｔｈ８２＝０．８，ｔｈ９１＝０．９は上記と同様に変わらないものとする。この場合は図１８の例とは異なり、｛ｔｂ［ｉ］［６］＞０．７ＡＮＤｔｂ［ｉ］［７］＞０．８｝ＯＲ｛ｔｂ［ｉ］［７］＞０．８ＡＮＤｔｂ［ｉ］［８］＞０．９｝ＯＲ｛ｔｂ［ｉ］［８］＞０．８ＡＮＤｔｂ［ｉ］［９］＞０．９｝が真となるようなショートブロックｉは存在しない。よって、比較手段１３によるステップＳ５３における判定は常にｎｏとなり、ステップＳ５４を通過することはない。その結果、ｔｏｎａｌ＿ｆｌａｇの値は初期値のｔｏｎａｌ＿ｆｌａｇ＝０のままステップＳ５７へ進むことになる。
【００５７】
そして、ステップＳ５７での判定がｎｏとなるので、次のステップＳ５９へ進み、上述の従来の判定方法、ＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートの判定方法などの他の判定手段によるロング／ショートの判定を行いその判定結果に従う。例えば図１３に示す判定方法を使っている場合は、同一グループ内の各ショートブロックに関する知覚エントロピーの最大値と最小値の差が予め定められた閾値より小さくなるように入力音響信号ブロックをグループ分けし、その結果グループ数が１の場合、又はこれと他の条件を満足する場合は入力音響信号ブロックを１つのロングブロックでＭＤＣＴ変換し、それ以外の場合は複数のショートブロックで変換する、と判定する。
【００５８】
なお、図２のステップＳ５３にて純音性指標の判定に用いる分割帯域は上記の例のようにｓｆｂ＝６，７，８，９に限るものではなく、また各閾値もｔｈ６１＝０．７，ｔｈ７１＝０．８，ｔｈ７２＝０．８，ｔｈ８１＝０．９，ｔｈ８２＝０．８，ｔｈ９１＝０．９に限らない。更に、論理判定式の構成も、上記の例に限るものではなく、｛ｔｂ［ｉ］［６］＞ｔｈ６１ＡＮＤｔｂ［ｉ］［７］＞ｔｈ７１ＡＮＤｔｂ［ｉ］［８］＞ｔｈ８１｝ＯＲ｛ｔｂ［ｉ］［８］＞ｔｈ８２ＡＮＤｔｂ［ｉ］［９］＞ｔｈ９１｝とか、ｔｂ［ｉ］［６］＞ｔｈ６１ＯＲｔｂ［ｉ］［７］＞ｔｈ７１ＯＲｔｂ［ｉ］［８］＞ｔｈ８１ＯＲｔｂ［ｉ］［９］＞ｔｈ９１等、いろいろな構成が可能である。
【００５９】
次に、本発明の第２の実施例について動作フローを示す図４に従って説明する。ここでは、入力音響信号のサンプリング周波数に応じて適切にロング／ショートの判定ができるような方法を与えている。それは、図２のステップＳ５３にて純音性指標の判定に用いる分割帯域や、それぞれの分割帯域に対応して定める純音性指標の閾値、それにロング／ショートの論理判定式を、サンプリング周波数毎に個別に定めるということである。
【００６０】
図４のフローチャートにより、その具体例を説明する。ここでは、上記の図２の例により入力音響信号のサンプリング周波数が小さい場合を考える。図４は図２とほぼ同様であるが、ステップＳ６３（図２ではステップＳ５３）の部分のみが異なっている。
【００６１】
さて、前述のように、サンプリング周波数が小さくなると、分割帯域の解像度が増し、かつ同じ周波数が相対的に上位の分割帯域に含まれるようになる。そこで、上記の例を、より小さいサンプリング周波数の入力音響信号に対して行なう場合は、純音性指標の判定に用いる分割帯域の数を増やして上位にシフトする。
【００６２】
図４のステップＳ６３では、ｓｆｂ＝８，９，１０，１１，１２としている。そして、純音性指標の閾値を、ｓｆｂ＝８についてｔｈ８１、ｓｆｂ＝９についてｔｈ９１とｔｈ９２、ｓｆｂ＝１０についてｔｈ１０１，ｔｈ１０２，ｔｈ１０３、ｓｆｂ＝１１についてｔｈ１１１とｔｈ１１２、ｓｆｂ＝１２についてｔｈ１２１、とそれぞれ定めている。前記の図２の例と同様に、各閾値のｔｈ８１，ｔｈ９１，・・・にはそれぞれ具体的な数値を予め定めておく。そして、ロング／ショートの論理判定式を｛ｔｂ［ｉ］［８］＞ｔｈ８１ＡＮＤｔｂ［ｉ］［９］＞ｔｈ９１ＡＮＤｔｂ［ｉ］［１０］＞ｔｈ１０１｝ＯＲ｛ｔｂ［ｉ］［９］＞ｔｈ９２ＡＮＤｔｂ［ｉ］［１０］＞ｔｈ１０２ＡＮＤｔｂ［ｉ］［１１］＞ｔｈ１１１｝ＯＲ｛ｔｂ［ｉ］［１０］＞ｔｈ１０３ＡＮＤｔｂ［ｉ］［１１］＞ｔｈ１１２ＡＮＤｔｂ［ｉ］［１２］＞ｔｈ１２１｝としている。
【００６３】
このステップＳ６３における判定の部分を除いて、図２の例と同様の動作により、ロング／ショートの判定を行なうのである。
【００６４】
他のサンプリング周波数に対しても同様に、図２のステップＳ５３（図４のステップＳ６３）に対応する部分のみを置き換えて、図２と同様の処理によりロング／ショートの判定を行なう。
【００６５】
さて、よりサンプリング周波数が小さい場合は、前述のように分割帯域の解像度が十分に大きくなるので、純音性指標を利用した判定は不要になる。そこで、サンプリング周波数が予め定めたある閾値以下の場合は、純音性指標を利用した方法を用いず、他の方法のみによってロング／ショートの判定を行なう。即ち、サンプリング周波数に関する予め定めた閾値を例えばｔｈ＿ｓｆ＝２４ｋＨｚと定めた場合は、入力音響信号のサンプリング周波数とこれを比較し、サンプリング周波数が２４ｋＨｚ以下なら、純音性指標を利用したロング／ショートの判定方法を用いずに、他の手段による判定方法のみでロング／ショートを判定する。２４ｋＨｚより大きいときは、純音性指標を用いた判定方法と、他の手段による判定方法を併用する。このように、純音性指標を用いた判定方法と、他の手段による判定方法を併用する場合は、サンプリング周波数ごとに個別に定められた純音性指標の判定に用いる分割帯域や、それぞれの分割帯域に対応して定める純音性指標の閾値、それに、ロング／ショートの論理判定式によって判定する。他の方法による判定結果との関係も既に図２の例で説明している（図２のステップＳ５７，Ｓ５８，Ｓ５９の部分）。即ち、純音性指標による方法でロングブロックと判定した場合は、他の方法での判定結果にかかわらず、ロングブロックで周波数領域に変換し、純音性指標による方法でショートブロックと判定した場合は、他の方法での判定結果に従う。
【００６６】
次に、図５は本発明のシステム構成を示すブロック図である。つまり、同図は上記実施例におけるデジタル音響信号符号化方法によるソフトウェアを実行するマイクロプロセッサ等から構築するハードウェアを示すものである。同図において、デジタル音響信号符号化システムはインターフェース（以下Ｉ／Ｆと略す）５１、ＣＰＵ５２、ＲＯＭ５３、ＲＡＭ５４、表示装置５５、ハードディスク５６、キーボード５７及びＣＤ−ＲＯＭドライブ５８を含んで構成されている。また、汎用の処理装置を用意し、ＣＤ−ＲＯＭ５９などの読取可能な記録媒体には、本発明のデジタル音響信号符号化方法を実行するプログラムが記録されている。更に、Ｉ／Ｆ５１を介して外部装置から制御信号が入力され、キーボード５７によって操作者による指令又は自動的に本発明のプログラムが起動される。そして、ＣＰＵ５２は当該プログラムに従って上述のデジタル音響信号符号化方法に伴う符号化制御処理を施し、その処理結果をＲＡＭ５４やハードディスク５６等の記憶装置に格納し、必要により表示装置５５などに出力する。以上のように、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【００６７】
なお、本発明は上記実施例に限定されるものではなく、特許請求の範囲内に記載であれば多種の変形や置換可能であることは言うまでもない。
【００６８】
【発明の効果】
以上説明したように、本発明によれば、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎に周波数領域への変換の処理を施し、特定の周波数領域において複数の周波数帯域に分割する。そして、分割した各周波数帯域毎の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出し、算出した各周波数帯域毎の純音性指標と各周波数帯域毎において予め定めた閾値とを比較する。複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定する。よって、限られた分割帯域以外の周波数帯域で純音性が高く本来ロングブロックを用いる場合でもショートブロックを採用するように判定してしまうとか、逆に多くの分割領域の全てにおいて純音性が高いような特殊な場合しかロングブロックを採用するという判定がなされないという、不都合を解消できる。
【００６９】
また、判定条件は、分割した各周波数帯域の中の連続した複数の周波数帯域において、各周波数帯域における各比較結果の全て又は少なくとも１つが純音性指標が閾値より大きい比較結果となる判定条件である。あるいは、分割した各周波数帯域の中の連続した複数の周波数帯域の組を複数設定し、複数の組のうち少なくとも１つの組における各周波数帯域における各比較結果の全てが、純音性指標が前記閾値より大きい比較結果となる判定条件である。また、組に含まれる周波数帯域の一部は、重複している。更に、重複している周波数帯域を含む組において同一の周波数帯域における閾値は、互いに異なる値である。よって、適切にロング・ショートの判定を行うことができる。また、入力音響データの純音性と人間の耳のマスキング特性の周波数依存性を考慮しつつ、よりふさわしい判定条件を与えられ、この判定条件に基づいて音質が劣化しないように適切にロング・ショートの判定を行うことができる。
【００７０】
更に、別の発明として、コンピュータにより、デジタル音響信号を時間軸に沿って入力してブロック化する機能と、各ブロック毎に周波数領域への変換の処理を施す機能と、特定の周波数領域において複数の周波数帯域に分割する機能と、分割した各周波数帯域毎の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する機能と、算出した各周波数帯域毎の純音性指標と各周波数帯域毎において予め定めた閾値とを比較する機能と、複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定する機能とを実行するデジタル音響信号符号化プログラムを記録した媒体に特徴がある。よって、既存のシステムを変えることなく、かつデジタル音響信号符号化システムを構築する装置を汎用的に使用することができる。
【００７１】
また、別の発明としてのデジタル音響信号符号化装置は、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎に周波数領域への変換の処理を施し、特定の周波数領域において複数の周波数帯域に分割し、各周波数帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、音響信号を正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、周波数領域への変換を行う際に、ブロック化した音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、１つの長いまたは複数の短い変換ブロックに共通の正規化係数を対応させて音響信号を量子化する。そして、本発明のデジタル音響信号符号化装置は、特定の周波数領域において複数の周波数帯域に分割した各周波数帯域の音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する純音性指標算出手段と、純音性指標算出手段によって算出された各周波数帯域の純音性指標と各周波数帯域において予め定めた閾値とを比較する比較手段と、比較手段による複数の比較結果が予め定めた判定条件に適合していた場合にはブロック化した音響信号を１つのロングブロックで周波数領域に変換すると判定するロングブロック判定手段とを具備している。よって、限られた分割帯域以外の周波数帯域で純音性が高く本来ロングブロックを用いる場合でもショートブロックを採用するように判定してしまうとか、逆に多くの分割領域の全てにおいて純音性が高いような特殊な場合しかロングブロックを採用するという判定がなされないという、不都合を解消できる。
【図面の簡単な説明】
【図１】本発明に係るデジタル音響信号符号化装置の構成を示すブロック図である。
【図２】本発明の一実施例に係るデジタル音響信号符号化方法の動作を示すフローチャートである。
【図３】ショートブロック別の純音性指標の関係の一例を示す図である。
【図４】本発明の一実施例に係るデジタル音響信号符号化方法の別の動作を示すフローチャートである。
【図５】本発明のシステム構成を示すブロック図である。
【図６】音響信号とマスキング閾値及び絶対可聴閾値の強度分布を示す図である。
【図７】ＡＡＣの符号化の基本的な構成を示すブロック図である。
【図８】ＭＤＣＴの変換領域を示す図である。
【図９】変化の少ない信号波形の場合のＭＤＣＴの変換領域を示す図である。
【図１０】変化の激しい信号波形の場合のＭＤＣＴの変換領域を示す図である。
【図１１】グループ分けの一例を示す図である。
【図１２】ＩＳＯ／ＩＥＣ１３８１８−７におけるロング／ショートブロック判定動作を示すフローチャートである。
【図１３】従来のデジタル音響信号符号化方法の動作を示すフローチャートである。
【図１４】音響信号の一例の信号波形を示す図である。
【図１５】音響信号に対する知覚エントロピーとの関係を示す図である。
【図１６】別の従来のデジタル音響信号符号化方法の動作を示すフローチャートである。
【図１７】分割領域識別番号の付与の様子を示す図である。
【図１８】従来のショートブロック別の純音性指標の関係の一例を示す図である。
【符号の説明】
１１ブロック分割手段
１２純音性指標算出手段
１３比較手段
１４ロング／ショートブロック判定手段
１５制御手段
５１Ｉ／Ｆ
５２ＣＰＵ
５３ＲＯＭ
５４ＲＡＭ
５５表示装置
５６ハードディスク
５７キーボード
５８ＣＤ−ＲＯＭドライブ
５９ＣＤ−ＲＯＭ

Claims

デジタル音響信号を時間軸に沿って入力してブロック化し、
各ブロック毎に周波数領域への変換の処理を施し、
特定の周波数領域において複数の周波数帯域に分割し、
分割した各周波数帯域毎の前記音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出し、
算出した各周波数帯域毎の前記純音性指標と各周波数帯域毎において予め定めた閾値とを比較し、
複数の比較結果が予め定めた判定条件に適合していた場合には前記ブロック化した前記音響信号を１つのロングブロックで周波数領域に変換すると判定することを特徴とするデジタル音響信号符号化方法。
前記判定条件は、前記分割した各周波数帯域の中の連続した複数の周波数帯域において、各周波数帯域における各比較結果の全て又は少なくとも１つが前記純音性指標が前記閾値より大きい比較結果となる判定条件である請求項１記載のデジタル音響信号符号化方法。
前記判定条件は、前記分割した各周波数帯域の中の連続した複数の周波数帯域の組を複数設定し、複数の組のうち少なくとも１つの組における各周波数帯域における各比較結果の全てが、前記純音性指標が前記閾値より大きい比較結果となる判定条件である請求項１記載のデジタル音響信号符号化方法。
前記組に含まれる周波数帯域の一部は、重複している請求項３記載のデジタル音響符号化方法。
重複している周波数帯域を含む組において同一の周波数帯域における前記閾値は、互いに異なる値である請求項４記載のデジタル音響符号化方法。
コンピュータにより、
デジタル音響信号を時間軸に沿って入力してブロック化する機能と、
各ブロック毎に周波数領域への変換の処理を施す機能と、
特定の周波数領域において複数の周波数帯域に分割する機能と、
分割した各周波数帯域毎の前記音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する機能と、
算出した各周波数帯域毎の前記純音性指標と各周波数帯域毎において予め定めた閾値とを比較する機能と、
複数の比較結果が予め定めた判定条件に適合していた場合には前記ブロック化した前記音響信号を１つのロングブロックで周波数領域に変換すると判定する機能と
を実行するデジタル音響信号符号化プログラムを記録した媒体。
デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎に周波数領域への変換の処理を施し、特定の周波数領域において複数の周波数帯域に分割し、各周波数帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、１つの長いまたは複数の短い変換ブロックに共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化装置において、
特定の周波数領域において複数の周波数帯域に分割した前記各周波数帯域の前記音響信号に含まれる音響成分の純音性の度合いを示す純音性指標を算出する純音性指標算出手段と、
該純音性指標算出手段によって算出された各周波数帯域の前記純音性指標と各周波数帯域において予め定めた閾値とを比較する比較手段と、
該比較手段による複数の比較結果が予め定めた判定条件に適合していた場合には前記ブロック化した前記音響信号を１つのロングブロックで周波数領域に変換すると判定するロングブロック判定手段と
を具備することを特徴とするデジタル音響信号符号化装置。
前記判定条件は、前記分割した各周波数帯域の中の連続した複数の周波数帯域において、各周波数帯域における各比較結果の全て又は少なくとも１つが前記純音性指標が前記閾値より大きい比較結果となる判定条件である請求項７記載のデジタル音響信号符号化装置。
前記判定条件は、前記分割した各周波数帯域の中の連続した複数の周波数帯域の組を複数設定し、複数の組のうち少なくとも１つの組における各周波数帯域における各比較結果の全てが、前記純音性指標が前記閾値より大きい比較結果となる判定条件である請求項７記載のデジタル音響信号符号化装置。
前記組に含まれる周波数帯域の一部は、重複している請求項９記載のデジタル音響符号化装置。
重複している周波数帯域を含む組において同一の周波数帯域における前記閾値は、互いに異なる値である請求項１０記載のデジタル音響符号化装置。