JP3942882B2 - Digital signal encoding apparatus and digital signal recording apparatus having the same - Google Patents
Digital signal encoding apparatus and digital signal recording apparatus having the same Download PDFInfo
- Publication number
- JP3942882B2 JP3942882B2 JP2001376308A JP2001376308A JP3942882B2 JP 3942882 B2 JP3942882 B2 JP 3942882B2 JP 2001376308 A JP2001376308 A JP 2001376308A JP 2001376308 A JP2001376308 A JP 2001376308A JP 3942882 B2 JP3942882 B2 JP 3942882B2
- Authority
- JP
- Japan
- Prior art keywords
- bit allocation
- allocation amount
- quantization error
- frequency band
- digital signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、ミニディスクなどの記録媒体に音楽や音声等のディジタル信号を記録する際に、これらの記録対象に適応して各周波数帯域のスペクトルに対するビット割り当てを行ってデータ量を圧縮するディジタル信号符号化装置に関するものである。
【0002】
【従来の技術】
音楽や音声等のディジタル信号を高能率で圧縮符号化する従来の方法として、ミニディスクで用いられているATRAC(Adaptive Transform Acoustic Coding)が挙げられる。このATRACでは、高能率で圧縮するために、ディジタル信号を複数の周波数帯域(サブバンド)に分割した後、可変長の時間単位で符号化ユニットにブロック化してMDCT(Modified Discrete Cosine Transform)処理を施し、スペクトル信号に変換し、さらに聴覚心理特性を利用して割り当てられたビット数で各スペクトル信号をそれぞれ符号化する。
【0003】
上記の圧縮符号化に適応することができる聴覚心理特性には、等ラウドネス特性やマスキング効果が挙げられる。等ラウドネス特性は、同じ音圧レベルの音であっても、人間が感じ取る音の大きさが周波数によって変化することを表す。従って、等ラウドネス特性は、人間が感じ取ることができる音の大きさである最小可聴限が周波数によって変化することを表している。
【0004】
一方、マスキング効果には、同時マスキングと経時マスキングとがある。同時マスキングは、複数の周波数成分の音が同時に発生しているときに、ある音が別の音を聞き取り難くさせる現象である。経時マスキングは、大きな音の時間軸方向の前後でマスキングを受ける現象である。
【0005】
また、ビット割り当ての方法は、上記の聴覚心理特性を利用して、要求される音質レベルと使用できるハードウェア能力とのバランスを考慮したアルゴリズムを採用する必要がある。
【0006】
例えば、反復法と呼ばれるビット割り当て法では、入力ディジタル信号に適応したビット割り当てが以下のようにして行われている。まず、各周波数帯域のパワーSを求め、そのパワーSによる他の周波数帯域に対するマスキングしきい値Mを求める。次に、このマスキングしきい値Mと、各周波数帯域をnビットで量子化したときの量子化雑音パワーN(n)とから、マスキングしきい値対雑音比MNR(n)=M/N(n)を求める。続いて、そのマスキングしきい値対雑音比MNR(n)が最小となる周波数帯域にビット割り当てを行った後、そのマスキングしきい値対雑音比MNR(n)を更新し、再び最小の周波数帯域にビット割り当てを行う。
【0007】
【発明が解決しようとする課題】
経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されると、同一周波数の量子化誤差が隣接するフレーム間で変動し、それが異音として知覚されることがある。特に、自身がマスキング効果の影響を受けないピーク周波数の量子化誤差が変動した場合に異音として知覚される。
【0008】
上記のような異なるタイプの信号に対しては、エネルギー分布に応じたビットの配分が必要となるため、これが適切に行われないと上記のような異音が生じる。
【0009】
また、前述の反復法は、1フレーム(圧縮処理単位時間)内でビット割り当てを行うので、そのフレーム内では最適な量子化ビット数を算出することができるものの、前後のフレームの信号変化を的確にビット割り当てに反映させることができない。特に、固定ビットレートで圧縮を行う場合、隣接するフレームで信号エネルギー成分が異なれば、同一周波数で量子化誤差の揺らぎ(変動が)発生してしまう。
【0010】
本発明は、上記の事情に鑑みてなされたものであって、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化する際に、知覚可能な音質劣化を軽減するディジタル信号符号化装置を提供することを目的としている。
【0011】
【課題を解決するための手段】
本発明のディジタル信号符号化装置は、ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域のスペクトルデータをそれぞれに応じて与えられたビット割当量で符号化するディジタル信号符号化装置において、上記の課題を解決するために、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正することを特徴としている。
【0012】
上記の構成では、あるフレームのビット割当量が、ビット割当量算出手段によって算出されると、そのビット割当量の量子化誤差が、第1量子化誤差算出手段によって算出される。また、そのフレームに続くフレームのビット割当量の量子化誤差も同様にして算出される。これらの続く2つのフレームをそれぞれ前フレームと現フレームとして、ビット割当量修正手段によって、現フレームのビット割当量が前フレームのビット割当量を基に修正される。この結果、最終のビット割当量が得られる。そして、このビット割当量の量子化誤差が、第2量子化誤差算出手段によって算出される。
【0013】
ビット割当量修正手段による修正時には、現フレームのビット割当量の量子化誤差と、第2量子化誤差算出手段で算出された前フレームとのビット割当量の量子化誤差との差分が所定値より小さくなるように修正される。これにより、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化するような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【0014】
上記のディジタル信号符号化装置は、前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することが好ましい。このような構成では、スペクトルデータの上記の最大値が、最大値抽出手段によって抽出されると、その最大値でビット割当量修正手段による上記のビット割当量の修正が行われる。これにより、ピーク周波数の量子化誤差の変動が抑制される。
【0015】
ここで、スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値が属する周波数帯域の周波数をピーク周波数と称する。このピーク周波数は、最小可聴限以上の信号レベルではマスキングされずに可聴周波数となるので、量子化誤差の揺らぎ(変動)が発生すると、最も異音として知覚されやすい周波数である。それゆえ、上記のようにピーク周波数の量子化誤差の変動を抑制することによって、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動が抑制される。
【0016】
本発明の他のディジタル信号符号化装置は、ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域スペクトルの大きさから、想定した各ビット数に対して各周波数帯域のマスキングしきい値対雑音比を求め、前記ビット数毎に前記マスキングしきい値対雑音比が最小となる周波数帯域から順に与えられたビット割当量で前記スペクトルデータを符号化するディジタル信号符号化装置において、上記の課題を解決するために、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正することを特徴としている。
【0017】
上記の構成では、あるフレームのビット割当量がビット割当量算出手段によって算出されると、そのビット割当量の量子化誤差が第1量子化誤差算出手段によって算出される。すると、マスキング周波数帯域抽出手段によって、その量子化誤差が聴覚心理を用いて非マスキング周波数帯域について抽出される。また、そのフレームに続くフレームのビット割当量の非マスキング周波数帯域についての量子化誤差も同様にして算出される。これらの2つの続くフレームをそれぞれ前フレームと現フレームとして、ビット割当量修正手段によって、現フレームのビット割当量が前フレームのビット割当量を基に修正される。この結果、最終のビット割当量が得られる。そして、このビット割当量の量子化誤差が第2量子化誤差算出手段によって算出される。
【0018】
ビット割当量修正手段による修正時には、現フレームのビット割当量の非マスキング周波数帯域についての量子化誤差と、第2量子化誤差算出手段で算出された前フレームのビット割当量の非マスキング周波数帯域についての量子化誤差との差分が所定値より小さくなるように修正される。これにより、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化するような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【0019】
本発明のディジタル信号記録装置は、入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、上記符号化処理を行うために、上記のいずれかのディジタル信号符号化装置を含んでいることを特徴としている。この構成では、上記の各ディジタル信号符号化装置によって、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制されることから、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する上記のような音質の劣化の少ない信号を記録することができる。
【0020】
【発明の実施の形態】
本発明の実施の一形態について図1ないし図11に基づいて説明すれば、以下の通りである。
【0021】
まず、本実施の形態に係るミニディスク装置について説明する。
【0022】
図2に示すように、ディジタル信号記録装置としての本ミニディスク装置において、入力端子1から入力されたディジタル信号としてのディジタルオーディオ信号が、例えば、光信号としてシリアル入力される。この光信号は、光電素子2によって電気信号に変換された後、ディジタルPLL回路(Phase-Locked-Loop)3に入力される。
【0023】
ディジタルPLL回路3は、入力されたディジタルオーディオ信号からクロックの抽出を行うとともに、サンプリング周波数および量子化ビット数に対応したマルチビットデータを再現する。このマルチビットデータは、信号源毎に対応したサンプリングレート(コンパクトディスクでは44.1kHz、ディジタルオーディオテープレコーダでは48kHz、衛星放送(Aモード)では32kHz)で標本化されたディジタルデータである。そこで、ディジタルPLL回路3から出力されたマルチビットデータは、周波数変換回路4によって、そのサンプリングレートをミニディスクの規格に対応した44.1kHzに変換する。
【0024】
音声圧縮回路5は、前述のATRAC方式によって入力されたディジタルオーディオデータの圧縮符号化を行う。符号化されたディジタルオーディオデータは、ショックプルーフメモリコントローラ6を介して信号処理回路7に送出される。ショックプルーフメモリコントローラ6によって制御されるショックプルーフメモリ8は、音声圧縮回路5から出力されるディジタルオーディオデータの転送速度と、信号処理回路7に入力されるディジタルオーディオデータの転送速度との差を吸収するとともに、再生時における振動等の外乱による再生信号の中断を補間し、ディジタルオーディオデータを保護するために設けられている。
【0025】
信号処理回路7は、エンコーダおよびデコーダとしての機能を備えている。エンコーダとしての機能は、入力されたディジタルオーディオデータをシリアルの磁界変調信号にエンコードしてヘッド駆動回路9に与える。デコーダとしての機能は、後述するRFアンプ13からのシリアル信号をディジタルオーディオデータにデコードしてショックプルーフメモリコントローラ6に与える
ヘッド駆動回路9は、記録時に、記録ヘッド10をミニディスク11上の所定の記録位置に移動させるとともに、上記の磁界変調信号に対応した磁界を発生させる。この状態で、ミニディスク11上の所定の記録位置には、光ピックアップ12からレーザ光が照射されている。これにより、上記の磁界に対応した磁化パターンがミニディスク11上に形成される。
【0026】
光ピックアップ12は、ミニディスク11から上記の磁化パターンに対応したシリアル信号を読み取る。このシリアル信号は、高周波アンプ(以降、RFアンプと称する)13で増幅された後、信号処理回路7によってディジタルオーディオデータにデコードされる。このディジタルオーディオデータは、ショックプルーフメモリコントローラ6およびショックプルーフメモリ8によって外乱による影響が除去された後、音声伸長回路14に送出される。
【0027】
音声伸長回路14は、ATRAC方式による圧縮符号化の逆変換処理(伸長復号化)を行い、フルビットのディジタルオーディオデータを復調する。復調されたディジタルオーディオデータは、ディジタル/アナログ変換回路(以降、A/D変換回路と称する)15によってアナログオーディオ信号に変換され、出力端子16から外部へ出力される。
【0028】
RFアンプ13で増幅されたシリアル信号は、サーボ回路17にも入力される。サーボ回路17は、再生されたシリアル信号に応じてドライバ回路18に制御信号を送出し、そのドライバ回路18を介してスピンドルモータ19の回転速度をフィードバック制御する。このようなフィードバック制御により、ミニディスク11を線速度一定で回転させることができる。
【0029】
また、サーボ回路17は、ドライバ回路18を介して送りモータ20の回転速度もフィードバック制御する。このようなフィードバック制御により、ミニディスク11の半径方向に対する光ピックアップ12の変移制御、すなわちトラッキング制御を行うことができる。さらに、サーボ回路17は、ドライバ回路18を介して光ピックアップ12のフォーカシング制御も行う。
【0030】
上記の信号処理回路7、光ピックアップ12、RFアンプ14、サーボ回路17、ドライバ回路18等には、図示しない電源回路から電力が供給されるが、このような電力供給動作や後述する信号処理動作は、全てシステムコントロールマイクロコンピュータ21によって集中管理されている。このシステムコントロールマイクロコンピュータ21には、曲名入力、選曲操作、音質調整動作等を行うための入力装置22が接続されている。
【0031】
続いて、本実施の形態のディジタル信号符号化装置としての前述の音声圧縮回路5におけるディジタルデータ符号化処理について説明する。その前に、まず、ミニディスク11等で利用する前述のATRACによる符号化・復号化処理について説明する。
【0032】
図3に示すように、音声圧縮回路5は、スペクトル変換部51およびビット割当処理部52を有している。
【0033】
スペクトル変換部51は、符号化時、44.1kHzのサンプリング周波数でサンプリングされたオーディオ信号(マルチビットデータ)を、帯域分割フィルタであるQMF(Quadrature Mirror Filter)によって複数の周波数帯域(サブバンドフレーム)に分割する。また、スペクトル変換部51は、分割されたサブバンドフレーム単位で前述のMDCT処理を行い、各帯域の周波数成分のMDCT係数(スペクトルデータ)を生成する。このときのMDCT処理は、次式(1)で表される。
【0034】
Xm(k)=Σxm(i)h(i)cos(π/M(k+1/2)(i+M/2+1/2) …(1)
式(1)において、k=0,1,…,M−1、
m:ブロック番号、
xm(i):入力信号、
h(i):順変換用窓関数、
Xm(k):変換データ
である。
【0035】
ビット割当処理部52は、上記のMDCT係数を、i個の各周波数帯域のスペクトルパワーSi(i=1,2,…,I;例えばI=25)に変換し、各スペクトルパワーに対して後述のようにしてビット割当処理を行う。このスペクトルパワーSiは、臨界帯域(単位Bark)等が用いられる。臨界帯域は、周波数選択性、マスキングしきい値等の特定の音響心理学的規則性が有効な広帯域オーディオスペクトルの特性的部分のことである。
【0036】
以下に、上記のビット割当処理部52について詳細に説明する。
【0037】
ビット割当処理部52は、図1に示すように、パワー算出部52a、SNR算出部52b、1次量子化ビット数算出部52c、量子化ノイズ算出部52d、2次量子化ビット数算出部52eおよび量子化ノイズ保存部52fを備えている。
【0038】
パワー算出部52aは、帯域毎に設けられており、前述のMDCT処理によって得られたMDCT係数を臨界帯域等の各周波数帯域に分割し、各周波数帯域に属するMDCT係数の2乗和から、前記のスペクトルパワーSiをそれぞれの帯域について算出する。ここで、パワーとは、単位時間当たりのエネルギーのことをいう。
【0039】
SNR算出部52bは、スペクトルパワーSiとこのスペクトルパワーSiをnビットで量子化したときの量子化雑音パワーNi(n)とから、信号対雑音比SNRi(n)=Si/Ni(n)を算出する。このSNRi(n)は、統計的には、信号の特性に応じた定数となるので、統計処理によって予め求められていてもよい。
【0040】
ビット割当量算出手段としての1次量子化ビット数算出部52cは、所望のビットレートと上記のSNRi(n)とに基づいて前述の反復法を用いて量子化ビット数を算出する。ここでは、前述の反復法におけるマスキングしきい値Mを信号Sに置き換えて量子化ビット数を算出する。
【0041】
第1量子化誤差算出手段としての量子化ノイズ算出部52dは、現フレームにおいて、前記の処理で求めたnより量子化雑音パワーNi(n)を確定する。
【0042】
ビット割当量修正手段としての2次量子化ビット数算出部52eは、量子化ノイズ保存部52fに保存された前フレームの量子化雑音パワーNi(n)と、量子化ノイズ算出部52dで算出された現フレームの量子化雑音パワーNi(n)との差分の絶対値を求め、その絶対値が所定値より小さくなるように、周波数帯域の個数iを修正し、その個数iに基づいて、1次量子化ビット数算出部52cで算出された量子化ビット数を修正する。
【0043】
第2量子化誤差算出手段としての量子化ノイズ保存部52fは、2次量子化ビット数算出部52で算出された各周波数帯域の最終量子化ビット数nから前フレームの量子化雑音パワーNi(n)を算出し、保存する。この量子化ノイズ保存部52fは、保存した前フレームの量子化雑音パワーNi(n)を2次量子化ビット数算出部52eでの上記の差分を求めるために、2次量子化ビット数算出部52eに与える。
【0044】
上記のように構成されるビット割当処理部52においては、次のようにして割当処理が行われる。
【0045】
まず、図4に示すように、時間t1、すなわち、初期フレームの場合、2次量子化ビット数算出部52eでのビット数算出処理を行わずに、1次量子化ビット数算出部52cのnが最終量子化ビット数となる。次に、量子化ノイズ保存部52fは、時間t1のフレームを前フレームとして、各周波数帯域の最終量子化ビット数nから時間t1のフレームの量子化雑音パワーNit1(n)を算出して保存する。
【0046】
時間t2、すなわち時間t1の次のフレーム処理では、パワー算出部52a、SNR算出部52b、1次量子化ビット数算出部52cおよび量子化ノイズ算出部52dまで、初期フレームと同様の処理が行われ、量子化雑音パワーNit2'(n)が算出される。2次量子化ビット数算出部52eでは、まず、時間t1の量子化雑音パワーNit1(n)と時間t2の量子化雑音パワーNit2'(n)との差分が求められる。図4において、時間t1の全帯域のパワー(=Σsit1)と時間t2の全帯域のパワー(=Σsit2')との関係は、Σsit1<Σsit2'である。従って、固定ビットレートの場合には、おおむね、各周波数帯域でNit1(n)<Nit2'(n)の関係が成立している。
【0047】
次に、2次量子化ビット数算出部52eでは、例えば、Siの周波数帯域とパワーとを参照して、|Nit2'(n)−Nit1(n)|で表される差分を、|Nit2'(n)−Nit1(n)|<12dB(所定値)となるように、0〜25のiの値について修正する。図5に示す例では、時間t2にフレームについて、4つのサブバンドフレームSB1〜SB4に対し、低域のビット割当量が増加修正され、高域のビット割当量が削減修正されていることを示す。この補正においては、補正対象となる周波数帯域のビット割当量を聴覚心理特性や信号のパワーに応じて重み付けして修正するのがより好ましい。
【0048】
以上のように、本ビット割当処理部52は、1次量子化ビット数算出部52cで算出したビット割当量(量子化ビット数)を2次量子化ビット数算出部52eで修正する際に、量子化ノイズ保存部52fで算出して保存した前フレームの量子化雑音パワー(量子化誤差)と、量子化ノイズ算出部52dで算出した現フレームの量子化雑音パワー(量子化誤差)との差分が所定値より小さくなるように修正を行う。これにより、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【0049】
続いて、他のビット割当処理部52について説明する。
【0050】
本ビット割当処理部52は、図6に示すように、図1に示すビット割当処理部52におけるパワー算出部52a、量子化ノイズ算出部52d、2次量子化ビット数算出部52eおよび量子化ノイズ保存部52fを備えるとともに、マスキング算出部52g、最小可聴限合成部52h、SMR算出部52i、MNR算出部52j、1次量子化ビット数算出部52kおよび非マスキング領域抽出部52mを備えている。
【0051】
マスキング算出部52gは、上記のスペクトルパワーSiより、公知の手段によってマスキングしきい値を算出する。例えば、MPEG1の聴覚心理モデル1を用いれば以下のような式になる。
【0052】
Vf=17×(dz+1)−(0.4×X〔z(i)〕+6) dB(-3≦dz<-1)Bark
Vf=(0.4×X〔z(i)〕+6) dB(-1≦dz<0)Bark
Vf=−17×dz dB(0≦dz<1)Bark
Vf=−(dz−1)×(17−0.15×X〔z(i)〕)−17 dB(1≦dz<8)Bark
Vf=−∞ dB(-3>dz,8<1dz)Bark
ここで、dz=z[j]−z[i]、
X[z(i)]=10log10Si
であり、Barkは臨界帯域の単位を表す。
【0053】
上記の各式のVfをi(臨界帯域のインデックス)毎に算出し、重複する周波数については最大のVfを選択することによってマスキングしきい値が求められる。マスキングしきい値を算出するための方法としては、その他、いくつかの公知の方法があるので、上記の方法には限定されない。
【0054】
最小可聴限合成部52hは、次式等で表される最小可聴限特性等と上記のマスキング算出部52gで求めたマスキングしきい値とを合成して、図7に示すような最終のマスキングしきい値Miを各周波数帯域について決定する。最小可聴限特性は、予めテーブルROMに格納されていてもよい。
【0055】
lt(f)=-0.6×3.64×(f/1000)-0.8+6.5×exp(-0.6(f/1000-3.3)2-10-3×(f/1000)4 …(2)
SMR算出部52iは、各周波数のインデックスを上記のiとすると、パワー算出部52aで求めたスペクトルパワーSiと、最小可聴限合成部52hで求めた各周波数帯域のマスキングしきい値Miとの比SMRi=Si/Miを全ての周波数帯域にわたって計算する。なお、上記のfは周波数(Hz)である。
【0056】
MNR算出部52jは、各周波数帯域の上記のスペクトルパワーSiをnビットで量子化したときの、このスペクトルパワーSiと量子化雑音パワーNi(n)との比SNRi(n)=Si/Ni(n)を算出し、この比SNRi(n)と前記のSMRiとの比から、マスキングしきい値と量子化雑音パワーとの比MNRi(n)=SNRi(n)/SMRiが求められる。上記の比SNR(n)は、統計的には、信号の特性に応じた特性となるので、統計処理によって求めておいてもよい。
【0057】
1次量子化ビット数算出部52kは、MNR算出部52jで求められたマスキングしきい値と量子化雑音パワーとの比MNRi(n)に基づいて、各周波数帯域の量子化ビット数を次のようにして割り当てる。ビット数nを0から大きくしていき、その都度、各周波数帯域のマスキングしきい値と量子化雑音パワーとの比MNRi(n)を計算し、その比MNRi(n)が最小となる周波数帯域から順にビットを割り当てていき、前記の量子化ビット数nを更新する毎に、同様に比MNRi(n)が最小となる周波数帯域にビットの割り当てを行い、ビットレートに応じた所定の割当可能ビット数となるまで割り当てを行う。すなわち、前記のスペクトルパワーSiが、しきい値Miを超えた部分が最も大きい周波数帯域から順次ビット割り当てが行われることになる。
【0058】
非マスキング周波数帯域抽出手段としての非マスキング領域抽出部52mは、前述の比SMRiに基づいて非マスキング領域(非マスキング周波数帯域)を聴覚心理を用いて抽出する。具体的には、前述の比SMRiが1を超える周波数帯域が非マスキング周波数帯域であり、比SMRiが1以下である周波数帯域がマスキング周波数帯域であることから、各周波数帯域についてSMRi>1を判定し、非マスキング周波数帯域を求める。
【0059】
ここでの、2次量子化ビット数算出部52eは、非マスキング周波数帯域のみに対し、|Nit2'(n)−Nit1(n)|>12dBとなるnについて|Nit2'(n)−Nit1(n)|<12dBとなるように、i=0,…,25まで修正を施す。
【0060】
修正によって削除または増加する量子化ビット数は、図8に示すマスキング周波数帯域SiM(斜線部)内で調整される。
【0061】
このように、本ビット割当処理部52は、図1のビット割当処理部52と同様に、1次量子化ビット数算出部52kで算出したビット割当量(量子化ビット数)を2次量子化ビット数算出部52eで修正するが、非マスキング領域抽出部52mで抽出した非マスキング周波数帯域に対してのみ修正を行う。これにより、音楽や音声のように非マスキング周波数帯域の成分を多く含むために聴覚心理特性を利用することが好ましいソースに対して、量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができる。
【0062】
引き続き、さらに他のビット割当処理部52について説明する。
【0063】
本ビット割当処理部52は、図9に示すように、図1に示すビット割当処理部52と同様、パワー算出部52a、量子化ノイズ算出部52d、1次量子化ビット数算出部52c、量子化ノイズ算出部52d、2次量子化ビット数算出部52eおよび量子化ノイズ保存部52fを備えており、さらにパワー最大帯域抽出部52nを備えている。
【0064】
最大値抽出手段としてのパワー最大帯域抽出部52nは、パワー算出部52aで算出された前述のスペクトルパワーSiの中からスペクトルパワー最大値Max(Si)を抽出する。具体的には、パワー最大帯域抽出部52nは、スペクトルパワーSi(i=1,2,…,I)の中から最大となるSiのインデックスiを抽出することでスペクトルパワー最大値Max(Si)を抽出する。
【0065】
なお、パワー最大帯域抽出部52nは、後述するエネルギーの最大値を抽出する場合、エネルギーEi(i=1,2,…,I)の中から最大となるエネルギーEiのインデックスiを抽出する。また、パワー最大帯域抽出部52nは、後述するスケールファクタの最大値を抽出する場合、スケールファクタSFi(i=1,2,…,I)の中から最大となるスケールファクタSFiのインデックスiを抽出する。このスケールファクタは、スペクトルデータのスケール(大きさ)の因子を表しており、一般的には、量子化される周波数単位の中で、最大スペクトルの絶対値をコード化することによって算出される。
【0066】
ここでの2次量子化ビット数算出部52eは、上記のスペクトルパワー最大値Max(Si)に対してのみ、|Nit2'(n)−Nit1(n)|で表される差分が|Nit2'(n)−Nit1(n)|>12dBであれば、その差分を|Nit2'(n)−Nit1(n)|<12dBとなるように修正を施す。また、上記のスペクトルデータのエネルギーまたはスケールファクタの最大値がそれぞれ抽出される場合は、それらに対してのみ上記のようにして量子化ビット数を修正する。
【0067】
この修正によって減少または増加する量子化ビット数は、図10に示すパワー最大帯域SiE(斜線部)以外の帯域の量子化ビット数を用いて調整される。
【0068】
このように、本ビット割当処理部52は、図1のビット割当処理部52と同様に、1次量子化ビット数算出部52cで算出したビット割当量(量子化ビット数)を2次量子化ビット数算出部52eで修正するが、パワー最大帯域抽出部52nで抽出したスペクトルパワー最大値(ピーク周波数)に対してのみ修正を行う。これにより、ピーク周波数の量子化誤差の変動が抑制される。上記のピーク周波数は、スペクトルデータのパワー、エネルギーまたは指標(スケールファクタ)のいずれかの最大値が属する周波数帯域の周波数を総称したものである。
【0069】
ピーク周波数は、マスキングの影響を受けないため(最小可聴限の影響を受けることはある)、聴覚心理上重要な周波数である。つまり、ピーク周波数は、最小可聴限以上の信号レベルではマスキングされずに可聴周波数となるので、量子化誤差の揺らぎ(変動)が発生すると、最も異音として知覚されやすい周波数である。
【0070】
それゆえ、ピーク周波数の量子化誤差の変動を抑制することによって、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動を抑制することができる。
【0071】
また、本実施の形態のミニディスク装置が、図1、図6および図9のビット割当処理部52を含む音声圧縮回路5を含むことによって、上記のように、量子化誤差の変動が抑制されたディジタルオーディオデータの圧縮符号化を行うことができる。それゆえ、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する音質の劣化の少ない信号を記録することができる。
【0072】
なお、本発明のディジタル信号符号化装置は、実施の形態においてミニディスク装置に適用されているが、同様な符号化を必要とする他の装置にも適用できることは勿論である。
【0073】
【発明の効果】
以上のように、本発明のディジタル信号符号化装置は、時間的に連続する各フレームのビット割当量を周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正する構成である。
【0074】
これにより、ビット割当量修正手段による修正時には、現フレームのビット割当量の量子化誤差と、第2量子化誤差算出手段で算出された前フレームとのビット割当量の量子化誤差との差分が所定値より小さくなるように修正される。それゆえ、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。したがって、その量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができるという効果を奏する。
【0075】
上記のディジタル信号符号化装置は、前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することによって、スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値が属する周波数帯域の周波数であるピーク周波数の量子化誤差の変動が抑制される。これにより、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動が抑制される。したがって、経時変化に起因する知覚可能な音質劣化を低減することができるという効果を奏する。
【0076】
本発明の他のディジタル信号符号化装置は、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正する構成である。
【0077】
これにより、ビット割当量修正手段による修正時には、現フレームのビット割当量の非マスキング周波数帯域についての量子化誤差と、第2量子化誤差算出手段で算出された前フレームのビット割当量の非マスキング周波数帯域についての量子化誤差との差分が所定値より小さくなるように修正される。それゆえ、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。したがって、音楽や音声のように聴覚心理特性を利用することが好ましいソースに対して、量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができるという効果を奏する。
【0078】
本発明のディジタル信号記録装置は、入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、上記符号化処理を行うために、上記のいずれかのディジタル信号符号化装置を含んでいる構成である。
【0079】
上記の各ディジタル信号符号化装置によって、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制されることから、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する上記のような音質の劣化の少ない信号を記録することができる。したがって、高音質での記録が可能なディジタル信号記録装置を提供することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係るミニディスク装置における音声圧縮回路のビット割当処理部の構成を示すブロック図である。
【図2】上記ミニディスク装置の構成を示すブロック図であなる。
【図3】上記音声圧縮回路の構成を示すブロック図である。
【図4】上記ビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図5】上記ビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【図6】他のビット割当処理部の構成を示すブロック図である。
【図7】図6のビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図8】図6のビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【図9】さらに他のビット割当処理部の構成を示すブロック図である。
【図10】図9のビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図11】図9のビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【符号の説明】
5 音声圧縮回路(ディジタル信号符号化装置)
51 スペクトル変換部
52 ビット割当処理部
52a パワー算出部
52c 1次量子化ビット数算出部(ビット割当量算出手段)
52d 量子化ノイズ算出部(第1量子化誤差算出手段)
52e 2次量子化ビット数算出部(ビット割当量修正手段)
52f 量子化ノイズ保存部(第2量子化誤差算出手段)
52m 非マスキング領域抽出部(非マスキング周波数帯域抽出手段)
52n パワー最大帯域抽出部(最大値抽出手段)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a digital signal that compresses the amount of data by assigning bits to the spectrum of each frequency band in accordance with the recording target when recording a digital signal such as music or voice on a recording medium such as a mini-disc. The present invention relates to an encoding device.
[0002]
[Prior art]
As a conventional method for compressing and encoding digital signals such as music and voice with high efficiency, there is ATRAC (Adaptive Transform Acoustic Coding) used in minidiscs. In this ATRAC, the digital signal is divided into a plurality of frequency bands (subbands) for high-efficiency compression, and then is divided into encoding units in variable length time units to perform MDCT (Modified Discrete Cosine Transform) processing. The spectrum signal is converted into a spectrum signal, and each spectrum signal is encoded with the allocated number of bits using the psychoacoustic characteristics.
[0003]
The auditory psychological characteristics that can be applied to the above compression coding include an equal loudness characteristic and a masking effect. The equal loudness characteristic represents that the volume of sound perceived by humans varies depending on the frequency even for sounds having the same sound pressure level. Therefore, the equal loudness characteristic indicates that the minimum audible limit, which is the volume of sound that humans can perceive, varies with frequency.
[0004]
On the other hand, the masking effect includes simultaneous masking and temporal masking. Simultaneous masking is a phenomenon that makes it difficult for one sound to hear another sound when multiple frequency component sounds are generated simultaneously. Temporal masking is a phenomenon in which masking is received before and after the time axis of a loud sound.
[0005]
In addition, the bit allocation method needs to adopt an algorithm that takes into account the balance between the required sound quality level and the usable hardware capability using the above psychoacoustic characteristics.
[0006]
For example, in a bit allocation method called an iterative method, bit allocation adapted to an input digital signal is performed as follows. First, the power S of each frequency band is obtained, and the masking threshold value M for other frequency bands based on the power S is obtained. Next, from this masking threshold M and the quantization noise power N (n) when each frequency band is quantized with n bits, the masking threshold to noise ratio MNR (n) = M / N ( n). Subsequently, after assigning bits to a frequency band in which the masking threshold-to-noise ratio MNR (n) is minimum, the masking threshold-to-noise ratio MNR (n) is updated, and again the minimum frequency band Bit assignment to
[0007]
[Problems to be solved by the invention]
When a signal having a small temporal change is input when a signal having a small temporal change is input, the quantization error of the same frequency varies between adjacent frames, which may be perceived as an abnormal sound. In particular, when the quantization error of the peak frequency that is not affected by the masking effect fluctuates, it is perceived as abnormal noise.
[0008]
For different types of signals as described above, it is necessary to allocate bits according to the energy distribution. If this is not performed appropriately, the above-described abnormal noise is generated.
[0009]
In addition, since the iterative method described above performs bit allocation within one frame (unit time of compression processing), an optimal number of quantization bits can be calculated within that frame, but signal changes in the preceding and succeeding frames can be accurately determined. Cannot be reflected in bit allocation. In particular, when compression is performed at a fixed bit rate, if the signal energy components are different between adjacent frames, quantization error fluctuation (variation) occurs at the same frequency.
[0010]
The present invention has been made in view of the above circumstances, and reduces perceivable deterioration in sound quality when encoding a signal having a large temporal change input when a signal having a small temporal change is input. An object of the present invention is to provide a digital signal encoding apparatus.
[0011]
[Means for Solving the Problems]
A digital signal encoding apparatus according to the present invention converts a digital signal into spectrum data for each of a plurality of predetermined frequency bands, and encodes the spectrum data of each frequency band with a bit allocation amount given in accordance with the spectrum data. In the encoding apparatus, in order to solve the above-described problem, a bit allocation amount calculating unit that calculates a bit allocation amount of each temporally continuous frame for each frequency band, and a bit allocation amount calculating unit First quantization error calculation means for calculating a quantization error of the bit allocation amount, and the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculation means. Bit allocation amount correcting means for correcting the bit allocation amount, and quantization error of the final bit allocation amount obtained by the bit allocation amount correcting means A second quantization error calculating unit for calculating, and the bit allocation amount correcting unit calculates the bit allocation amount of the current frame calculated by the first quantization error calculating unit and the second quantization error calculating unit. The difference is that the difference in quantization error from the bit allocation amount of the previous frame is corrected to be smaller than a predetermined value.
[0012]
In the above configuration, when the bit allocation amount of a certain frame is calculated by the bit allocation amount calculation unit, the quantization error of the bit allocation amount is calculated by the first quantization error calculation unit. Also, the quantization error of the bit allocation amount of the frame following that frame is calculated in the same manner. The following two frames are set as a previous frame and a current frame, respectively, and the bit allocation amount correcting unit corrects the bit allocation amount of the current frame based on the bit allocation amount of the previous frame. As a result, the final bit allocation amount is obtained. Then, the quantization error of this bit allocation amount is calculated by the second quantization error calculation means.
[0013]
At the time of correction by the bit allocation amount correction means, the difference between the quantization error of the bit allocation amount of the current frame and the quantization error of the bit allocation amount of the previous frame calculated by the second quantization error calculation means is greater than a predetermined value. Modified to be smaller. As a result, even when a signal having a large temporal change inputted at the time of inputting a signal having a small temporal change is encoded, fluctuations in the quantization error of the same frequency between adjacent frames are suppressed.
[0014]
The digital signal encoding apparatus includes a maximum value extracting unit that extracts a maximum value of power, energy, or scale factor of the spectrum data, and the bit allocation amount correcting unit includes a frequency band to which the extracted maximum value belongs. It is preferable to correct the difference. In such a configuration, when the maximum value of the spectrum data is extracted by the maximum value extracting unit, the bit allocation amount is corrected by the bit allocation amount correcting unit with the maximum value. Thereby, the fluctuation | variation of the quantization error of a peak frequency is suppressed.
[0015]
Here, the frequency of the frequency band to which the maximum value of the power, energy, or scale factor of the spectrum data belongs is referred to as a peak frequency. Since this peak frequency becomes an audible frequency without being masked at a signal level equal to or higher than the minimum audible limit, it is the frequency that is most easily perceived as an abnormal sound when a fluctuation (variation) in quantization error occurs. Therefore, by suppressing the fluctuation of the quantization error of the peak frequency as described above, the bit allocation method using the non-masking threshold to noise, the bit allocation method using the signal-to-noise ratio, and the masking threshold In any of the bit allocation methods using both the noise-to-noise ratio and the signal-to-noise ratio, the fluctuation of the quantization error at the same frequency is suppressed as compared with the case of using the conventional bit allocation method.
[0016]
Another digital signal encoding apparatus of the present invention converts a digital signal into spectrum data for each of a plurality of predetermined frequency bands, and from the size of each frequency band spectrum, the number of bits in each frequency band with respect to the assumed number of bits. A digital signal encoding apparatus that obtains a masking threshold-to-noise ratio and encodes the spectrum data with a bit allocation amount sequentially given from a frequency band in which the masking threshold-to-noise ratio is minimum for each number of bits In order to solve the above problem, a bit allocation amount calculating means for calculating a bit allocation amount of each temporally continuous frame for each frequency band, and a bit allocation amount calculated by the bit allocation amount calculating means First quantization error calculating means for calculating a quantization error of the non-masking frequency band and extracting the quantization error for a non-masking frequency band And a bit allocation amount correcting unit for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculating unit. Second quantization error calculation means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correction means, and the bit allocation amount correction means includes the first quantization error calculation means. The difference of the quantization error between the bit allocation amount of the current frame calculated in step 1 and the bit allocation amount of the previous frame calculated by the second quantization error calculation means is calculated from a predetermined value for the quantization error in the non-masking frequency band. It is characterized by being modified to be smaller.
[0017]
In the above configuration, when the bit allocation amount of a certain frame is calculated by the bit allocation amount calculation unit, the quantization error of the bit allocation amount is calculated by the first quantization error calculation unit. Then, the quantization error is extracted for the non-masking frequency band by the psychological psychology by the masking frequency band extracting means. Also, the quantization error for the non-masking frequency band of the bit allocation amount of the frame following the frame is calculated in the same manner. These two subsequent frames are set as the previous frame and the current frame, respectively, and the bit allocation amount correcting unit corrects the bit allocation amount of the current frame based on the bit allocation amount of the previous frame. As a result, the final bit allocation amount is obtained. Then, the quantization error of this bit allocation amount is calculated by the second quantization error calculation means.
[0018]
At the time of correction by the bit allocation amount correction means, the quantization error for the non-masking frequency band of the bit allocation amount of the current frame and the non-masking frequency band of the bit allocation amount of the previous frame calculated by the second quantization error calculation means The difference from the quantization error is corrected to be smaller than a predetermined value. As a result, even when a signal having a large temporal change inputted at the time of inputting a signal having a small temporal change is encoded, fluctuations in the quantization error of the same frequency between adjacent frames are suppressed.
[0019]
A digital signal recording apparatus according to the present invention is a digital signal recording apparatus that encodes an input digital signal by a predetermined encoding process and records it on a recording medium. It is characterized by including a signal encoding device. In this configuration, each digital signal encoding device described above suppresses fluctuations in the quantization error of the same frequency between adjacent frames, so that a signal with a large change over time is input when a signal with a small change over time is recorded. Even in this case, it is possible to record a signal with little deterioration in sound quality due to quantization error.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described with reference to FIGS. 1 to 11 as follows.
[0021]
First, the minidisk device according to the present embodiment will be described.
[0022]
As shown in FIG. 2, in this minidisc device as a digital signal recording device, a digital audio signal as a digital signal input from the input terminal 1 is serially input as an optical signal, for example. This optical signal is converted into an electric signal by the photoelectric element 2 and then input to a digital PLL circuit (Phase-Locked-Loop) 3.
[0023]
The
[0024]
The audio compression circuit 5 performs compression encoding of the digital audio data input by the above-described ATRAC system. The encoded digital audio data is sent to the signal processing circuit 7 via the shock
[0025]
The signal processing circuit 7 has functions as an encoder and a decoder. The function as an encoder encodes the input digital audio data into a serial magnetic field modulation signal and gives it to the
The
[0026]
The
[0027]
The
[0028]
The serial signal amplified by the
[0029]
The
[0030]
The signal processing circuit 7, the
[0031]
Next, the digital data encoding process in the above-described speech compression circuit 5 as the digital signal encoding apparatus of the present embodiment will be described. Before that, first, the encoding / decoding processing by the above-described ATRAC used in the
[0032]
As shown in FIG. 3, the audio compression circuit 5 includes a
[0033]
The
[0034]
Xm (k) = Σxm (i) h (i) cos (π / M (k + 1/2) (i + M / 2 + 1/2) (1)
In equation (1), k = 0, 1,..., M−1,
m: block number,
xm (i): input signal,
h (i): forward conversion window function,
Xm (k): Conversion data
It is.
[0035]
The bit
[0036]
Hereinafter, the bit
[0037]
As shown in FIG. 1, the bit
[0038]
The
[0039]
The
[0040]
The primary quantization bit
[0041]
The quantization
[0042]
The secondary quantization bit
[0043]
The quantization
[0044]
In the bit
[0045]
First, as shown in FIG. 4, in the case of time t1, that is, in the case of an initial frame, the n bit of the primary quantization bit
[0046]
In the next frame processing at time t2, that is, at time t1, processing similar to that of the initial frame is performed up to the
[0047]
Next, in the secondary quantization bit
[0048]
As described above, when the bit
[0049]
Next, another bit
[0050]
As shown in FIG. 6, the bit
[0051]
The masking
[0052]
Vf = 17 × (dz + 1) − (0.4 × X [z (i)] + 6) dB (−3 ≦ dz <−1) Bark
Vf = (0.4 × X [z (i)] + 6) dB (−1 ≦ dz <0) Bark
Vf = −17 × dz dB (0 ≦ dz <1) Bark
Vf = − (dz−1) × (17−0.15 × X [z (i)]) − 17 dB (1 ≦ dz <8) Bark
Vf = −∞ dB (−3> dz, 8 <1dz) Bark
Where dz = z [j] −z [i],
X [z (i)] = 10 logTenSi
And Bark represents a unit of the critical band.
[0053]
The masking threshold is obtained by calculating Vf in each of the above formulas for each i (critical band index) and selecting the maximum Vf for overlapping frequencies. As a method for calculating the masking threshold, there are some other known methods, and the method is not limited to the above method.
[0054]
The minimum audible
[0055]
lt (f) =-0.6 × 3.64 × (f / 1000)-0.8+ 6.5 × exp (-0.6 (f / 1000-3.3)2-Ten-3× (f / 1000)Four ... (2)
The
[0056]
The
[0057]
Based on the ratio MNRi (n) between the masking threshold value and the quantization noise power obtained by the
[0058]
The non-masking
[0059]
Here, the second-order quantized bit
[0060]
The number of quantization bits deleted or increased by the correction is adjusted within the masking frequency band SiM (shaded portion) shown in FIG.
[0061]
As described above, the bit
[0062]
Next, still another bit
[0063]
As shown in FIG. 9, the bit
[0064]
The maximum power
[0065]
Note that the maximum power
[0066]
Here, the secondary quantization bit
[0067]
The number of quantization bits reduced or increased by this modification is adjusted using the number of quantization bits in a band other than the maximum power band SiE (shaded portion) shown in FIG.
[0068]
As described above, the bit
[0069]
Since the peak frequency is not affected by masking (it may be influenced by the minimum audible limit), it is an important psychoacoustic frequency. That is, the peak frequency becomes an audible frequency without being masked at a signal level equal to or higher than the minimum audible limit. Therefore, when fluctuation (variation) of the quantization error occurs, the peak frequency is the frequency that is most easily perceived as an abnormal sound.
[0070]
Therefore, by suppressing the fluctuation of the quantization error of the peak frequency, the bit allocation method using the masking threshold to noise non-bit, the bit allocation method using the signal to noise ratio, and the masking threshold to noise ratio In any of the bit allocation methods that use the signal-to-noise ratio together, fluctuations in the quantization error at the same frequency can be suppressed as compared with the case where the conventional bit allocation method is used.
[0071]
In addition, since the minidisk device according to the present embodiment includes the audio compression circuit 5 including the bit
[0072]
The digital signal encoding apparatus of the present invention is applied to the mini disk apparatus in the embodiment, but it is needless to say that it can be applied to other apparatuses that require similar encoding.
[0073]
【The invention's effect】
As described above, the digital signal encoding apparatus of the present invention is calculated by the bit allocation amount calculating means for calculating the bit allocation amount of each temporally continuous frame for each frequency band and the bit allocation amount calculating means. First quantization error calculation means for calculating a quantization error of the bit allocation amount, and the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculation means. Bit allocation amount correcting means for correcting the bit allocation amount, and second quantization error calculating means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correcting means, An amount between the bit allocation amount of the current frame calculated by the first quantization error calculation unit and the bit allocation amount of the previous frame calculated by the second quantization error calculation unit by the correction unit It is configured to correct the difference of the error to be smaller than a predetermined value.
[0074]
Thereby, at the time of correction by the bit allocation amount correction means, the difference between the quantization error of the bit allocation amount of the current frame and the quantization error of the bit allocation amount of the previous frame calculated by the second quantization error calculation means is It is corrected so as to be smaller than a predetermined value. Therefore, even when a signal with a large temporal change is input instantaneously when a signal with a small temporal change is input, fluctuations in quantization error of the same frequency between adjacent frames are suppressed. Therefore, it is possible to reduce the deterioration of sound quality that can be perceived as an abnormal sound generated by the fluctuation of the quantization error.
[0075]
The digital signal encoding apparatus includes a maximum value extracting unit that extracts a maximum value of power, energy, or scale factor of the spectrum data, and the bit allocation amount correcting unit includes a frequency band to which the extracted maximum value belongs. By correcting the difference, the fluctuation of the quantization error of the peak frequency which is the frequency of the frequency band to which the maximum value of the power, energy or scale factor of the spectrum data belongs is suppressed. As a result, any of the bit allocation method using masking threshold-to-noise, the bit allocation method using the signal-to-noise ratio, and the bit allocation method using both the masking threshold-to-noise ratio and the signal-to-noise ratio can be used. However, compared with the case where the conventional bit allocation method is used, the fluctuation | variation of the quantization error of the same frequency is suppressed. Therefore, there is an effect that perceivable deterioration in sound quality due to a change with time can be reduced.
[0076]
Another digital signal encoding apparatus of the present invention includes a bit allocation amount calculating unit that calculates a bit allocation amount of each temporally continuous frame for each frequency band, and a bit allocation calculated by the bit allocation amount calculating unit. A first quantization error calculating means for calculating a quantization error of a quantity; a non-masking frequency band extracting means for extracting the quantization error for a non-masking frequency band; and a current frame calculated by the bit allocation amount calculating means A bit allocation amount correcting means for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous previous frame, and a quantization error of the final bit allocation amount obtained by the bit allocation amount correcting means Second quantization error calculation means for calculating the bit allocation amount correction means, wherein the bit allocation amount correction means calculates the current frame calculated by the first quantization error calculation means. The difference in quantization error between the bit allocation amount and the bit allocation amount of the previous frame calculated by the second quantization error calculation means is corrected so that the quantization error in the non-masking frequency band is smaller than a predetermined value. It is a configuration.
[0077]
As a result, at the time of correction by the bit allocation amount correction means, the quantization error for the non-masking frequency band of the bit allocation amount of the current frame and the non-masking of the bit allocation amount of the previous frame calculated by the second quantization error calculation means The difference from the quantization error for the frequency band is corrected to be smaller than a predetermined value. Therefore, even when a signal with a large temporal change is input instantaneously when a signal with a small temporal change is input, fluctuations in quantization error of the same frequency between adjacent frames are suppressed. Therefore, it is possible to reduce deterioration in sound quality that can be perceived as abnormal sound generated by variation in quantization error, for a source that preferably uses auditory psychological characteristics such as music and voice.
[0078]
A digital signal recording apparatus according to the present invention is a digital signal recording apparatus that encodes an input digital signal by a predetermined encoding process and records it on a recording medium. This is a configuration including a signal encoding device.
[0079]
Since each digital signal encoding device described above suppresses variation in quantization error of the same frequency between adjacent frames, even when a signal having a large temporal change is input when a signal having a small temporal change is recorded, It is possible to record a signal with little deterioration in sound quality due to quantization error. Therefore, it is possible to provide a digital signal recording apparatus capable of recording with high sound quality.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a bit allocation processing unit of an audio compression circuit in a minidisk device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of the mini-disc device.
FIG. 3 is a block diagram showing a configuration of the audio compression circuit.
FIG. 4 is a diagram illustrating spectrum power of each frequency band obtained by a power calculation unit in the bit allocation processing unit.
FIG. 5 is a diagram illustrating bit allocation to each frequency band by the bit allocation processing unit.
FIG. 6 is a block diagram showing a configuration of another bit allocation processing unit.
7 is a diagram illustrating spectrum power of each frequency band obtained by a power calculation unit in the bit allocation processing unit of FIG. 6;
8 is a diagram illustrating bit allocation to each frequency band by the bit allocation processing unit of FIG. 6;
FIG. 9 is a block diagram showing a configuration of still another bit allocation processing unit.
10 is a diagram illustrating spectrum power of each frequency band obtained by a power calculation unit in the bit allocation processing unit of FIG. 9;
11 is a diagram illustrating bit allocation to each frequency band by the bit allocation processing unit of FIG. 9;
[Explanation of symbols]
5 Voice compression circuit (digital signal encoding device)
51 Spectrum converter
52-bit allocation processor
52a Power calculation unit
52c Primary quantization bit number calculation unit (bit allocation amount calculation means)
52d Quantization noise calculation unit (first quantization error calculation means)
52e Secondary quantization bit number calculation unit (bit allocation amount correcting means)
52f Quantization noise storage unit (second quantization error calculation means)
52m non-masking region extraction unit (non-masking frequency band extraction means)
52n Power maximum bandwidth extraction unit (maximum value extraction means)
Claims (4)
時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、
前記ビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、
前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、
前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、
上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正することを特徴とするディジタル信号符号化装置。In a digital signal encoding apparatus that converts a digital signal into spectrum data for each of a plurality of predetermined frequency bands, and encodes the spectrum data of each frequency band with a given bit allocation amount according to each.
Bit allocation amount calculation means for calculating the bit allocation amount of each frame that is temporally continuous for each frequency band;
First quantization error calculation means for calculating a quantization error of the bit allocation amount calculated by the bit allocation amount calculation means;
Bit allocation amount correcting means for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculating means;
Second quantization error calculation means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correction means,
The bit allocation amount correction means includes a quantization error between the bit allocation amount of the current frame calculated by the first quantization error calculation means and the bit allocation amount of the previous frame calculated by the second quantization error calculation means. The digital signal encoding apparatus is characterized in that the difference between the two is corrected to be smaller than a predetermined value.
前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することを特徴とする請求項1に記載のディジタル信号符号化装置。A maximum value extracting means for extracting the maximum value of the power, energy or scale factor of the spectral data;
2. The digital signal encoding apparatus according to claim 1, wherein the bit allocation amount correcting unit corrects the difference in a frequency band to which the extracted maximum value belongs.
時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、
前記ビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、
前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、
前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、
前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、
上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正することを特徴とするディジタル信号符号化装置。The digital signal is converted into spectrum data for each of a plurality of predetermined frequency bands, and the masking threshold-to-noise ratio of each frequency band is obtained for each assumed number of bits from the size of each frequency band spectrum. In a digital signal encoding apparatus that encodes the spectrum data with a bit allocation amount sequentially given from a frequency band in which the masking threshold-to-noise ratio is minimized every number,
Bit allocation amount calculation means for calculating the bit allocation amount of each frame that is temporally continuous for each frequency band;
First quantization error calculation means for calculating a quantization error of the bit allocation amount calculated by the bit allocation amount calculation means;
Non-masking frequency band extracting means for extracting the quantization error for a non-masking frequency band;
Bit allocation amount correcting means for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculating means;
Second quantization error calculation means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correction means,
The bit allocation amount correction means includes a quantization error between the bit allocation amount of the current frame calculated by the first quantization error calculation means and the bit allocation amount of the previous frame calculated by the second quantization error calculation means. The digital signal encoding apparatus is characterized in that the difference between the two is corrected so that the quantization error in the non-masking frequency band becomes smaller than a predetermined value.
上記符号化処理を行うために、請求項1ないし3のいずれか1項に記載のディジタル信号符号化装置を含んでいることを特徴とするディジタル信号記録装置。A digital signal recording apparatus for encoding an input digital signal by a predetermined encoding process and recording it on a recording medium,
A digital signal recording apparatus comprising the digital signal encoding apparatus according to any one of claims 1 to 3 for performing the encoding process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001376308A JP3942882B2 (en) | 2001-12-10 | 2001-12-10 | Digital signal encoding apparatus and digital signal recording apparatus having the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001376308A JP3942882B2 (en) | 2001-12-10 | 2001-12-10 | Digital signal encoding apparatus and digital signal recording apparatus having the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003177797A JP2003177797A (en) | 2003-06-27 |
JP3942882B2 true JP3942882B2 (en) | 2007-07-11 |
Family
ID=19184530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001376308A Expired - Fee Related JP3942882B2 (en) | 2001-12-10 | 2001-12-10 | Digital signal encoding apparatus and digital signal recording apparatus having the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3942882B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7406412B2 (en) * | 2004-04-20 | 2008-07-29 | Dolby Laboratories Licensing Corporation | Reduced computational complexity of bit allocation for perceptual coding |
KR100851970B1 (en) | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | Method and apparatus for extracting ISCImportant Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal with low bitrate using it |
EP2161720A4 (en) | 2007-06-20 | 2012-06-13 | Fujitsu Ltd | Decoder, decoding method, and program |
JP5609591B2 (en) * | 2010-11-30 | 2014-10-22 | 富士通株式会社 | Audio encoding apparatus, audio encoding method, and audio encoding computer program |
AU2014360038B2 (en) | 2013-12-02 | 2017-11-02 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
-
2001
- 2001-12-10 JP JP2001376308A patent/JP3942882B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003177797A (en) | 2003-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3328532B2 (en) | Digital data encoding method | |
US7337027B2 (en) | Audio signal reproducing apparatus | |
JP3123290B2 (en) | Compressed data recording device and method, compressed data reproducing method, recording medium | |
US6850578B1 (en) | Digital signal processing apparatus and digital processing method | |
JP3765622B2 (en) | Audio encoding / decoding system | |
JPH06318875A (en) | Compression data recording and/or reproduction or transmission and/of reception device and its method and recording medium | |
US6975732B2 (en) | Audio signal reproducing apparatus | |
JPH06268608A (en) | Device and method for recording and/or reproducing or transmitting and/or receiving compressed data and recording medium | |
US6647063B1 (en) | Information encoding method and apparatus, information decoding method and apparatus and recording medium | |
JP3942882B2 (en) | Digital signal encoding apparatus and digital signal recording apparatus having the same | |
US5754427A (en) | Data recording method | |
JP3776004B2 (en) | Encoding method of digital data | |
JP4271588B2 (en) | Encoding method and encoding apparatus for digital data | |
JP4293833B2 (en) | Digital signal recording / reproducing apparatus and control program therefor | |
JP4822697B2 (en) | Digital signal encoding apparatus and digital signal recording apparatus | |
JP3334374B2 (en) | Digital signal compression method and apparatus | |
JPH11330974A (en) | Encoding method and device, decoding method and device, digital signal recording method and device, recording medium and digital transmitting method and device | |
JP4732478B2 (en) | Digital signal reproducing apparatus and control program therefor | |
JP3334375B2 (en) | Digital signal compression method and apparatus | |
JPH11330973A (en) | Encoding method and device, decoding method and device, digital signal recording method and device, recording medium and digital signal transmitting method and device | |
JP3200886B2 (en) | Audio signal processing method | |
JP3408140B2 (en) | Information encoding method | |
JPH08307277A (en) | Method and device for variable rate voice coding | |
JP3552239B2 (en) | Compressed data recording apparatus and method, and compressed data reproducing method | |
JP2853725B2 (en) | Signal processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060811 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070404 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100413 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |