JP3942882B2 - Digital signal encoding apparatus and digital signal recording apparatus having the same - Google Patents

Digital signal encoding apparatus and digital signal recording apparatus having the same Download PDF

Info

Publication number
JP3942882B2
JP3942882B2 JP2001376308A JP2001376308A JP3942882B2 JP 3942882 B2 JP3942882 B2 JP 3942882B2 JP 2001376308 A JP2001376308 A JP 2001376308A JP 2001376308 A JP2001376308 A JP 2001376308A JP 3942882 B2 JP3942882 B2 JP 3942882B2
Authority
JP
Japan
Prior art keywords
bit allocation
allocation amount
quantization error
frequency band
digital signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001376308A
Other languages
Japanese (ja)
Other versions
JP2003177797A (en
Inventor
修 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001376308A priority Critical patent/JP3942882B2/en
Publication of JP2003177797A publication Critical patent/JP2003177797A/en
Application granted granted Critical
Publication of JP3942882B2 publication Critical patent/JP3942882B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、ミニディスクなどの記録媒体に音楽や音声等のディジタル信号を記録する際に、これらの記録対象に適応して各周波数帯域のスペクトルに対するビット割り当てを行ってデータ量を圧縮するディジタル信号符号化装置に関するものである。
【0002】
【従来の技術】
音楽や音声等のディジタル信号を高能率で圧縮符号化する従来の方法として、ミニディスクで用いられているATRAC(Adaptive Transform Acoustic Coding)が挙げられる。このATRACでは、高能率で圧縮するために、ディジタル信号を複数の周波数帯域(サブバンド)に分割した後、可変長の時間単位で符号化ユニットにブロック化してMDCT(Modified Discrete Cosine Transform)処理を施し、スペクトル信号に変換し、さらに聴覚心理特性を利用して割り当てられたビット数で各スペクトル信号をそれぞれ符号化する。
【0003】
上記の圧縮符号化に適応することができる聴覚心理特性には、等ラウドネス特性やマスキング効果が挙げられる。等ラウドネス特性は、同じ音圧レベルの音であっても、人間が感じ取る音の大きさが周波数によって変化することを表す。従って、等ラウドネス特性は、人間が感じ取ることができる音の大きさである最小可聴限が周波数によって変化することを表している。
【0004】
一方、マスキング効果には、同時マスキングと経時マスキングとがある。同時マスキングは、複数の周波数成分の音が同時に発生しているときに、ある音が別の音を聞き取り難くさせる現象である。経時マスキングは、大きな音の時間軸方向の前後でマスキングを受ける現象である。
【0005】
また、ビット割り当ての方法は、上記の聴覚心理特性を利用して、要求される音質レベルと使用できるハードウェア能力とのバランスを考慮したアルゴリズムを採用する必要がある。
【0006】
例えば、反復法と呼ばれるビット割り当て法では、入力ディジタル信号に適応したビット割り当てが以下のようにして行われている。まず、各周波数帯域のパワーSを求め、そのパワーSによる他の周波数帯域に対するマスキングしきい値Mを求める。次に、このマスキングしきい値Mと、各周波数帯域をnビットで量子化したときの量子化雑音パワーN(n)とから、マスキングしきい値対雑音比MNR(n)=M/N(n)を求める。続いて、そのマスキングしきい値対雑音比MNR(n)が最小となる周波数帯域にビット割り当てを行った後、そのマスキングしきい値対雑音比MNR(n)を更新し、再び最小の周波数帯域にビット割り当てを行う。
【0007】
【発明が解決しようとする課題】
経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されると、同一周波数の量子化誤差が隣接するフレーム間で変動し、それが異音として知覚されることがある。特に、自身がマスキング効果の影響を受けないピーク周波数の量子化誤差が変動した場合に異音として知覚される。
【0008】
上記のような異なるタイプの信号に対しては、エネルギー分布に応じたビットの配分が必要となるため、これが適切に行われないと上記のような異音が生じる。
【0009】
また、前述の反復法は、1フレーム(圧縮処理単位時間)内でビット割り当てを行うので、そのフレーム内では最適な量子化ビット数を算出することができるものの、前後のフレームの信号変化を的確にビット割り当てに反映させることができない。特に、固定ビットレートで圧縮を行う場合、隣接するフレームで信号エネルギー成分が異なれば、同一周波数で量子化誤差の揺らぎ(変動が)発生してしまう。
【0010】
本発明は、上記の事情に鑑みてなされたものであって、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化する際に、知覚可能な音質劣化を軽減するディジタル信号符号化装置を提供することを目的としている。
【0011】
【課題を解決するための手段】
本発明のディジタル信号符号化装置は、ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域のスペクトルデータをそれぞれに応じて与えられたビット割当量で符号化するディジタル信号符号化装置において、上記の課題を解決するために、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正することを特徴としている。
【0012】
上記の構成では、あるフレームのビット割当量が、ビット割当量算出手段によって算出されると、そのビット割当量の量子化誤差が、第1量子化誤差算出手段によって算出される。また、そのフレームに続くフレームのビット割当量の量子化誤差も同様にして算出される。これらの続く2つのフレームをそれぞれ前フレームと現フレームとして、ビット割当量修正手段によって、現フレームのビット割当量が前フレームのビット割当量を基に修正される。この結果、最終のビット割当量が得られる。そして、このビット割当量の量子化誤差が、第2量子化誤差算出手段によって算出される。
【0013】
ビット割当量修正手段による修正時には、現フレームのビット割当量の量子化誤差と、第2量子化誤差算出手段で算出された前フレームとのビット割当量の量子化誤差との差分が所定値より小さくなるように修正される。これにより、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化するような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【0014】
上記のディジタル信号符号化装置は、前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することが好ましい。このような構成では、スペクトルデータの上記の最大値が、最大値抽出手段によって抽出されると、その最大値でビット割当量修正手段による上記のビット割当量の修正が行われる。これにより、ピーク周波数の量子化誤差の変動が抑制される。
【0015】
ここで、スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値が属する周波数帯域の周波数をピーク周波数と称する。このピーク周波数は、最小可聴限以上の信号レベルではマスキングされずに可聴周波数となるので、量子化誤差の揺らぎ(変動)が発生すると、最も異音として知覚されやすい周波数である。それゆえ、上記のようにピーク周波数の量子化誤差の変動を抑制することによって、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動が抑制される。
【0016】
本発明の他のディジタル信号符号化装置は、ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域スペクトルの大きさから、想定した各ビット数に対して各周波数帯域のマスキングしきい値対雑音比を求め、前記ビット数毎に前記マスキングしきい値対雑音比が最小となる周波数帯域から順に与えられたビット割当量で前記スペクトルデータを符号化するディジタル信号符号化装置において、上記の課題を解決するために、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正することを特徴としている。
【0017】
上記の構成では、あるフレームのビット割当量がビット割当量算出手段によって算出されると、そのビット割当量の量子化誤差が第1量子化誤差算出手段によって算出される。すると、マスキング周波数帯域抽出手段によって、その量子化誤差が聴覚心理を用いて非マスキング周波数帯域について抽出される。また、そのフレームに続くフレームのビット割当量の非マスキング周波数帯域についての量子化誤差も同様にして算出される。これらの2つの続くフレームをそれぞれ前フレームと現フレームとして、ビット割当量修正手段によって、現フレームのビット割当量が前フレームのビット割当量を基に修正される。この結果、最終のビット割当量が得られる。そして、このビット割当量の量子化誤差が第2量子化誤差算出手段によって算出される。
【0018】
ビット割当量修正手段による修正時には、現フレームのビット割当量の非マスキング周波数帯域についての量子化誤差と、第2量子化誤差算出手段で算出された前フレームのビット割当量の非マスキング周波数帯域についての量子化誤差との差分が所定値より小さくなるように修正される。これにより、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化するような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【0019】
本発明のディジタル信号記録装置は、入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、上記符号化処理を行うために、上記のいずれかのディジタル信号符号化装置を含んでいることを特徴としている。この構成では、上記の各ディジタル信号符号化装置によって、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制されることから、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する上記のような音質の劣化の少ない信号を記録することができる。
【0020】
【発明の実施の形態】
本発明の実施の一形態について図1ないし図11に基づいて説明すれば、以下の通りである。
【0021】
まず、本実施の形態に係るミニディスク装置について説明する。
【0022】
図2に示すように、ディジタル信号記録装置としての本ミニディスク装置において、入力端子1から入力されたディジタル信号としてのディジタルオーディオ信号が、例えば、光信号としてシリアル入力される。この光信号は、光電素子2によって電気信号に変換された後、ディジタルPLL回路(Phase-Locked-Loop)3に入力される。
【0023】
ディジタルPLL回路3は、入力されたディジタルオーディオ信号からクロックの抽出を行うとともに、サンプリング周波数および量子化ビット数に対応したマルチビットデータを再現する。このマルチビットデータは、信号源毎に対応したサンプリングレート(コンパクトディスクでは44.1kHz、ディジタルオーディオテープレコーダでは48kHz、衛星放送(Aモード)では32kHz)で標本化されたディジタルデータである。そこで、ディジタルPLL回路3から出力されたマルチビットデータは、周波数変換回路4によって、そのサンプリングレートをミニディスクの規格に対応した44.1kHzに変換する。
【0024】
音声圧縮回路5は、前述のATRAC方式によって入力されたディジタルオーディオデータの圧縮符号化を行う。符号化されたディジタルオーディオデータは、ショックプルーフメモリコントローラ6を介して信号処理回路7に送出される。ショックプルーフメモリコントローラ6によって制御されるショックプルーフメモリ8は、音声圧縮回路5から出力されるディジタルオーディオデータの転送速度と、信号処理回路7に入力されるディジタルオーディオデータの転送速度との差を吸収するとともに、再生時における振動等の外乱による再生信号の中断を補間し、ディジタルオーディオデータを保護するために設けられている。
【0025】
信号処理回路7は、エンコーダおよびデコーダとしての機能を備えている。エンコーダとしての機能は、入力されたディジタルオーディオデータをシリアルの磁界変調信号にエンコードしてヘッド駆動回路9に与える。デコーダとしての機能は、後述するRFアンプ13からのシリアル信号をディジタルオーディオデータにデコードしてショックプルーフメモリコントローラ6に与える
ヘッド駆動回路9は、記録時に、記録ヘッド10をミニディスク11上の所定の記録位置に移動させるとともに、上記の磁界変調信号に対応した磁界を発生させる。この状態で、ミニディスク11上の所定の記録位置には、光ピックアップ12からレーザ光が照射されている。これにより、上記の磁界に対応した磁化パターンがミニディスク11上に形成される。
【0026】
光ピックアップ12は、ミニディスク11から上記の磁化パターンに対応したシリアル信号を読み取る。このシリアル信号は、高周波アンプ(以降、RFアンプと称する)13で増幅された後、信号処理回路7によってディジタルオーディオデータにデコードされる。このディジタルオーディオデータは、ショックプルーフメモリコントローラ6およびショックプルーフメモリ8によって外乱による影響が除去された後、音声伸長回路14に送出される。
【0027】
音声伸長回路14は、ATRAC方式による圧縮符号化の逆変換処理(伸長復号化)を行い、フルビットのディジタルオーディオデータを復調する。復調されたディジタルオーディオデータは、ディジタル/アナログ変換回路(以降、A/D変換回路と称する)15によってアナログオーディオ信号に変換され、出力端子16から外部へ出力される。
【0028】
RFアンプ13で増幅されたシリアル信号は、サーボ回路17にも入力される。サーボ回路17は、再生されたシリアル信号に応じてドライバ回路18に制御信号を送出し、そのドライバ回路18を介してスピンドルモータ19の回転速度をフィードバック制御する。このようなフィードバック制御により、ミニディスク11を線速度一定で回転させることができる。
【0029】
また、サーボ回路17は、ドライバ回路18を介して送りモータ20の回転速度もフィードバック制御する。このようなフィードバック制御により、ミニディスク11の半径方向に対する光ピックアップ12の変移制御、すなわちトラッキング制御を行うことができる。さらに、サーボ回路17は、ドライバ回路18を介して光ピックアップ12のフォーカシング制御も行う。
【0030】
上記の信号処理回路7、光ピックアップ12、RFアンプ14、サーボ回路17、ドライバ回路18等には、図示しない電源回路から電力が供給されるが、このような電力供給動作や後述する信号処理動作は、全てシステムコントロールマイクロコンピュータ21によって集中管理されている。このシステムコントロールマイクロコンピュータ21には、曲名入力、選曲操作、音質調整動作等を行うための入力装置22が接続されている。
【0031】
続いて、本実施の形態のディジタル信号符号化装置としての前述の音声圧縮回路5におけるディジタルデータ符号化処理について説明する。その前に、まず、ミニディスク11等で利用する前述のATRACによる符号化・復号化処理について説明する。
【0032】
図3に示すように、音声圧縮回路5は、スペクトル変換部51およびビット割当処理部52を有している。
【0033】
スペクトル変換部51は、符号化時、44.1kHzのサンプリング周波数でサンプリングされたオーディオ信号(マルチビットデータ)を、帯域分割フィルタであるQMF(Quadrature Mirror Filter)によって複数の周波数帯域(サブバンドフレーム)に分割する。また、スペクトル変換部51は、分割されたサブバンドフレーム単位で前述のMDCT処理を行い、各帯域の周波数成分のMDCT係数(スペクトルデータ)を生成する。このときのMDCT処理は、次式(1)で表される。
【0034】
Xm(k)=Σxm(i)h(i)cos(π/M(k+1/2)(i+M/2+1/2) …(1)
式(1)において、k=0,1,…,M−1、
m:ブロック番号、
xm(i):入力信号、
h(i):順変換用窓関数、
Xm(k):変換データ
である。
【0035】
ビット割当処理部52は、上記のMDCT係数を、i個の各周波数帯域のスペクトルパワーSi(i=1,2,…,I;例えばI=25)に変換し、各スペクトルパワーに対して後述のようにしてビット割当処理を行う。このスペクトルパワーSiは、臨界帯域(単位Bark)等が用いられる。臨界帯域は、周波数選択性、マスキングしきい値等の特定の音響心理学的規則性が有効な広帯域オーディオスペクトルの特性的部分のことである。
【0036】
以下に、上記のビット割当処理部52について詳細に説明する。
【0037】
ビット割当処理部52は、図1に示すように、パワー算出部52a、SNR算出部52b、1次量子化ビット数算出部52c、量子化ノイズ算出部52d、2次量子化ビット数算出部52eおよび量子化ノイズ保存部52fを備えている。
【0038】
パワー算出部52aは、帯域毎に設けられており、前述のMDCT処理によって得られたMDCT係数を臨界帯域等の各周波数帯域に分割し、各周波数帯域に属するMDCT係数の2乗和から、前記のスペクトルパワーSiをそれぞれの帯域について算出する。ここで、パワーとは、単位時間当たりのエネルギーのことをいう。
【0039】
SNR算出部52bは、スペクトルパワーSiとこのスペクトルパワーSiをnビットで量子化したときの量子化雑音パワーNi(n)とから、信号対雑音比SNRi(n)=Si/Ni(n)を算出する。このSNRi(n)は、統計的には、信号の特性に応じた定数となるので、統計処理によって予め求められていてもよい。
【0040】
ビット割当量算出手段としての1次量子化ビット数算出部52cは、所望のビットレートと上記のSNRi(n)とに基づいて前述の反復法を用いて量子化ビット数を算出する。ここでは、前述の反復法におけるマスキングしきい値Mを信号Sに置き換えて量子化ビット数を算出する。
【0041】
第1量子化誤差算出手段としての量子化ノイズ算出部52dは、現フレームにおいて、前記の処理で求めたnより量子化雑音パワーNi(n)を確定する。
【0042】
ビット割当量修正手段としての2次量子化ビット数算出部52eは、量子化ノイズ保存部52fに保存された前フレームの量子化雑音パワーNi(n)と、量子化ノイズ算出部52dで算出された現フレームの量子化雑音パワーNi(n)との差分の絶対値を求め、その絶対値が所定値より小さくなるように、周波数帯域の個数iを修正し、その個数iに基づいて、1次量子化ビット数算出部52cで算出された量子化ビット数を修正する。
【0043】
第2量子化誤差算出手段としての量子化ノイズ保存部52fは、2次量子化ビット数算出部52で算出された各周波数帯域の最終量子化ビット数nから前フレームの量子化雑音パワーNi(n)を算出し、保存する。この量子化ノイズ保存部52fは、保存した前フレームの量子化雑音パワーNi(n)を2次量子化ビット数算出部52eでの上記の差分を求めるために、2次量子化ビット数算出部52eに与える。
【0044】
上記のように構成されるビット割当処理部52においては、次のようにして割当処理が行われる。
【0045】
まず、図4に示すように、時間t1、すなわち、初期フレームの場合、2次量子化ビット数算出部52eでのビット数算出処理を行わずに、1次量子化ビット数算出部52cのnが最終量子化ビット数となる。次に、量子化ノイズ保存部52fは、時間t1のフレームを前フレームとして、各周波数帯域の最終量子化ビット数nから時間t1のフレームの量子化雑音パワーNit1(n)を算出して保存する。
【0046】
時間t2、すなわち時間t1の次のフレーム処理では、パワー算出部52a、SNR算出部52b、1次量子化ビット数算出部52cおよび量子化ノイズ算出部52dまで、初期フレームと同様の処理が行われ、量子化雑音パワーNit2'(n)が算出される。2次量子化ビット数算出部52eでは、まず、時間t1の量子化雑音パワーNit1(n)と時間t2の量子化雑音パワーNit2'(n)との差分が求められる。図4において、時間t1の全帯域のパワー(=Σsit1)と時間t2の全帯域のパワー(=Σsit2')との関係は、Σsit1<Σsit2'である。従って、固定ビットレートの場合には、おおむね、各周波数帯域でNit1(n)<Nit2'(n)の関係が成立している。
【0047】
次に、2次量子化ビット数算出部52eでは、例えば、Siの周波数帯域とパワーとを参照して、|Nit2'(n)−Nit1(n)|で表される差分を、|Nit2'(n)−Nit1(n)|<12dB(所定値)となるように、0〜25のiの値について修正する。図5に示す例では、時間t2にフレームについて、4つのサブバンドフレームSB1〜SB4に対し、低域のビット割当量が増加修正され、高域のビット割当量が削減修正されていることを示す。この補正においては、補正対象となる周波数帯域のビット割当量を聴覚心理特性や信号のパワーに応じて重み付けして修正するのがより好ましい。
【0048】
以上のように、本ビット割当処理部52は、1次量子化ビット数算出部52cで算出したビット割当量(量子化ビット数)を2次量子化ビット数算出部52eで修正する際に、量子化ノイズ保存部52fで算出して保存した前フレームの量子化雑音パワー(量子化誤差)と、量子化ノイズ算出部52dで算出した現フレームの量子化雑音パワー(量子化誤差)との差分が所定値より小さくなるように修正を行う。これにより、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【0049】
続いて、他のビット割当処理部52について説明する。
【0050】
本ビット割当処理部52は、図6に示すように、図1に示すビット割当処理部52におけるパワー算出部52a、量子化ノイズ算出部52d、2次量子化ビット数算出部52eおよび量子化ノイズ保存部52fを備えるとともに、マスキング算出部52g、最小可聴限合成部52h、SMR算出部52i、MNR算出部52j、1次量子化ビット数算出部52kおよび非マスキング領域抽出部52mを備えている。
【0051】
マスキング算出部52gは、上記のスペクトルパワーSiより、公知の手段によってマスキングしきい値を算出する。例えば、MPEG1の聴覚心理モデル1を用いれば以下のような式になる。
【0052】
Vf=17×(dz+1)−(0.4×X〔z(i)〕+6) dB(-3≦dz<-1)Bark
Vf=(0.4×X〔z(i)〕+6) dB(-1≦dz<0)Bark
Vf=−17×dz dB(0≦dz<1)Bark
Vf=−(dz−1)×(17−0.15×X〔z(i)〕)−17 dB(1≦dz<8)Bark
Vf=−∞ dB(-3>dz,8<1dz)Bark
ここで、dz=z[j]−z[i]、
X[z(i)]=10log10Si
であり、Barkは臨界帯域の単位を表す。
【0053】
上記の各式のVfをi(臨界帯域のインデックス)毎に算出し、重複する周波数については最大のVfを選択することによってマスキングしきい値が求められる。マスキングしきい値を算出するための方法としては、その他、いくつかの公知の方法があるので、上記の方法には限定されない。
【0054】
最小可聴限合成部52hは、次式等で表される最小可聴限特性等と上記のマスキング算出部52gで求めたマスキングしきい値とを合成して、図7に示すような最終のマスキングしきい値Miを各周波数帯域について決定する。最小可聴限特性は、予めテーブルROMに格納されていてもよい。
【0055】
lt(f)=-0.6×3.64×(f/1000)-0.8+6.5×exp(-0.6(f/1000-3.3)2-10-3×(f/1000)4 …(2)
SMR算出部52iは、各周波数のインデックスを上記のiとすると、パワー算出部52aで求めたスペクトルパワーSiと、最小可聴限合成部52hで求めた各周波数帯域のマスキングしきい値Miとの比SMRi=Si/Miを全ての周波数帯域にわたって計算する。なお、上記のfは周波数(Hz)である。
【0056】
MNR算出部52jは、各周波数帯域の上記のスペクトルパワーSiをnビットで量子化したときの、このスペクトルパワーSiと量子化雑音パワーNi(n)との比SNRi(n)=Si/Ni(n)を算出し、この比SNRi(n)と前記のSMRiとの比から、マスキングしきい値と量子化雑音パワーとの比MNRi(n)=SNRi(n)/SMRiが求められる。上記の比SNR(n)は、統計的には、信号の特性に応じた特性となるので、統計処理によって求めておいてもよい。
【0057】
1次量子化ビット数算出部52kは、MNR算出部52jで求められたマスキングしきい値と量子化雑音パワーとの比MNRi(n)に基づいて、各周波数帯域の量子化ビット数を次のようにして割り当てる。ビット数nを0から大きくしていき、その都度、各周波数帯域のマスキングしきい値と量子化雑音パワーとの比MNRi(n)を計算し、その比MNRi(n)が最小となる周波数帯域から順にビットを割り当てていき、前記の量子化ビット数nを更新する毎に、同様に比MNRi(n)が最小となる周波数帯域にビットの割り当てを行い、ビットレートに応じた所定の割当可能ビット数となるまで割り当てを行う。すなわち、前記のスペクトルパワーSiが、しきい値Miを超えた部分が最も大きい周波数帯域から順次ビット割り当てが行われることになる。
【0058】
非マスキング周波数帯域抽出手段としての非マスキング領域抽出部52mは、前述の比SMRiに基づいて非マスキング領域(非マスキング周波数帯域)を聴覚心理を用いて抽出する。具体的には、前述の比SMRiが1を超える周波数帯域が非マスキング周波数帯域であり、比SMRiが1以下である周波数帯域がマスキング周波数帯域であることから、各周波数帯域についてSMRi>1を判定し、非マスキング周波数帯域を求める。
【0059】
ここでの、2次量子化ビット数算出部52eは、非マスキング周波数帯域のみに対し、|Nit2'(n)−Nit1(n)|>12dBとなるnについて|Nit2'(n)−Nit1(n)|<12dBとなるように、i=0,…,25まで修正を施す。
【0060】
修正によって削除または増加する量子化ビット数は、図8に示すマスキング周波数帯域SiM(斜線部)内で調整される。
【0061】
このように、本ビット割当処理部52は、図1のビット割当処理部52と同様に、1次量子化ビット数算出部52kで算出したビット割当量(量子化ビット数)を2次量子化ビット数算出部52eで修正するが、非マスキング領域抽出部52mで抽出した非マスキング周波数帯域に対してのみ修正を行う。これにより、音楽や音声のように非マスキング周波数帯域の成分を多く含むために聴覚心理特性を利用することが好ましいソースに対して、量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができる。
【0062】
引き続き、さらに他のビット割当処理部52について説明する。
【0063】
本ビット割当処理部52は、図9に示すように、図1に示すビット割当処理部52と同様、パワー算出部52a、量子化ノイズ算出部52d、1次量子化ビット数算出部52c、量子化ノイズ算出部52d、2次量子化ビット数算出部52eおよび量子化ノイズ保存部52fを備えており、さらにパワー最大帯域抽出部52nを備えている。
【0064】
最大値抽出手段としてのパワー最大帯域抽出部52nは、パワー算出部52aで算出された前述のスペクトルパワーSiの中からスペクトルパワー最大値Max(Si)を抽出する。具体的には、パワー最大帯域抽出部52nは、スペクトルパワーSi(i=1,2,…,I)の中から最大となるSiのインデックスiを抽出することでスペクトルパワー最大値Max(Si)を抽出する。
【0065】
なお、パワー最大帯域抽出部52nは、後述するエネルギーの最大値を抽出する場合、エネルギーEi(i=1,2,…,I)の中から最大となるエネルギーEiのインデックスiを抽出する。また、パワー最大帯域抽出部52nは、後述するスケールファクタの最大値を抽出する場合、スケールファクタSFi(i=1,2,…,I)の中から最大となるスケールファクタSFiのインデックスiを抽出する。このスケールファクタは、スペクトルデータのスケール(大きさ)の因子を表しており、一般的には、量子化される周波数単位の中で、最大スペクトルの絶対値をコード化することによって算出される。
【0066】
ここでの2次量子化ビット数算出部52eは、上記のスペクトルパワー最大値Max(Si)に対してのみ、|Nit2'(n)−Nit1(n)|で表される差分が|Nit2'(n)−Nit1(n)|>12dBであれば、その差分を|Nit2'(n)−Nit1(n)|<12dBとなるように修正を施す。また、上記のスペクトルデータのエネルギーまたはスケールファクタの最大値がそれぞれ抽出される場合は、それらに対してのみ上記のようにして量子化ビット数を修正する。
【0067】
この修正によって減少または増加する量子化ビット数は、図10に示すパワー最大帯域SiE(斜線部)以外の帯域の量子化ビット数を用いて調整される。
【0068】
このように、本ビット割当処理部52は、図1のビット割当処理部52と同様に、1次量子化ビット数算出部52cで算出したビット割当量(量子化ビット数)を2次量子化ビット数算出部52eで修正するが、パワー最大帯域抽出部52nで抽出したスペクトルパワー最大値(ピーク周波数)に対してのみ修正を行う。これにより、ピーク周波数の量子化誤差の変動が抑制される。上記のピーク周波数は、スペクトルデータのパワー、エネルギーまたは指標(スケールファクタ)のいずれかの最大値が属する周波数帯域の周波数を総称したものである。
【0069】
ピーク周波数は、マスキングの影響を受けないため(最小可聴限の影響を受けることはある)、聴覚心理上重要な周波数である。つまり、ピーク周波数は、最小可聴限以上の信号レベルではマスキングされずに可聴周波数となるので、量子化誤差の揺らぎ(変動)が発生すると、最も異音として知覚されやすい周波数である。
【0070】
それゆえ、ピーク周波数の量子化誤差の変動を抑制することによって、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動を抑制することができる。
【0071】
また、本実施の形態のミニディスク装置が、図1、図6および図9のビット割当処理部52を含む音声圧縮回路5を含むことによって、上記のように、量子化誤差の変動が抑制されたディジタルオーディオデータの圧縮符号化を行うことができる。それゆえ、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する音質の劣化の少ない信号を記録することができる。
【0072】
なお、本発明のディジタル信号符号化装置は、実施の形態においてミニディスク装置に適用されているが、同様な符号化を必要とする他の装置にも適用できることは勿論である。
【0073】
【発明の効果】
以上のように、本発明のディジタル信号符号化装置は、時間的に連続する各フレームのビット割当量を周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正する構成である。
【0074】
これにより、ビット割当量修正手段による修正時には、現フレームのビット割当量の量子化誤差と、第2量子化誤差算出手段で算出された前フレームとのビット割当量の量子化誤差との差分が所定値より小さくなるように修正される。それゆえ、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。したがって、その量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができるという効果を奏する。
【0075】
上記のディジタル信号符号化装置は、前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することによって、スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値が属する周波数帯域の周波数であるピーク周波数の量子化誤差の変動が抑制される。これにより、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動が抑制される。したがって、経時変化に起因する知覚可能な音質劣化を低減することができるという効果を奏する。
【0076】
本発明の他のディジタル信号符号化装置は、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正する構成である。
【0077】
これにより、ビット割当量修正手段による修正時には、現フレームのビット割当量の非マスキング周波数帯域についての量子化誤差と、第2量子化誤差算出手段で算出された前フレームのビット割当量の非マスキング周波数帯域についての量子化誤差との差分が所定値より小さくなるように修正される。それゆえ、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。したがって、音楽や音声のように聴覚心理特性を利用することが好ましいソースに対して、量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができるという効果を奏する。
【0078】
本発明のディジタル信号記録装置は、入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、上記符号化処理を行うために、上記のいずれかのディジタル信号符号化装置を含んでいる構成である。
【0079】
上記の各ディジタル信号符号化装置によって、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制されることから、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する上記のような音質の劣化の少ない信号を記録することができる。したがって、高音質での記録が可能なディジタル信号記録装置を提供することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係るミニディスク装置における音声圧縮回路のビット割当処理部の構成を示すブロック図である。
【図2】上記ミニディスク装置の構成を示すブロック図であなる。
【図3】上記音声圧縮回路の構成を示すブロック図である。
【図4】上記ビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図5】上記ビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【図6】他のビット割当処理部の構成を示すブロック図である。
【図7】図6のビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図8】図6のビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【図9】さらに他のビット割当処理部の構成を示すブロック図である。
【図10】図9のビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図11】図9のビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【符号の説明】
5 音声圧縮回路(ディジタル信号符号化装置)
51 スペクトル変換部
52 ビット割当処理部
52a パワー算出部
52c 1次量子化ビット数算出部(ビット割当量算出手段)
52d 量子化ノイズ算出部(第1量子化誤差算出手段)
52e 2次量子化ビット数算出部(ビット割当量修正手段)
52f 量子化ノイズ保存部(第2量子化誤差算出手段)
52m 非マスキング領域抽出部(非マスキング周波数帯域抽出手段)
52n パワー最大帯域抽出部(最大値抽出手段)
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a digital signal that compresses the amount of data by assigning bits to the spectrum of each frequency band in accordance with the recording target when recording a digital signal such as music or voice on a recording medium such as a mini-disc. The present invention relates to an encoding device.
[0002]
[Prior art]
As a conventional method for compressing and encoding digital signals such as music and voice with high efficiency, there is ATRAC (Adaptive Transform Acoustic Coding) used in minidiscs. In this ATRAC, the digital signal is divided into a plurality of frequency bands (subbands) for high-efficiency compression, and then is divided into encoding units in variable length time units to perform MDCT (Modified Discrete Cosine Transform) processing. The spectrum signal is converted into a spectrum signal, and each spectrum signal is encoded with the allocated number of bits using the psychoacoustic characteristics.
[0003]
The auditory psychological characteristics that can be applied to the above compression coding include an equal loudness characteristic and a masking effect. The equal loudness characteristic represents that the volume of sound perceived by humans varies depending on the frequency even for sounds having the same sound pressure level. Therefore, the equal loudness characteristic indicates that the minimum audible limit, which is the volume of sound that humans can perceive, varies with frequency.
[0004]
On the other hand, the masking effect includes simultaneous masking and temporal masking. Simultaneous masking is a phenomenon that makes it difficult for one sound to hear another sound when multiple frequency component sounds are generated simultaneously. Temporal masking is a phenomenon in which masking is received before and after the time axis of a loud sound.
[0005]
In addition, the bit allocation method needs to adopt an algorithm that takes into account the balance between the required sound quality level and the usable hardware capability using the above psychoacoustic characteristics.
[0006]
For example, in a bit allocation method called an iterative method, bit allocation adapted to an input digital signal is performed as follows. First, the power S of each frequency band is obtained, and the masking threshold value M for other frequency bands based on the power S is obtained. Next, from this masking threshold M and the quantization noise power N (n) when each frequency band is quantized with n bits, the masking threshold to noise ratio MNR (n) = M / N ( n). Subsequently, after assigning bits to a frequency band in which the masking threshold-to-noise ratio MNR (n) is minimum, the masking threshold-to-noise ratio MNR (n) is updated, and again the minimum frequency band Bit assignment to
[0007]
[Problems to be solved by the invention]
When a signal having a small temporal change is input when a signal having a small temporal change is input, the quantization error of the same frequency varies between adjacent frames, which may be perceived as an abnormal sound. In particular, when the quantization error of the peak frequency that is not affected by the masking effect fluctuates, it is perceived as abnormal noise.
[0008]
For different types of signals as described above, it is necessary to allocate bits according to the energy distribution. If this is not performed appropriately, the above-described abnormal noise is generated.
[0009]
In addition, since the iterative method described above performs bit allocation within one frame (unit time of compression processing), an optimal number of quantization bits can be calculated within that frame, but signal changes in the preceding and succeeding frames can be accurately determined. Cannot be reflected in bit allocation. In particular, when compression is performed at a fixed bit rate, if the signal energy components are different between adjacent frames, quantization error fluctuation (variation) occurs at the same frequency.
[0010]
The present invention has been made in view of the above circumstances, and reduces perceivable deterioration in sound quality when encoding a signal having a large temporal change input when a signal having a small temporal change is input. An object of the present invention is to provide a digital signal encoding apparatus.
[0011]
[Means for Solving the Problems]
A digital signal encoding apparatus according to the present invention converts a digital signal into spectrum data for each of a plurality of predetermined frequency bands, and encodes the spectrum data of each frequency band with a bit allocation amount given in accordance with the spectrum data. In the encoding apparatus, in order to solve the above-described problem, a bit allocation amount calculating unit that calculates a bit allocation amount of each temporally continuous frame for each frequency band, and a bit allocation amount calculating unit First quantization error calculation means for calculating a quantization error of the bit allocation amount, and the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculation means. Bit allocation amount correcting means for correcting the bit allocation amount, and quantization error of the final bit allocation amount obtained by the bit allocation amount correcting means A second quantization error calculating unit for calculating, and the bit allocation amount correcting unit calculates the bit allocation amount of the current frame calculated by the first quantization error calculating unit and the second quantization error calculating unit. The difference is that the difference in quantization error from the bit allocation amount of the previous frame is corrected to be smaller than a predetermined value.
[0012]
In the above configuration, when the bit allocation amount of a certain frame is calculated by the bit allocation amount calculation unit, the quantization error of the bit allocation amount is calculated by the first quantization error calculation unit. Also, the quantization error of the bit allocation amount of the frame following that frame is calculated in the same manner. The following two frames are set as a previous frame and a current frame, respectively, and the bit allocation amount correcting unit corrects the bit allocation amount of the current frame based on the bit allocation amount of the previous frame. As a result, the final bit allocation amount is obtained. Then, the quantization error of this bit allocation amount is calculated by the second quantization error calculation means.
[0013]
At the time of correction by the bit allocation amount correction means, the difference between the quantization error of the bit allocation amount of the current frame and the quantization error of the bit allocation amount of the previous frame calculated by the second quantization error calculation means is greater than a predetermined value. Modified to be smaller. As a result, even when a signal having a large temporal change inputted at the time of inputting a signal having a small temporal change is encoded, fluctuations in the quantization error of the same frequency between adjacent frames are suppressed.
[0014]
The digital signal encoding apparatus includes a maximum value extracting unit that extracts a maximum value of power, energy, or scale factor of the spectrum data, and the bit allocation amount correcting unit includes a frequency band to which the extracted maximum value belongs. It is preferable to correct the difference. In such a configuration, when the maximum value of the spectrum data is extracted by the maximum value extracting unit, the bit allocation amount is corrected by the bit allocation amount correcting unit with the maximum value. Thereby, the fluctuation | variation of the quantization error of a peak frequency is suppressed.
[0015]
Here, the frequency of the frequency band to which the maximum value of the power, energy, or scale factor of the spectrum data belongs is referred to as a peak frequency. Since this peak frequency becomes an audible frequency without being masked at a signal level equal to or higher than the minimum audible limit, it is the frequency that is most easily perceived as an abnormal sound when a fluctuation (variation) in quantization error occurs. Therefore, by suppressing the fluctuation of the quantization error of the peak frequency as described above, the bit allocation method using the non-masking threshold to noise, the bit allocation method using the signal-to-noise ratio, and the masking threshold In any of the bit allocation methods using both the noise-to-noise ratio and the signal-to-noise ratio, the fluctuation of the quantization error at the same frequency is suppressed as compared with the case of using the conventional bit allocation method.
[0016]
Another digital signal encoding apparatus of the present invention converts a digital signal into spectrum data for each of a plurality of predetermined frequency bands, and from the size of each frequency band spectrum, the number of bits in each frequency band with respect to the assumed number of bits. A digital signal encoding apparatus that obtains a masking threshold-to-noise ratio and encodes the spectrum data with a bit allocation amount sequentially given from a frequency band in which the masking threshold-to-noise ratio is minimum for each number of bits In order to solve the above problem, a bit allocation amount calculating means for calculating a bit allocation amount of each temporally continuous frame for each frequency band, and a bit allocation amount calculated by the bit allocation amount calculating means First quantization error calculating means for calculating a quantization error of the non-masking frequency band and extracting the quantization error for a non-masking frequency band And a bit allocation amount correcting unit for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculating unit. Second quantization error calculation means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correction means, and the bit allocation amount correction means includes the first quantization error calculation means. The difference of the quantization error between the bit allocation amount of the current frame calculated in step 1 and the bit allocation amount of the previous frame calculated by the second quantization error calculation means is calculated from a predetermined value for the quantization error in the non-masking frequency band. It is characterized by being modified to be smaller.
[0017]
In the above configuration, when the bit allocation amount of a certain frame is calculated by the bit allocation amount calculation unit, the quantization error of the bit allocation amount is calculated by the first quantization error calculation unit. Then, the quantization error is extracted for the non-masking frequency band by the psychological psychology by the masking frequency band extracting means. Also, the quantization error for the non-masking frequency band of the bit allocation amount of the frame following the frame is calculated in the same manner. These two subsequent frames are set as the previous frame and the current frame, respectively, and the bit allocation amount correcting unit corrects the bit allocation amount of the current frame based on the bit allocation amount of the previous frame. As a result, the final bit allocation amount is obtained. Then, the quantization error of this bit allocation amount is calculated by the second quantization error calculation means.
[0018]
At the time of correction by the bit allocation amount correction means, the quantization error for the non-masking frequency band of the bit allocation amount of the current frame and the non-masking frequency band of the bit allocation amount of the previous frame calculated by the second quantization error calculation means The difference from the quantization error is corrected to be smaller than a predetermined value. As a result, even when a signal having a large temporal change inputted at the time of inputting a signal having a small temporal change is encoded, fluctuations in the quantization error of the same frequency between adjacent frames are suppressed.
[0019]
A digital signal recording apparatus according to the present invention is a digital signal recording apparatus that encodes an input digital signal by a predetermined encoding process and records it on a recording medium. It is characterized by including a signal encoding device. In this configuration, each digital signal encoding device described above suppresses fluctuations in the quantization error of the same frequency between adjacent frames, so that a signal with a large change over time is input when a signal with a small change over time is recorded. Even in this case, it is possible to record a signal with little deterioration in sound quality due to quantization error.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described with reference to FIGS. 1 to 11 as follows.
[0021]
First, the minidisk device according to the present embodiment will be described.
[0022]
As shown in FIG. 2, in this minidisc device as a digital signal recording device, a digital audio signal as a digital signal input from the input terminal 1 is serially input as an optical signal, for example. This optical signal is converted into an electric signal by the photoelectric element 2 and then input to a digital PLL circuit (Phase-Locked-Loop) 3.
[0023]
The digital PLL circuit 3 extracts a clock from the input digital audio signal and reproduces multi-bit data corresponding to the sampling frequency and the number of quantization bits. This multi-bit data is digital data sampled at a sampling rate (44.1 kHz for a compact disc, 48 kHz for a digital audio tape recorder, 32 kHz for satellite broadcasting (A mode)) corresponding to each signal source. Therefore, the multi-bit data output from the digital PLL circuit 3 is converted by the frequency conversion circuit 4 to a sampling rate of 44.1 kHz corresponding to the mini-disc standard.
[0024]
The audio compression circuit 5 performs compression encoding of the digital audio data input by the above-described ATRAC system. The encoded digital audio data is sent to the signal processing circuit 7 via the shock proof memory controller 6. The shock proof memory 8 controlled by the shock proof memory controller 6 absorbs the difference between the transfer speed of the digital audio data output from the audio compression circuit 5 and the transfer speed of the digital audio data input to the signal processing circuit 7. In addition, it is provided to protect the digital audio data by interpolating the interruption of the reproduction signal due to disturbance such as vibration during reproduction.
[0025]
The signal processing circuit 7 has functions as an encoder and a decoder. The function as an encoder encodes the input digital audio data into a serial magnetic field modulation signal and gives it to the head drive circuit 9. The function as a decoder is to decode a serial signal from an RF amplifier 13 (to be described later) into digital audio data, and give it to the shock proof memory controller 6.
The head drive circuit 9 moves the recording head 10 to a predetermined recording position on the mini disk 11 and generates a magnetic field corresponding to the magnetic field modulation signal during recording. In this state, a predetermined recording position on the mini disk 11 is irradiated with laser light from the optical pickup 12. As a result, a magnetization pattern corresponding to the magnetic field is formed on the mini disk 11.
[0026]
The optical pickup 12 reads a serial signal corresponding to the above magnetization pattern from the mini disk 11. The serial signal is amplified by a high frequency amplifier (hereinafter referred to as an RF amplifier) 13 and then decoded into digital audio data by a signal processing circuit 7. The digital audio data is sent to the audio decompression circuit 14 after the influence of disturbance is removed by the shock proof memory controller 6 and the shock proof memory 8.
[0027]
The audio decompression circuit 14 performs inverse transform processing (decompression decoding) of compression encoding by the ATRAC method, and demodulates full-bit digital audio data. The demodulated digital audio data is converted into an analog audio signal by a digital / analog conversion circuit (hereinafter referred to as an A / D conversion circuit) 15 and output from the output terminal 16 to the outside.
[0028]
The serial signal amplified by the RF amplifier 13 is also input to the servo circuit 17. The servo circuit 17 sends a control signal to the driver circuit 18 according to the reproduced serial signal, and feedback-controls the rotational speed of the spindle motor 19 via the driver circuit 18. By such feedback control, the mini disk 11 can be rotated at a constant linear velocity.
[0029]
The servo circuit 17 also feedback-controls the rotational speed of the feed motor 20 via the driver circuit 18. By such feedback control, shift control of the optical pickup 12 with respect to the radial direction of the mini disk 11, that is, tracking control can be performed. Further, the servo circuit 17 also performs focusing control of the optical pickup 12 via the driver circuit 18.
[0030]
The signal processing circuit 7, the optical pickup 12, the RF amplifier 14, the servo circuit 17, the driver circuit 18, and the like are supplied with power from a power supply circuit (not shown). Are centrally managed by the system control microcomputer 21. The system control microcomputer 21 is connected to an input device 22 for performing song name input, music selection operation, sound quality adjustment operation, and the like.
[0031]
Next, the digital data encoding process in the above-described speech compression circuit 5 as the digital signal encoding apparatus of the present embodiment will be described. Before that, first, the encoding / decoding processing by the above-described ATRAC used in the mini disc 11 or the like will be described.
[0032]
As shown in FIG. 3, the audio compression circuit 5 includes a spectrum conversion unit 51 and a bit allocation processing unit 52.
[0033]
The spectrum converting unit 51 encodes an audio signal (multi-bit data) sampled at a sampling frequency of 44.1 kHz at the time of encoding into a plurality of frequency bands (subband frames) using a band division filter QMF (Quadrature Mirror Filter). Divide into The spectrum conversion unit 51 performs the above-described MDCT processing in units of divided subband frames, and generates MDCT coefficients (spectrum data) of frequency components in each band. The MDCT process at this time is expressed by the following equation (1).
[0034]
Xm (k) = Σxm (i) h (i) cos (π / M (k + 1/2) (i + M / 2 + 1/2) (1)
In equation (1), k = 0, 1,..., M−1,
m: block number,
xm (i): input signal,
h (i): forward conversion window function,
Xm (k): Conversion data
It is.
[0035]
The bit allocation processing unit 52 converts the MDCT coefficient into i spectrum power Si (i = 1, 2,..., I; for example, I = 25) for each of the frequency bands. The bit allocation process is performed as follows. This spectral power Si uses a critical band (unit: Bark). The critical band is a characteristic part of a wideband audio spectrum in which specific psychoacoustic regularity such as frequency selectivity and masking threshold is effective.
[0036]
Hereinafter, the bit allocation processing unit 52 will be described in detail.
[0037]
As shown in FIG. 1, the bit allocation processing unit 52 includes a power calculation unit 52a, an SNR calculation unit 52b, a primary quantization bit number calculation unit 52c, a quantization noise calculation unit 52d, and a secondary quantization bit number calculation unit 52e. And a quantization noise storage unit 52f.
[0038]
The power calculation unit 52a is provided for each band, divides the MDCT coefficient obtained by the above-described MDCT processing into each frequency band such as a critical band, and calculates the above-mentioned sum of squares of MDCT coefficients belonging to each frequency band. Is calculated for each band. Here, power refers to energy per unit time.
[0039]
The SNR calculator 52b calculates the signal-to-noise ratio SNRi (n) = Si / Ni (n) from the spectrum power Si and the quantized noise power Ni (n) obtained by quantizing the spectrum power Si with n bits. calculate. Since this SNRi (n) is statistically a constant corresponding to the characteristics of the signal, it may be obtained in advance by statistical processing.
[0040]
The primary quantization bit number calculation unit 52c as a bit allocation amount calculation unit calculates the quantization bit number using the above-described iterative method based on a desired bit rate and the above SNRi (n). Here, the masking threshold M in the above iterative method is replaced with the signal S to calculate the number of quantization bits.
[0041]
The quantization noise calculation unit 52d as the first quantization error calculation means determines the quantization noise power Ni (n) from n obtained in the above process in the current frame.
[0042]
The secondary quantization bit number calculation unit 52e as the bit allocation amount correcting unit is calculated by the quantization noise power Ni (n) of the previous frame stored in the quantization noise storage unit 52f and the quantization noise calculation unit 52d. The absolute value of the difference from the quantization noise power Ni (n) of the current frame is obtained, the number i of frequency bands is corrected so that the absolute value is smaller than a predetermined value, and based on the number i, 1 The number of quantization bits calculated by the next quantization bit number calculation unit 52c is corrected.
[0043]
The quantization noise storage unit 52f as the second quantization error calculation unit calculates the quantization noise power Ni (P) of the previous frame from the final quantization bit number n of each frequency band calculated by the secondary quantization bit number calculation unit 52. n) Calculate and save. The quantization noise storage unit 52f obtains the above-mentioned difference in the secondary quantization bit number calculation unit 52e from the stored quantization noise power Ni (n) of the previous frame. 52e.
[0044]
In the bit allocation processing unit 52 configured as described above, allocation processing is performed as follows.
[0045]
First, as shown in FIG. 4, in the case of time t1, that is, in the case of an initial frame, the n bit of the primary quantization bit number calculation unit 52c is not performed without performing the bit number calculation processing in the secondary quantization bit number calculation unit 52e. Becomes the final number of quantization bits. Next, the quantization noise storage unit 52f calculates and stores the quantization noise power Nit1 (n) of the frame at time t1 from the final quantization bit number n of each frequency band, with the frame at time t1 as the previous frame. .
[0046]
In the next frame processing at time t2, that is, at time t1, processing similar to that of the initial frame is performed up to the power calculation unit 52a, SNR calculation unit 52b, primary quantization bit number calculation unit 52c, and quantization noise calculation unit 52d. Then, the quantization noise power Nit2 ′ (n) is calculated. In the secondary quantization bit number calculation unit 52e, first, a difference between the quantization noise power Nit1 (n) at time t1 and the quantization noise power Nit2 ′ (n) at time t2 is obtained. In FIG. 4, the relationship between the power of the entire band at time t1 (= Σsit1) and the power of the entire band at time t2 (= Σsit2 ′) is Σsit1 <Σsit2 ′. Therefore, in the case of the fixed bit rate, the relationship of Nit1 (n) <Nit2 ′ (n) is generally established in each frequency band.
[0047]
Next, in the secondary quantization bit number calculation unit 52e, for example, with reference to the frequency band and power of Si, the difference represented by | Nit2 ′ (n) −Nit1 (n) | (N) -Nit1 (n) | <12 dB (predetermined value) is corrected for the value of i between 0 and 25. In the example shown in FIG. 5, for the frame at time t <b> 2, for the four subband frames SB <b> 1 to SB <b> 4, the low band bit allocation amount is increased and corrected, and the high band bit allocation amount is reduced and corrected. . In this correction, it is more preferable to modify the bit allocation amount of the frequency band to be corrected by weighting according to the psychoacoustic characteristics and the signal power.
[0048]
As described above, when the bit allocation processing unit 52e corrects the bit allocation amount (quantization bit number) calculated by the primary quantization bit number calculation unit 52c by the secondary quantization bit number calculation unit 52e, The difference between the quantization noise power (quantization error) of the previous frame calculated and stored by the quantization noise storage unit 52f and the quantization noise power (quantization error) of the current frame calculated by the quantization noise calculation unit 52d Is corrected to be smaller than a predetermined value. Thereby, even when a signal having a large temporal change is input instantaneously when a signal having a small temporal change is input, fluctuations in quantization error of the same frequency between adjacent frames are suppressed.
[0049]
Next, another bit allocation processing unit 52 will be described.
[0050]
As shown in FIG. 6, the bit allocation processing unit 52 includes a power calculation unit 52a, a quantization noise calculation unit 52d, a secondary quantization bit number calculation unit 52e, and a quantization noise in the bit allocation processing unit 52 shown in FIG. In addition to a storage unit 52f, a masking calculation unit 52g, a minimum audible limit synthesis unit 52h, an SMR calculation unit 52i, an MNR calculation unit 52j, a primary quantization bit number calculation unit 52k, and a non-masking region extraction unit 52m are provided.
[0051]
The masking calculation unit 52g calculates a masking threshold value by a known means from the above spectrum power Si. For example, if the auditory psychology model 1 of MPEG1 is used, the following equation is obtained.
[0052]
Vf = 17 × (dz + 1) − (0.4 × X [z (i)] + 6) dB (−3 ≦ dz <−1) Bark
Vf = (0.4 × X [z (i)] + 6) dB (−1 ≦ dz <0) Bark
Vf = −17 × dz dB (0 ≦ dz <1) Bark
Vf = − (dz−1) × (17−0.15 × X [z (i)]) − 17 dB (1 ≦ dz <8) Bark
Vf = −∞ dB (−3> dz, 8 <1dz) Bark
Where dz = z [j] −z [i],
X [z (i)] = 10 logTenSi
And Bark represents a unit of the critical band.
[0053]
The masking threshold is obtained by calculating Vf in each of the above formulas for each i (critical band index) and selecting the maximum Vf for overlapping frequencies. As a method for calculating the masking threshold, there are some other known methods, and the method is not limited to the above method.
[0054]
The minimum audible limit combining unit 52h combines the minimum audible limit characteristic expressed by the following equation and the like with the masking threshold obtained by the masking calculation unit 52g, and performs the final masking as shown in FIG. A threshold value Mi is determined for each frequency band. The minimum audible limit characteristic may be stored in the table ROM in advance.
[0055]
lt (f) =-0.6 × 3.64 × (f / 1000)-0.8+ 6.5 × exp (-0.6 (f / 1000-3.3)2-Ten-3× (f / 1000)Four               ... (2)
The SMR calculation unit 52i has a ratio between the spectrum power Si obtained by the power calculation unit 52a and the masking threshold Mi of each frequency band obtained by the minimum audible synthesis unit 52h, where i is the index of each frequency. SMRi = Si / Mi is calculated over all frequency bands. In addition, said f is a frequency (Hz).
[0056]
The MNR calculation unit 52j quantizes the spectrum power Si in each frequency band with n bits, and the ratio SNRi (n) = Si / Ni () of the spectrum power Si and the quantization noise power Ni (n). n) is calculated, and the ratio MNRi (n) = SNRi (n) / SMRi of the masking threshold value and the quantization noise power is obtained from the ratio of the ratio SNRi (n) and the above-mentioned SMRi. The above ratio SNR (n) is statistically a characteristic corresponding to the characteristic of the signal, and may be obtained by statistical processing.
[0057]
Based on the ratio MNRi (n) between the masking threshold value and the quantization noise power obtained by the MNR calculation unit 52j, the primary quantization bit number calculation unit 52k calculates the quantization bit number of each frequency band as follows: Assign as follows. The number n of bits is increased from 0, and each time, the ratio MNRi (n) between the masking threshold value and the quantization noise power in each frequency band is calculated, and the frequency band where the ratio MNRi (n) is minimized. Bits are allocated in order, and every time the number of quantization bits n is updated, bits are similarly allocated to the frequency band where the ratio MNRi (n) is minimized, and predetermined allocation according to the bit rate is possible. Allocate until the number of bits is reached. That is, bit allocation is performed sequentially from the frequency band where the portion where the spectrum power Si exceeds the threshold value Mi is the largest.
[0058]
The non-masking region extraction unit 52m as a non-masking frequency band extracting unit extracts a non-masking region (non-masking frequency band) using auditory psychology based on the above-described ratio SMRi. Specifically, since the frequency band in which the ratio SMRI exceeds 1 is a non-masking frequency band and the frequency band in which the ratio SMRI is 1 or less is a masking frequency band, SMRI> 1 is determined for each frequency band. Then, the non-masking frequency band is obtained.
[0059]
Here, the second-order quantized bit number calculation unit 52e performs only | Nit2 ′ (n) −Nit1 (n) |> 12 dB for only the non-masking frequency band | Nit2 ′ (n) −Nit1 ( n) Modify until i = 0,..., 25 so that | <12 dB.
[0060]
The number of quantization bits deleted or increased by the correction is adjusted within the masking frequency band SiM (shaded portion) shown in FIG.
[0061]
As described above, the bit allocation processing unit 52 performs the secondary quantization on the bit allocation amount (quantization bit number) calculated by the primary quantization bit number calculation unit 52k, similarly to the bit allocation processing unit 52 of FIG. Although the correction is performed by the bit number calculation unit 52e, only the non-masking frequency band extracted by the non-masking region extraction unit 52m is corrected. This makes it possible to perceive sound quality that can be perceived as abnormal noise caused by fluctuations in quantization error, for sources that preferably use psychoacoustic characteristics because they contain many components in the non-masking frequency band, such as music and speech. Deterioration can be reduced.
[0062]
Next, still another bit allocation processing unit 52 will be described.
[0063]
As shown in FIG. 9, the bit allocation processing unit 52 includes a power calculation unit 52a, a quantization noise calculation unit 52d, a primary quantization bit number calculation unit 52c, A quantization noise calculation unit 52d, a secondary quantization bit number calculation unit 52e, and a quantization noise storage unit 52f, and a power maximum band extraction unit 52n.
[0064]
The maximum power band extraction unit 52n as the maximum value extraction unit extracts the maximum spectral power value Max (Si) from the above-described spectral power Si calculated by the power calculation unit 52a. Specifically, the power maximum band extraction unit 52n extracts the maximum Si index i from the spectrum power Si (i = 1, 2,..., I) to thereby obtain the spectrum power maximum value Max (Si). To extract.
[0065]
Note that the maximum power band extraction unit 52n extracts the index i of the maximum energy Ei from the energy Ei (i = 1, 2,..., I) when extracting the maximum value of energy described later. Further, when extracting the maximum value of the scale factor, which will be described later, the power maximum band extracting unit 52n extracts the index i of the scale factor SFi that is the maximum from the scale factors SFi (i = 1, 2,..., I). To do. The scale factor represents a factor of the scale (size) of the spectrum data, and is generally calculated by encoding the absolute value of the maximum spectrum among the quantized frequency units.
[0066]
Here, the secondary quantization bit number calculation unit 52e has a difference represented by | Nit2 ′ (n) −Nit1 (n) | only for the above spectrum power maximum value Max (Si) | Nit2 ′. If (n) −Nit1 (n) |> 12 dB, the difference is corrected so that | Nit2 ′ (n) −Nit1 (n) | <12 dB. When the maximum values of the energy or scale factor of the spectrum data are extracted, the quantization bit number is corrected as described above only for them.
[0067]
The number of quantization bits reduced or increased by this modification is adjusted using the number of quantization bits in a band other than the maximum power band SiE (shaded portion) shown in FIG.
[0068]
As described above, the bit allocation processing unit 52 performs the secondary quantization on the bit allocation amount (quantization bit number) calculated by the primary quantization bit number calculation unit 52c, similarly to the bit allocation processing unit 52 of FIG. Although the correction is performed by the bit number calculation unit 52e, the correction is performed only for the spectrum power maximum value (peak frequency) extracted by the power maximum band extraction unit 52n. Thereby, the fluctuation | variation of the quantization error of a peak frequency is suppressed. The peak frequency is a general term for frequencies in the frequency band to which the maximum value of power, energy, or index (scale factor) of spectrum data belongs.
[0069]
Since the peak frequency is not affected by masking (it may be influenced by the minimum audible limit), it is an important psychoacoustic frequency. That is, the peak frequency becomes an audible frequency without being masked at a signal level equal to or higher than the minimum audible limit. Therefore, when fluctuation (variation) of the quantization error occurs, the peak frequency is the frequency that is most easily perceived as an abnormal sound.
[0070]
Therefore, by suppressing the fluctuation of the quantization error of the peak frequency, the bit allocation method using the masking threshold to noise non-bit, the bit allocation method using the signal to noise ratio, and the masking threshold to noise ratio In any of the bit allocation methods that use the signal-to-noise ratio together, fluctuations in the quantization error at the same frequency can be suppressed as compared with the case where the conventional bit allocation method is used.
[0071]
In addition, since the minidisk device according to the present embodiment includes the audio compression circuit 5 including the bit allocation processing unit 52 of FIGS. 1, 6, and 9, fluctuations in quantization error are suppressed as described above. The digital audio data can be compressed and encoded. Therefore, even when a signal having a large temporal change is input when recording a signal having a small temporal change, a signal with little deterioration in sound quality due to a quantization error can be recorded.
[0072]
The digital signal encoding apparatus of the present invention is applied to the mini disk apparatus in the embodiment, but it is needless to say that it can be applied to other apparatuses that require similar encoding.
[0073]
【The invention's effect】
As described above, the digital signal encoding apparatus of the present invention is calculated by the bit allocation amount calculating means for calculating the bit allocation amount of each temporally continuous frame for each frequency band and the bit allocation amount calculating means. First quantization error calculation means for calculating a quantization error of the bit allocation amount, and the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculation means. Bit allocation amount correcting means for correcting the bit allocation amount, and second quantization error calculating means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correcting means, An amount between the bit allocation amount of the current frame calculated by the first quantization error calculation unit and the bit allocation amount of the previous frame calculated by the second quantization error calculation unit by the correction unit It is configured to correct the difference of the error to be smaller than a predetermined value.
[0074]
Thereby, at the time of correction by the bit allocation amount correction means, the difference between the quantization error of the bit allocation amount of the current frame and the quantization error of the bit allocation amount of the previous frame calculated by the second quantization error calculation means is It is corrected so as to be smaller than a predetermined value. Therefore, even when a signal with a large temporal change is input instantaneously when a signal with a small temporal change is input, fluctuations in quantization error of the same frequency between adjacent frames are suppressed. Therefore, it is possible to reduce the deterioration of sound quality that can be perceived as an abnormal sound generated by the fluctuation of the quantization error.
[0075]
The digital signal encoding apparatus includes a maximum value extracting unit that extracts a maximum value of power, energy, or scale factor of the spectrum data, and the bit allocation amount correcting unit includes a frequency band to which the extracted maximum value belongs. By correcting the difference, the fluctuation of the quantization error of the peak frequency which is the frequency of the frequency band to which the maximum value of the power, energy or scale factor of the spectrum data belongs is suppressed. As a result, any of the bit allocation method using masking threshold-to-noise, the bit allocation method using the signal-to-noise ratio, and the bit allocation method using both the masking threshold-to-noise ratio and the signal-to-noise ratio can be used. However, compared with the case where the conventional bit allocation method is used, the fluctuation | variation of the quantization error of the same frequency is suppressed. Therefore, there is an effect that perceivable deterioration in sound quality due to a change with time can be reduced.
[0076]
Another digital signal encoding apparatus of the present invention includes a bit allocation amount calculating unit that calculates a bit allocation amount of each temporally continuous frame for each frequency band, and a bit allocation calculated by the bit allocation amount calculating unit. A first quantization error calculating means for calculating a quantization error of a quantity; a non-masking frequency band extracting means for extracting the quantization error for a non-masking frequency band; and a current frame calculated by the bit allocation amount calculating means A bit allocation amount correcting means for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous previous frame, and a quantization error of the final bit allocation amount obtained by the bit allocation amount correcting means Second quantization error calculation means for calculating the bit allocation amount correction means, wherein the bit allocation amount correction means calculates the current frame calculated by the first quantization error calculation means. The difference in quantization error between the bit allocation amount and the bit allocation amount of the previous frame calculated by the second quantization error calculation means is corrected so that the quantization error in the non-masking frequency band is smaller than a predetermined value. It is a configuration.
[0077]
As a result, at the time of correction by the bit allocation amount correction means, the quantization error for the non-masking frequency band of the bit allocation amount of the current frame and the non-masking of the bit allocation amount of the previous frame calculated by the second quantization error calculation means The difference from the quantization error for the frequency band is corrected to be smaller than a predetermined value. Therefore, even when a signal with a large temporal change is input instantaneously when a signal with a small temporal change is input, fluctuations in quantization error of the same frequency between adjacent frames are suppressed. Therefore, it is possible to reduce deterioration in sound quality that can be perceived as abnormal sound generated by variation in quantization error, for a source that preferably uses auditory psychological characteristics such as music and voice.
[0078]
A digital signal recording apparatus according to the present invention is a digital signal recording apparatus that encodes an input digital signal by a predetermined encoding process and records it on a recording medium. This is a configuration including a signal encoding device.
[0079]
Since each digital signal encoding device described above suppresses variation in quantization error of the same frequency between adjacent frames, even when a signal having a large temporal change is input when a signal having a small temporal change is recorded, It is possible to record a signal with little deterioration in sound quality due to quantization error. Therefore, it is possible to provide a digital signal recording apparatus capable of recording with high sound quality.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a bit allocation processing unit of an audio compression circuit in a minidisk device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of the mini-disc device.
FIG. 3 is a block diagram showing a configuration of the audio compression circuit.
FIG. 4 is a diagram illustrating spectrum power of each frequency band obtained by a power calculation unit in the bit allocation processing unit.
FIG. 5 is a diagram illustrating bit allocation to each frequency band by the bit allocation processing unit.
FIG. 6 is a block diagram showing a configuration of another bit allocation processing unit.
7 is a diagram illustrating spectrum power of each frequency band obtained by a power calculation unit in the bit allocation processing unit of FIG. 6;
8 is a diagram illustrating bit allocation to each frequency band by the bit allocation processing unit of FIG. 6;
FIG. 9 is a block diagram showing a configuration of still another bit allocation processing unit.
10 is a diagram illustrating spectrum power of each frequency band obtained by a power calculation unit in the bit allocation processing unit of FIG. 9;
11 is a diagram illustrating bit allocation to each frequency band by the bit allocation processing unit of FIG. 9;
[Explanation of symbols]
5 Voice compression circuit (digital signal encoding device)
51 Spectrum converter
52-bit allocation processor
52a Power calculation unit
52c Primary quantization bit number calculation unit (bit allocation amount calculation means)
52d Quantization noise calculation unit (first quantization error calculation means)
52e Secondary quantization bit number calculation unit (bit allocation amount correcting means)
52f Quantization noise storage unit (second quantization error calculation means)
52m non-masking region extraction unit (non-masking frequency band extraction means)
52n Power maximum bandwidth extraction unit (maximum value extraction means)

Claims (4)

ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域のスペクトルデータをそれぞれに応じて与えられたビット割当量で符号化するディジタル信号符号化装置において、
時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、
前記ビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、
前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、
前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、
上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正することを特徴とするディジタル信号符号化装置。
In a digital signal encoding apparatus that converts a digital signal into spectrum data for each of a plurality of predetermined frequency bands, and encodes the spectrum data of each frequency band with a given bit allocation amount according to each.
Bit allocation amount calculation means for calculating the bit allocation amount of each frame that is temporally continuous for each frequency band;
First quantization error calculation means for calculating a quantization error of the bit allocation amount calculated by the bit allocation amount calculation means;
Bit allocation amount correcting means for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculating means;
Second quantization error calculation means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correction means,
The bit allocation amount correction means includes a quantization error between the bit allocation amount of the current frame calculated by the first quantization error calculation means and the bit allocation amount of the previous frame calculated by the second quantization error calculation means. The digital signal encoding apparatus is characterized in that the difference between the two is corrected to be smaller than a predetermined value.
前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、
前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することを特徴とする請求項1に記載のディジタル信号符号化装置。
A maximum value extracting means for extracting the maximum value of the power, energy or scale factor of the spectral data;
2. The digital signal encoding apparatus according to claim 1, wherein the bit allocation amount correcting unit corrects the difference in a frequency band to which the extracted maximum value belongs.
ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域スペクトルの大きさから、想定した各ビット数に対して各周波数帯域のマスキングしきい値対雑音比を求め、前記ビット数毎に前記マスキングしきい値対雑音比が最小となる周波数帯域から順に与えられたビット割当量で前記スペクトルデータを符号化するディジタル信号符号化装置において、
時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、
前記ビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第1量子化誤差算出手段と、
前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、
前記ビット割当量算出手段によって算出された、現フレームの1つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、
前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第2量子化誤差算出手段とを備え、
上記ビット割当量修正手段が、前記第1量子化誤差算出手段で算出された現フレームのビット割当量と前記第2量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正することを特徴とするディジタル信号符号化装置。
The digital signal is converted into spectrum data for each of a plurality of predetermined frequency bands, and the masking threshold-to-noise ratio of each frequency band is obtained for each assumed number of bits from the size of each frequency band spectrum. In a digital signal encoding apparatus that encodes the spectrum data with a bit allocation amount sequentially given from a frequency band in which the masking threshold-to-noise ratio is minimized every number,
Bit allocation amount calculation means for calculating the bit allocation amount of each frame that is temporally continuous for each frequency band;
First quantization error calculation means for calculating a quantization error of the bit allocation amount calculated by the bit allocation amount calculation means;
Non-masking frequency band extracting means for extracting the quantization error for a non-masking frequency band;
Bit allocation amount correcting means for correcting the bit allocation amount of the current frame based on the bit allocation amount of the previous frame immediately before the current frame calculated by the bit allocation amount calculating means;
Second quantization error calculation means for calculating a quantization error of the final bit allocation amount obtained by the bit allocation amount correction means,
The bit allocation amount correction means includes a quantization error between the bit allocation amount of the current frame calculated by the first quantization error calculation means and the bit allocation amount of the previous frame calculated by the second quantization error calculation means. The digital signal encoding apparatus is characterized in that the difference between the two is corrected so that the quantization error in the non-masking frequency band becomes smaller than a predetermined value.
入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、
上記符号化処理を行うために、請求項1ないし3のいずれか1項に記載のディジタル信号符号化装置を含んでいることを特徴とするディジタル信号記録装置。
A digital signal recording apparatus for encoding an input digital signal by a predetermined encoding process and recording it on a recording medium,
A digital signal recording apparatus comprising the digital signal encoding apparatus according to any one of claims 1 to 3 for performing the encoding process.
JP2001376308A 2001-12-10 2001-12-10 Digital signal encoding apparatus and digital signal recording apparatus having the same Expired - Fee Related JP3942882B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001376308A JP3942882B2 (en) 2001-12-10 2001-12-10 Digital signal encoding apparatus and digital signal recording apparatus having the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001376308A JP3942882B2 (en) 2001-12-10 2001-12-10 Digital signal encoding apparatus and digital signal recording apparatus having the same

Publications (2)

Publication Number Publication Date
JP2003177797A JP2003177797A (en) 2003-06-27
JP3942882B2 true JP3942882B2 (en) 2007-07-11

Family

ID=19184530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001376308A Expired - Fee Related JP3942882B2 (en) 2001-12-10 2001-12-10 Digital signal encoding apparatus and digital signal recording apparatus having the same

Country Status (1)

Country Link
JP (1) JP3942882B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7406412B2 (en) * 2004-04-20 2008-07-29 Dolby Laboratories Licensing Corporation Reduced computational complexity of bit allocation for perceptual coding
KR100851970B1 (en) * 2005-07-15 2008-08-12 삼성전자주식회사 Method and apparatus for extracting ISCImportant Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal with low bitrate using it
EP2161720A4 (en) 2007-06-20 2012-06-13 Fujitsu Ltd Decoder, decoding method, and program
JP5609591B2 (en) * 2010-11-30 2014-10-22 富士通株式会社 Audio encoding apparatus, audio encoding method, and audio encoding computer program
SG11201602234YA (en) * 2013-12-02 2016-05-30 Huawei Tech Co Ltd Encoding method and apparatus

Also Published As

Publication number Publication date
JP2003177797A (en) 2003-06-27

Similar Documents

Publication Publication Date Title
JP3328532B2 (en) Digital data encoding method
US7337027B2 (en) Audio signal reproducing apparatus
US6169973B1 (en) Encoding method and apparatus, decoding method and apparatus and recording medium
JP3123290B2 (en) Compressed data recording device and method, compressed data reproducing method, recording medium
US6850578B1 (en) Digital signal processing apparatus and digital processing method
JP3765622B2 (en) Audio encoding / decoding system
JPH06318875A (en) Compression data recording and/or reproduction or transmission and/of reception device and its method and recording medium
US6975732B2 (en) Audio signal reproducing apparatus
JPH06268608A (en) Device and method for recording and/or reproducing or transmitting and/or receiving compressed data and recording medium
US6647063B1 (en) Information encoding method and apparatus, information decoding method and apparatus and recording medium
JP3942882B2 (en) Digital signal encoding apparatus and digital signal recording apparatus having the same
US5754427A (en) Data recording method
JP3776004B2 (en) Encoding method of digital data
JP4271588B2 (en) Encoding method and encoding apparatus for digital data
JP4293833B2 (en) Digital signal recording / reproducing apparatus and control program therefor
JP4822697B2 (en) Digital signal encoding apparatus and digital signal recording apparatus
JPH11330974A (en) Encoding method and device, decoding method and device, digital signal recording method and device, recording medium and digital transmitting method and device
JP4732478B2 (en) Digital signal reproducing apparatus and control program therefor
JP3334375B2 (en) Digital signal compression method and apparatus
JPH11330973A (en) Encoding method and device, decoding method and device, digital signal recording method and device, recording medium and digital signal transmitting method and device
JPH08125543A (en) Method/device for compressing digital signal and recording medium
JP3200886B2 (en) Audio signal processing method
JP3408140B2 (en) Information encoding method
JPH08307277A (en) Method and device for variable rate voice coding
JP3552239B2 (en) Compressed data recording apparatus and method, and compressed data reproducing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070404

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees