JP3478267B2 - Digital audio signal compression method and compression apparatus - Google Patents

Digital audio signal compression method and compression apparatus

Info

Publication number
JP3478267B2
JP3478267B2 JP2000387351A JP2000387351A JP3478267B2 JP 3478267 B2 JP3478267 B2 JP 3478267B2 JP 2000387351 A JP2000387351 A JP 2000387351A JP 2000387351 A JP2000387351 A JP 2000387351A JP 3478267 B2 JP3478267 B2 JP 3478267B2
Authority
JP
Japan
Prior art keywords
audio signal
digital audio
frequency
subband
psychoacoustic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000387351A
Other languages
Japanese (ja)
Other versions
JP2002189499A (en
Inventor
典雄 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2000387351A priority Critical patent/JP3478267B2/en
Publication of JP2002189499A publication Critical patent/JP2002189499A/en
Application granted granted Critical
Publication of JP3478267B2 publication Critical patent/JP3478267B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、MPEG/Audio規
格、ATRAC規格、ドルビーディジタル規格等によるオー
ディオ信号圧縮において用いられるディジタルオーディ
オ信号圧縮方法および圧縮装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a digital audio signal compression method and a compression device used in audio signal compression according to the MPEG / Audio standard, ATRAC standard, Dolby digital standard and the like.

【0002】[0002]

【従来の技術】図3は、MPEG(Moving Picture Coding E
xperts Group)/Audio規格によるディジタルオーディオ
信号圧縮回路の構成を示す回路図である。この図におい
て、入力ディジタルオーディオ信号Daは所定のサンプ
ル数毎にブロック化(フレームと言う)され、2つのパ
スに分かれて処理される。まず、一方のパスにおけるフ
ィルタバンク1は、入力信号を等しい帯域幅を持つ32
バンドのサブバンド信号に分割する。この場合、各々の
サブバンド信号は1/32のサンプリング周波数にダウ
ンサンプルされる。スケールファクタ抽出・正規化回路
2は、1フレームにおける各々のサブバンド信号に対
し、最大絶対値を持つサンプルを検出する。その値を対
数に変換し量子化したものをスケールファクタと呼ぶ。
そして、このスケールファクタによって各サブバンドサ
ンプルを除算し、それらの値を±1の範囲内に正規化す
る。
2. Description of the Related Art FIG. 3 shows MPEG (Moving Picture Coding E).
FIG. 3 is a circuit diagram showing a configuration of a digital audio signal compression circuit according to the xperts Group) / Audio standard. In this figure, the input digital audio signal Da is divided into blocks (called frames) for each predetermined number of samples, and divided into two paths for processing. First, the filter bank 1 in one path has an input signal of equal bandwidth 32
The band is divided into subband signals. In this case, each subband signal is downsampled to a sampling frequency of 1/32. The scale factor extraction / normalization circuit 2 detects the sample having the maximum absolute value for each subband signal in one frame. A value obtained by converting the value into a logarithm and quantizing the value is called a scale factor.
Each subband sample is then divided by this scale factor and their values are normalized to within ± 1.

【0003】一方、心理聴覚分析部3は、FFT(高速
フーリエ変換)による周波数スペクトルの計算を行い、
それよって得られた各周波数データに基づき各サブバン
ド毎のマスキングしきい値を計算して出力する。ビット
割当部4は心理聴覚分析部3の出力と、ビットレートで
決まる1フレームで使用可能なビット数の制限の下で反
復ループ処理により各サブバンド毎の量子化ビット数を
決定する。量子化部5は、各サブバンド毎に設定された
量子化ビット数でスケールファクタ抽出・正規化回路2
から出力されるサブバンド信号を量子化する。ビットス
トリーム生成部6は、量子化されたサブバンドサンプ
ル、各サブバンドに対するビット割当情報およびスケー
ルファクタをマルチプレックスし、それにヘッダを付け
てビットストリームを作成し出力する。
On the other hand, the psychoacoustic analysis unit 3 calculates the frequency spectrum by FFT (Fast Fourier Transform),
A masking threshold value for each sub-band is calculated and output based on each frequency data thus obtained. The bit allocation unit 4 determines the number of quantization bits for each subband by iterative loop processing under the limitation of the number of bits that can be used in one frame determined by the output of the psychoacoustic analysis unit 3 and the bit rate. The quantizer 5 uses the scale factor extraction / normalization circuit 2 with the number of quantization bits set for each subband.
Quantize the subband signal output from. The bitstream generation unit 6 multiplexes the quantized subband samples, the bit allocation information for each subband, and the scale factor, attaches a header thereto, and creates and outputs a bitstream.

【0004】次に、従来の心理聴覚分析部3における処
理手順の一例を説明する。なお、以下に説明する手順
は、ISO/IEC 11172-3による心理聴覚モデルにおけるMOD
EL1の手順である。 (1)FFTによって周波数特性を求め、512の周波数
データを得る。 (2)32のサブバンドの各音圧レベルを求める。 (3)絶対しきい値を決定する。 (4)音として聞こえる周波数(マスカー)を選ぶ。 (5)マスカーを減らす。 (6)個々のマスクしきい値を計算する。 (7)大域的マスクしきい値を計算する。 (8)各サブバンドの最小マスクしきい値を決定する。 (9)各サブバンドの信号対マスク比(SMR)を計算す
る。そして、上記SMRがビット割当情報としてビット
割当部4へ出力される。
Next, an example of a processing procedure in the conventional psychoacoustic analysis unit 3 will be described. The procedure described below is based on the MOD in the psychoacoustic model according to ISO / IEC 11172-3.
It is the procedure of EL1. (1) Obtain frequency characteristics by FFT and obtain 512 frequency data. (2) Obtain each sound pressure level of 32 sub-bands. (3) Determine the absolute threshold. (4) Select the frequency (masker) that can be heard as a sound. (5) Reduce the masker. (6) Calculate individual mask thresholds. (7) Calculate the global mask threshold. (8) Determine the minimum mask threshold for each subband. (9) Calculate the signal-to-mask ratio (SMR) for each subband. Then, the SMR is output to the bit allocation unit 4 as bit allocation information.

【0005】[0005]

【発明が解決しようとする課題】ところで、上述した従
来の心理聴覚分析部3における処理は、計算に時間がか
かる欠点があった。特に、上記(6)、(7)の計算に時間が
かかっていた。例えば、上記(7)の計算は、
By the way, the above-described processing in the psychoacoustic analysis unit 3 has a drawback that the calculation takes time. In particular, calculation of the above (6) and (7) took a long time. For example, the calculation in (7) above

【数1】 なる式の計算であり、logの計算を除外したとして
も、iは1〜約130であり、m、nは音の数とノイズ
の数で10〜20程度あり、したがって、LTtmとLT
nmをそれぞれ1000回以上計算しなくてはならない。
LTtmとLTnmは3項の和で表現されるが、その内2項
は1次関数となっており、計算に時間がかかる。
[Equation 1] Even if the calculation of log is excluded, i is 1 to about 130, m and n are the numbers of sounds and noises of about 10 to 20, and therefore LTtm and LT
Each nm must be calculated 1000 times or more.
LTtm and LTnm are expressed by the sum of three terms, but two of them are linear functions and it takes time to calculate.

【0006】この発明は、このような事情を考慮してな
されたもので、その目的は、計算時間を従来より大幅に
短縮することができるディジタルオーディオ信号圧縮方
法および圧縮装置を提供することにある。
The present invention has been made in consideration of such circumstances, and an object thereof is to provide a digital audio signal compression method and a compression apparatus capable of significantly reducing the calculation time as compared with the conventional method. .

【0007】[0007]

【課題を解決するための手段】この発明は上記の課題を
解決すべくなされたもので、請求項1に記載の発明は、
入力ディジタルオーディオ信号に対して複数のサブバン
ドに周波数分割すると共に、心理聴覚分析処理を行い、
該心理聴覚分析処理の結果に従って各サブバンドのビッ
ト割り当てを行い、ビット割り当てに従って各サブバン
ドの信号を量子化して出力するディジタルオーディオ信
号圧縮方法において、前記心理聴覚分析処理は、入力デ
ィジタルオーディオ信号を周波数解析して周波数成分に
変換した後、各サブバンド毎の周波数成分の最大値を検
出し、検出した最大値にそのサブバンドの周波数帯域に
応じた重み付けを行い、重み付けを行った各最大値を用
いて各サブバンド毎の前記周波数成分の分散を計算する
処理であることを特徴とするディジタルオーディオ信号
圧縮方法である。
The present invention has been made to solve the above problems, and the invention according to claim 1 is
The input digital audio signal is frequency-divided into multiple sub-bands, and psychoacoustic analysis processing is performed.
In the digital audio signal compression method of allocating bits of each subband according to the result of the psychoacoustic analysis process and quantizing and outputting the signal of each subband according to the bit allocation, the psychoacoustic analysis process processes the input digital audio signal. After frequency analysis and conversion into frequency components, the maximum value of frequency components for each subband is detected.
The detected maximum value is weighted according to the frequency band of that subband, and the variance of the frequency component of each subband is calculated using each weighted maximum value. It is a digital audio signal compression method.

【0008】 また、請求項2に記載の発明は、請求項
1に記載のディジタルオーディオ信号圧縮方法におい
て、前記心理聴覚分析処理は、前記分散を計算した後、
該計算によって得られた値に、予め求められている聴覚
感度に対応するデータを演算することを特徴とする。請
求項3に記載の発明は、入力ディジタルオーディオ信号
に対して複数のサブバンドに周波数分割すると共に、心
理聴覚分析処理を行う心理聴覚分析手段と、該心理聴覚
分析処理の結果に従って各サブバンドのビット割り当て
を行うビット割り当て手段と、該ビット割り当てに従っ
て各サブバンドの信号を量子化して出力する量子化手段
とを具備するディジタルオーディオ信号圧縮装置におい
て、前記心理聴覚分析手段は、入力ディジタルオーディ
オ信号を周波数解析して周波数成分に変換する第1の手
段と、各サブバンド毎の周波数成分の最大値を検出し、
検出した最大値にそのサブバンドの周波数帯域に応じた
重み付けを行う第2の手段と、重み付けを行った各最大
値を用いて各サブバンド毎の前記周波数成分の分散を計
算する第3の手段とを具備することを特徴とするディジ
タルオーディオ信号圧縮装置である。
Further, the invention according to claim 2 is the digital audio signal compression method according to claim 1, wherein the psychoacoustic analysis processing calculates the variance,
The value obtained by the said calculation, characterized by calculating the data corresponding to the auditory sensitivity obtained in advance. The invention according to claim 3 provides an input digital audio signal.
A frequency division into a plurality of subbands , a psychoacoustic analysis means for performing a psychoacoustic analysis processing, a bit allocation means for allocating bits of each subband according to the result of the psychoacoustic analysis processing, and a bit allocation according to the bit allocation. In a digital audio signal compression apparatus comprising a quantizing means for quantizing and outputting a signal of each sub-band, the psychoacoustic analyzing means frequency-analyzes the input digital audio signal and converts it into frequency components. And, detect the maximum value of the frequency component for each sub-band,
Second means for weighting the detected maximum value according to the frequency band of the subband, and third means for calculating the variance of the frequency component for each subband using each weighted maximum value. And a digital audio signal compression device.

【0009】 また、請求項4に記載の発明は、請求項
3に記載のディジタルオーディオ信号圧縮装置におい
て、前記心理聴覚分析手段は、前記第3の手段による計
算によって得られた分散の値に、予め求められている聴
覚感度に対応するデータを演算する第4の手段をさらに
具備することを特徴とする。
[0009] The invention of claim 4, claim
In the digital audio signal compressing device according to the third aspect, the psycho-acoustic analysis means calculates a value corresponding to a variance obtained by the calculation by the third means, the data corresponding to a previously-obtained auditory sensitivity. Is further provided.

【0010】[0010]

【発明の実施の形態】以下、図面を参照し、この発明の
一実施の形態について説明する。この実施形態による圧
縮方法を適用した圧縮回路は図3と同じであり、以下に
説明する処理手順は、図3の心理聴覚分析部3において
用いられる。図1は同実施の形態による圧縮方法を説明
するためのフローチャートである。以下、各ステップS
1〜S6を順次説明する。なお、以下の説明において
は、サブバンドの数を32、各サブバンド内の周波数デ
ータの数を16とする。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of the present invention will be described below with reference to the drawings. The compression circuit to which the compression method according to this embodiment is applied is the same as that in FIG. 3, and the processing procedure described below is used in the psychoacoustic analysis unit 3 in FIG. FIG. 1 is a flow chart for explaining the compression method according to the embodiment. Below, each step S
1 to S6 will be sequentially described. In the following description, the number of subbands is 32, and the number of frequency data in each subband is 16.

【0011】○ステップS1(周波数解析) 入力されるディジタルオーディオデータ(実数)に対
し、FFT処理(ステップS1に記載される式の演算)
を行い、MPEG/Audio Layer2(MP2)の場合、周波数データ
F(k)として、1024データを得る。この周波数デ
ータF(k)は複素数データであり、実数入力のFFT
の対象性により、意味があるのは512データである。
なお、図の式においてjは虚数単位である。
Step S1 (frequency analysis) FFT processing (calculation of the formula described in step S1) on the input digital audio data (real number)
In the case of MPEG / Audio Layer2 (MP2), 1024 data is obtained as frequency data F (k). This frequency data F (k) is complex number data, and FFT of real number input
Depending on the symmetry of, 512 data is meaningful.
It should be noted that j in the formula in the figure is an imaginary unit.

【0012】○ステップS2(音圧レベル測定) 各周波数データF(k)の実部と虚部の二乗の和、すな
わちF(k)の絶対値の二乗P(k)を求める。この値
P(k)が音圧レベルに相当する。 ○ステップS3(平均値の測定) 上述した512の音圧データを16データ毎に32のサ
ブバンド(帯域)に分ける。そして、各サブバンド毎
に、音圧レベルP(k)の平均値E(sb)を求める。
なお、sbはサブバンド番号であり、低音側から0〜3
1が割り当てられている。例えば、sb=3のサブバン
ドには、P(48)〜P(63)の音圧レベルが含まれ
る。
Step S2 (Sound Pressure Level Measurement) The sum of the squares of the real part and the imaginary part of each frequency data F (k), that is, the square of the absolute value P (k) of F (k) is obtained. This value P (k) corresponds to the sound pressure level. Step S3 (measurement of average value) The sound pressure data of 512 described above is divided into 32 sub-bands (bands) every 16 data. Then, the average value E (sb) of the sound pressure level P (k) is obtained for each subband.
In addition, sb is a sub-band number, and is 0 to 3 from the low tone side
1 is assigned. For example, the subband of sb = 3 includes sound pressure levels P (48) to P (63).

【0013】○ステップS4(最大値の重み付け) 各サブバンド毎に音圧レベルP(k)の最大値P’
(k)を検出し、検出した音圧レベルP’(k)にsqrt
(33/(sb+1)){sqrt:二乗根}なる値を乗算
することによって、重み付けした音圧レベルP’(k)
を得る。 ○ステップS5(分散の計算) 各サブバンド毎に、上述したステップS2〜S4の演算
結果を用いて、音圧レベルP(k)の分散V(sb)を
計算する。ここで、各帯域の最大音圧レベルP(k)に
ついては、上記重み付けした音圧レベルP’(k)を用
いる。
Step S4 (weighting of maximum value) The maximum value P ′ of the sound pressure level P (k) for each subband
(K) is detected, and sqrt is added to the detected sound pressure level P ′ (k).
The weighted sound pressure level P ′ (k) is obtained by multiplying the value by (33 / (sb + 1)) {sqrt: square root}.
To get Step S5 (calculation of variance) For each subband, the variance V (sb) of the sound pressure level P (k) is calculated using the calculation results of steps S2 to S4 described above. Here, the weighted sound pressure level P ′ (k) is used as the maximum sound pressure level P (k) in each band.

【0014】○ステップS6(SMRの計算) 各サブバンドのSMRを計算する。すなわち、各サブバ
ンドについて、分散V(sb)の対数をとり、2.5倍
し、その値から聴覚感度データQ’(sb)の0.5倍
を減算する。ここで、聴覚感度データQ’(sb)と
は、人間の耳の聴覚感度曲線に対応したデータであり、
予めメモリ内に記憶させておく。図2に感度聴覚データ
の一例を示す。この図において「Fs」は、アナログオ
ーディオ信号をディジタルオーディオ信号に変換する際
のサンプリング周波数である。
Step S6 (calculation of SMR) The SMR of each subband is calculated. That is, the logarithm of the variance V (sb) is taken for each subband, multiplied by 2.5, and 0.5 times the auditory sensitivity data Q ′ (sb) is subtracted from the value. Here, the hearing sensitivity data Q ′ (sb) is data corresponding to the hearing sensitivity curve of the human ear,
It is stored in the memory in advance. FIG. 2 shows an example of the sensitivity auditory data. In this figure, "Fs" is a sampling frequency when converting an analog audio signal into a digital audio signal.

【0015】以上がこの発明の実施形態による処理手順
である。上述したことから明らかなように、この実施形
態による心理聴覚分析部3のSMR計算方法は、基本的
には、各サブバンド毎に音圧レベルP(k)の分散を求
め、求めた分散値をSMRとして使用するという方法で
ある。ここで、分散がSMRとして使用できる理由は次
の通りである。すなわち、各サブバンドの16の音圧レ
ベルの平均値が同じであったとしても、バラツキが大き
ければ分散は大きな値となり、逆に、バラツキが小さけ
れば分散は小さな値となる。全ての音圧レベルが等しけ
れば分散は0となる。一方、1つのサブバンドにおける
周波数成分にバラツキが少ない場合、それぞれの周波数
成分の位相がまちまちであれば、人間の耳には雑音に聞
こえる。これに対し、サブバンド内にピークがあれば、
その音が知覚される。すなわち、周波数成分(振幅また
は音圧レベル)の分散を計算した時に、分散が小さい波
形より大きい波形の方がより重要な波形であり、したが
って、ビット数も多くすることが必要となり、一方、分
散が小さい波形はビット数を少なくすることができる。
The above is the processing procedure according to the embodiment of the present invention. As is clear from the above, the SMR calculation method of the psycho-acoustic analysis unit 3 according to this embodiment basically calculates the variance of the sound pressure level P (k) for each subband, and calculates the calculated variance value. Is used as the SMR. Here, the reason why the dispersion can be used as the SMR is as follows. That is, even if the average value of 16 sound pressure levels in each sub-band is the same, the variance has a large value if the variation is large, and conversely, the variance has a small value if the variation is small. If all sound pressure levels are equal, the variance will be zero. On the other hand, when there is little variation in the frequency components in one subband, the human ears hear noise if the phases of the frequency components are different. On the other hand, if there is a peak in the subband,
The sound is perceived. That is, when the variance of frequency components (amplitude or sound pressure level) is calculated, a waveform with a smaller variance is more important than a waveform with a smaller variance, and therefore, it is also necessary to increase the number of bits. A small waveform can reduce the number of bits.

【0016】ところで、SMRと分散には以下の性質が
ある。 (1)データ量割り当て1(ビット)がSMRの約6(d
B)に相当する。 (2)分散は音圧レベルの二乗の次元を持っている。 (3)音圧レベルは振幅の二乗の次元を持っている。 (4)データ量は振幅が2倍になった時に1(ビット)増
やすのが妥当である。すなわち、分散を振幅に直すため
に4乗根をとり、さらに、常用対数をとって20倍(d
Bへの変換)してSMRとするのが妥当である。実際に
は、対数の性質から、分散の常用対数をとって5倍すれ
ばよい。つまり、SMRは、基本的には、 SMR(sb)=5×log10V(sb) なる式によって求められる。
By the way, SMR and dispersion have the following properties. (1) Data amount allocation 1 (bit) is about 6 (d) of SMR
Corresponds to B). (2) The variance has the dimension of the square of the sound pressure level. (3) The sound pressure level has the dimension of the square of the amplitude. (4) It is appropriate to increase the data amount by 1 (bit) when the amplitude doubles. That is, the fourth root is taken to convert the variance into the amplitude, and the common logarithm is taken to obtain 20 times (d
It is appropriate to convert it to B) to obtain SMR. In practice, due to the property of logarithm, the common logarithm of variance may be taken and multiplied by 5. That is, the SMR is basically obtained by the formula: SMR (sb) = 5 × log 10 V (sb).

【0017】しかし、人間の耳には各種聴覚特性がある
ため、その特性を利用した方がよりよい結果が得られ
る。まず、人間の耳は低域ほど周波数分解能がよく、高
域になるに従い分解能が悪くなる性質がある。この性質
を考慮し、次の補正方法が考えられる。分散を計算する
時、各サブバンドにおける最大の音圧レベルP(k)の
み周波数に反比例させて大きくする。すなわち、各サブ
バンドにおける最大の音圧レベルをP’(k)とする
と、このP’(k)に、 P’(k)=P’(k)×(32/sb) なる補正を加え、この補正後の音圧レベルP’(k)を
使用して分散を計算する。
However, since the human ear has various auditory characteristics, it is possible to obtain better results by utilizing those characteristics. First, the human ear has a property that the frequency resolution is better at lower frequencies, and the resolution becomes worse at higher frequencies. Considering this property, the following correction method can be considered. When calculating the variance, only the maximum sound pressure level P (k) in each subband is increased in inverse proportion to the frequency. That is, assuming that the maximum sound pressure level in each subband is P ′ (k), a correction of P ′ (k) = P ′ (k) × (32 / sb) is added to this P ′ (k), The variance is calculated using the corrected sound pressure level P ′ (k).

【0018】実験的には、直接反比例させると高域特性
が著しく劣化するため、二乗根に反比例させた方が良い
結果が得られる。また、sbは0から始まるため計算の
都合上「1」を加算する。結局、次式によって音圧レベ
ルを補正することが好ましい。 P’(k)=P’(k)×sqrt(33/(sb+1)) 前述したステップS4の重み付けはこの補正である。な
お、平均値の計算(ステップS3)においては、補正前
の音圧レベルP(k)を使用する。
Experimentally, since high-frequency characteristics are significantly deteriorated when directly inversely proportional, it is possible to obtain a better result when inversely proportional to the square root. Since sb starts from 0, "1" is added for convenience of calculation. After all, it is preferable to correct the sound pressure level by the following equation. P ′ (k) = P ′ (k) × sqrt (33 / (sb + 1)) The weighting in step S4 described above is this correction. In the calculation of the average value (step S3), the sound pressure level P (k) before correction is used.

【0019】次に、人間の耳にはいわゆる聴覚曲線で表
される周波数特性がある。各サブバンドの中央における
聴覚感度をQ(sb)とすると、この値は音圧レベル
(dB)単位で表されており、値が小さい(負にもな
る)ほど、耳の感度が良いことを示している。そこで、
この聴覚感度Q(sb)を加味した次式によってSMR
を計算する方が好ましい。 SMR2(sb)=5×log10V(sb)−Q(s
b)
Next, the human ear has a frequency characteristic represented by a so-called auditory curve. Letting Q (sb) be the auditory sensitivity in the center of each subband, this value is expressed in units of sound pressure level (dB). The smaller the value (the more negative the value), the better the ear sensitivity. Shows. Therefore,
The SMR is calculated by the following equation that takes into account the hearing sensitivity Q (sb).
Is preferred to be calculated. SMR2 (sb) = 5 × log 10 V (sb) -Q (s
b)

【0020】しかし、実際には、例えばMP2でサンプ
リング周波数48KHzの時を考えてみると、sb=0
に相当する周波数は0〜750Hzであり、この範囲に
は多くの音の基本波が存在するため、感度を落とすと音
質が低下し、ゴソゴソという感じのノイズが増加する。
したがって、耳の感度がある程度良くなる2KHz程度
までは補正をしない方がよい結果が得られる。そのよう
に修正した値をQ’(sb)とする。図2はこのQ’
(sb)の値を示す。また、実験的には、単純に和をと
るより、0.5:0.5の割合で和をとった方が良い結
果が得られる。すわわち、次式によってSMRを計算し
た方がより好ましい。 SMR3(sb)=2.5×log10V(sb)−0.
5Q’(sb) 上述したステップS6はこの計算処理を示している。
However, actually, for example, considering MP2 and a sampling frequency of 48 KHz, sb = 0.
The frequency corresponding to is 0 to 750 Hz, and there are many fundamental waves of sound in this range, so if the sensitivity is lowered, the sound quality deteriorates, and noise that feels like noise increases.
Therefore, better results are obtained without correction up to about 2 KHz at which the ear sensitivity is improved to some extent. The value thus corrected is designated as Q '(sb). Figure 2 shows this Q '
The value of (sb) is shown. In addition, experimentally, a better result can be obtained by taking the sum at a ratio of 0.5: 0.5 than by simply taking the sum. That is, it is more preferable to calculate the SMR by the following equation. SMR3 (sb) = 2.5 × log 10 V (sb) -0.
5Q ′ (sb) Step S6 described above shows this calculation processing.

【0021】以上詳述したように、上記実施形態によれ
ば、各サブバンド毎に分散を計算し、この計算結果から
SMRを求めているので、従来の演算([数1]参照)よ
りはるかに簡単な演算によってSMRを求めることがで
きる。実験では、従来の方法の約1/3の時間でSMR
を求めることができた。なお、上記実施形態による方法
は、従来の心理聴覚モデルに比較し、ビットレートが下
がると、高域の特性が早く落ちる傾向がある。この結
果、従来の心理聴覚モデルでは目立つ高域の「ピロピ
ロ」という感じの量子化ノイズがこの実施形態による方
法では目立たず、代わりに、低域の「ゴソゴソ」という
量子化ノイズが目立つようになる。
As described above in detail, according to the above-described embodiment, the variance is calculated for each subband and the SMR is obtained from the calculation result, so that it is far more than the conventional calculation (see [Equation 1]). The SMR can be obtained by a simple calculation. In the experiment, the SMR took about 1/3 the time of the conventional method.
Could be asked. Note that the method according to the above-described embodiment has a tendency that the characteristics in the high frequency range are quickly deteriorated when the bit rate is lower than in the conventional psychoacoustic model. As a result, in the conventional psychoacoustic model, the quantization noise of the high frequency "Piro Piro" which is conspicuous in the conventional psychoacoustic model is not conspicuous in the method according to this embodiment, and instead the quantization noise of the low frequency "Gosogoso" becomes conspicuous. .

【0022】[0022]

【発明の効果】以上説明したように、この発明によれ
ば、各サブバンド毎に周波性成分を求め、求めた周波数
成分の分散を計算し、この計算結果に基づいてビット割
り当てを行うので、ビット割り当てのための計算時間を
従来より大幅に短縮することができる利点が得られる。
As described above, according to the present invention, the frequency component is obtained for each subband, the variance of the obtained frequency component is calculated, and bit allocation is performed based on the calculation result. The advantage is that the calculation time for bit allocation can be significantly shortened compared to the conventional one.

【図面の簡単な説明】[Brief description of drawings]

【図1】 この発明による方法の一実施形態の処理手順
を示すフローチャートである。
FIG. 1 is a flowchart showing a processing procedure of an embodiment of a method according to the present invention.

【図2】 同実施形態において用いられる聴覚感度デー
タを示す図である。
FIG. 2 is a diagram showing hearing sensitivity data used in the same embodiment.

【図3】 ディジタルオーディオ信号圧縮回路の構成例
を示すブロック図である。
FIG. 3 is a block diagram showing a configuration example of a digital audio signal compression circuit.

【符号の説明】[Explanation of symbols]

3…心理聴覚分析部、4…ビット割当部、5…量子化回
路。
3 ... psychoacoustic analysis unit, 4 ... bit allocation unit, 5 ... quantization circuit.

フロントページの続き (56)参考文献 特開 平6−242798(JP,A) 特開 平4−104618(JP,A) 特開 平9−134200(JP,A) 山崎芳男,高能率符号化の動向,日本 音響学会誌,1991年,47巻12号,p. 955−961 杉山昭彦,音響信号の高能率符号化, テレビジョン学会誌,1994年,Vol. 48,No.4,p.447−454 守谷健弘,金子孝夫,音声/楽音の情 報圧縮符号化の基礎技術,Interf ace,1998年 8月,p.92−99 (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 G10L 19/02 H03M 7/30 JICSTファイル(JOIS)Continuation of the front page (56) References JP-A-6-242798 (JP, A) JP-A-4-104618 (JP, A) JP-A-9-134200 (JP, A) Yamao Yoshio, High-efficiency coding Trends, The Acoustical Society of Japan, 1991, Vol. 12, No. 12, p. 955-961 Akihiko Sugiyama, High Efficiency Coding of Acoustic Signals, Journal of the Television Society, 1994, Vol. 48, No. 4, p. 447-454 Takehiro Moriya, Takao Kaneko, Basic Technology for Information Compression Coding of Speech / Music, Interface, August 1998, p. 92-99 (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 19/00 G10L 19/02 H03M 7/30 JISST file (JOIS)

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力ディジタルオーディオ信号に対して
複数のサブバンドに周波数分割すると共に、心理聴覚分
析処理を行い、該心理聴覚分析処理の結果に従って各サ
ブバンドのビット割り当てを行い、ビット割り当てに従
って各サブバンドの信号を量子化して出力するディジタ
ルオーディオ信号圧縮方法において、 前記心理聴覚分析処理は、入力ディジタルオーディオ信
号を周波数解析して周波数成分に変換した後、各サブバ
ンド毎の周波数成分の最大値を検出し、検出した最大値
にそのサブバンドの周波数帯域に応じた重み付けを行
い、重み付けを行った各最大値を用いて各サブバンド毎
の前記周波数成分の分散を計算する処理であることを特
徴とするディジタルオーディオ信号圧縮方法。
1. An input digital audio signal is frequency-divided into a plurality of subbands, psychoacoustic analysis processing is performed, bits are assigned to each subband according to the result of the psychoacoustic analysis processing, and each subband is assigned according to the bit allocation. In the digital audio signal compression method for quantizing and outputting a subband signal, the psychoacoustic analysis processing frequency-analyzes the input digital audio signal to convert it into frequency components, and
Detected maximum value of frequency component for each band and detected maximum value
Its performs weighting corresponding to the frequency band of the sub subband, digital audio signal compression method, characterized by using each maximum value by weighting a process of calculating the variance of said frequency components for each subband .
【請求項2】 前記心理聴覚分析処理は、前記分散を計
算した後、該計算によって得られた値に、予め求められ
ている聴覚感度に対応するデータを演算することを特徴
とする請求項1に記載のディジタルオーディオ信号圧縮
方法。
2. The psychoacoustic analysis process, after calculating the variance, calculates data corresponding to a previously obtained auditory sensitivity to a value obtained by the calculation. A method for compressing a digital audio signal according to.
【請求項3】 入力ディジタルオーディオ信号に対して
複数のサブバンドに周波数分割すると共に、心理聴覚分
析処理を行う心理聴覚分析手段と、該心理聴覚分析処理
の結果に従って各サブバンドのビット割り当てを行うビ
ット割り当て手段と、該ビット割り当てに従って各サブ
バンドの信号を量子化して出力する量子化手段とを具備
するディジタルオーディオ信号圧縮装置において、 前記心理聴覚分析手段は、入力ディジタルオーディオ信
号を周波数解析して周波数成分に変換する第1の手段
と、各サブバンド毎の周波数成分の最大値を検出し、検
出した最大値にそのサブバンドの周波数帯域に応じた重
み付けを行う第2の手段と、重み付けを行った各最大値
を用いて各サブバンド毎の前記周波数成分の分散を計算
する第3の手段とを具備することを特徴とするディジタ
ルオーディオ信号圧縮装置。
3. An input digital audio signal is frequency-divided into a plurality of subbands, and psychoacoustic analysis means for performing psychoacoustic analysis processing, and bit allocation of each subband is performed according to the result of the psychoacoustic analysis processing. In a digital audio signal compression apparatus comprising bit allocation means and quantizing means for quantizing and outputting signals of respective subbands according to the bit allocation, the psychoacoustic analysis means frequency-analyzes the input digital audio signal. The first means for converting to frequency components and the maximum value of frequency components for each sub-band are detected and detected.
Third means for calculating the variance of said frequency components of each sub-band by using the second means for performing a maximum value weighted according to the frequency band of the sub-bands out, each maximum value were weighted A digital audio signal compression apparatus comprising:
【請求項4】 前記心理聴覚分析手段は、前記第3の手
段による計算によって得られた分散の値に、予め求めら
れている聴覚感度に対応するデータを演算する第4の手
段をさらに具備することを特徴とする請求項3に記載の
ディジタルオーディオ信号圧縮装置。
4. The psychoacoustic analysis means includes the third hand.
4. The digital audio signal compression apparatus according to claim 3, further comprising fourth means for calculating data corresponding to a previously-obtained auditory sensitivity based on the variance value obtained by the calculation by the step. .
JP2000387351A 2000-12-20 2000-12-20 Digital audio signal compression method and compression apparatus Expired - Fee Related JP3478267B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000387351A JP3478267B2 (en) 2000-12-20 2000-12-20 Digital audio signal compression method and compression apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000387351A JP3478267B2 (en) 2000-12-20 2000-12-20 Digital audio signal compression method and compression apparatus

Publications (2)

Publication Number Publication Date
JP2002189499A JP2002189499A (en) 2002-07-05
JP3478267B2 true JP3478267B2 (en) 2003-12-15

Family

ID=18854301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000387351A Expired - Fee Related JP3478267B2 (en) 2000-12-20 2000-12-20 Digital audio signal compression method and compression apparatus

Country Status (1)

Country Link
JP (1) JP3478267B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN102208188B (en) 2011-07-13 2013-04-17 华为技术有限公司 Audio signal encoding-decoding method and device
CN113450846B (en) * 2020-03-27 2024-01-23 上海汽车集团股份有限公司 Sound pressure level calibration method and device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
守谷健弘,金子孝夫,音声/楽音の情報圧縮符号化の基礎技術,Interface,1998年 8月,p.92−99
山崎芳男,高能率符号化の動向,日本音響学会誌,1991年,47巻12号,p.955−961
杉山昭彦,音響信号の高能率符号化,テレビジョン学会誌,1994年,Vol.48,No.4,p.447−454

Also Published As

Publication number Publication date
JP2002189499A (en) 2002-07-05

Similar Documents

Publication Publication Date Title
Johnston Transform coding of audio signals using perceptual noise criteria
JP3297051B2 (en) Apparatus and method for adaptive bit allocation encoding
KR100269213B1 (en) Method for coding audio signal
JP5539203B2 (en) Improved transform coding of speech and audio signals
US8391212B2 (en) System and method for frequency domain audio post-processing based on perceptual masking
US7146313B2 (en) Techniques for measurement of perceptual audio quality
JP3153933B2 (en) Data encoding device and method and data decoding device and method
US20130044896A1 (en) Virtual Bass Synthesis Using Harmonic Transposition
US20070185706A1 (en) Quality improvement techniques in an audio encoder
JP3765622B2 (en) Audio encoding / decoding system
JPH05304479A (en) High efficient encoder of audio signal
JP2013117734A (en) System and method for providing dynamic sound
US7634400B2 (en) Device and process for use in encoding audio data
EP1228506A1 (en) Method of encoding an audio signal using a quality value for bit allocation
JP2001343997A (en) Method and device for encoding digital acoustic signal and recording medium
JPH0816195A (en) Method and equipment for digital audio coding
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
JP3395001B2 (en) Adaptive encoding method of digital audio signal
JPH0653911A (en) Method and device for encoding voice data
JP3478267B2 (en) Digital audio signal compression method and compression apparatus
US20130085762A1 (en) Audio encoding device
Chanda et al. Speech intelligibility enhancement using tunable equalization filter
JP4024185B2 (en) Digital data encoding device
Gunjal et al. Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance
KR100195712B1 (en) Acoustoptic control apparatus of digital audio decoder

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071003

Year of fee payment: 4

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081003

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101003

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101003

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees