JP3254953B2 - Highly efficient speech coding system - Google Patents

Highly efficient speech coding system

Info

Publication number
JP3254953B2
JP3254953B2 JP05331795A JP5331795A JP3254953B2 JP 3254953 B2 JP3254953 B2 JP 3254953B2 JP 05331795 A JP05331795 A JP 05331795A JP 5331795 A JP5331795 A JP 5331795A JP 3254953 B2 JP3254953 B2 JP 3254953B2
Authority
JP
Japan
Prior art keywords
ratio
audio signal
band
masking
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP05331795A
Other languages
Japanese (ja)
Other versions
JPH08223052A (en
Inventor
徳彦 渕上
昭治 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP05331795A priority Critical patent/JP3254953B2/en
Publication of JPH08223052A publication Critical patent/JPH08223052A/en
Application granted granted Critical
Publication of JP3254953B2 publication Critical patent/JP3254953B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE: To reduce the arithmetic quantity when the offset amount of a masking reference curve is calculated and to improve the sound quality for higher satisfaction of the acoustic psychology. CONSTITUTION: An acoustic psychology analysis part 3 calculates the power spectrum of an audio signal from an orthogonal conversion factor, calculates the auto-correlation of the power spectrum for every band that is previously decided, and then calculates the offset amount of the acoustic psychological masking effect from the ratio between the maximum and minimum auto- correlation value. Based on this offset amount, the quantization bit number is decided for every sub-band of a quantizing/coding means 4. Then a 2nd necessary SN ratio is calculated from the signal power of every sub-band by means of a root-mean-square error minimum theory including the acoustic control, and the final necessary SN ratio is calculated by giving weighting to the 1st and 2nd SN ratios. Based on the final SN ratio, the quantization bit number is decided for every sub-band of the means 4.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、オーディオ信号を複数
の周波数帯域(サブバンド)に分割し、分割された信号
をサブバンド毎に量子化及び符号化する音声高能率符号
化装置に関し、特に聴覚心理分析に基づいてサブバンド
毎の量子化ビット数を決定する音声高能率符号化装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a high-efficiency audio encoding apparatus for dividing an audio signal into a plurality of frequency bands (sub-bands) and quantizing and encoding the divided signals for each sub-band. The present invention relates to a high-efficiency speech coding apparatus that determines the number of quantization bits for each subband based on psychoacoustic analysis.

【0002】[0002]

【従来の技術】ミニディスク(MD)、ディジタルコン
パクトカセット(DCC)、カラオケCD等における音
声高能率符号化は、オーディオ信号のデータ量を圧縮す
るので音楽圧縮とも呼ばれている。このような符号化方
式では、オーディオ信号がデジタルフィルタ又は直交変
換により複数のサブバンドに分割され、周波数領域にお
ける聴覚心理分析に基づいてサブバンド毎の量子化ビッ
ト数が決定される。なお、以下の説明では「エンコー
ド」という用語を符号化の他に圧縮の意味で用いる場合
もある。
2. Description of the Related Art High-efficiency audio encoding in minidiscs (MD), digital compact cassettes (DCC), karaoke CDs, and the like compresses the data amount of audio signals, and is therefore called music compression. In such an encoding method, an audio signal is divided into a plurality of subbands by a digital filter or an orthogonal transform, and the number of quantization bits for each subband is determined based on psychoacoustic analysis in a frequency domain. In the following description, the term “encode” may be used in a sense of compression other than encoding.

【0003】図22の(a)〜(d)はこのような符号
化方式で周波数帯域を直交変換により分割する例を示し
ている。図22の(a)はエンコードの対象となる16
ビットPCMオーディオ信号を512サンプル分切り出
したことを示し、ここでは図の長方形で囲まれる全情報
量が16ビット*512=8192ビットとして説明す
る。もちろん、切り出されるサンプル数やPCMのビッ
ト数はこの値に限定されない。
FIGS. 22A to 22D show an example in which a frequency band is divided by orthogonal transform in such an encoding system. (A) of FIG.
This indicates that the bit PCM audio signal has been cut out by 512 samples. Here, the description will be made on the assumption that the total information amount enclosed by the rectangle in the figure is 16 bits * 512 = 8192 bits. Of course, the number of samples to be cut out and the number of bits of PCM are not limited to this value.

【0004】図22の(b)は図22の(a)に示す信
号をDCT(離散コサイン変換)やFFT(高速フーリ
エ変換)等の直交変換により周波数変換した信号を示
し、図の曲線が周波数スペクトルのエンベロープを示し
ている。ここで、直交変換により情報量が保存されると
仮定すると、この全情報量も図の長方形領域で表現する
ことができる。一方、聴覚心理モデルによれば、図22
の(b)に示す信号が存在したときにその信号によりマ
スキングされて聞こえなくなる信号レベルをカーブとし
て規定することができ、これは一般にマスキング効果
(詳しくは後述)と言われる。
FIG. 22B shows a signal obtained by frequency-transforming the signal shown in FIG. 22A by orthogonal transform such as DCT (discrete cosine transform) or FFT (fast Fourier transform). The spectrum envelope is shown. Here, assuming that the information amount is preserved by the orthogonal transformation, this entire information amount can also be represented by a rectangular area in the figure. On the other hand, according to the psychoacoustic model, FIG.
(B), when there is a signal, the signal level that is masked by the signal and becomes inaudible can be defined as a curve, which is generally called a masking effect (to be described in detail later).

【0005】図22の(b)からマスキングカーブを描
くと図22の(c)に示すように表すことができ、ここ
で、図22の(b)に示す信号を再量子化することを考
慮すると、再量子化により発生する量子化ノイズレベル
がマスキングカーブで規定されるレベル以下であれば、
そのノイズは人間の耳には聞こえないと言うことができ
る。そこで、図22の(d)に示すようにスペクトルを
複数データ毎にサブバンドに分割し、各サブバンド毎の
最大信号レベルをSとし、また、図22の(c)から許
容されるノイズレベルをNとしてこのS/Nを満足する
ビット数で再量子化すれば、そのときの量子化ノイズは
マスキングされて聞こえない。
If a masking curve is drawn from FIG. 22 (b), it can be expressed as shown in FIG. 22 (c). Here, it is considered that the signal shown in FIG. 22 (b) is requantized. Then, if the quantization noise level generated by the requantization is equal to or less than the level defined by the masking curve,
It can be said that the noise is inaudible to human ears. Therefore, as shown in FIG. 22D, the spectrum is divided into sub-bands for each of a plurality of data, the maximum signal level for each sub-band is set to S, and the noise level allowed from FIG. If N is re-quantized with the number of bits satisfying this S / N, the quantization noise at that time is masked and cannot be heard.

【0006】図22の(d)の矩形は圧縮時および伸長
時に必要な情報量を示し、特に図の中央の変形矩形は主
情報を、図の下側の細長い矩形は補助情報を示してい
る。なお、補助情報とはデコード時に必要な各サブバン
ドの最大値(スケール値)と量子化ビット数を示す情報
等である。したがって、図22の(d)において示され
る全情報量は主情報量と補助情報量の和であり、図22
の(a)や図22の(b)における全情報量の数分の1
になることが分かる。以上の処理を所定区間(この例で
は512サンプル区間)毎に繰り返すことにより音質を
殆ど劣化することなくエンコードすることができる。
The rectangles shown in FIG. 22 (d) indicate the amount of information required at the time of compression and decompression. Particularly, the deformed rectangle at the center of the figure shows main information, and the elongated rectangle at the bottom of the figure shows auxiliary information. . The auxiliary information is information indicating the maximum value (scale value) of each subband and the number of quantization bits necessary for decoding. Therefore, the total information amount shown in FIG. 22D is the sum of the main information amount and the auxiliary information amount.
(A) and a fraction of the total information amount in (b) of FIG.
It turns out that it becomes. By repeating the above process for each predetermined section (512 sample section in this example), encoding can be performed with almost no deterioration in sound quality.

【0007】図23は一般的なエンコード処理を示して
いる。先ず、例えば16ビットPCMオーディオ信号が
512サンプル分切り出され、各サンプルのオーディオ
信号がDCTやFFT等により直交変換され、複数のサ
ブバンドsに分割される(ステップS1)。そして、聴
覚心理分析により各サブバンドsの最大値(スケール
値)が決定されるとともに(ステップS2)、各サブバ
ンドの許容ノイズレベルN〔s〕が決定される(ステッ
プS3)。次いで各サブバンドに必要なS/N比が決定
され(ステップS4)、次いでこのS/N比から各サブ
バンドの量子化ビット数が決定され(ステップS5)、
各サブバンドが量子化されて補助情報とともに出力され
る(ステップS6)。
FIG. 23 shows a general encoding process. First, for example, a 16-bit PCM audio signal is cut out for 512 samples, and the audio signal of each sample is orthogonally transformed by DCT, FFT, or the like, and divided into a plurality of subbands s (step S1). Then, the maximum value (scale value) of each subband s is determined by the psychoacoustic analysis (step S2), and the allowable noise level N [s] of each subband is determined (step S3). Next, the required S / N ratio for each subband is determined (step S4), and then the number of quantization bits for each subband is determined from this S / N ratio (step S5).
Each subband is quantized and output together with auxiliary information (step S6).

【0008】次に聴覚心理に基づくマスキングカーブの
計算方法を説明する。マスキング効果とはある周波数ス
ペクトルが存在する場合に、その周辺のある一定レベル
以下の音が検知できなくなることを言う。図24は各種
周波数スペクトルに関するマスキングカーブを示し、こ
のカーブの傾斜は低域ほど急峻であり、高域ほど緩慢で
ある。
Next, a method of calculating a masking curve based on auditory psychology will be described. The masking effect means that when a certain frequency spectrum exists, sounds around a certain level or lower cannot be detected. FIG. 24 shows a masking curve relating to various frequency spectra. The slope of the curve is steeper in a lower frequency range and is gentler in a higher frequency range.

【0009】また、図24の横軸(周波数)を聴覚の臨
界帯域幅に比例したスケールに変換すると、図25に示
すようにこれらのカーブはほぼ同様な形および傾斜のカ
ーブになることが知られている。また、この臨界帯域幅
は図26に示すように、DC〜20kHzを25バンド
で分割して表すことができ、マスキングを始めとする聴
覚特性は、この臨界帯域幅に比例した振る舞いをするこ
とが多い、
When the horizontal axis (frequency) in FIG. 24 is converted into a scale proportional to the critical bandwidth of hearing, these curves have substantially the same shape and slope as shown in FIG. Have been. As shown in FIG. 26, this critical bandwidth can be expressed by dividing DC to 20 kHz into 25 bands, and the auditory characteristics such as masking may behave in proportion to this critical bandwidth. Many,

【0010】さて、図22の(b)に示すような一般的
な信号が存在したときのマスキングカーブは、図24ま
たは図25のように個々の周波数スペクトルに対するマ
スキングカーブの和(重ね合わせ)で表して図22の
(c)に示すような曲線で表すことができるが、実際の
計算では図22の(c)に示すような滑らかな曲線とし
てマスキングカーブを算出すると演算量が膨大となるの
で困難である。そこで、近似としてスペクトルを分析バ
ンド毎のパワーに置き換え、マスキングカーブを分析バ
ンド毎の折れ線波形として評価することが行われる。
A masking curve when a general signal as shown in FIG. 22B is present is a sum (superposition) of masking curves for individual frequency spectra as shown in FIG. 24 or FIG. It can be expressed by a curve as shown in FIG. 22C. However, in the actual calculation, if a masking curve is calculated as a smooth curve as shown in FIG. Have difficulty. Therefore, as an approximation, the spectrum is replaced with the power for each analysis band, and the masking curve is evaluated as a polygonal waveform for each analysis band.

【0011】次に、図22の(d)においてマスキング
カーブの各サブバンド区間における最小値をそのサブバ
ンドにおいて許容されるノイズレベルNとして、マスキ
ングカーブを算出してノイズレベルNを導出する従来例
を図27を参照して説明する。図27においては(1)
〜(5)に示す処理を行い、 (1)先ず、直交変換して得られたq(j=0〜q−
1)本の周波数スペクトルからm個の分析バンドi(i
=0〜m−1)毎のバンドトータルパワーP〔i〕を算
出する。
Next, in FIG. 22D, a conventional example in which a masking curve is calculated and the noise level N is derived by setting the minimum value in each subband section of the masking curve as the noise level N allowed in the subband. Will be described with reference to FIG. In FIG. 27, (1)
(1) First, q (j = 0 to q−
1) m analysis bands i (i
= 0 to m−1) is calculated for each band total power P [i].

【0012】[0012]

【数1】 (Equation 1)

【0013】(2)次に、次式(数2)のように分析バ
ンドiに応じたマスキングの基準カーブBとバンドトー
タルパワーP〔i〕との畳み込み演算を行うことによ
り、各分析バンドiにおけるマスキングレベルM〔i〕
を算出する。ここで、マスキングの基準カーブBは、分
析バンドiによらず一定の形の場合には図28に示すよ
うなB〔k〕(kは整数)で表すことができる。
(2) Next, a convolution operation of the masking reference curve B corresponding to the analysis band i and the band total power P [i] is performed as shown in the following equation (Equation 2) to obtain each analysis band i. Masking level M [i] in
Is calculated. Here, the masking reference curve B can be represented by B [k] (k is an integer) as shown in FIG. 28 in the case of a constant shape regardless of the analysis band i.

【0014】[0014]

【数2】 (Equation 2)

【0015】(3)−1:次に、分析バンドiとサブバ
ンドsが異なる場合にはサブバンドsの区間における最
小のマスキングレベルM〔i〕をそのサブバンドsの許
容ノイズレベルN〔s〕とする(サブバンド数nとす
る)。
(3) -1: Next, when the analysis band i is different from the sub-band s, the minimum masking level M [i] in the section of the sub-band s is changed to the allowable noise level N [s (The number of subbands is n).

【0016】[0016]

【数3】N〔s〕=min 〔M〔i〕〕N [s] = min [M [i]]

【0017】但し、iはサブバンドs〔S〕の中に含ま
れる各バンドを示し、また、s=0〜n−1とする。
Here, i indicates each band included in the sub-band s [S], and s = 0 to n-1.

【0018】(3)−2:分析バンドiとサブバンドs
が同一の場合には
(3) -2: analysis band i and sub-band s
Are the same

【0019】[0019]

【数4】N〔s〕=M〔s〕 但し、s=0・・・n−1N [s] = M [s] where s = 0... N-1

【0020】(4)各サブバンドsの信号レベルS
〔s〕を求める。
(4) Signal level S of each subband s
[S] is obtained.

【0021】[0021]

【数5】 (Equation 5)

【0022】(5)信号レベルS〔s〕と許容ノイズレ
ベルN〔s〕により各サブバンドsの必要S/N比(S
Nreq〔s〕)を求める(平均S/N比)。
(5) The required S / N ratio (S) of each subband s is determined based on the signal level S [s] and the allowable noise level N [s].
Nreq [s]) (average S / N ratio).

【0023】[0023]

【数6】SNreq〔s〕=10.0・log 10(S
〔s〕/N〔s〕)
## EQU6 ## SNreq [s] = 10.0 · log 10 (S
[S] / N [s])

【0024】以上の処理(1)〜(3)により各サブバ
ンドsの許容ノイズレベルN〔s〕が求まり、また、処
理(4)(5)により各サブバンドsの必要S/N比が
求まり、この必要S/N比に基づいて各サブバンドsの
量子化ビット数(及び逆量子化ビット数)が求まる。
The permissible noise level N [s] of each subband s is obtained by the above processes (1) to (3), and the required S / N ratio of each subband s is obtained by the processes (4) and (5). The number of quantization bits (and the number of inverse quantization bits) of each subband s is determined based on the required S / N ratio.

【0025】ここで、このような一連の処理において重
要な役割を果たすのが、図28において説明したマスキ
ング基準カーブB〔k〕の設定である。一般に、マスキ
ング効果はマスクする側の信号とマスクされる側の信号
の性質により振る舞いが異なると言われ、具体的には図
28に示すようにピーク値と「0.0」の差である「オ
フセット量F」が信号の性質の影響を受ける。
Here, the setting of the masking reference curve B [k] explained in FIG. 28 plays an important role in such a series of processing. Generally, it is said that the masking effect behaves differently depending on the properties of the signal on the masking side and the signal on the masking side, and specifically, as shown in FIG. 28, the difference between the peak value and “0.0”. The offset F "is affected by the nature of the signal.

【0026】高能率符号化法では、マスクされる側の信
号は「ノイズ」であるので、マスクする側の信号が何か
によってオフセット量Fが変化する。実験によれば、マ
スクする側の信号が「正弦波」の場合にF≒25dB、
「ノイズ」の場合にF≒5dBであると報告されてい
る。高能率符号化に入力する実際の音楽・音声信号に
は、これらの値を上限、下限とするオフセット量Fが存
在し、このオフセット量Fを適切に測定して聴覚心理分
析に用いることが高音質を実現するために必要であると
言うことができる。
In the high-efficiency encoding method, since the signal on the masked side is "noise", the offset amount F changes depending on the signal on the masked side. According to experiments, when the signal on the masking side is a “sine wave”, F ≒ 25 dB,
It is reported that F ≒ 5 dB in the case of “noise”. Actual music / speech signals input to the high-efficiency coding have an offset amount F with these values as upper and lower limits, and it is often necessary to appropriately measure this offset amount F and use it for psychoacoustic analysis. It can be said that it is necessary to achieve sound quality.

【0027】また、オフセット量Fは処理の各区間毎
に、各周波数帯域毎に測定することが望ましい。オフセ
ット量Fを測定する従来の方法としては、トナリティ
(tonality)を求めるのが一般的である。トナリティと
は信号の純音度を表す指標であり、1.0(正弦波)〜
0.0(ノイズ)の範囲の値をとる。このトナリティは
図29に示すように3つの連続する区間のそれぞれのF
FTスペクトルA、B、Cの直線予測から計算される。
なお、区間の間は隙間があってもよいし、重なる部分が
あってもよい。また、qポイントのスペクトルを得るた
めには2qポイントのFFTスペクトルが必要になる。
It is desirable that the offset amount F be measured for each section of the processing and for each frequency band. As a conventional method of measuring the offset amount F, it is general to determine tonality. Tonality is an index indicating the purity of a signal, and is 1.0 (sine wave) to
It takes a value in the range of 0.0 (noise). This tonality is represented by the F
It is calculated from the linear prediction of the FT spectra A, B, C.
Note that there may be a gap between the sections, or there may be overlapping portions. To obtain a q-point spectrum, a 2q-point FFT spectrum is required.

【0028】図30はトナリティを求めてオフセット量
Fを算出する従来の方法を示し、〜の処理を行う。 3つの区間のFFT係数の振幅R1 〔j〕、R2
〔j〕、R3 〔j〕(j=0〜q−1)と位相Φ1
〔j〕、Φ2 〔j〕、Φ3 〔j〕を求める。ここで、一
般的には(R3 ,Φ3 )が現区間のスペクトルであり、
また、(R2 ,Φ2 )が前区間のスペクトル、(R1
Φ1 )が2つ前の区間のスペクトルとすることが多い。
なお、振幅R〔j〕と位相Φ〔j〕はFFT係数の実数
部(Real〔j〕)と虚数部(Imag〔j〕)から以下のよ
うに求める。
FIG. 30 shows a conventional method for calculating the offset amount F by obtaining the tonality. The amplitudes R 1 [j] and R 2 of the FFT coefficients of the three sections
[J], R 3 [j] (j = 0 to q−1) and phase Φ 1
[J], Φ 2 [j], Φ 3 [j] are obtained. Here, generally, (R 3 , Φ 3 ) is the spectrum of the current section,
Also, (R 2 , Φ 2 ) is the spectrum of the previous section, and (R 1 , Φ 2 )
In many cases, Φ 1 ) is the spectrum of the previous section.
The amplitude R [j] and the phase Φ [j] are obtained from the real part (Real [j]) and the imaginary part (Imag [j]) of the FFT coefficient as follows.

【0029】[0029]

【数7】 (Equation 7)

【0030】R1 、R2 、Φ1 、Φ2 から予測される
3番目の区間のスペクトルRX 〔j〕、ΦX 〔j〕を直
線予測により次のように求める。
The spectra R X [j] and φ X [j] of the third section predicted from R 1 , R 2 , Φ 1 , and Φ 2 are obtained by linear prediction as follows.

【0031】[0031]

【数8】RX 〔j〕=2・R2 〔j〕−R1 〔j〕 ΦX 〔j〕=2・Φ2 〔j〕−Φ1 〔j〕R X [j] = 2 · R 2 [j] −R 1 [j] Φ X [j] = 2 · Φ 2 [j] −Φ 1 [j]

【0032】(R,Φ)平面上における予測値(R
X ,ΦX )と実測値(R3 ,Φ3 )との距離c〔j〕を
評価する。なお、この距離は予測不能度(unpredictabi
lity)よ呼ばれる。
The predicted value (R) on the (R, Φ) plane
X , Φ X ) and the distance c [j] between the actually measured value (R 3 , Φ 3 ) are evaluated. This distance is unpredictable (unpredictabi
lity).

【0033】[0033]

【数9】 (Equation 9)

【0034】予測不能度c〔j〕を分析バンドi毎に
パワースペクトルで重み付け、平均化し、予測不能度c
2〔i〕を得る。
The unpredictability c [j] is weighted by the power spectrum for each analysis band i, averaged, and the unpredictability c
2 [i] is obtained.

【0035】[0035]

【数10】 (Equation 10)

【0036】重み付け処理後の予測不能度c2〔i〕
をトナリティt〔i〕に変換する。
Unpredictability c2 [i] after weighting processing
To the tonality t [i].

【0037】[0037]

【数11】t〔i〕=a+b・ln(c2〔i〕)## EQU11 ## t [i] = a + b.ln (c2 [i])

【0038】但し、a、bは0.0≦t〔i〕≦1.0
となるように決定する定数。 トナリティt〔i〕からオフセット量F〔i〕を算出
する。
However, a and b are 0.0 ≦ t [i] ≦ 1.0
A constant that is determined to be The offset amount F [i] is calculated from the tonality t [i].

【0039】[0039]

【数12】F〔i〕=α・t〔i〕+β・{1.0−t
〔i〕} 〔dB〕 但し、α=25.0,β=5.0等の定数。
F [i] = α · t [i] + β · {1.0−t
[I]} [dB] where α = 25.0, β = 5.0, etc.

【0040】[0040]

【発明が解決しようとする課題】しかしながら、トナリ
ティt〔i〕を算出する方法は、以下のような問題点が
ある。 問題点(1) 演算量が多い。図30に示す処理では、平方根やアー
クタンジェントの計算をサンプル毎に行うのでその演算
量がかなり多くなる。また、処理 3における距離演算の
場合にも平方根を用いる。
However, the method of calculating the tonality t [i] has the following problems. Problem (1) The amount of calculation is large. In the processing shown in FIG. 30, since the calculation of the square root and the arc tangent is performed for each sample, the calculation amount is considerably large. The square root is also used in the distance calculation in the process 3.

【0041】ここで、システムをDSP(デジタルシグ
ナルプロセッサ)等で実現する場合、一般の積和演算を
1インストラクションで行うとすると関数演算は100
インストラクション以上と考えられる。処理 、で
は平方根を2回、アークタンジェントを1回の演算をq
=512(1024ポイントFFT)のサンプル毎に行
うので、少なくとも100・512・3=153600
回の演算量を消費することになる。
Here, when the system is realized by a DSP (Digital Signal Processor) or the like, if a general product-sum operation is performed by one instruction, the function operation becomes 100
It is considered more than instruction. In processing, the square root is calculated twice and the arc tangent is calculated once.
= 512 (1024 point FFT), so at least 100 · 512 · 3 = 153600
This consumes the number of operations.

【0042】例えばDSPの能力が20MIPS(Mill
ion Instruction Per Second)とすると、1区間当たり
の演算量はサンプル周波数fs =44.1kHzのと
き、20・106 ・512/44100.0≒2322
00回であるので、このDSPでは約66%もの演算量
を消費することになる。
For example, if the DSP has a capacity of 20 MIPS (Mill
If the sample frequency fs = 44.1 kHz, the calculation amount per section is 20 · 10 6 · 512 / 44100.0 ≒ 2322
Since it is 00 times, this DSP consumes about 66% of the calculation amount.

【0043】また、高能率符号化方式の中には、直交変
換としてFFTの代わりにM(Modified)DCT等のよ
うに変換係数が振幅、位相として表現できないものを用
いる場合がある。この場合には、トナリティ計算を行う
ために別途にFFT演算を行う必要があり、その分だけ
演算量が増加する。
In some high-efficiency coding systems, orthogonal transforms that use transform coefficients that cannot be expressed as amplitude and phase, such as M (Modified) DCT, may be used instead of FFT. In this case, it is necessary to perform an FFT operation separately in order to perform the tonality calculation, and the amount of operation increases accordingly.

【0044】問題点(2) 音声信号にビブラートがかかっている場合にトナリティ
計算そのものに問題がある。例えば入力信号がボーカル
や単一楽器であってビブラートがかかっている場合、図
31に示すようにそのスペクトルは時間と共に数Hz〜
十数Hzの周期でドリフトしている。また、例えば区間
長=512サンプルであって区間が密接している場合、
3区間における中心の移動量は1024サンプル→23
msec となり、10Hzのビブラートの1/4周期(2
5msec )とほぼ一致する。
Problem (2) There is a problem in the tonality calculation itself when the audio signal is vibrato. For example, when the input signal is a vocal or a single instrument and vibrato is applied, as shown in FIG.
It drifts at a period of about 10 Hz. For example, when the section length is 512 samples and the sections are close,
The movement amount of the center in three sections is 1024 samples → 23
msec, which is a 1/4 cycle of vibrato of 10 Hz (2
5 msec).

【0045】したがって、従来のトナリティ計算では各
スペクトル毎に直線予測を行うのでビブラートにより予
測精度が悪化し、本来、聴感上はトナリティが高い信号
であるにもかかわらず、算出されるトナリティが非常に
低くなり、聴感からずれた測定になるという問題点があ
る。
Therefore, in the conventional tonality calculation, since the linear prediction is performed for each spectrum, the prediction accuracy is deteriorated by vibrato, and the calculated tonality is extremely high even though the signal is originally a signal with high tonality in terms of hearing. There is a problem that the measurement becomes lower and the measurement is deviated from the hearing.

【0046】問題点(3) 図27に示す処理(1)〜(5)の如く聴覚心理分析に
基づく必要S/N比(SNreq〔s〕)の計算は、一般
的には良好な結果をもたらすが、データの圧縮率が高
く、各サブバンドsの量子化・逆量子化後のS/N比が
必要S/N比を下回る場合には問題が生じる。すなわ
ち、従来の方法では、聴覚心理分析による必要S/N比
が満足されない場合、全サブバンドsのS/N比が平均
的に劣化する。S/N比が劣化するとその量に応じて徐
々にノイズが検知されるようになり、そのとき信号パワ
ーの大きなバンドの劣化ほど聴感上目立つ傾向にある。
したがって、従来の方法では、S/N比の劣化が検知で
きる状況では、音質的に最適とは言えなくなる。
Problem (3) The calculation of the required S / N ratio (SNreq [s]) based on the psychoacoustic analysis as in the processing (1) to (5) shown in FIG. However, if the data compression ratio is high and the S / N ratio of each subband s after quantization / inverse quantization is lower than the required S / N ratio, a problem occurs. That is, in the conventional method, if the required S / N ratio by the psychoacoustic analysis is not satisfied, the S / N ratio of all subbands s is deteriorated on average. When the S / N ratio is deteriorated, noise is gradually detected in accordance with the amount, and at this time, the deterioration of a band having a large signal power tends to be more audible.
Therefore, the conventional method cannot be said to be optimal in sound quality in a situation where deterioration of the S / N ratio can be detected.

【0047】ここで、上記問題点を軽減するために、従
来の方法では、必要S/N比が満足されない場合にはパ
ワーが小さなバンドの情報を削減し、より大きなバンド
に情報を割り当てる手法がとられる。しかしながら、こ
の手法では、例えば1バンド、1ビット分の情報を移動
する場合、移動元のS/N比は約6dB劣化し、移動先
のS/N比は約6dB向上するという極端なことにな
る。また、バンドパワーそのものによって補正を行うの
で、パワーの大きなバンド(例えば中低域)が重視され
過ぎるという新たな問題点が発生する。
Here, in order to alleviate the above-mentioned problems, in the conventional method, when the required S / N ratio is not satisfied, information in a band with a small power is reduced and information is allocated to a larger band. Be taken. However, in this method, when information of one band and one bit is moved, for example, the S / N ratio of the movement source is deteriorated by about 6 dB, and the S / N ratio of the movement destination is improved by about 6 dB. Become. In addition, since the correction is performed using the band power itself, a new problem occurs in that a band having a large power (for example, a middle and low frequency range) is given too much importance.

【0048】問題点(4) ところで、以上の説明では独立したオーディオ信号を高
能率符号化することを考えているが、他の用途として、
また、システムによっては高能率符号化した信号と高能
率符号化しない信号を伝送し、再生側でこれらの信号を
ミキシングして1つのオーディオ信号として再生等する
ことが考えられる。
Problem (4) By the way, in the above description, it is considered that an independent audio signal is coded with high efficiency.
Further, depending on the system, it is conceivable to transmit a high-efficiency coded signal and a signal without high-efficiency coding, mix these signals on the reproducing side, and reproduce them as one audio signal.

【0049】最も単純な例としては、例えば図32に示
すようにチャネル(CH)−Aのオーディオ信号をオー
ディオエンコーダ20により高能率符号化し、CH−B
のオーディオ信号を高能率符号化しないでマルチプレッ
クス部21により多重化して伝送する。そして、再生側
ではデマルチプレックス部22によりチャネルを分離
し、オーディオデコーダ23によりデコードした信号C
H−A’とCH−Bのオーディオ信号をミキサ24によ
りミキシングする。
As the simplest example, for example, as shown in FIG. 32, the audio signal of channel (CH) -A is encoded by the audio encoder 20 with high efficiency, and
Are multiplexed by the multiplex unit 21 and transmitted without high efficiency coding. On the reproduction side, the channel is separated by the demultiplex unit 22 and the signal C decoded by the audio decoder 23 is output.
The audio signals of HA ′ and CH−B are mixed by the mixer 24.

【0050】また、他の例として図33の(a)に示す
ようにCH−Aのオーディオ信号を高能率符号化すると
共に、電子楽器をコントロールするデジタル信号の国際
規格であるMIDI(Musical Instrument Digital Int
erface)シーケンサ25によりCH−Bのオーディオ信
号をMIDIコード化し、マルチプレックス部21によ
り多重化して伝送する。そして、再生側ではデマルチプ
レックス部22によりチャネルを分離し、オーディオデ
コーダ23によりデコードした信号CH−A’とMID
Iコードに基づいてMIDI音源26により演奏された
信号CH−B’をミキサ24によりミキシングする。
As another example, as shown in FIG. 33A, a CH-A audio signal is encoded with high efficiency, and MIDI (Musical Instrument Digital) which is an international standard of a digital signal for controlling an electronic musical instrument is used. Int
(Erface) The CH-B audio signal is converted into MIDI code by the sequencer 25 and multiplexed by the multiplex unit 21 for transmission. Then, on the reproduction side, the channel is separated by the demultiplex unit 22 and the signal CH-A ′ decoded by the audio decoder 23 and the MID
The signal CH-B ′ played by the MIDI sound source 26 is mixed by the mixer 24 based on the I code.

【0051】この変形例としては図33の(b)に示す
ようにCH−Aのオーディオ信号を高能率符号化すると
共に、CH−B1、CH−B2の2チャネルをMIDI
コード化し、再生側で信号CH−A’とMIDIコード
から演奏された2チャネルのCH−B1’、CH−B
2’をそれぞれミキサ24−1、24−2によりミキシ
ングして2チャネルで出力する。この中でも図33の
(b)に示すシステムは近年、MIDIコードを用いた
通信カラオケに用いられ、高能率符号化する信号は肉声
コーラスなどが多い。
As a modification, as shown in FIG. 33 (b), a CH-A audio signal is encoded with high efficiency, and two channels of CH-B1 and CH-B2 are MIDI-coded.
The two channels CH-B1 'and CH-B are coded and reproduced on the reproduction side from the signal CH-A' and the MIDI code.
2 ′ are mixed by mixers 24-1 and 24-2, respectively, and output on two channels. Among them, the system shown in FIG. 33B has recently been used for communication karaoke using a MIDI code, and the signal to be efficiently encoded is often a real voice chorus.

【0052】しかしながら、高能率符号化するCH−A
のオーディオ信号は、オーディオエンコーダ10のみに
よる聴覚心理分析でビット割り当てを行っているので、
再生側でミキシングされる側のCH−Bの影響を考えて
いない。すなわち、再生側でミキシングを行った場合、
CH−Aのオーディオ信号がCH−Bの信号からのマス
キング効果による影響を受けることになり、したがっ
て、CH−Aのオーディオ信号のみを聞く場合には最適
にエンコードされるが、他の信号をミキシングした場合
には音質的に最適とは言えなくなる。
However, CH-A for high efficiency coding
Is assigned a bit by psychoacoustic analysis using only the audio encoder 10,
The effect of CH-B on the mixing side on the reproduction side is not considered. In other words, when mixing is performed on the playback side,
The CH-A audio signal will be affected by the masking effect from the CH-B signal, and thus will be optimally encoded when listening to only the CH-A audio signal, but will mix other signals. If so, the sound quality is not optimal.

【0053】図34はCH−Aの信号スペクトルと、C
H−Aを聴覚心理分析したマスキングレベルM1
〔i〕、及びミキシングの対象となる他のチャネルから
のマスキングレベルM2〔i〕の一例を示し、低域と高
域ではM1<M2であり、中域ではM1>M2である。
この場合、ミキシング後のCH−Aの信号にとって最適
なマスキングレベルM〔i〕は図27に示す処理(3)
において
FIG. 34 shows the signal spectrum of CH-A and C
Masking level M1 obtained by psychological analysis of HA
[I] and an example of a masking level M2 [i] from another channel to be mixed, where M1 <M2 in the low band and the high band, and M1> M2 in the middle band.
In this case, the optimum masking level M [i] for the CH-A signal after mixing is determined by processing (3) shown in FIG.
At

【0054】[0054]

【数13】 M〔i〕=max (M1〔i〕,M2〔i〕) 但し、i=0〜m−1M [i] = max (M1 [i], M2 [i]) where i = 0 to m−1

【0055】と考えられる。図32、図33の(a)
(b)に示すようにミキシングを行う場合にはマスキン
グレベルがこの最適値M〔i〕からずれていることにな
り、聴感上最適とは言えないという問題点がある。特に
実際のノイズレベルがマスキングレベルと同等か又はそ
れ以上になるような圧縮率が高い場合には、聴感上にお
いても図34においてM1〔i〕>M2〔i〕となるよ
うな領域ではノイズが強調されて聞こえるという現象が
発生する。
It is considered that: (A) of FIGS. 32 and 33
As shown in (b), when mixing is performed, the masking level deviates from this optimum value M [i], and there is a problem in that the masking level is not optimal in terms of hearing. In particular, when the compression ratio is high such that the actual noise level is equal to or higher than the masking level, noise is also reduced in the region where M1 [i]> M2 [i] in FIG. A phenomenon that sounds emphasized occurs.

【0056】本発明は上記(1)(2)の問題点に鑑
み、マスキング基準カーブのオフセット量を演算する際
の演算量を減少し、聴覚心理をより満足させて音質を向
上させることができる音声高能率符号化装置を提供する
ことを目的とする。本発明はまた、上記(3)の問題点
に鑑み、データの圧縮率が高く、聴覚心理分析による必
要S/N比が満足されない場合に音質を向上させること
ができる音声高能率符号化装置を提供することを目的と
する。本発明はまた、上記(4)の問題点に鑑み、高能
率符号化した信号と高能率符号化しない信号を再生側で
ミキシングする場合に高能率符号化しない信号による影
響を考慮して聴覚心理分析を行って聴覚心理をより満足
させて音質を向上させることができる音声高能率符号化
装置を提供することを目的とする。
In view of the above-mentioned problems (1) and (2), the present invention can reduce the amount of calculation when calculating the offset amount of the masking reference curve, and can improve the sound quality by further satisfying the psychological sense of hearing. It is an object of the present invention to provide a high-efficiency audio coding device. In view of the above-mentioned problem (3), the present invention also provides a high-efficiency audio coding apparatus capable of improving the sound quality when the data compression ratio is high and the required S / N ratio by psychoacoustic analysis is not satisfied. The purpose is to provide. In view of the above-mentioned problem (4), the present invention also provides a psychoacoustic system that takes into account the influence of a signal that is not efficiently coded when mixing a signal that has been efficiently coded and a signal that is not to be highly efficient. It is an object of the present invention to provide a high-efficiency speech coding apparatus capable of performing analysis to more satisfy psychoacoustics and improve sound quality.

【0057】[0057]

【課題を解決するための手段】本発明は上記目的を達成
するために、直交変換係数からオーディオ信号のパワー
スペクトルを算出してこのパワースペクトルの自己相関
を予め定めた帯域毎に算出し、この自己相関の最大値と
最小値の比から聴覚心理上のマスキング効果のオフセッ
ト量を算出し、このオフセット量に基づいて各サブバン
ドの量子化ビット数を決定するようにしている。
In order to achieve the above object, the present invention calculates a power spectrum of an audio signal from orthogonal transform coefficients and calculates an autocorrelation of the power spectrum for each predetermined band. An offset amount of the masking effect on psychoacoustics is calculated from a ratio between the maximum value and the minimum value of the autocorrelation, and the number of quantization bits of each subband is determined based on the offset amount.

【0058】すなわち本発明によれば、オーディオ信号
を複数の周波数帯域のサブバンドに分割する分割手段
と、前記分割手段により分割された各サブバンドのオー
ディオ信号を可変の量子化ビット数で量子化及び符号化
する量子化・符号化手段と、前記分割手段又は別途の直
交変換手段により得られた直交変換係数からオーディオ
信号のパワースペクトルを算出してこのパワースペクト
ルの自己相関を予め定めた帯域毎に算出し、この自己相
関の最大値と最小値の比から聴覚心理上のマスキング効
果のオフセット量を算出し、このオフセット量に基づい
て前記量子化・符号化手段の各サブバンドの量子化ビッ
ト数を決定する聴覚心理分析手段とを有する音声高能率
符号化装置が提供される。
That is, according to the present invention, the dividing means for dividing the audio signal into sub-bands of a plurality of frequency bands, and the audio signal of each sub-band divided by the dividing means is quantized with a variable number of quantization bits. And a quantizing / encoding means for encoding, and a power spectrum of the audio signal calculated from the orthogonal transform coefficient obtained by the dividing means or the separate orthogonal transform means, and the autocorrelation of the power spectrum is determined for each predetermined band. The offset amount of the masking effect on psychoacoustics is calculated from the ratio of the maximum value and the minimum value of the autocorrelation, and the quantization bit of each subband of the quantization / encoding means is calculated based on the offset amount. A high-efficiency speech coding device having a psychoacoustic analysis means for determining the number is provided.

【0059】本発明はまた、オーディオ信号の周波数領
域の聴覚心理分析に基づいてサブバンド毎の第1の必要
S/N比を算出すると共にサブバンド毎の信号パワーか
ら聴覚的制御を含む二乗平均誤差最小理論により第2の
必要S/N比を算出し、第1、第2の必要S/N比を重
み付けして最終の必要S/N比を算出し、この最終の必
要S/N比に基づいて各サブバンドの量子化ビット数を
決定するようにしている。
The present invention also calculates a first required S / N ratio for each subband based on psychoacoustic analysis of the frequency domain of the audio signal, and includes a root-mean-square method including auditory control from the signal power for each subband. The second required S / N ratio is calculated by the minimum error theory, the first and second required S / N ratios are weighted to calculate the final required S / N ratio, and this final required S / N ratio is calculated. , The number of quantization bits of each subband is determined.

【0060】すなわち本発明によれば、オーディオ信号
を複数の周波数帯域のサブバンドに分割する分割手段
と、前記分割手段により分割された各サブバンドのオー
ディオ信号を可変の量子化ビット数で量子化及び符号化
する量子化・符号化手段と、オーディオ信号の周波数領
域の聴覚心理分析に基づいてサブバンド毎の第1の必要
S/N比を算出すると共にサブバンド毎の信号パワーか
ら聴覚的制御を含む二乗平均誤差最小理論により第2の
必要S/N比を算出し、前記第1、第2の必要S/N比
を重み付けして最終の必要S/N比を算出し、この最終
の必要S/N比に基づいて前記量子化・符号化手段の各
サブバンドの量子化ビット数を決定する聴覚心理分析手
段とを有する音声高能率符号化装置が提供される。
That is, according to the present invention, the dividing means for dividing the audio signal into sub-bands of a plurality of frequency bands, and the audio signal of each sub-band divided by the dividing means is quantized with a variable number of quantization bits. And a quantization / encoding means for encoding, and a first required S / N ratio for each subband based on psychoacoustic analysis of a frequency domain of the audio signal, and auditory control based on signal power for each subband. The second required S / N ratio is calculated according to the root mean square error theory including the following, and the first and second required S / N ratios are weighted to calculate the final required S / N ratio. A high-efficiency speech coding apparatus is provided which includes psychoacoustic analysis means for determining the number of quantization bits of each subband of the quantization / coding means based on a required S / N ratio.

【0061】本発明はまた、高能率符号化する第1のオ
ーディオ信号と、高能率符号化されず再生側で第1のオ
ーディオ信号とミキシングされる第2のオーディオ信号
をそれぞれ周波数領域で聴覚心理分析して第1、第2の
マスキングレベルを算出し、この第1、第2のマスキン
グレベルに基づいて最終のマスキングレベルを算出し、
この最終のマスキングレベルに基づいて各サブバンドの
量子化ビット数を決定するようにしている。
The present invention also relates to a psychoacoustic system in which a first audio signal to be encoded with high efficiency and a second audio signal which is not encoded with high efficiency and mixed with the first audio signal on the reproduction side are respectively in the frequency domain. Analyzing to calculate first and second masking levels, calculating a final masking level based on the first and second masking levels,
The number of quantization bits of each subband is determined based on the final masking level.

【0062】すなわち本発明によれば、高能率符号化す
る第1のオーディオ信号を複数の周波数帯域のサブバン
ドに分割する分割手段と、前記分割手段により分割され
た各サブバンドのオーディオ信号を可変の量子化ビット
数で量子化及び符号化する量子化・符号化手段と、前記
第1のオーディオ信号と、高能率符号化されず再生側で
前記第1のオーディオ信号とミキシングされる第2のオ
ーディオ信号をそれぞれ周波数領域で聴覚心理分析して
第1、第2のマスキングレベルを算出し、この第1、第
2のマスキングレベルに基づいて最終のマスキングレベ
ルを算出し、この最終のマスキングレベルに基づいて前
記量子化・符号化手段の各サブバンドの量子化ビット数
を決定する聴覚心理分析手段とを有する音声高能率符号
化装置が提供される。
That is, according to the present invention, the dividing means for dividing the first audio signal to be encoded with high efficiency into sub-bands of a plurality of frequency bands, and the audio signal of each sub-band divided by the dividing means is variable. Quantization / encoding means for quantizing and encoding with the number of quantization bits, the first audio signal, and a second audio signal which is mixed with the first audio signal on the reproduction side without being encoded with high efficiency. Each of the audio signals is subjected to psychoacoustic analysis in the frequency domain to calculate first and second masking levels. A final masking level is calculated based on the first and second masking levels. And a psychoacoustic analysis means for determining the number of quantization bits of each subband of the quantization / coding means based on the speech / voice efficiency coding apparatus. .

【0063】[0063]

【作用】本発明では、直交変換係数からオーディオ信号
のパワースペクトルを算出してこのパワースペクトルの
自己相関を予め定めた帯域毎に算出し、この自己相関の
最大値と最小値の比から聴覚心理上のマスキング効果の
オフセット量を算出し、このオフセット量に基づいて各
サブバンドの量子化ビット数を決定するので、マスキン
グ基準カーブのオフセット量を演算する際の演算量を減
少し、また、オーディオ信号にビブラートがかかってい
る場合にも聴覚心理をより満足させて音質を向上させる
ことができる。
In the present invention, the power spectrum of the audio signal is calculated from the orthogonal transform coefficients, the autocorrelation of the power spectrum is calculated for each predetermined band, and the psychoacoustic is calculated from the ratio of the maximum value and the minimum value of the autocorrelation. Since the offset amount of the above masking effect is calculated, and the number of quantization bits of each subband is determined based on the offset amount, the amount of calculation when calculating the offset amount of the masking reference curve is reduced, and Even when vibrato is applied to the signal, the auditory psychology can be further satisfied and the sound quality can be improved.

【0064】また、本発明では、オーディオ信号の周波
数領域の聴覚心理分析に基づいてサブバンド毎の第1の
必要S/N比を算出すると共にサブバンド毎の信号パワ
ーから聴覚的制御を含む二乗平均誤差最小理論により第
2の必要S/N比を算出し、第1、第2の必要S/N比
を重み付けして最終の必要S/N比を算出し、この最終
の必要S/N比に基づいて各サブバンドの量子化ビット
数を決定するので、データの圧縮率が高く、聴覚心理分
析による必要S/N比が満足されない場合に音質を向上
させることができる。
Further, in the present invention, the first necessary S / N ratio for each subband is calculated based on the psychoacoustic analysis of the frequency domain of the audio signal, and the square including the auditory control is calculated from the signal power for each subband. The second required S / N ratio is calculated by the average error minimum theory, the first and second required S / N ratios are weighted to calculate the final required S / N ratio, and the final required S / N ratio is calculated. Since the number of quantization bits of each subband is determined based on the ratio, the data compression ratio is high, and the sound quality can be improved when the required S / N ratio by psychoacoustic analysis is not satisfied.

【0065】また、本発明では、高能率符号化する第1
のオーディオ信号と、高能率符号化されず再生側で第1
のオーディオ信号とミキシングされる第2のオーディオ
信号をそれぞれ周波数領域で聴覚心理分析して第1、第
2のマスキングレベルを算出し、この第1、第2のマス
キングレベルに基づいて最終のマスキングレベルを算出
し、この最終のマスキングレベルに基づいて各サブバン
ドの量子化ビット数を決定するので、高能率符号化した
信号と高能率符号化しない信号を再生側でミキシングす
る場合に高能率符号化しない信号による影響を考慮して
聴覚心理分析を行って聴覚心理をより満足させて音質を
向上させることができる。
Further, according to the present invention, the first efficient coding is performed.
Audio signal and the first signal on the playback side without high efficiency encoding
The audio signal and the second audio signal to be mixed are each subjected to psychoacoustic analysis in the frequency domain to calculate first and second masking levels, and based on the first and second masking levels, a final masking level is calculated. Is calculated, and the number of quantization bits of each subband is determined based on the final masking level. Therefore, when the high-efficiency coded signal and the non-high-efficiency coded signal are mixed on the reproduction side, high-efficiency coding is performed. The psychoacoustic analysis is performed in consideration of the influence of the no-signal, so that the psychoacoustic can be more satisfied and the sound quality can be improved.

【0066】[0066]

【実施例】以下、図面を参照して本発明の実施例につい
て説明する。図1は本発明に係る音声高能率符号化装置
の第1実施例を示すブロック図、図2は図1の変形例を
示すブロック図、図3は図1の他の変形例を示すブロッ
ク図、図4は前後のサブバンドとのパワースペクトルの
自己相関を算出する場合を示す説明図、図5はオフセッ
ト量を算出する処理を説明するためのフローチャート、
図6はビブラートが存在するオーディオ信号のスペクト
ルの一例を示す説明図、図7は従来技術のトナリティ算
出方法と第1実施例の自己相関方法により求めたオフセ
ット量を比較した説明図である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a high-efficiency audio coding apparatus according to the present invention, FIG. 2 is a block diagram showing a modification of FIG. 1, and FIG. 3 is a block diagram showing another modification of FIG. FIG. 4 is an explanatory diagram showing a case of calculating the autocorrelation of the power spectrum with the preceding and following subbands, and FIG. 5 is a flowchart for explaining a process of calculating the offset amount.
FIG. 6 is an explanatory diagram showing an example of a spectrum of an audio signal in which vibrato exists, and FIG. 7 is an explanatory diagram comparing an offset amount obtained by a conventional tonality calculation method and an autocorrelation method of the first embodiment.

【0067】図1に示す第1実施例はオーディオ信号の
帯域分割を直交変換により行う場合を示している。図1
において、例えば16ビットPCMオーディオ信号が窓
掛け・切出し部1により512サンプル分切り出され、
各サンプルのオーディオ信号が直交変換部2によりDC
TやFFT等により直交変換され、複数のサブバンドs
に分割される。
The first embodiment shown in FIG. 1 shows a case where the band division of an audio signal is performed by orthogonal transformation. FIG.
In, for example, a 16-bit PCM audio signal is cut out by the windowing / cutout unit 1 for 512 samples,
The audio signal of each sample is converted into a DC signal by the orthogonal transform unit 2.
Orthogonal transform by T, FFT, etc., and a plurality of subbands s
Is divided into

【0068】そして、聴覚心理分析部3によりマスキン
グ基準カーブのオフセット量Fが算出されて量子化ビッ
ト数が決定され、量子化・符号化部4はこの量子化ビッ
ト数で、直交変換部2により分割された各サブバンドs
のオーディオ信号を量子化及び符号化する。この量子化
・符号化部4により量子化および符号化されて圧縮され
たデータと、聴覚心理分析部3により決定された量子化
ビット数はマルチプレックス部5により多重化されてM
DやDCC等に出力される。なお、伸長時には圧縮デー
タは各サブバンドs毎の量子化ビット数に基づいて逆量
子化及び復号化される。
Then, the psychoacoustic analyzer 3 calculates the offset amount F of the masking reference curve, determines the number of quantization bits, and the quantization / encoding unit 4 uses the number of quantization bits to Each divided subband s
Is quantized and encoded. The data quantized and encoded by the quantization / encoding unit 4 and compressed, and the number of quantization bits determined by the psychoacoustic analysis unit 3 are multiplexed by the multiplex unit 5 to obtain M
Output to D, DCC, etc. At the time of decompression, the compressed data is inversely quantized and decoded based on the number of quantization bits for each subband s.

【0069】図2に示す変形例では、入力オーディオ信
号がデジタルフィルタ6によりサブバンドsに分割さ
れ、量子化・符号化部4により量子化および符号化され
て圧縮されたデータと、聴覚心理分析部3により決定さ
れた量子化ビット数はマルチプレックス部5により多重
化されるように構成されている。ここで、フィルタバン
クによるサブバンド分割方法では、本発明が必要とする
低域のバンド分解能を得ることができないので、図1に
示す場合と同様に、切出し部1により切り出された各サ
ンプルのオーディオ信号が直交変換部2により複数のサ
ブバンドsに分割され、聴覚心理分析部3によりマスキ
ング基準カーブのオフセット量Fが算出されて量子化・
符号化部4の量子化ビット数が決定される。
In the modification shown in FIG. 2, the input audio signal is divided into sub-bands s by the digital filter 6, quantized and encoded by the quantizing / encoding unit 4 and compressed, and the psychoacoustic analysis is performed. The number of quantization bits determined by the unit 3 is configured to be multiplexed by the multiplex unit 5. Here, in the sub-band division method using the filter bank, the low band resolution required by the present invention cannot be obtained. Therefore, as in the case shown in FIG. The signal is divided into a plurality of sub-bands s by the orthogonal transformation unit 2, and the offset amount F of the masking reference curve is calculated by the psychoacoustic analysis unit 3, and is quantized.
The number of quantization bits of the encoding unit 4 is determined.

【0070】図3に示す変形例では、オーディオ信号用
の系列と量子化ビット数決定用の窓掛け・切出し部1
a、1b、直交変換部2a、2b(及びオフセット算出
量算出部7)が設けられている。このように2系列で構
成した場合には、直交変換部2a、2bのポイント数が
異なるように、例えば直交変換部2aは1024ポイン
ト、直交変換部2bは2048ポイントのように構成す
ることができる。
In the modification shown in FIG. 3, a sequence for an audio signal and a windowing / cutout unit 1 for determining the number of quantization bits are provided.
a, 1b, orthogonal transform units 2a, 2b (and an offset calculation amount calculation unit 7) are provided. In the case where the orthogonal transform units 2a and 2b are configured in such a manner, the orthogonal transform units 2a and 2b may be configured to have different numbers of points. .

【0071】次に、図4を参照して前後のサブバンドと
のパワースペクトルの自己相関を算出する処理について
説明する。予め決められたサブバンドsとその前後のサ
ブバンドs−1、s+1のパワースペクトルが例えば図
4の(a)に示すような場合、サブバンドs内のスペク
トルとその前後のサブバンドs−1、s+1のパワース
ペクトルとの間で自己相関を計算する。そして、その結
果が図4の(b)に示すような場合には自己相関値の最
大値と最小値の比を対数変換してオフセット量Fを算出
する。これにより、高調波成分がハッキリしたトーンラ
イクな信号の場合にはオフセット量Fは大きくなり、逆
にノイズライクな場合にはオフセット量Fは小さくな
る。なお、図4の(b)に示すようにスライド量=0と
その周辺の位置は最大値検索から除外する。
Next, the processing for calculating the autocorrelation of the power spectrum with the preceding and succeeding subbands will be described with reference to FIG. For example, when the power spectrum of the predetermined sub-band s and the sub-bands s−1 and s + 1 before and after the sub-band s are as shown in FIG. , S + 1 is calculated. If the result is as shown in FIG. 4B, the ratio of the maximum value and the minimum value of the autocorrelation value is logarithmically converted to calculate the offset amount F. As a result, the offset F increases in the case of a tone-like signal with clear harmonic components, and decreases in the case of a noise-like signal. Note that, as shown in FIG. 4B, the slide amount = 0 and its peripheral position are excluded from the maximum value search.

【0072】次に、図5を参照してマスキング基準カー
ブのオフセット量Fを算出する処理〜について説明
する。図5は一例として直交変換として2qポイントF
FTを用いた場合を示し、この直交変換のポイント数2
qについては1024〜2048程度の値であることが
望ましい。図5において、先ず、 直交変換係数の実数部Real〔j〕と虚数部Imag〔j〕
からパワースペクトルp〔j〕を算出する。
Next, the processing for calculating the offset amount F of the masking reference curve will be described with reference to FIG. FIG. 5 shows, as an example, 2q points F as an orthogonal transformation.
This shows a case where FT is used, and the number of points of this orthogonal transformation is 2
It is desirable that q is a value of about 1024 to 2048. In FIG. 5, first, the real part Real [j] and the imaginary part Imag [j] of the orthogonal transform coefficient
From the power spectrum p [j].

【0073】[0073]

【数14】p〔j〕=Real〔j〕2 +Imag〔j〕2 但し、j=0〜q−1## EQU14 ## p [j] = Real [j] 2 + Imag [j] 2 where j = 0 to q-1

【0074】次に、予め決められたバンド毎に自己相
関Sc 〔s〕〔i〕を求める。qサンプルをn個のバン
ドに分割した場合には、
Next, the autocorrelation Sc [s] [i] is determined for each predetermined band. If q samples are divided into n bands,

【0075】[0075]

【数15】 (Equation 15)

【0076】最後に、各バンド毎に自己相関Sc
〔s〕〔i〕の最大値と最小値からオフセット量F
〔s〕を算出する。
Finally, the autocorrelation Sc for each band
[S] Offset amount F from maximum and minimum values of [i]
[S] is calculated.

【0077】[0077]

【数16】 (Equation 16)

【0078】図6の(a)(b)は、図1〜図3に示す
直交変換部2、2aのポイント数が1024であって、
ビブラートが存在するオーディオ信号のスペクトルが1
024ポイント(23msec )ずれた場合を示し、図か
ら明らかなようにピークがオフセットしていることがわ
かる。図7は従来例のトナリティ算出方法と本実施例の
自己相関方法により32バンド毎に求めたオフセット量
Fを示し、図から明らかなようにこのオーディオ信号は
聴感上、中低域がトーンライクであって情報量が多く、
本実施例の自己相関方法によるオフセット量Fが聴感に
一致している.
FIGS. 6A and 6B show that the number of points of the orthogonal transform units 2 and 2a shown in FIGS.
The spectrum of the audio signal with vibrato is 1
This shows a case where the peak is shifted by 024 points (23 msec), and the peak is offset as is clear from the figure. FIG. 7 shows the offset amount F obtained for each of the 32 bands by the conventional tonality calculation method and the autocorrelation method of the present embodiment. As is apparent from FIG. There is a lot of information,
The offset amount F according to the autocorrelation method of this embodiment matches the audibility.

【0079】また、このオフセット量Fを求めるための
演算量は、例えば図3に示す直交変換部2bの2048
FFTポイントを含む場合を例にし、また、図4に示す
処理〜では関数演算を100回、乗算を1回、除算
を20回と仮定すると約90,000回になり、従来例
のトナリティ算出方法による約180,000回に比べ
て半減させることができる。
The calculation amount for obtaining the offset amount F is, for example, 2048 of the orthogonal transformation unit 2b shown in FIG.
Assuming that the FFT point is included, the processing shown in FIG. 4 is approximately 90,000 times assuming that the function operation is performed 100 times, the multiplication is performed once, and the division is performed 20 times. Can be halved compared to about 180,000 times.

【0080】次に、図8〜図14を参照して本発明の第
2実施例について説明する。図8は第2実施例の音声高
能率符号化装置を示すブロック図、図9はノイズ・シェ
イピング・ファクタと量子化ノイズの関係を示す説明
図、図10は第1、第2の必要S/Nから最終の必要S
/Nを算出する処理を説明するためのフローチャート、
図11は最終の必要S/Nを算出する際の重み付け関数
を示す説明図、図12はS/N比の劣化が検知されやす
いソースのスペクトルを示す説明図、図13は図12に
示すソースのS/N比を示す説明図、図14は従来例と
第2実施例において音質の比較結果を示す説明図であ
る。
Next, a second embodiment of the present invention will be described with reference to FIGS. FIG. 8 is a block diagram showing a high-efficiency audio coding apparatus according to a second embodiment, FIG. 9 is an explanatory diagram showing a relationship between a noise shaping factor and quantization noise, and FIG. 10 is a diagram showing first and second necessary S / S. From N to the final required S
A flowchart for explaining a process of calculating / N;
11 is an explanatory diagram showing a weighting function for calculating the final required S / N, FIG. 12 is an explanatory diagram showing a spectrum of a source in which deterioration of the S / N ratio is easily detected, and FIG. 13 is a source diagram shown in FIG. FIG. 14 is an explanatory diagram showing a comparison result of sound quality between the conventional example and the second embodiment.

【0081】図8に示す第2実施例は、第1の必要S/
N比を算出等する聴覚心理分析部3と、サブバンドs毎
の信号パワーに基づいて二乗平均誤差最小理論により第
2の必要S/N比を算出等する第2の必要S/N算出
(及び最終必要S/N算出)部8とビット割り当て部9
を有する。第1の必要S/Nは、従来例と同様に純粋に
マスキング効果を中心とした聴覚心理モデルにより求め
られ、第2の必要S/N比は、各サブバンドs毎の信号
パワーに対して量子化ノイズを聴覚的に制御するパラメ
ータを加えた二乗平均誤差最小理論に基づいて求められ
る。
In the second embodiment shown in FIG. 8, the first necessary S /
Psychoacoustic analyzer 3 for calculating the N ratio, and second required S / N calculation for calculating the second required S / N ratio based on the root mean square error theory based on the signal power of each subband s ( And final required S / N calculation) section 8 and bit allocation section 9
Having. The first necessary S / N is obtained by a psychoacoustic model centering on the masking effect purely as in the conventional example, and the second required S / N ratio is determined based on the signal power of each subband s. It is obtained based on the root mean square error theory to which a parameter for controlling the quantization noise aurally is added.

【0082】ここで、後者では前者に比較してパワーが
大きなバンドの必要S/N比が若干強調される傾向にあ
る。そこで、先ず、各サブバンドの第2の必要S/N比
のトータルの平均値が第2の必要S/N比のそれと一致
するように第1の必要S/N比を正規化する。この理由
は、あくまでも第1の必要S/N比が聴覚心理と一致し
た量であって第2の必要S/N比はその補助のために用
いるものであり、さもないと第1、第2の必要S/N比
の平均値の間に差があると誤動作するからである。
Here, in the latter, the required S / N ratio of a band having a higher power tends to be slightly emphasized as compared with the former. Therefore, first, the first required S / N ratio is normalized such that the total average value of the second required S / N ratio of each subband matches that of the second required S / N ratio. The reason is that the first required S / N ratio is an amount consistent with the psychoacoustic psychology, and the second required S / N ratio is used for the assistance, otherwise the first and second required S / N ratios are used. This is because a malfunction occurs if there is a difference between the average values of the required S / N ratios.

【0083】最後に、第1の必要S/N比と正規化した
第2の必要S/N比とを重み付けして加算し、最終の必
要S/N比を得て各サブバンドsの量子化ビット数を決
定する。この場合、重み比率としては、例えば第1の必
要S/N比:第2の必要S/N比=0.7:0.3のよ
うに第1の必要S/N比を重視して加算する。以上の方
法により、圧縮率が高く、S/N比が検知される場合に
も聴覚上の劣化を最小限に抑えることができ、また、パ
ワーの大きなバンドが重視され過ぎるという問題も発生
しない。
Finally, the first required S / N ratio and the normalized second required S / N ratio are weighted and added to obtain the final required S / N ratio to obtain the quantum of each subband s. Determine the number of coded bits. In this case, the weighting ratio is added with emphasis on the first necessary S / N ratio, for example, first required S / N ratio: second required S / N ratio = 0.7: 0.3. I do. According to the above method, even when the compression ratio is high and the S / N ratio is detected, auditory deterioration can be minimized, and the problem that a band with a large power is overemphasized does not occur.

【0084】次に、二乗平均誤差最小理論によりビット
を配分する手法について説明する。一般に、音声波形は
ガウス過程で近似できると言われており、この場合、量
子化後の二乗平均誤差を最小にするビット配分(各バン
ドsのビット数)bit 〔s〕は、伝送速度−歪み理論か
ら次式1(数17)のように表される。
Next, a method of allocating bits according to the root mean square error theory will be described. In general, it is said that a speech waveform can be approximated by a Gaussian process. In this case, the bit allocation (the number of bits of each band s) bit [s] that minimizes the root mean square error after quantization is represented by the transmission rate-distortion. From the theory, it is expressed as in the following Expression 1 (Equation 17).

【0085】[0085]

【数17】 [Equation 17]

【0086】そして、実際にはbit 〔s〕の総和が使用
可能ビット数になるように上記係数a、bが調整され
る。ここで、式1(数17)は聴覚制御を行わない場合
を示し、得られるbit 〔s〕はバンドパワーを強く反映
したものであり、その結果の量子化ノイズはPCMコー
ディングと同様のホワイトノイズとなる。そこで、本実
施例では、聴覚制御を行う際に式1(数17)に対して
ウェイトファクタw〔s〕を追加して次式2(数18)
を得る。
In practice, the coefficients a and b are adjusted so that the sum of bit [s] becomes the number of usable bits. Here, Equation 1 (Equation 17) shows a case where no auditory control is performed, and the obtained bit [s] strongly reflects the band power, and the resulting quantization noise is white noise similar to PCM coding. Becomes Therefore, in this embodiment, when performing auditory control, a weighting factor w [s] is added to Expression 1 (Equation 17), and the following Expression 2 (Equation 18) is obtained.
Get.

【0087】[0087]

【数18】 (Equation 18)

【0088】式2(数18)におけるノイズ・シェイピ
ング・ファクタγは−1.0〜0.0の範囲の値を取
り、γ=0.0の場合に式1(数17)と一致する。逆
にγ=−1.0の場合には式2(数18)のビット配分
bit 〔s〕は定数となり、バンド毎の量子化ビット数は
同一となる。図9はγ=−1.0〜0.0の場合の量子
化ノイズを示し、一般にはγ=−0.2〜−0.1程度
のときに聴感と良く一致すると考えられている。
The noise shaping factor γ in Equation 2 (Equation 18) takes a value in the range of −1.0 to 0.0, and coincides with Equation 1 (Equation 17) when γ = 0.0. Conversely, when γ = −1.0, the bit allocation of Expression 2 (Equation 18)
bit [s] is a constant, and the number of quantization bits for each band is the same. FIG. 9 shows quantization noise in the case of γ = −1.0 to 0.0. Generally, it is considered that the audibility matches well when γ = −0.2 to −0.1.

【0089】次に、図10を参照して第1、第2の必要
S/Nから最終の必要S/Nを算出する各処理 〜
を説明する。 先ず、直交変換係数からバンドトータルパワーP
〔s〕を算出する。例えばq本のスペクトルをnバンド
に分割する場合には、
Next, referring to FIG. 10, each processing for calculating the final required S / N from the first and second required S / N
Will be described. First, from the orthogonal transform coefficients, the band total power P
[S] is calculated. For example, when dividing q spectra into n bands,

【0090】[0090]

【数19】 [Equation 19]

【0091】次に、予め定めたバンド平均S/N比
(SNavr )から全バンド平均誤差パワー(定数)bを
求める。
Next, the entire band average error power (constant) b is determined from the predetermined band average S / N ratio (SNavr).

【0092】[0092]

【数20】 (Equation 20)

【0093】式2(数18)により各バンドsのビッ
ト配分bit 〔s〕を算出する。
The bit allocation bit [s] of each band s is calculated by Equation 2 (Equation 18).

【0094】[0094]

【数21】bit 〔s〕=a+0.5・log 2(w〔s〕
・P〔s〕/b)
[Equation 21] bit [s] = a + 0.5 · log 2 (w [s]
・ P [s] / b)

【0095】ビット配分bit 〔s〕より仮の第2の必
要S/N比(=SNreq'〔s〕)を算出する。
A temporary second required S / N ratio (= SNreq '[s]) is calculated from the bit allocation bit [s].

【0096】[0096]

【数22】 SNreq'〔s〕=6.02・bit 〔s〕 〔dB〕[Mathematical formula-see original document] SNreq '[s] = 6.02.bit [s] [dB]

【0097】第1の必要S/N比と仮の第2の必要S
/N比の各平均値SNreq 〔s〕_avr 、SNreq'
〔s〕_avr を算出する。
First required S / N ratio and provisional second required S
/ N ratio average value SNreq [s] _avr, SNreq '
[S] _avr is calculated.

【0098】[0098]

【数23】 (Equation 23)

【0099】仮の第2の必要S/N比の平均値SNre
q'〔s〕_avr を正規化し、第2の必要S/N比(SN
req 2〔s〕)を得る。
Temporary average value SNre of required second S / N ratio
q ′ [s] _avr is normalized to obtain a second required S / N ratio (SN
req 2 [s]).

【0100】[0100]

【数24】 SNreq 2〔s〕=SNreq'〔s〕 ・(SNreq _avr /SNreq'_avr ) 〔dB〕[Formula 24] SNreq 2 [s] = SNreq '[s] (SNreq_avr / SNreq'_avr) [dB]

【0101】第1の必要S/N比の平均値(SNreq
〔s〕_avr )をパラメータとして、第1の必要S/N
比(SNreq 〔s〕)と第2の必要S/N比(SNreq
2〔s〕)から最終の必要S/N比(SNreq _fin
〔s〕)を求める。
The average value of the first required S / N ratio (SNreq
[S] _avr) as a parameter, the first required S / N
Ratio (SNreq [s]) and the second required S / N ratio (SNreq
2 [s]) to the final required S / N ratio (SNreq_fin)
[S]).

【0102】[0102]

【数25】 SNreq _fin 〔s〕 =f〔SNreq _avr 〕・SNreq 〔s〕 +(1.0−f〔SNreq _avr 〕)・SNreq 2〔s〕 〔dB〕[Mathematical formula-see original document] SNreq_fin [s] = f [SNreq_avr] · SNreq [s] + (1.0-f [SNreq_avr]) · SNreq2 [s] [dB]

【0103】ここで、f〔x〕は図11に示すように、
0.0〜1.0の範囲の値の重み付け関数であり、第1
の必要S/N比の平均値(SNreq 〔s〕_avr )が大
きい場合には第2の必要S/N比(SNreq 2〔s〕)
が増加するように設定される。
Here, f [x] is, as shown in FIG.
A weighting function for values in the range of 0.0 to 1.0,
When the average value of the required S / N ratio (SNreq [s] _avr) is large, the second required S / N ratio (SNreq 2 [s])
Is set to increase.

【0104】ここで、図12に示すようにS/N比の劣
化が検知されやすいソースのスペクトルの場合、図13
の(a)に示すように第1、第2の必要S/N比はそれ
ぞれ太線、細線のような値となり、また、図13の
(b)に示すように第1の必要S/N比と最終の必要S
/N比はそれぞれ太線、細線のような値となる。このよ
うなソースの場合、パワーが大きな2〜4kHz付近の
S/N比が補正され、したがって、聴感上のS/N比も
改善することができる。また、図14に示すように従来
例と本実施例における3つの第1の必要S/N比を比較
した場合、本実施例によれば第1の必要S/N比の平均
値(SNreq 〔s〕_avr )が大きい場合に改善効果が
大きいことが分かる。
Here, as shown in FIG. 12, in the case of a source spectrum in which deterioration of the S / N ratio is easily detected, FIG.
As shown in FIG. 13A, the first and second required S / N ratios take values like thick lines and thin lines, respectively, and the first required S / N ratio as shown in FIG. And the final required S
The / N ratio has a value like a thick line and a thin line, respectively. In the case of such a source, the S / N ratio near 2 to 4 kHz where the power is large is corrected, and therefore, the S / N ratio on the audibility can be improved. Further, as shown in FIG. 14, when comparing the three first required S / N ratios in the conventional example and the present embodiment, according to the present embodiment, the average value of the first required S / N ratio (SNreq [ It can be seen that the improvement effect is large when [s] _avr) is large.

【0105】次に、本発明の第3実施例について説明す
る。図15は第3実施例の音声高能率符号化装置を示す
ブロック図、図16は図15の音声高能率符号化装置の
変形例を示すブロック図、図17は図15及び図16の
オーディオエンコーダの一例を詳細に示すブロック図、
図18は2チャネル間の同期が十分な精度で保証されて
いる場合の必要S/N比算出処理を説明するためのフロ
ーチャート、図19は2チャネル間の同期精度が悪い場
合の必要S/N比算出処理を説明するためのフローチャ
ート、図20は従来技術と本実施例によるミキシング後
のMNRを比較した説明図、図21は従来技術と本実施
例によるミキシング後の音質評価を比較した説明図であ
る。
Next, a third embodiment of the present invention will be described. FIG. 15 is a block diagram showing a high-efficiency audio coding apparatus according to a third embodiment, FIG. 16 is a block diagram showing a modification of the high-efficiency audio coding apparatus shown in FIG. 15, and FIG. 17 is an audio encoder shown in FIGS. Block diagram showing an example of
FIG. 18 is a flowchart for explaining a necessary S / N ratio calculation process when synchronization between two channels is guaranteed with sufficient accuracy, and FIG. 19 is a necessary S / N ratio when synchronization accuracy between two channels is poor. FIG. 20 is a flowchart for explaining a ratio calculation process, FIG. 20 is an explanatory diagram comparing MNR after mixing according to the prior art and the present embodiment, and FIG. 21 is an explanatory diagram comparing sound quality evaluation after mixing according to the prior art and the present embodiment. It is.

【0106】図15に示す第3実施例は図32に示すオ
ーディオエンコーダ20に適用した場合のものである。
この場合は、エンコーダ20により高能率符号化するC
H−Aの第1のオーディオ信号と、高能率符号化されず
再生側で第1のオーディオ信号とミキシングされるCH
−Bの第2のオーディオ信号をそれぞれ周波数領域で聴
覚心理分析して第1、第2のマスキングレベルを算出
し、この第1、第2のマスキングレベルに基づいて最終
のマスキングレベルを算出し、この最終のマスキングレ
ベルに基づいて各サブバンドの量子化ビット数を決定し
て第1のオーディオ信号を量子化および符号化し、ビッ
トストリームとして出力する。このビットストリームと
CH−Bの高能率符号化されない信号がマルチプレック
ス部21により多重化される。
The third embodiment shown in FIG. 15 is a case where the third embodiment is applied to the audio encoder 20 shown in FIG.
In this case, C to be efficiently encoded by the encoder 20 is used.
The first audio signal of H-A and the CH mixed with the first audio signal on the reproduction side without being encoded with high efficiency
-A psychoacoustic analysis of the second audio signal in the frequency domain to calculate first and second masking levels, and calculate a final masking level based on the first and second masking levels; Based on the final masking level, the number of quantization bits of each subband is determined, and the first audio signal is quantized and encoded, and is output as a bit stream. The bit stream and the CH-B non-efficiently coded signal are multiplexed by the multiplex unit 21.

【0107】また、図16に示す第3実施例は図33の
(a)に示すオーディオエンコーダ20に適用した場合
を示している。この場合には、MIDIシーケンサ25
によりCH−Bのオーディオ信号をMIDIコード化
し、MIDIコードに基づいてMIDI音源26により
演奏された信号CH−B’を生成し、エンコーダ20に
よりCH−Aの第1のオーディオ信号と信号CH−B’
の第1、第2のマスキングレベルを算出し、この第1、
第2のマスキングレベルに基づいて最終のマスキングレ
ベルを算出し、この最終のマスキングレベルに基づいて
各サブバンドの量子化ビット数を決定して第1のオーデ
ィオ信号を量子化および符号化し、ビットストリームと
して出力する。このビットストリームとMIDIコード
はマルチプレックス部21により多重化される。
The third embodiment shown in FIG. 16 shows a case where the third embodiment is applied to the audio encoder 20 shown in FIG. In this case, the MIDI sequencer 25
Converts the CH-B audio signal into a MIDI code, generates a signal CH-B 'played by the MIDI sound source 26 based on the MIDI code, and outputs the CH-A first audio signal and the signal CH-B by the encoder 20. '
First and second masking levels are calculated, and the first and second masking levels are calculated.
Calculating a final masking level based on the second masking level, determining the number of quantization bits for each subband based on the final masking level, quantizing and encoding the first audio signal, Output as The bit stream and the MIDI code are multiplexed by the multiplex unit 21.

【0108】そして、再生側では図33の(a)に示す
ように、デマルチプレックス部22によりチャネルを分
離し、オーディオデコーダ23によりデコードした信号
CH−A’とMIDIコードに基づいてMIDI音源2
6により演奏された信号CH−B’をミキサ24により
ミキシングする。
On the reproduction side, as shown in FIG. 33A, the channels are separated by the demultiplex unit 22, and the MIDI sound source 2 is separated based on the signal CH-A 'decoded by the audio decoder 23 and the MIDI code.
The signal CH-B ′ played by the mixer 6 is mixed by the mixer 24.

【0109】図17に示すエンコーダ20は一例として
オーディオ信号の帯域分割を直交変換により行い、もち
ろん帯域分割を図2に示すようにデジタルフィルタ6に
より行う場合にも適用することができる。図17におい
て、高能率符号化を行うチャネルCH−Aの信号と、高
能率符号化を行わず再生側でミキシングするCH−Bの
信号は、それぞれ窓掛け・切出し部1A、1B及び直交
変換部2A、2Bによりサブバンドに分割され、聴覚心
理分析部3A、3Bに印加される。なお、CH−A、C
H−Bの信号の再生側のミキシング比率が1:1でない
場合には、その比率を考慮したCH−A、CH−B間の
レベルが調整される(レベル調整部11)。
The encoder 20 shown in FIG. 17 can be applied to, for example, a case where the band division of an audio signal is performed by orthogonal transform, and the band division is performed by the digital filter 6 as shown in FIG. In FIG. 17, a signal of a channel CH-A for performing high-efficiency coding and a signal of CH-B to be mixed on the reproduction side without performing high-efficiency coding are windowed / cut out sections 1A and 1B and an orthogonal transform section, respectively. It is divided into subbands by 2A and 2B and applied to the psychoacoustic analyzers 3A and 3B. Note that CH-A, C
If the mixing ratio of the H-B signal on the reproduction side is not 1: 1, the level between CH-A and CH-B is adjusted in consideration of the ratio (level adjusting unit 11).

【0110】次に、図18を参照していずれもチャネル
CH−A、CH−B間の同期処理(例えば±1msec 以
内)が予め成されている場合の処理について説明する。
図18は従来例の図27において説明した処理に対応
し、処理(1)〜(5)が同一であり、処理(1)’、
(2)’及び(x)が追加されている。聴覚心理分析部
3Bでは処理(1)’、(2)’においてCH−Bの信
号の周波数領域の聴覚心理分析により得られるマスキン
グレベルM2を算出する。
Next, with reference to FIG. 18, a description will be given of the processing in the case where the synchronization processing (for example, within ± 1 msec) between the channels CH-A and CH-B has been performed in advance.
FIG. 18 corresponds to the processing described in FIG. 27 of the conventional example, and the processing (1) to (5) are the same, and the processing (1) ′,
(2) ′ and (x) are added. The psychoacoustic analyzer 3B calculates the masking level M2 obtained by the psychoacoustic analysis of the frequency domain of the CH-B signal in the processes (1) ′ and (2) ′.

【0111】これに対し、聴覚心理分析部3Aは処理
(1)、(2)においてCH−Aの信号の周波数領域の
聴覚心理分析により得られるマスキングレベルM1を算
出し、続く処理(x)においてこのマスキングレベルM
1と聴覚心理分析部3Bにより算出されたマスキングレ
ベルM2により、式(数13)に示すM〔i〕=max
(M1〔i〕,M2〔i〕に基づいて高能率符号化しな
い信号による影響を考慮した最終のマスキングレベルM
を算出する。次いで処理(3)〜(5)においてこの最
終のマスキングレベルMに基づいて必要S/N比を算出
する。ビット割り当て部12はこの必要S/N比に基づ
いて各サブバンドの量子化ビット数を割り当て、量子化
・符号化部4はCH−A側をこの量子化ビット数に基づ
いて量子化、符号化する。
On the other hand, the psychoacoustic analyzer 3A calculates the masking level M1 obtained by the psychoacoustic analysis of the frequency domain of the CH-A signal in the processes (1) and (2), and in the subsequent process (x) This masking level M
1 and the masking level M2 calculated by the psychoacoustic analyzer 3B, M [i] = max shown in the equation (13).
(Final masking level M taking into account the influence of a signal that is not efficiently coded based on M1 [i] and M2 [i]
Is calculated. Next, in processes (3) to (5), the required S / N ratio is calculated based on the final masking level M. The bit allocation unit 12 allocates the number of quantization bits of each subband based on the required S / N ratio, and the quantization / encoding unit 4 quantizes and encodes the CH-A side based on the number of quantization bits. Become

【0112】次に、図19を参照してCH−A、CH−
B間の同期精度が悪い場合の処理を説明する。ミキシン
グ時の同期ずれが聴感上では許されるが、聴覚心理分析
上では問題となる場合、例えば同期誤差が±5〜10m
sec の場合、聴覚心理分析部3Bが図18に示す処理
(1)’、(2)’を行うと、実際のミキシング時の同
期ずれのためにマスキングレベルMの変更が逆効果にな
る可能性がある。
Next, referring to FIG. 19, CH-A, CH-
Processing when the synchronization accuracy between B is poor will be described. Synchronous deviation during mixing is permissible on the auditory perception, but when it is a problem on psychoacoustic analysis, for example, a synchronization error of ± 5 to 10 m
In the case of sec, if the psychoacoustic analysis unit 3B performs the processing (1) ′ and (2) ′ shown in FIG. 18, there is a possibility that the change of the masking level M may have an adverse effect due to the synchronization deviation during actual mixing. There is.

【0113】そこで、CH−B側の聴覚心理分析部3B
は、図19に示す処理(1)’においてCH−Bの直交
変換長をCH−Aのそれより2倍程度に設定して各分析
バンドのトータルパワーP2〔i〕を算出することによ
り同期ずれの誤差を平坦化して軽減し、続く処理
(2)’においてこのトータルパワーP2〔i〕とマス
キング基準カーブB(k〕からマスキングレベルM2を
算出する。また、CH−A側の聴覚心理分析部3Aは式
(数13)に基づいてM1〔i〕及びM2〔i〕からM
〔i〕を決定する際に最大値をとらないで、処理(x)
では、重み付け係数aを例えばa=0.6として
Therefore, the psychoacoustic analysis unit 3B on the CH-B side
Is calculated by setting the orthogonal transform length of CH-B to about twice that of CH-A and calculating the total power P2 [i] of each analysis band in the process (1) ′ shown in FIG. Is flattened and reduced, and a masking level M2 is calculated from the total power P2 [i] and the masking reference curve B (k) in the subsequent processing (2) '. 3A is obtained from M1 [i] and M2 [i] based on the equation (Equation 13).
The processing (x) is performed without determining the maximum value when determining [i].
Then, assuming that the weighting coefficient a is, for example, a = 0.6

【0114】[0114]

【数26】 M〔i〕=M1〔i〕・0.6+M2〔i〕・0.4M [i] = M1 [i] · 0.6 + M2 [i] · 0.4

【0115】のように、M1〔i〕を重視してM〔i〕
を決定することにより、CH−A、CH−B間の同期精
度が悪い場合の聴覚心理分析上の問題を解決することが
できる。したがって、この第3実施例によれば、高能率
符号化した信号と高能率符号化しない信号を再生側でミ
キシングする場合に、ミキシングされた音質が最適にな
るように高能率符号化することができる。
As described above, M [i] is emphasized with emphasis on M1 [i].
Is determined, the problem of psychoacoustic analysis when the synchronization accuracy between CH-A and CH-B is poor can be solved. Therefore, according to the third embodiment, when the high-efficiency coded signal and the non-high-efficiency coded signal are mixed on the reproducing side, the high-efficiency coding is performed so that the mixed sound quality is optimized. it can.

【0116】ここで、一般にオーディオ信号の再生品質
を客観的に評価する場合にはMNR(Mask to Noise Ra
tio )を測定することが多い。具体的には図34におい
て示したように周波数領域におけるマスキングレベルM
と、実際に信号中に生じている(量子化)ノイズNとの
比を求める。この場合、MNRが正の領域では聴覚心理
上のマスキング効果は満足されており、ノイズは検知さ
れない。逆にMNRが負の領域では聴覚心理上のマスキ
ング効果が満足されず、ノイズが検知される。また、M
NRが正の場合であってもできるだけフラットな周波数
特性を示す方が聴覚心理上好ましいと考えられる。その
理由は、帯域によってはMNRに差があるとバランス
上、若干不自然な音に感じられるからである。
Here, in general, when objectively evaluating the reproduction quality of an audio signal, an MNR (Mask to Noise Radar) is used.
tio) is often measured. Specifically, as shown in FIG. 34, the masking level M in the frequency domain
And the noise (quantization) noise N actually occurring in the signal. In this case, the masking effect on psychoacoustics is satisfied in the region where the MNR is positive, and no noise is detected. Conversely, in the region where the MNR is negative, the psychoacoustic masking effect is not satisfied, and noise is detected. Also, M
Even if the NR is positive, it is considered preferable to show a frequency characteristic that is as flat as possible in terms of psychoacoustics. The reason for this is that if there is a difference in MNR depending on the band, a sound that is slightly unnatural will be felt in terms of balance.

【0117】図20はあるオーディオ信号を従来技術と
本実施例によりそれぞれ処理した場合のミキシング後の
MNR〔dB〕の測定例を示している。本実施例(実
線)ではほぼ全周波数領域においてフラットな特性を示
すのに対し、従来技術(破線)では特性にうねりがあ
り、一部の領域(図の10kHz前後)では負の値を示
している。このように平均MNRが0dBに近い場合に
は効果は特に大きい。
FIG. 20 shows an example of measuring the MNR [dB] after mixing when a certain audio signal is processed by the prior art and this embodiment, respectively. In the present embodiment (solid line), the characteristics are flat in almost all frequency regions, whereas in the conventional technology (broken line), the characteristics have undulations, and in some regions (around 10 kHz in the figure), negative values are shown. I have. As described above, when the average MNR is close to 0 dB, the effect is particularly large.

【0118】図21は従来技術と本実施例により多数の
ソースでミキシングした後の音質主観評価(5段階評
価)を行った例を示し、本実施例によれば、評価値の平
均値が向上し、特に評価値のバラツキが減少することが
分かる。
FIG. 21 shows an example in which subjective sound quality evaluation (five-level evaluation) is performed after mixing with a large number of sources according to the prior art and this embodiment. According to this embodiment, the average value of the evaluation values is improved. In particular, it can be seen that the variation in the evaluation value is reduced.

【0119】[0119]

【発明の効果】以上説明したように本発明によれば、直
交変換係数からオーディオ信号のパワースペクトルを算
出してこのパワースペクトルの自己相関を予め定めた帯
域毎に算出し、この自己相関の最大値と最小値の比から
聴覚心理上のマスキング効果のオフセット量を算出し、
このオフセット量に基づいて各サブバンドの量子化ビッ
ト数を決定するので、マスキング基準カーブのオフセッ
ト量を演算する際の演算量を減少し、また、オーディオ
信号にビブラートがかかっている場合にも聴覚心理をよ
り満足させて音質を向上させることができる。
As described above, according to the present invention, the power spectrum of the audio signal is calculated from the orthogonal transform coefficients, the autocorrelation of the power spectrum is calculated for each predetermined band, and the maximum of the autocorrelation is calculated. Calculate the offset amount of the masking effect on psychoacoustics from the ratio of the value and the minimum value,
Since the number of quantization bits for each subband is determined based on this offset amount, the amount of calculation when calculating the offset amount of the masking reference curve is reduced, and even when the audio signal is vibrato, The sound quality can be improved by further satisfying the psychology.

【0120】また、本発明では、オーディオ信号の周波
数領域の聴覚心理分析に基づいてサブバンド毎の第1の
必要S/N比を算出すると共にサブバンド毎の信号パワ
ーから聴覚的制御を含む二乗平均誤差最小理論により第
2の必要S/N比を算出し、第1、第2の必要S/N比
を重み付けして最終の必要S/N比を算出し、この最終
の必要S/N比に基づいて各サブバンドの量子化ビット
数を決定するので、データの圧縮率が高く、聴覚心理分
析による必要S/N比が満足されない場合に音質を向上
させることができる。
Further, according to the present invention, the first necessary S / N ratio for each subband is calculated based on the psychoacoustic analysis of the frequency domain of the audio signal, and the square including the auditory control is obtained from the signal power for each subband. The second required S / N ratio is calculated by the average error minimum theory, the first and second required S / N ratios are weighted to calculate the final required S / N ratio, and the final required S / N ratio is calculated. Since the number of quantization bits of each subband is determined based on the ratio, the data compression ratio is high, and the sound quality can be improved when the required S / N ratio by psychoacoustic analysis is not satisfied.

【0121】また、本発明では、高能率符号化する第1
のオーディオ信号と、高能率符号化されず再生側で第1
のオーディオ信号とミキシングされる第2のオーディオ
信号をそれぞれ周波数領域で聴覚心理分析して第1、第
2のマスキングレベルを算出し、この第1、第2のマス
キングレベルに基づいて最終のマスキングレベルを算出
し、この最終のマスキングレベルに基づいて各サブバン
ドの量子化ビット数を決定するので、高能率符号化した
信号と高能率符号化しない信号を再生側でミキシングす
る場合に高能率符号化しない信号による影響を考慮して
聴覚心理分析を行って聴覚心理をより満足させて音質を
向上させることができる。
Further, according to the present invention, the first efficient coding is performed.
Audio signal and the first on the playback side without high efficiency encoding
The audio signal and the second audio signal to be mixed are each subjected to psychoacoustic analysis in the frequency domain to calculate first and second masking levels. Based on the first and second masking levels, the final masking level is calculated. Is calculated, and the number of quantization bits of each subband is determined based on the final masking level. Therefore, when mixing the high-efficiency coded signal and the high-efficiency coded signal on the reproduction side, high-efficiency coding is performed. The psychoacoustic analysis is performed in consideration of the influence of the no-signal, so that the psychoacoustic can be more satisfied and the sound quality can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声高能率符号化装置の第1実施
例を示すブロック図である。
FIG. 1 is a block diagram showing a first embodiment of a high-efficiency audio coding apparatus according to the present invention.

【図2】図1の変形例を示すブロック図である。FIG. 2 is a block diagram showing a modification of FIG.

【図3】図1の他の変形例を示すブロック図である。FIG. 3 is a block diagram showing another modification of FIG. 1;

【図4】前後のサブバンドとのパワースペクトルの自己
相関を算出する場合を示す説明図である。
FIG. 4 is an explanatory diagram showing a case where an autocorrelation of a power spectrum with a preceding and following subband is calculated.

【図5】オフセット量を算出する処理を説明するための
フローチャートである。
FIG. 5 is a flowchart illustrating a process of calculating an offset amount.

【図6】ビブラートが存在するオーディオ信号のスペク
トルの一例を示す説明図である。
FIG. 6 is an explanatory diagram showing an example of a spectrum of an audio signal in which vibrato exists.

【図7】従来技術のトナリティ算出方法と第1実施例の
自己相関方法により求めたオフセット量を比較した説明
図である。
FIG. 7 is an explanatory diagram comparing the offset amounts obtained by the tonality calculation method of the related art and the autocorrelation method of the first embodiment.

【図8】第2実施例の音声高能率符号化装置を示すブロ
ック図である。
FIG. 8 is a block diagram showing a high-efficiency audio coding apparatus according to a second embodiment.

【図9】ノイズ・シェイピング・ファクタと量子化ノイ
ズの関係を示す説明図である。
FIG. 9 is an explanatory diagram showing a relationship between a noise shaping factor and quantization noise.

【図10】第1、第2の必要S/Nから最終の必要S/
Nを算出する処理を説明するためのフローチャートであ
る。
FIG. 10 is a diagram showing a first required S / N to a final required S / N.
9 is a flowchart illustrating a process for calculating N.

【図11】最終の必要S/Nを算出する際の重み付け関
数を示す説明図である。
FIG. 11 is an explanatory diagram showing a weighting function when calculating a final required S / N.

【図12】S/N比の劣化が検知されやすいソースのス
ペクトルを示す説明図である。
FIG. 12 is an explanatory diagram showing a spectrum of a source in which deterioration of the S / N ratio is easily detected.

【図13】図12に示すソースのS/N比を示す説明図
である。
FIG. 13 is an explanatory diagram showing the S / N ratio of the source shown in FIG.

【図14】従来例と第2実施例において音質の比較結果
を示す説明図である。
FIG. 14 is an explanatory diagram showing comparison results of sound quality between the conventional example and the second embodiment.

【図15】第3実施例の音声高能率符号化装置を示すブ
ロック図である。
FIG. 15 is a block diagram illustrating a high-efficiency audio coding apparatus according to a third embodiment.

【図16】図15の音声高能率符号化装置の変形例を示
すブロック図である。
FIG. 16 is a block diagram showing a modification of the high-efficiency audio coding apparatus of FIG.

【図17】図15及び図16のオーディオエンコーダの
一例を詳細に示すブロック図である。
FIG. 17 is a block diagram showing an example of the audio encoder of FIGS. 15 and 16 in detail.

【図18】2チャネル間の同期が十分な精度で保証され
ている場合の必要S/N比算出処理を説明するためのフ
ローチャートである。
FIG. 18 is a flowchart illustrating a necessary S / N ratio calculation process when synchronization between two channels is guaranteed with sufficient accuracy.

【図19】2チャネル間の同期精度が悪い場合の必要S
/N比算出処理を説明するためのフローチャートであ
る。
FIG. 19: Required S when synchronization accuracy between two channels is poor
It is a flowchart for explaining / N ratio calculation processing.

【図20】従来技術と第3実施例によるミキシング後の
MNRを比較した説明図である。
FIG. 20 is an explanatory diagram comparing the MNR after mixing according to the conventional technique and the third embodiment.

【図21】従来技術と第3実施例によるミキシング後の
音質評価を比較した説明図である。
FIG. 21 is an explanatory diagram comparing sound quality evaluation after mixing according to the conventional technique and the third embodiment.

【図22】音声高能率符号化方法を模式的に示す説明図
である。
FIG. 22 is an explanatory diagram schematically showing a high-efficiency audio encoding method.

【図23】図22の音声高能率符号化処理を説明するた
めのフローチャートである。
FIG. 23 is a flowchart illustrating the high-efficiency audio encoding process of FIG. 22;

【図24】各種周波数スペクトルにおけるマスキングカ
ーブの一例を示す説明図である。
FIG. 24 is an explanatory diagram showing an example of a masking curve in various frequency spectra.

【図25】図24の横軸の周波数を臨界帯域に置き換え
たマスキングカーブを示す説明図である。
FIG. 25 is an explanatory diagram showing a masking curve in which the frequency on the horizontal axis in FIG. 24 is replaced with a critical band.

【図26】25バンドの臨界帯域幅を示す説明図であ
る。
FIG. 26 is an explanatory diagram showing a critical bandwidth of 25 bands.

【図27】従来の必要S/N比算出処理を説明するため
のフローチャートである。
FIG. 27 is a flowchart for explaining a conventional required S / N ratio calculation process.

【図28】マスキング基準カーブの一例を示す説明図で
ある。
FIG. 28 is an explanatory diagram showing an example of a masking reference curve.

【図29】3区間のスペクトルを直線予測する方法を示
す説明図である。
FIG. 29 is an explanatory diagram showing a method of linearly predicting a spectrum of three sections.

【図30】従来のオフセット算出処理を説明するための
フローチャートである。
FIG. 30 is a flowchart illustrating a conventional offset calculation process.

【図31】ビブラートが存在する信号のスペクトルの一
例を示す説明図である。
FIG. 31 is an explanatory diagram showing an example of a spectrum of a signal in which vibrato exists.

【図32】従来のミキシング回路を示すブロック図であ
る。
FIG. 32 is a block diagram showing a conventional mixing circuit.

【図33】他の従来のミキシング回路を示すブロック図
である。
FIG. 33 is a block diagram showing another conventional mixing circuit.

【図34】高能率符号化する信号及びそのマスキングレ
ベルと高能率符号化しない信号のマスキングレベルを示
す説明図である。
FIG. 34 is an explanatory diagram showing a signal to be encoded with high efficiency, a masking level thereof, and a masking level of a signal not to be encoded with high efficiency.

【符号の説明】[Explanation of symbols]

1,1a,1b,1A,1B 窓掛け切出し部 2,2a,2b,2A,2B 直交変換部(分割手段) 3,3A,3B 聴感心理分析部(聴感心理分析手段) 4 量子化・符号化部(量子化・符号化手段) 5 マルチプレックス部 6 サブバンドフィルタ部(分割手段) 7 オフセット量算出部(聴感心理分析手段) 8 第2の必要S/N算出部(聴感心理分析手段) 9 ビット割り当て部(聴感心理分析手段) 1, 1a, 1b, 1A, 1B Windowing cutout section 2, 2a, 2b, 2A, 2B Orthogonal transformation section (division means) 3, 3A, 3B Perception psychological analysis section (perception psychological analysis means) 4 Quantization / encoding Unit (quantization / encoding unit) 5 multiplex unit 6 sub-band filter unit (division unit) 7 offset amount calculation unit (psychological analysis unit) 8 second necessary S / N calculation unit (psychological analysis unit) 9 Bit allocation unit (psychological analysis means)

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−46137(JP,A) 特開 平3−250923(JP,A) 特開 平6−232761(JP,A) 特開 平7−66733(JP,A) (58)調査した分野(Int.Cl.7,DB名) H03M 7/30 ──────────────────────────────────────────────────続 き Continuation of front page (56) References JP-A-7-46137 (JP, A) JP-A-3-250923 (JP, A) JP-A-6-232761 (JP, A) JP-A-7-46 66733 (JP, A) (58) Field surveyed (Int. Cl. 7 , DB name) H03M 7/30

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 オーディオ信号を複数の周波数帯域のサ
ブバンドに分割する分割手段と、 前記分割手段により分割された各サブバンドのオーディ
オ信号を可変の量子化ビット数で量子化及び符号化する
量子化・符号化手段と、 前記分割手段又は別途の直交変換手段により得られた直
交変換係数からオーディオ信号のパワースペクトルを算
出してこのパワースペクトルの自己相関を予め定めた帯
域毎に算出し、この自己相関の最大値と最小値の比から
聴覚心理上のマスキング効果のオフセット量を算出し、
このオフセット量に基づいて前記量子化・符号化手段の
各サブバンドの量子化ビット数を決定する聴覚心理分析
手段とを、 有する音声高能率符号化装置。
A dividing unit that divides an audio signal into subbands of a plurality of frequency bands; and a quantizer that quantizes and encodes the audio signal of each subband divided by the dividing unit with a variable number of quantization bits. Encoding and encoding means, calculate the power spectrum of the audio signal from the orthogonal transform coefficients obtained by the dividing means or separate orthogonal transform means, calculate the autocorrelation of this power spectrum for each predetermined band, Calculate the offset amount of the masking effect on psychoacoustics from the ratio of the maximum value and the minimum value of the autocorrelation,
A high-efficiency audio coding apparatus, comprising: psychoacoustic analysis means for determining the number of quantization bits of each subband of the quantization / coding means based on the offset amount.
【請求項2】 オーディオ信号を複数の周波数帯域のサ
ブバンドに分割する分割手段と、 前記分割手段により分割された各サブバンドのオーディ
オ信号を可変の量子化ビット数で量子化及び符号化する
量子化・符号化手段と、 オーディオ信号の周波数領域の聴覚心理分析に基づいて
サブバンド毎の第1の必要S/N比を算出すると共にサ
ブバンド毎の信号パワーから聴覚的制御を含む二乗平均
誤差最小理論により第2の必要S/N比を算出し、前記
第1、第2の必要S/N比を重み付けして最終の必要S
/N比を算出し、この最終の必要S/N比に基づいて前
記量子化・符号化手段の各サブバンドの量子化ビット数
を決定する聴覚心理分析手段とを、 有する音声高能率符号化装置。
2. A dividing means for dividing an audio signal into sub-bands of a plurality of frequency bands, and a quantizer for quantizing and encoding the audio signal of each sub-band divided by said dividing means with a variable number of quantization bits. Means for calculating and calculating a first required S / N ratio for each subband based on psychoacoustic analysis of a frequency domain of an audio signal, and including aural control from signal power for each subband The second required S / N ratio is calculated by the minimum theory, and the first and second required S / N ratios are weighted to obtain the final required S / N ratio.
/ Acoustic analysis means for calculating the / N ratio and determining the number of quantization bits of each sub-band of the quantization / coding means based on the final required S / N ratio. apparatus.
【請求項3】 高能率符号化する第1のオーディオ信号
を複数の周波数帯域のサブバンドに分割する分割手段
と、 前記分割手段により分割された各サブバンドのオーディ
オ信号を可変の量子化ビット数で量子化及び符号化する
量子化・符号化手段と、 前記第1のオーディオ信号と、高能率符号化されず再生
側で前記第1のオーディオ信号とミキシングされる第2
のオーディオ信号をそれぞれ周波数領域で聴覚心理分析
して第1、第2のマスキングレベルを算出し、この第
1、第2のマスキングレベルに基づいて最終のマスキン
グレベルを算出し、この最終のマスキングレベルに基づ
いて前記量子化・符号化手段の各サブバンドの量子化ビ
ット数を決定する聴覚心理分析手段とを、 有する音声高能率符号化装置。
3. Dividing means for dividing a first audio signal to be encoded with high efficiency into sub-bands of a plurality of frequency bands, and a variable number of quantization bits for the audio signal of each sub-band divided by said dividing means. Quantizing / encoding means for quantizing and encoding the first audio signal, and a second audio signal which is not efficiently encoded and mixed with the first audio signal on the reproduction side.
Of each audio signal in the frequency domain to calculate first and second masking levels, calculate a final masking level based on the first and second masking levels, and calculate the final masking level. And a psychoacoustic analysis means for determining the number of quantization bits for each sub-band of the quantization / coding means based on the above.
JP05331795A 1995-02-17 1995-02-17 Highly efficient speech coding system Expired - Lifetime JP3254953B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05331795A JP3254953B2 (en) 1995-02-17 1995-02-17 Highly efficient speech coding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05331795A JP3254953B2 (en) 1995-02-17 1995-02-17 Highly efficient speech coding system

Publications (2)

Publication Number Publication Date
JPH08223052A JPH08223052A (en) 1996-08-30
JP3254953B2 true JP3254953B2 (en) 2002-02-12

Family

ID=12939350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05331795A Expired - Lifetime JP3254953B2 (en) 1995-02-17 1995-02-17 Highly efficient speech coding system

Country Status (1)

Country Link
JP (1) JP3254953B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400523B1 (en) 1992-09-28 2002-06-04 Hitachi, Ltd. Method and apparatus for recording and reproducing disk-type recording medium with dual head including reading head and writing head having offset cores

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6052756A (en) * 1983-09-01 1985-03-26 Shimadzu Corp Resistance type humidity sensor
US6151442A (en) 1996-07-08 2000-11-21 Victor Company Of Japan, Ltd. Signal compressing apparatus
JP4174859B2 (en) * 1998-07-15 2008-11-05 ヤマハ株式会社 Method and apparatus for mixing digital audio signal
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
KR101301245B1 (en) 2008-12-22 2013-09-10 한국전자통신연구원 A method and apparatus for adaptive sub-band allocation of spectral coefficients
EP2520863B1 (en) * 2011-05-05 2016-11-23 General Electric Technology GmbH Method for protecting a gas turbine engine against high dynamical process values and gas turbine engine for conducting said method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400523B1 (en) 1992-09-28 2002-06-04 Hitachi, Ltd. Method and apparatus for recording and reproducing disk-type recording medium with dual head including reading head and writing head having offset cores

Also Published As

Publication number Publication date
JPH08223052A (en) 1996-08-30

Similar Documents

Publication Publication Date Title
KR101120911B1 (en) Audio signal decoding device and audio signal encoding device
US7143030B2 (en) Parametric compression/decompression modes for quantization matrices for digital audio
US7548855B2 (en) Techniques for measurement of perceptual audio quality
KR100978018B1 (en) Parametric representation of spatial audio
CA2185746C (en) Perceptual noise masking measure based on synthesis filter frequency response
JP3153933B2 (en) Data encoding device and method and data decoding device and method
JP3186292B2 (en) High efficiency coding method and apparatus
AU1448992A (en) High efficiency digital data encoding and decoding apparatus
KR20110040820A (en) An apparatus and a method for generating bandwidth extension output data
JPH04177300A (en) Sound range dividing and coding device
KR101035104B1 (en) Processing of multi-channel signals
JP3254953B2 (en) Highly efficient speech coding system
JP2001343997A (en) Method and device for encoding digital acoustic signal and recording medium
JP3519859B2 (en) Encoder and decoder
US6385572B2 (en) System and method for efficiently implementing a masking function in a psycho-acoustic modeler
US6128593A (en) System and method for implementing a refined psycho-acoustic modeler
JPH07281697A (en) Audio signal decoder with mpeg specification
JP2993324B2 (en) Highly efficient speech coding system
RU2826044C1 (en) Psychoacoustic model for audio processing
JP2001148632A (en) Encoding device, encoding method and recording medium
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core
JPH11195995A (en) Audio video compander
JPH08102677A (en) Sound signal decoder with mpeg standard
JPH0758643A (en) Efficient sound encoding and decoding device
JP2002229598A (en) Device and method for decoding stereophonic encoded signal

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011030

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 12

EXPY Cancellation because of completion of term