JP2001109497A - Audio signal encoding device and audio signal encoding method - Google Patents

Audio signal encoding device and audio signal encoding method

Info

Publication number
JP2001109497A
JP2001109497A JP28222599A JP28222599A JP2001109497A JP 2001109497 A JP2001109497 A JP 2001109497A JP 28222599 A JP28222599 A JP 28222599A JP 28222599 A JP28222599 A JP 28222599A JP 2001109497 A JP2001109497 A JP 2001109497A
Authority
JP
Japan
Prior art keywords
frequency spectrum
spectrum data
time
conversion length
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP28222599A
Other languages
Japanese (ja)
Inventor
Akira Usami
陽 宇佐見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP28222599A priority Critical patent/JP2001109497A/en
Publication of JP2001109497A publication Critical patent/JP2001109497A/en
Pending legal-status Critical Current

Links

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an audio signal encoding device and an audio signal encoding method by which the number of bits required for encoding is reduced and the deterioration of sound quality is prevented without reducing the number of quantized bits for encoding even if the number of bits lacks as a whole. SOLUTION: A hearing model calculation part 3 suppresses the number of bits allocated to frequency spectral data so that the number is decreased without dropping a masking level showing a hearing model even if the part 3 selects a second conversion length whose frequency resolution is low at the time of calculating the hearing model.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、人間の聴覚特性を
活用して、デジタル化されたオーディオ信号を圧縮して
符号化するオーディオ信号符号化装置およびオーディオ
信号符号化方法に関するものである。
[0001] 1. Field of the Invention [0002] The present invention relates to an audio signal encoding apparatus and an audio signal encoding method for compressing and encoding a digitized audio signal by utilizing human auditory characteristics.

【0002】[0002]

【従来の技術】近年、オーディオ装置のデジタル化は急
速に進展している。例えばミニディスク(MD)に採用
されているオーディオ信号符号化方式のATRAC(A
daptive Transform Acousti
c Coding)方式や、デジタル衛星放送で採用さ
れているオーディオ信号符号化方式のMPEGの各種方
式などは、復号して再生する際の再生信号の音質を保ち
ながら原信号を効率的に圧縮するためのデジタルオーデ
ィオ信号処理技術である。
2. Description of the Related Art In recent years, digitalization of audio devices has been rapidly progressing. For example, ATRAC (A) of an audio signal encoding method adopted for a mini disc (MD)
adaptive Transform Acoustic
c Coding) system and various types of MPEG, which is an audio signal encoding system adopted in digital satellite broadcasting, are intended to efficiently compress the original signal while maintaining the sound quality of the reproduced signal when decoding and reproducing. Digital audio signal processing technology.

【0003】これらのデジタルオーディオ信号を圧縮す
るオーディオ信号符号化技術の1つとして、入力デジタ
ルオーディオ信号をQMF(Quadrature M
irror Filter)などの帯域分割フィルタ処
理を施して複数の周波数成分毎の時系列サブバンドデー
タに分割し、各々のサブバンドデータに人間の聴覚特性
を活用して量子化ビット数を割り当てて量子化した後に
符号化を行うサブバンド符号化(Subband Co
ding)方式がある。
As one of audio signal encoding techniques for compressing these digital audio signals, an input digital audio signal is converted to a QMF (Quadrature M) signal.
(e.g., color filter) to divide the data into time-series sub-band data for each of a plurality of frequency components, and allocate the number of quantization bits to each sub-band data by utilizing human auditory characteristics to perform quantization. Subband coding (Subband Co
ding) method.

【0004】また、これとは別に、入力信号として入力
デジタルオーディオ信号を、高速フーリエ変換(FF
T:Fast Fourier Transform)
や離散コサイン変換(DCT:Discrete Co
sine Transform)、変形離散コサイン変
換(MDCT: Modified Dsicrete
Cosine Transform)などの時間−周波
数変換処理を施して複数の周波数スペクトルデータに変
換し、各々の周波数スペクトルデータに人間の聴覚特性
を活用して量子化ビット数を割り当てて量子化した後に
符号化を行う変換符号化(Transform Cod
ing)方式がある。
[0004] Separately, an input digital audio signal is converted to a fast Fourier transform (FF) as an input signal.
T: Fast Fourier Transform)
And discrete cosine transform (DCT: Discrete Co
sine Transform, Modified Discrete Cosine Transform (MDCT)
A time-frequency conversion process such as Cosine Transform is performed to convert the frequency spectrum data into a plurality of frequency spectrum data. Perform Transform Cod
ing) method.

【0005】MPEGのAAC方式では、時系列のデジ
タルオーディオ信号から周波数スペクトルデータへの変
換にMDCTを用いており、この変換符号化方式の一つ
である。さらに、サブバンド符号化方式と変換符号化方
式を組み合わせた符号化方式があり、MD(ミニディス
ク)のATRACはこの符号化方式の一つである。デジ
タルオーディオ信号を圧縮する上記のいずれの符号化方
式においても、人間の聴覚特性を用いることにより原信
号を圧縮している。人間の聴覚特性には、静寂時に周波
数毎で異なる知覚可能な最小の信号レベルを示す最小可
聴限特性がある。
[0005] In the MPEG AAC method, MDCT is used to convert a time-series digital audio signal into frequency spectrum data, which is one of the conversion coding methods. Further, there is an encoding system in which a subband encoding system and a transform encoding system are combined, and ATRAC of MD (mini disc) is one of the encoding systems. In any of the above encoding schemes for compressing digital audio signals, the original signal is compressed by using human auditory characteristics. Human auditory characteristics include a minimum audible characteristic that indicates the minimum perceptible signal level that differs for each frequency in a quiet state.

【0006】また、同時に発生する異なる周波数の信号
の間で、信号レベルの大きい音が信号レベルの小さい音
を聞こえにくくする周波数同時マスキング効果や、時間
軸で連続する信号の間で、信号レベルの大きい音が信号
レベルの小さい音を聞こえにくくする時間マスキング効
果などがある。これらの人間の聴覚特性を用いて、知覚
されない信号を間引いたり、あるいは知覚されにくい信
号の量子化ビット数を小さくすることで、再生時の音質
を保ちながらも高い圧縮率を実現している。
[0006] Further, between signals of different frequencies generated simultaneously, a sound having a high signal level makes it difficult to hear a sound having a low signal level. There is a time masking effect that makes it difficult to hear a loud sound with a low signal level. Using these human auditory characteristics, thinning out signals that are not perceived or reducing the number of quantization bits of signals that are hardly perceived achieves a high compression rate while maintaining sound quality during reproduction.

【0007】図4は変換符号化方式の符号化処理を実現
する従来のオーディオ信号符号化装置の構成を示すブロ
ック図である。図4において、41は時系列での個数M
を単位とするデジタルオーディオ信号を、個数Mの周波
数軸上の周波数スペクトルデータに変換する第1の変換
長、あるいは時系列でKを正整数としてM/Kで与えら
れる個数Nを単位とするデジタルオーディオ信号を、時
間軸上で個数がKで連続する周波数軸上のN個の周波数
スペクトルデータに変換する第2の変換長により、周波
数スペクトルデータを算出する周波数変換部、42は周
波数変換部41で周波数スペクトルデータを算出する単
位を示す第1の変換長、あるいは第2の変換長をデジタ
ルオーディオ信号に応じて選択する変換長決定部、43
は前記第1の変換長あるいは第2の変換長に応じた周波
数軸上の最小可聴値を供給する最小可聴値供給部、44
は周波数変換部41で算出された周波数スペクトルデー
タと変換長決定部42で選択された変換長とにもとづい
て、周波数スペクトルデータの量子化のためのビット数
を決定する際に用いられる人間の聴覚特性に対応する聴
覚モデルを算出する聴覚モデル決定部、55は聴覚モデ
ル決定部54で算出された聴覚モデルを使って周波数ス
ペクトルデータを量子化する際のビット数を決定し、周
波数スペクトルデータを量子化し、符号化ビット列を生
成する量子化および符号化部である。符号化処理は、M
個のデジタルオーディオ信号に対して符号化処理を施す
単位で実行される。
FIG. 4 is a block diagram showing a configuration of a conventional audio signal encoding apparatus which realizes encoding processing of the transform encoding method. In FIG. 4, 41 is the number M in time series.
Is a first conversion length for converting a digital audio signal in units of M into frequency spectrum data on the number M of frequency axes, or a digital unit in units of number N given by M / K, where K is a positive integer in time series. A frequency conversion unit for calculating frequency spectrum data by a second conversion length for converting an audio signal into N frequency spectrum data on a frequency axis where the number is continuous with K on the time axis; A conversion length determining unit for selecting a first conversion length or a second conversion length indicating a unit for calculating frequency spectrum data in accordance with the digital audio signal;
A minimum audible value supply unit 44 for supplying a minimum audible value on the frequency axis according to the first conversion length or the second conversion length;
Is a human auditory sense used to determine the number of bits for quantization of the frequency spectrum data based on the frequency spectrum data calculated by the frequency conversion unit 41 and the conversion length selected by the conversion length determination unit 42. An auditory model determining unit 55 that calculates an auditory model corresponding to the characteristic determines the number of bits when quantizing the frequency spectrum data using the auditory model calculated by the auditory model determining unit 54, and quantizes the frequency spectrum data. It is a quantization and coding unit that converts the data into a coded bit string. The encoding process is M
This is performed in units of performing the encoding process on the digital audio signals.

【0008】ここで、周波数変換部41で第1の変換長
あるいは第2の変換長の2つの異なる変換長で周波数変
換を行う理由を図5を使って以下に説明する。上記の変
換符号化方式により符号化されたデジタルオーディオ信
号を復号してデジタルオーディオ信号を再生する際、符
号化時の量子化ビット数によって決まる量子化誤差が周
波数変換を施す単位に分散して現れる。すなわち、信号
レベルが大きく変化するデジタルオーディオ信号を第1
の変換長で符号化し、復号して再生される際には図5
(a)に示されるようにレベルの大きい信号と同時に現
れる量子化誤差は知覚されないが、レベルの小さい信号
と同時に現れる量子化誤差が知覚されてしまう。これを
防ぐために、第2の変換長を選択して周波数変換を施す
単位を小さくすることで、図5(b)に示されるように
量子化誤差が現れる時間を短くして量子化誤差が知覚さ
れにくくなるようにしている。このように変換長を選択
して周波数変換を施すことにより、M個のデジタルオー
ディオ信号を単位として実行される符号化処理におい
て、第1の変換長を選択したときはM個のデジタルオー
ディオ信号を単位として周波数変換を行い、M個の周波
数スペクトルデータSp(0,j)(0≦j≦M−1)
が算出される。また、第2の変換長を選択したときはN
個のデジタルオーディオ信号を単位として周波数変換を
行い、N個の周波数スペクトルデータSp(i,j)
(0≦i≦K−1,0≦j≦N−1)が算出され、この
N個の周波数スペクトルデータからなる周波数スペクト
ルデータ群が時間軸上にK個連続して算出される。図6
は、M=16として第1の変換長を選択したときに算出
される周波数スペクトルデータSp(i,j)(i=
0,0≦j≦15)の様子を示す図である。また、図7
はM=16,N=4,K=4として第2の変換長を選択
したときに算出される周波数スペクトルデータSp
(i,j)(0≦i≦3,0≦j≦3)の様子を示す図
である。図7に示すように、第2の変換長を選択したと
きに算出される周波数スペクトルデータは、第1の変換
長を選択したときに算出される周波数スペクトルデータ
に対して周波数軸上の周波数スペクトルデータの数が1
/Kすなわち1/4になり、周波数分解能が低くなると
ともに、時間軸上の周波数スペクトルデータの数がK倍
すなわち4倍になり、時間分解能が高くなる。
Here, the reason why the frequency conversion is performed by the frequency conversion unit 41 using two different conversion lengths of the first conversion length or the second conversion length will be described below with reference to FIG. When a digital audio signal encoded by the above-described transform encoding method is decoded to reproduce the digital audio signal, a quantization error determined by the number of quantization bits at the time of encoding appears dispersedly in units for performing frequency conversion. . That is, the digital audio signal whose signal level changes greatly is
In the case of encoding with the conversion length of
As shown in (a), a quantization error that appears at the same time as a high-level signal is not perceived, but a quantization error that appears at the same time as a low-level signal is perceived. In order to prevent this, the unit for performing the frequency conversion by selecting the second conversion length is reduced to shorten the time during which the quantization error appears, as shown in FIG. It is difficult to be done. By performing the frequency conversion by selecting the conversion length in this manner, in the encoding process performed in units of M digital audio signals, when the first conversion length is selected, the M digital audio signals are converted. Frequency conversion is performed as a unit, and M pieces of frequency spectrum data Sp (0, j) (0 ≦ j ≦ M−1)
Is calculated. When the second conversion length is selected, N
Frequency conversion is performed in units of digital audio signals, and N frequency spectrum data Sp (i, j)
(0.ltoreq.i.ltoreq.K-1, 0.ltoreq.j.ltoreq.N-1) are calculated, and K frequency spectrum data groups composed of the N frequency spectrum data are continuously calculated on the time axis. FIG.
Is the frequency spectrum data Sp (i, j) (i = j) calculated when the first conversion length is selected with M = 16.
(0, 0 ≦ j ≦ 15). FIG.
Is the frequency spectrum data Sp calculated when M = 16, N = 4, K = 4 and the second conversion length is selected.
It is a figure showing a situation of (i, j) (0 ≦ i ≦ 3, 0 ≦ j ≦ 3). As shown in FIG. 7, the frequency spectrum data calculated when the second conversion length is selected is different from the frequency spectrum data calculated when the first conversion length is selected by the frequency spectrum on the frequency axis. Number of data is 1
/ K, that is, 1/4, and the frequency resolution becomes low, and the number of frequency spectrum data on the time axis becomes K times, that is, 4 times, and the time resolution becomes high.

【0009】図5に示す従来のオーディオ信号符号化装
置で実行される符号化処理を以下に説明する。まず、変
換長決定部42では、時系列のデジタルオーディオ信号
に応じて周波数変換を行う単位を示す変換長を決定し、
周波数変換部41と最小可聴値供給部43と聴覚モデル
算出部44と量子化および符号化部45に、決定した変
換長を変換長指定信号S41によって通知する。
The encoding process performed by the conventional audio signal encoding device shown in FIG. 5 will be described below. First, the conversion length determination unit 42 determines a conversion length indicating a unit for performing frequency conversion according to a time-series digital audio signal,
The determined conversion length is notified to the frequency conversion unit 41, the minimum audible value supply unit 43, the auditory model calculation unit 44, and the quantization and encoding unit 45 by the conversion length designation signal S41.

【0010】次に、周波数変換部41では、変換長決定
部42から通知される第1の変換長あるいは第2の変換
長を示す変換長指定信号S41に従って、時系列のM個
のデジタルオーディオ信号を周波数変換し、周波数スペ
クトルデータSp(i,j)を算出する。ここで、第1
の変換長が選択されたときはi=0,0≦j≦M−1と
なり、第2の変換長が選択されたときは0≦i≦K−
1,0≦j≦N−1となる。
[0010] Next, in the frequency conversion unit 41, according to the conversion length designation signal S41 indicating the first conversion length or the second conversion length notified from the conversion length determination unit 42, the time-series M digital audio signals. Is frequency-converted to calculate frequency spectrum data Sp (i, j). Here, the first
When the conversion length is selected, i = 0, 0 ≦ j ≦ M−1, and when the second conversion length is selected, 0 ≦ i ≦ K−
1,0 ≦ j ≦ N−1.

【0011】最小可聴値供給部43では、変換長決定部
42から通知される変換長指定信号S41にしたがって
第1の変換長、あるいは第2の変換長に応じた周波数軸
の最小可聴値Q1(j)あるいはQ2(j)を選択して
聴覚モデル決定部44に供給する。ここで、第1の変換
長が選択されたときは0≦j≦M−1となり、第2の変
換長が選択されたときは0≦j≦N−1となる。
In the minimum audible value supply unit 43, the minimum audible value Q1 (in the frequency axis corresponding to the first conversion length or the second conversion length) according to the conversion length designation signal S41 notified from the conversion length determination unit 42. j) or Q2 (j) is selected and supplied to the auditory model determination unit 44. Here, when the first conversion length is selected, 0 ≦ j ≦ M−1, and when the second conversion length is selected, 0 ≦ j ≦ N−1.

【0012】聴覚モデル算出部44では、変換長決定部
42から通知される変換長指定信号S41と、周波数変
換部41により算出される周波数スペクトルデータSp
(i,j)と、最小可聴値供給部43から供給される最
小可聴値Q1(j)とに基づいて、周波数スペクトルデ
ータSp(i,j)を量子化するビット数を決定する際
に用いるマスキング閾値レベルM(i,j)を算出す
る。
The auditory model calculation unit 44 converts the conversion length designation signal S41 notified from the conversion length determination unit 42 and the frequency spectrum data Sp calculated by the frequency conversion unit 41.
Based on (i, j) and the minimum audible value Q1 (j) supplied from the minimum audible value supply unit 43, it is used when determining the number of bits for quantizing the frequency spectrum data Sp (i, j). A masking threshold level M (i, j) is calculated.

【0013】量子化および符号化部45では、聴覚モデ
ル算出部44で算出されたマスキング閾値レベルM
(i,j)を用いて、周波数スペクトルデータSp
(i,j)を量子化するビット数を決定し、周波数スペ
クトルデータSp(i,j)を量子化して符号化ビット
列を出力する。図8はM=16の時の第1の変換長が選
択されたときに最小可聴値供給部43から供給される周
波数毎の最小可聴値Q1(j)を示す図である。図8に
おいて、周波数j(0≦j≦15)に対して最小可聴値
は網掛けの部分のレベルQ1(j)で示される。
In the quantization and coding unit 45, the masking threshold level M calculated by the auditory model calculating unit 44
Using (i, j), the frequency spectrum data Sp
The number of bits for quantizing (i, j) is determined, and the frequency spectrum data Sp (i, j) is quantized to output a coded bit sequence. FIG. 8 is a diagram showing the minimum audible value Q1 (j) for each frequency supplied from the minimum audible value supply unit 43 when the first conversion length when M = 16 is selected. In FIG. 8, the minimum audible value for the frequency j (0 ≦ j ≦ 15) is indicated by the shaded level Q1 (j).

【0014】この第1の変換長に対して、図9はM=1
6,N=4,K=4の時の周波数分解能が1/Kすなわ
ち1/4となる第2の変換長が選択されたときに最小可
聴値供給部43から供給される周波数毎の最小可聴値Q
2(j)を示す図である。図9において、周波数j(0
≦j≦3)に対して最小可聴値は網掛け部分のレベルQ
2(j)で示される。
For this first conversion length, FIG.
6, when N = 4 and K = 4, the minimum audible value for each frequency supplied from the minimum audible value supply unit 43 when the second conversion length at which the frequency resolution is 1 / K, that is, 1/4 is selected. Value Q
It is a figure showing 2 (j). In FIG. 9, frequency j (0
≦ j ≦ 3), the minimum audible value is the level Q of the shaded portion.
2 (j).

【0015】また、従来は一般的に、図9のQ2(0)
は図8のQ1(j)(0≦j≦3)のうちで最小のQ1
(3)と同じレベルであり、図9のQ2(1)は図8の
Q1(j)(4≦j≦7)のうちで最小のQ1(7)と
同じレベルであり、図9のQ2(2)は図8のQ1
(j)(8≦j≦11)のうちで最小のQ1(10)と
同じレベルであり、さらに図9のQ2(3)は図8のQ
1(j)(12≦j≦15)のうちで最小のQ1(1
2)と同じレベルとなるように、最小可聴値を間引いて
用いていた。
Conventionally, generally, Q2 (0) shown in FIG.
Is the smallest Q1 of Q1 (j) (0 ≦ j ≦ 3) in FIG.
9 is the same level as Q2 (1) in FIG. 9, and is the same level as Q1 (7) which is the minimum among Q1 (j) (4 ≦ j ≦ 7) in FIG. (2) is Q1 in FIG.
(J) (8 ≦ j ≦ 11), which is the same level as the minimum Q1 (10), and Q2 (3) in FIG.
1 (j) (12 ≦ j ≦ 15), the smallest Q1 (1
The minimum audible value was thinned out so as to be the same level as in 2).

【0016】このことは、図9に示すように、周波数分
解能が低い第2の変換長を選択することにより、マスキ
ング閾値レベル意M(i,j)を決定する際に用いる最
小可聴値Q2(j)が、第1の変換長を選択する場合に
比べて低くなることを示している。図8および図9にお
いては周波数スペクトルデータ毎に最小可聴値を供給す
る場合を例にしているが、聴覚心理で用いられる臨界帯
域毎に複数の周波数スペクトルデータを纏めた周波数軸
上に連続するブロックを単位に符号化を行う場合には、
このブロック毎に最小可聴値を供給する。第1の変換長
が選択されたときに周波数軸上のブロックの数をM=1
6とした場合、最小可聴値は図8のように表され、また
第2の変換長が選択されたときに周波数軸上のブロック
の数をM=4とした場合、最小可聴値は図9のように表
される。
This means that, as shown in FIG. 9, by selecting the second conversion length having a low frequency resolution, the minimum audible value Q2 () used for determining the masking threshold level M (i, j) is determined. j) is lower than the case where the first conversion length is selected. FIGS. 8 and 9 show an example in which the minimum audible value is supplied for each frequency spectrum data. However, blocks continuous on the frequency axis in which a plurality of frequency spectrum data are collected for each critical band used in psychoacoustic psychology. When encoding in units of
The minimum audible value is provided for each block. When the first transform length is selected, the number of blocks on the frequency axis is M = 1.
When the second transform length is selected, the minimum audible value is represented as shown in FIG. 8, and when the number of blocks on the frequency axis is M = 4 when the second transform length is selected, the minimum audible value is represented by FIG. It is represented as

【0017】[0017]

【発明が解決しようとする課題】しかしながら、上記の
ような従来のオーディオ信号符号化装置では、第2の変
換長を選択したときの最小可聴値が第1の変換長を選択
するときに比べて低くなり、その最小可聴値を、周波数
スペクトルデータに割り当てるビット数を決定する際に
用いる聴覚モデルとする場合に、第2の変換長を選択し
たときの周波数スペクトルデータに割り当てるビット数
が第1変換長を選択するときに比べて大きくなり、その
周波数スペクトルデータに対する符号化に必要なビット
数が多くなってしまう。
However, in the above-described conventional audio signal encoding apparatus, the minimum audible value when the second conversion length is selected is smaller than that when the first conversion length is selected. When the minimum audible value is used as an auditory model used to determine the number of bits to be allocated to the frequency spectrum data, the number of bits to be allocated to the frequency spectrum data when the second conversion length is selected is changed to the first conversion. The length becomes longer than when the length is selected, and the number of bits required for encoding the frequency spectrum data increases.

【0018】このように、第2の変換長を選択したとき
の周波数スペクトルデータに対する符号化に必要なビッ
ト数が多くなったために、ビット数が不足したことによ
り量子化誤差が大きくなり、音質が劣化してしまうとい
う問題点を有していた。本発明は、上記従来の問題点を
解決するもので、聴覚モデルの算出の際に実行する周波
数スペクトルデータに対する符号化に必要なビット数を
減少させることができ、全体としてビット数が不足して
いる場合にも符号化のための量子化ビット数をさらに減
少させることなく、音質の劣化を防止することができる
オーディオ信号符号化装置およびオーディオ信号符号化
方法を提供する。
As described above, since the number of bits necessary for encoding the frequency spectrum data when the second transform length is selected increases, the quantization error increases due to the lack of the number of bits, and the sound quality is reduced. There was a problem that it deteriorated. The present invention solves the above-mentioned conventional problems, and can reduce the number of bits required for encoding frequency spectrum data to be executed at the time of calculating an auditory model. Provided is an audio signal encoding device and an audio signal encoding method capable of preventing deterioration of sound quality without further reducing the number of quantization bits for encoding even when the audio signal is present.

【0019】[0019]

【課題を解決するための手段】上記の課題を解決するた
めに本発明のオーディオ信号符号化装置およびオーディ
オ信号符号化方法は、聴覚モデルの算出の際に周波数分
解能が低い第2の変換長を選択したことにより、最小可
聴値が低くなる場合にも、時間マスキング効果を用いて
聴覚モデルを示すマスキング閾値レベルが低下するのを
防ぎ、周波数スペクトルデータに割り当てるビット数を
少なく抑えることを特徴とする。
In order to solve the above-mentioned problems, an audio signal encoding apparatus and an audio signal encoding method according to the present invention use a second transform length having a low frequency resolution when calculating an auditory model. By the selection, even when the minimum audible value becomes low, the masking threshold level indicating the auditory model is prevented from being lowered by using the time masking effect, and the number of bits allocated to the frequency spectrum data is reduced. .

【0020】以上により、聴覚モデルの算出の際に実行
する周波数スペクトルデータに対する符号化に必要なビ
ット数を減少させることができ、全体としてビット数が
不足している場合にも符号化のための量子化ビット数を
さらに減少させることなく、音質の劣化を防止すること
ができる。
As described above, it is possible to reduce the number of bits required for encoding the frequency spectrum data to be executed at the time of calculating the auditory model, and to perform encoding even when the number of bits is insufficient as a whole. Deterioration of sound quality can be prevented without further reducing the number of quantization bits.

【0021】[0021]

【発明の実施の形態】本発明の請求項1に記載のオーデ
ィオ信号符号化装置は、時系列での個数Mを単位とする
デジタルオーディオ信号を、個数Mの周波数スペクトル
データに変換する第1の変換長、または時系列でKを正
整数としてM/Kで与えられる個数Nを単位とするデジ
タルオーディオ信号を、時間軸上での個数がKで連続す
る個数Nの周波数スペクトルデータに変換する第2の変
換長のうちの一方で、前記周波数スペクトルデータを算
出する周波数変換部と、前記周波数変換部により前記周
波数スペクトルデータを算出する際の前記第1の変換長
あるいは第2の変換長を、前記デジタルオーディオ信号
に応じて選択する変換長決定部と、前記第1の変換長あ
るいは第2の変換長に応じた周波数軸の最小可聴値を供
給する最小可聴値供給部と、前記周波数変換部で得られ
た前記周波数スペクトルデータと前記変換長決定部で選
択された変換長とに基づいて、前記周波数スペクトルデ
ータの量子化のためのビット数を決定する際に用いられ
る人間の聴覚特性に対応する聴覚モデルを算出する聴覚
モデル算出部と、前記聴覚モデル算出部で算出された前
記聴覚モデルにより決定したビット数で前記周波数スペ
クトルデータを量子化して、符号化ビット列を生成する
量子化および符号化部とを有するオーディオ信号符号化
装置であって、前記第2の変換長を選択したときは、前
記周波数変換部により算出される時間軸上での個数がK
で連続する前記周波数スペクトルデータのうち、時間軸
上で連続する複数の前記周波数スペクトルデータの間の
時間マスキング効果を使って時間マスキング閾値を算出
する時間マスキング算出部と、前記周波数スペクトルデ
ータと前記最小可聴値と前記時間マスキング閾値とを用
いて聴覚モデルを算出する前記聴覚モデル決定部とを備
えた構成とする。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An audio signal encoding apparatus according to a first aspect of the present invention converts a digital audio signal having a unit of number M in time series into a number M of frequency spectrum data. A digital audio signal whose unit is a conversion length or a number N given by M / K, where K is a positive integer in a time series, is converted into a number N of frequency spectrum data whose number on the time axis is continuous with K. 2, the frequency conversion unit for calculating the frequency spectrum data, the first conversion length or the second conversion length when calculating the frequency spectrum data by the frequency conversion unit, A conversion length determining unit for selecting according to the digital audio signal, and a minimum audible value for supplying a minimum audible value on a frequency axis according to the first conversion length or the second conversion length Supply unit, based on the frequency spectrum data obtained by the frequency conversion unit and the conversion length selected by the conversion length determination unit, when determining the number of bits for quantization of the frequency spectrum data An auditory model calculating unit that calculates an auditory model corresponding to the human auditory characteristics to be used, and quantizing the frequency spectrum data with the number of bits determined by the auditory model calculated by the auditory model calculating unit, to obtain an encoded bit sequence. An audio signal encoding apparatus having a quantization and encoding unit for generating the second transform length, wherein when the second transform length is selected, the number on the time axis calculated by the frequency transform unit is K
A time masking calculation unit that calculates a time masking threshold using a time masking effect between a plurality of the frequency spectrum data continuous on the time axis, the frequency spectrum data and the minimum A configuration including the auditory model determination unit that calculates an auditory model using an audible value and the temporal masking threshold.

【0022】請求項2に記載のオーディオ信号符号化装
置は、請求項1に記載の第2の変換長を選択したとき
に、Lは1以上の正整数として、前記N個の周波数スペ
クトルデータを少なくとも1個の周波数スペクトルデー
タを含むL個のブロックに分割し、各々のブロック毎の
周波数スペクトルデータの絶対値の最大値、あるいは自
乗和で求められる信号レベルを算出し、時間軸上での個
数がKで連続する個数Lの前記信号レベルのうち、時間
軸上で連続する複数の前記信号レベルの間の時間マスキ
ング効果を使って時間マスキング閾値を算出する時間マ
スキング算出部を備えた構成とする。
In the audio signal encoding apparatus according to the second aspect, when the second transform length according to the first aspect is selected, L is a positive integer equal to or greater than 1 and the N frequency spectrum data are converted to the first transform length. It divides into L blocks including at least one frequency spectrum data, calculates the maximum value of the absolute value of the frequency spectrum data for each block, or the signal level obtained by the sum of squares, and calculates the number on the time axis. Has a time masking calculation unit that calculates a time masking threshold using a time masking effect between a plurality of the signal levels continuous on the time axis among the number L of the signal levels continuous with K. .

【0023】請求項3に記載のオーディオ信号符号化方
法は、時系列での個数Mを単位とするデジタルオーディ
オ信号を、個数Mの周波数スペクトルデータに変換する
第1の変換長、または時系列でKを正整数としてM/K
で与えられる個数Nを単位とするデジタルオーディオ信
号を、時間軸上での個数がKで連続する個数Nの周波数
スペクトルデータに変換する第2の変換長のうち、前記
デジタルオーディオ信号に応じて選択した変換長で、前
記デジタルオーディオ信号から前記周波数スペクトルデ
ータを算出し、この周波数スペクトルデータと前記選択
した変換長とに基づいて、前記周波数スペクトルデータ
の量子化のためのビット数を決定する際に用いられる人
間の聴覚特性に対応する聴覚モデルを算出し、算出され
た前記聴覚モデルにより決定したビット数で前記選択し
た変換長により算出した周波数スペクトルデータを量子
化して、符号化ビット列を生成するオーディオ信号符号
化方法であって、前記聴覚モデルの算出で前記第2の変
換長を選択したときは、その変換長により算出される時
間軸上での個数がKで連続する前記周波数スペクトルデ
ータのうち、時間軸上で連続する複数の前記周波数スペ
クトルデータの間の時間マスキング効果を使って時間マ
スキング閾値を算出し、前記周波数スペクトルデータ
と、第1の変換長あるいは第2の変換長に応じた周波数
軸の最小可聴値と、前記時間マスキング閾値を用いて聴
覚モデルを算出する方法とする。
According to a third aspect of the present invention, in the audio signal encoding method, a first conversion length for converting a digital audio signal in units of the number M of time series into frequency spectrum data of the number M or a time series is used. M / K where K is a positive integer
Is selected in accordance with the digital audio signal from among the second conversion lengths for converting the digital audio signal in units of the number N given by the above into the number N of frequency spectrum data whose number on the time axis is continuous with K. Calculating the frequency spectrum data from the digital audio signal with the converted length, and determining the number of bits for quantization of the frequency spectrum data based on the frequency spectrum data and the selected conversion length. An audio for calculating an auditory model corresponding to the human auditory characteristic to be used, quantizing the frequency spectrum data calculated by the selected conversion length with the calculated number of bits determined by the auditory model, and generating an encoded bit sequence A signal encoding method, wherein the second transform length is selected in the calculation of the auditory model. Is time masking using a time masking effect between a plurality of frequency spectrum data continuous on the time axis among the frequency spectrum data whose number on the time axis calculated by the conversion length is continuous with K. A threshold value is calculated, and an auditory model is calculated using the frequency spectrum data, the minimum audible value on the frequency axis according to the first conversion length or the second conversion length, and the time masking threshold value.

【0024】請求項4に記載のオーディオ信号符号化方
法は、請求項3に記載の第2の変換長を選択したとき
に、Lは1以上の正整数として、前記N個の周波数スペ
クトルデータを少なくとも1個の周波数スペクトルデー
タを含むL個のブロックに分割し、各々のブロック毎の
周波数スペクトルデータの絶対値の最大値、あるいは自
乗和で求められる信号レベルを算出し、時間軸上での個
数がKで連続する個数Lの前記信号レベルのうち、時間
軸上で連続する複数の前記信号レベルの間の時間マスキ
ング効果を使って時間マスキング閾値を算出する方法と
する。
According to a fourth aspect of the present invention, in the audio signal encoding method, when the second transform length according to the third aspect is selected, L is a positive integer of 1 or more, and the N number of frequency spectrum data are converted to N. It divides into L blocks including at least one frequency spectrum data, calculates the maximum value of the absolute value of the frequency spectrum data for each block, or the signal level obtained by the sum of squares, and calculates the number on the time axis. Is a method of calculating a time masking threshold using a time masking effect between a plurality of signal levels continuous on a time axis among a number L of the signal levels continuous with K.

【0025】これらの構成および方法によると、聴覚モ
デルの算出の際に周波数分解能が低い第2の変換長を選
択したことにより、最小可聴値が低くなる場合にも、時
間マスキング効果を用いて聴覚モデルを示すマスキング
閾値レベルが低下するのを防ぎ、周波数スペクトルデー
タに割り当てるビット数を少なく抑える。以下、本発明
の実施の形態を示すオーディオ信号符号化装置およびオ
ーディオ信号符号化方法について、図面を参照しながら
具体的に説明する。 (実施の形態1)本発明の実施の形態1のオーディオ信
号符号化装置を説明する。
According to these configurations and methods, when the second conversion length having a low frequency resolution is selected at the time of calculating the auditory model, even when the minimum audible value is low, the auditory sense can be obtained using the time masking effect. The masking threshold level indicating the model is prevented from lowering, and the number of bits allocated to the frequency spectrum data is reduced. Hereinafter, an audio signal encoding device and an audio signal encoding method according to embodiments of the present invention will be specifically described with reference to the drawings. (Embodiment 1) An audio signal encoding apparatus according to Embodiment 1 of the present invention will be described.

【0026】図1は本実施の形態1のオーディオ信号符
号化装置の構成を示すブロック図である。図1におい
て、周波数変換部1と変換長決定部2と最小可聴値供給
部4と量子化および符号化部5は、図4における従来の
オーディオ信号符号化装置と同じ動作をする構成要素で
ある。3は第2の変換長を選択した時に、時間軸上でK
個の連続する周波数スペクトルデータSp(i,j)の
間の時間マスキング効果を使って時間マスキング閾値T
m(i,j)を算出する時間マスキング算出部である。
5は最小可聴値供給部4から供給される最小可聴値Q1
(j)あるいはQ2(j)と、時間マスキング算出部3
で算出される時間マスキング閾値Tm(i,j)と、周
波数スペクトルデータSp(i,j)とに基づいて、聴
覚モデルを示すマスキング閾値レベルM(i,j)を決
定する聴覚モデル決定部である。聴覚モデル決定部5
は、第1の変換長を選択したときには最小可聴値供給部
4から供給される最小可聴値Q1(j)と周波数スペク
トルデータSp(i,j)とに基づいて聴覚モデルを示
すマスキング閾値レベルM(i,j)を決定し、第2の
変換長を選択したときには最小可聴値供給部4から供給
される最小可聴値Q2(j)と、時間マスキング算出部
3で算出される時間マスキング閾値Tm(i,j)とを
比較しどちらか大きい方と、周波数スペクトルデータS
p(i,j)とに基づいて聴覚モデルを示すマスキング
閾値レベルM(i,j)を決定して出力する。
FIG. 1 is a block diagram showing the configuration of the audio signal encoding apparatus according to the first embodiment. In FIG. 1, a frequency conversion unit 1, a conversion length determination unit 2, a minimum audible value supply unit 4, and a quantization and encoding unit 5 are components that perform the same operations as the conventional audio signal encoding device in FIG. . 3 indicates that when the second conversion length is selected,
The time masking threshold T using the time masking effect between two consecutive frequency spectrum data Sp (i, j)
It is a time masking calculation unit that calculates m (i, j).
5 is the minimum audible value Q1 supplied from the minimum audible value supply unit 4.
(J) or Q2 (j) and time masking calculating section 3
In the auditory model determining unit that determines a masking threshold level M (i, j) indicating the auditory model based on the time masking threshold Tm (i, j) calculated in the above and the frequency spectrum data Sp (i, j). is there. Auditory model determination unit 5
Is a masking threshold level M indicating the auditory model based on the minimum audible value Q1 (j) supplied from the minimum audible value supply unit 4 and the frequency spectrum data Sp (i, j) when the first conversion length is selected. When (i, j) is determined and the second conversion length is selected, the minimum audible value Q2 (j) supplied from the minimum audible value supply unit 4 and the time masking threshold Tm calculated by the time masking calculation unit 3 (I, j), and the larger one is compared with the frequency spectrum data S
Based on p (i, j), a masking threshold level M (i, j) indicating the auditory model is determined and output.

【0027】図2は図1に示す時間マスキング算出部3
における時間軸上でK個の連続する周波数スペクトルデ
ータSp(i,j)の間の時間マスキング効果を用いて
算出される時間マスキング閾値Tm(i,j)を示す図
である。図3は、{j=0,K=4}とした場合で時間
軸上の4個の連続する周波数スペクトルデータSp
(i,0)(0≦i≦3)の間でSp(i1,0)がS
p(i2,0)(0≦i1≦3,0≦i2≦3,i1≠
i2)にあたえる時間マスキング効果による時間マスキ
ング閾値Tm(i,0)(i=0,…,3)を示す。
FIG. 2 shows the time masking calculating section 3 shown in FIG.
FIG. 7 is a diagram showing a time masking threshold Tm (i, j) calculated using a time masking effect between K pieces of continuous frequency spectrum data Sp (i, j) on the time axis in FIG. FIG. 3 shows four continuous frequency spectrum data Sp on the time axis when {j = 0, K = 4}.
Sp (i1,0) becomes S between (i, 0) (0 ≦ i ≦ 3)
p (i2,0) (0 ≦ i1 ≦ 3,0 ≦ i2 ≦ 3, i1}
A time masking threshold Tm (i, 0) (i = 0,..., 3) based on the time masking effect given to i2) is shown.

【0028】時間マスキング算出部3においては、各々
の周波数スペクトルデータSp(i,j)が時間軸上に
連続する周波数スペクトルデータに与える時間マスキン
グ効果による時間マスキング閾値Tm(i,j)を算出
し、その最大値を周波数スペクトルSp(i,j)に対
する時間マスキング閾値Tm(i,j)とする。また、
処理量を削減するために、時間軸上で隣接する周波数ス
ペクトルデータの間のマスキングレベルを算出してもよ
い。さらに、時間軸上のK個の連続する周波数スペクト
ルデータSp(i,j)の間のマスキングレベルの算出
を任意の周波数jで行ってもよい。
The time masking calculation section 3 calculates a time masking threshold Tm (i, j) by a time masking effect that each frequency spectrum data Sp (i, j) gives to frequency spectrum data continuous on the time axis. , The maximum value of which is defined as a time masking threshold Tm (i, j) for the frequency spectrum Sp (i, j). Also,
In order to reduce the processing amount, a masking level between frequency spectrum data adjacent on the time axis may be calculated. Furthermore, the calculation of the masking level between the K consecutive frequency spectrum data Sp (i, j) on the time axis may be performed at an arbitrary frequency j.

【0029】図2で示される時間マスキング閾値Tm
(0,0)が時間マスキング算出部3で算出されるとき
は、Tm(0,3)は最小可聴値供給部4から供給され
る最小可聴値Q2(0)よりも小さいので、聴覚モデル
決定部5においては最小可聴値Q2(0)と周波数スペ
クトルデータSp(0,0)とに基づいて周波数スペク
トルデータSp(0,0)を量子化するビット数を決定
する際に用いるマスキング閾値レベルM(0,0)を決
定する。しかしながら、Tm(1,0)は最小可聴値Q
2(0)よりも大きいので、聴覚モデル決定部5におい
ては、Tm(1,0)と周波数スペクトルデータSp
(1,0)とに基づいて周波数スペクトルデータSp
(1,0)を量子化するビット数を決定する際に用いる
マスキング閾値レベルM(1,0)を決定する。Tm
(2,0)およびTm(3,0)も同様に最小可聴値Q
2(0)よりも大きいので、これらの値と周波数スペク
トルデータSp(2,0)およびSp(3,0)とに基
づいてマスキング閾値レベルM(2,0)およびM
(3,0)を決定する。
The time masking threshold Tm shown in FIG.
When (0,0) is calculated by the time masking calculation unit 3, since Tm (0,3) is smaller than the minimum audible value Q2 (0) supplied from the minimum audible value supply unit 4, the auditory model determination is performed. In the section 5, a masking threshold level M used for determining the number of bits for quantizing the frequency spectrum data Sp (0,0) based on the minimum audible value Q2 (0) and the frequency spectrum data Sp (0,0). (0,0) is determined. However, Tm (1,0) is the minimum audible value Q
2 (0), Tm (1,0) and frequency spectrum data Sp
(1, 0) and the frequency spectrum data Sp
A masking threshold level M (1,0) used to determine the number of bits for quantizing (1,0) is determined. Tm
(2,0) and Tm (3,0) also have a minimum audible value Q
2 (0), masking threshold levels M (2,0) and M based on these values and frequency spectrum data Sp (2,0) and Sp (3,0).
(3, 0) is determined.

【0030】これにより、第2の変換長を選択したとき
に時間軸上に連続する周波数スペクトルデータSp
(i,j)の間の時間マスキング効果による時間マスキ
ング閾値Tm(i,j)を算出し、時間マスキング閾値
Tm(i,j)が、最小可聴値レベルQ2(j)よりも
大きい場合には、この時間マスキング閾値Tm(i,
j)と、周波数スペクトルデータSp(i,j)とに基
づいて聴覚モデルを示すマスキング閾値レベルM(i,
j)を決定することで、周波数スペクトルデータSp
(i,j)に割り当てるビット数を小さくすることがで
き、符号化に必要なビット数を少なくすることができ
る。
Thus, when the second conversion length is selected, the frequency spectrum data Sp continuous on the time axis is selected.
The time masking threshold Tm (i, j) due to the time masking effect during (i, j) is calculated, and when the time masking threshold Tm (i, j) is larger than the minimum audible value level Q2 (j). , This time masking threshold Tm (i,
j) and the frequency spectrum data Sp (i, j) based on a masking threshold level M (i,
j), the frequency spectrum data Sp
The number of bits allocated to (i, j) can be reduced, and the number of bits required for encoding can be reduced.

【0031】このように符号化に必要なビット数を少な
くすることで、ビット数が不足して量子化誤差が大きく
なるのを防ぎ、音質劣化を防ぐことができる。なお、実
施の形態1の説明では時間マスキング閾値Tm(i,
j)と最小可聴値Q2(j)との大きい方と、周波数ス
ペクトルデータSp(i,j)とに基づいて聴覚モデル
を示すマスキング閾値レベルM(i,j)を決定する場
合を説明したが、時間マスキング閾値Tm(i,j)を
用いて最小可聴値Q2(j)を補正し、この補正した最
小可聴値と周波数スペクトルデータSp(i,j)とに
基づいて聴覚モデルを示すマスキング閾値レベルM
(i,j)を決定してもよい。
By reducing the number of bits necessary for encoding in this way, it is possible to prevent a quantization error from becoming large due to an insufficient number of bits and to prevent sound quality deterioration. In the description of the first embodiment, the time masking threshold Tm (i, i,
Although the case where the masking threshold level M (i, j) indicating the auditory model is determined based on the larger one of j) and the minimum audible value Q2 (j) and the frequency spectrum data Sp (i, j) has been described, , The minimum audible value Q2 (j) is corrected using the time masking threshold value Tm (i, j), and a masking threshold value indicating an auditory model based on the corrected minimum audible value and the frequency spectrum data Sp (i, j). Level M
(I, j) may be determined.

【0032】また、実施の形態1の説明では、時間軸に
連続する周波数スペクトルデータの間の時間マスキング
効果により時間マスキング閾値を算出し、この時間マス
キング閾値と周波数スペクトルデータ毎に供給される最
小可聴値とから周波数スペクトルデータSp(i,j)
毎の量子化ビット数を決定する際に用いる聴覚モデルを
示すマスキング閾値レベルM(i,j)を決定する場合
を説明したが、聴覚心理で用いられる臨界帯域毎に複数
の周波数スペクトルデータSp(i,j)を纏めた個数
L(Lは正整数)で周波数軸上に連続するブロックを単
位に符号化を行う場合には、ブロック毎の周波数スペク
トルデータSp(i,j)の絶対値の最大値あるいは自
乗和で与えられる信号レベルP(i,k)(0≦k≦L
−1)を算出し、時間軸上に連続するブロック毎の信号
レベルP(i,k)の間の時間マスキング効果による時
間マスキング閾値Tm(i,k)を算出し、このブロッ
ク毎に供給される最小可聴値Q3(k)(0≦k≦L−
1)とからブロックに含まれる周波数スペクトルデータ
Sp(i,j)を量子化するビット数を決定する際に用
いるブロック毎の聴覚モデルを示すマスキング閾値レベ
ルM(i,k)を決定することで第2の変換長を選択し
たことにより最小可聴値が低くなる場合にも、時間マス
キング効果を用いて聴覚モデルを示すマスキング閾値レ
ベルM(i,k)が低下するのを防ぎ、周波数スペクト
ルデータに割り当てるビット数を少なく抑えることがで
きる。 (実施の形態2)本発明の実施の形態2のオーディオ信
号符号化方法を説明する。
In the description of the first embodiment, a time masking threshold is calculated by a time masking effect between frequency spectrum data continuous on the time axis, and the minimum audible value supplied for each time masking threshold and frequency spectrum data is calculated. From the value, the frequency spectrum data Sp (i, j)
The case where the masking threshold level M (i, j) indicating the auditory model used for determining the number of quantization bits for each is described, but a plurality of frequency spectrum data Sp ( When encoding is performed in units of blocks L (L is a positive integer) obtained by combining i, j) on a frequency axis basis, the absolute value of the frequency spectrum data Sp (i, j) for each block is calculated. The signal level P (i, k) given by the maximum value or the sum of squares (0 ≦ k ≦ L
-1) to calculate a time masking threshold Tm (i, k) due to a time masking effect between signal levels P (i, k) for each block on the time axis. Minimum audible value Q3 (k) (0 ≦ k ≦ L−
The masking threshold level M (i, k) indicating the auditory model for each block used when determining the number of bits for quantizing the frequency spectrum data Sp (i, j) included in the block from 1) is determined. Even when the minimum audible value is reduced by selecting the second conversion length, the masking threshold level M (i, k) indicating the auditory model is prevented from lowering by using the time masking effect, and the frequency spectrum data is reduced. The number of bits to be allocated can be reduced. (Embodiment 2) An audio signal encoding method according to Embodiment 2 of the present invention will be described.

【0033】図3は、本実施の形態2のオーディオ信号
符号化方法の処理の流れを示すフロー図である。図3に
おいて、31はデジタルオーディオ信号に応じて後に説
明する周波数変換処理32で周波数スペクトルデータS
p(i,j)を算出する単位を示す第1の変換長あるい
は第2の変換長を選択する変換長決定処理、32は時系
列で個数Mを単位とするデジタルオーディオ信号を周波
数軸上の個数Mの周波数スペクトルデータSp(i,
j)に変換する第1の変換長、あるいは時系列でK個を
正整数としてM/Kで与えられる個数Nを単位とするデ
ジタルオーディオ信号を、時間軸上で個数がKで連続す
る周波数軸上の個数Nの周波数スペクトルデータSp
(i,j)に変換する第2の変換長により、周波数スペ
クトルデータSp(i,j)を算出する周波数変換処
理、33は変換長決定処理31で決定された変換長を判
定し、分岐する変換長判定処理、34は変換長決定処理
31で第2の変換長が選択されたときに、時間軸上に連
続する周波数スペクトルデータSp(i,j)の間の時
間マスキング効果による時間マスキング閾値Tm(i,
j)を算出する時間マスキングレベル算出処理、35は
周波数スペクトルデータSp(i,j)と、変換長に対
応する最小可聴値Q1(j)あるいはQ2(j)と、時
間マスキングレベル算出処理34で算出された時間マス
キング閾値Tm(i,j)とに基づいて、後に説明する
量子化および符号化処理36で周波数スペクトルデータ
Sp(i,j)に割り当てるビット数を決定する際に用
いる聴覚モデルを示すマスキング閾値レベルM(i,
j)を算出する聴覚モデル決定処理である。
FIG. 3 is a flowchart showing a flow of processing of the audio signal encoding method according to the second embodiment. In FIG. 3, reference numeral 31 denotes a frequency conversion process 32, which will be described later, according to the digital audio signal.
A conversion length determination process for selecting a first conversion length or a second conversion length indicating a unit for calculating p (i, j). 32 is a process for converting a digital audio signal in units of M in time series on the frequency axis. The number M of frequency spectrum data Sp (i,
j) the first conversion length, or a digital audio signal in units of the number N given by M / K, where K is a positive integer in a time series, and a frequency axis in which the number is continuous with K on the time axis. The above number N of frequency spectrum data Sp
The frequency conversion processing for calculating the frequency spectrum data Sp (i, j) based on the second conversion length to be converted to (i, j). The frequency conversion processing 33 determines the conversion length determined in the conversion length determination processing 31 and branches. A conversion length determination process 34 is a time masking threshold by a time masking effect between frequency spectrum data Sp (i, j) continuous on the time axis when the second conversion length is selected in the conversion length determination process 31. Tm (i,
a time masking level calculation process 35 for calculating j), frequency spectrum data Sp (i, j), a minimum audible value Q1 (j) or Q2 (j) corresponding to the conversion length, and a time masking level calculation process 34 Based on the calculated time masking threshold value Tm (i, j), an auditory model used for determining the number of bits to be allocated to the frequency spectrum data Sp (i, j) in the quantization and encoding process 36 described later is described. The masking threshold level M (i,
This is an auditory model determination process for calculating j).

【0034】ここで、最小可聴値Q1(j)あるいはQ
2(j)は、従来のオーディオ信号符号化装置における
最小可聴値供給部43から供給される最小可聴値と同じ
であり、図8および図9で示される。36は変換長にし
たがって、周波数スペクトルデータSp(i,j)と聴
覚モデル決定処理35で算出された聴覚モデルを示すマ
スキング閾値レベルM(i,j)とに基づいて、周波数
スペクトルデータSp(i,j)を量子化する量子化ビ
ット数を割り当て、周波数スペクトルデータSp(i,
j)を量子化し符号化ビットストリームを生成する量子
化および符号化処理である。
Here, the minimum audible value Q1 (j) or Q
2 (j) is the same as the minimum audible value supplied from the minimum audible value supply unit 43 in the conventional audio signal encoding device, and is shown in FIG. 8 and FIG. Reference numeral 36 denotes frequency spectrum data Sp (i, j) based on the frequency spectrum data Sp (i, j) and the masking threshold level M (i, j) indicating the auditory model calculated in the auditory model determination processing 35 according to the conversion length. , J) are assigned the number of quantization bits for quantizing the frequency spectrum data Sp (i, j).
j) is a quantization and encoding process that quantizes j) to generate an encoded bit stream.

【0035】図3のフロー図で示されるオーディオ信号
符号化方法において、第2の変換長が選択されたとき
に、時間マスキングレベル算出処理34により時間軸上
に連続する周波数スペクトルデータSp(i,j)の間
の時間マスキング効果によるマスキング閾値Tm(i,
j)を算出し、聴覚モデル決定処理35において第2の
変換長に対応する最小可聴値レベルQ2(j)と時間マ
スキング閾値Tm(i,j)との大きい方と、周波数ス
ペクトルデータSp(i,j)とに基づいて聴覚モデル
を示すマスキング閾値レベルM(i,j)を決定するこ
とにより、周波数スペクトルデータSp(i,j)に割
り当てるビット数を小さくすることができ、符号化に必
要なビット数を少なくすることができる。
In the audio signal encoding method shown in the flowchart of FIG. 3, when the second transform length is selected, the frequency mask data Sp (i, j) a masking threshold Tm (i,
j) is calculated, and in the auditory model determination processing 35, the larger one of the minimum audible value level Q2 (j) corresponding to the second conversion length and the time masking threshold Tm (i, j), and the frequency spectrum data Sp (i) , J) to determine the masking threshold level M (i, j) indicating the auditory model, it is possible to reduce the number of bits allocated to the frequency spectrum data Sp (i, j), which is necessary for encoding. Bit number can be reduced.

【0036】これにより、符号化に必要なビット数を少
なくすることで、ビット数が不足して量子化ビット数が
小さくなるのを防ぎ、音質劣化を防ぐことができる。な
お、実施の形態2の説明では時間マスキング閾値Tm
(i,j)と最小可聴値Q2(j)との大きい方と、周
波数スペクトルデータSp(i,j)とに基づいて聴覚
モデルを示すマスキング閾値レベルM(i,j)を決定
する場合を説明したが、時間マスキング閾値Tm(i,
j)を用いて最小可聴値Q2(j)を補正し、この補正
した最小可聴値と周波数スペクトルデータSp(i,
j)とに基づいて聴覚モデルを示すマスキング閾値レベ
ルM(i,j)を決定してもよい。
Thus, by reducing the number of bits required for encoding, it is possible to prevent the number of bits from becoming insufficient and the number of quantization bits from being reduced, thereby preventing sound quality deterioration. In the description of the second embodiment, the time masking threshold Tm
A case where a masking threshold level M (i, j) indicating an auditory model is determined based on the larger of (i, j) and the minimum audible value Q2 (j) and the frequency spectrum data Sp (i, j). As described above, the time masking threshold Tm (i,
j), the minimum audible value Q2 (j) is corrected, and the corrected minimum audible value and the frequency spectrum data Sp (i,
j), the masking threshold level M (i, j) indicating the auditory model may be determined.

【0037】また、実施の形態2の説明では、時間軸に
連続する周波数スペクトルデータの間の時間マスキング
効果により時間マスキング閾値を算出し、この時間マス
キング閾値と周波数スペクトルデータ毎に供給される最
小可聴値とから周波数スペクトルデータSp(i,j)
毎の量子化ビット数を決定する際に用いる聴覚モデルを
示すマスキング閾値レベルM(i,j)を決定する場合
を説明したが、聴覚心理で用いられる臨界帯域毎に複数
の周波数スペクトルデータSp(i,j)を纏めた個数
L(Lは正整数)で周波数軸上に連続するブロックを単
位に符号化を行う場合には、ブロック毎の周波数スペク
トルデータSp(i,j)の絶対値の最大値あるいは自
乗和で与えられる信号レベルP(i,k)(0≦k≦L
−1)を算出し、時間軸上に連続するブロック毎の信号
レベルP(i,k)の間の時間マスキング効果による時
間マスキング閾値Tm(i,k)を算出し、このブロッ
ク毎に供給される最小可聴値Q3(k)(0≦k≦L−
1)とからブロックに含まれる周波数スペクトルデータ
Sp(i,j)を量子化するビット数を決定する際に用
いるブロック毎の聴覚モデルを示すマスキング閾値レベ
ルM(i,k)を決定することで第2の変換長を選択し
たことにより最小可聴値が低くなる場合にも、時間マス
キング効果を用いて聴覚モデルを示すマスキング閾値レ
ベルM(i,k)が低下するのを防ぎ、周波数スペクト
ルデータに割り当てるビット数を少なく抑えることがで
きる。
In the description of the second embodiment, the time masking threshold is calculated by the time masking effect between the frequency spectrum data continuous on the time axis, and the minimum audible value supplied for each of the time masking threshold and the frequency spectrum data is calculated. From the value, the frequency spectrum data Sp (i, j)
The case where the masking threshold level M (i, j) indicating the auditory model used for determining the number of quantization bits for each is described, but a plurality of frequency spectrum data Sp ( When encoding is performed in units of blocks L (L is a positive integer) obtained by combining i, j) on a frequency axis basis, the absolute value of the frequency spectrum data Sp (i, j) for each block is calculated. The signal level P (i, k) given by the maximum value or the sum of squares (0 ≦ k ≦ L
-1) to calculate a time masking threshold Tm (i, k) due to a time masking effect between signal levels P (i, k) for each block on the time axis. Minimum audible value Q3 (k) (0 ≦ k ≦ L−
The masking threshold level M (i, k) indicating the auditory model for each block used when determining the number of bits for quantizing the frequency spectrum data Sp (i, j) included in the block from 1) is determined. Even when the minimum audible value is reduced by selecting the second conversion length, the masking threshold level M (i, k) indicating the auditory model is prevented from lowering by using the time masking effect, and the frequency spectrum data is reduced. The number of bits to be allocated can be reduced.

【0038】[0038]

【発明の効果】以上のように本発明によれば、聴覚モデ
ルの算出の際に周波数分解能が低い第2の変換長を選択
した場合にも、聴覚モデルを示すマスキングレベルを低
下させることなく、周波数スペクトルデータに割り当て
るビット数を少なく抑えることができる。
As described above, according to the present invention, even when the second conversion length having a low frequency resolution is selected in the calculation of the auditory model, the masking level indicating the auditory model is not reduced. The number of bits allocated to frequency spectrum data can be reduced.

【0039】そのため、聴覚モデルの算出の際に実行す
る周波数スペクトルデータに対する符号化に必要なビッ
ト数を減少させることができ、全体としてビット数が不
足している場合にも符号化のための量子化ビット数をさ
らに減少させることなく、音質の劣化を防止することが
できる。
Therefore, it is possible to reduce the number of bits required for encoding the frequency spectrum data executed when calculating the auditory model, and to reduce the number of bits for encoding even when the number of bits is insufficient as a whole. It is possible to prevent the sound quality from deteriorating without further reducing the number of coded bits.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態1のオーディオ信号符号化
装置の構成を示すブロック図
FIG. 1 is a block diagram illustrating a configuration of an audio signal encoding device according to a first embodiment of the present invention.

【図2】同実施の形態1における周波数スペクトルデー
タの説明図
FIG. 2 is an explanatory diagram of frequency spectrum data according to the first embodiment.

【図3】本発明の実施の形態2のオーディオ信号符号化
方法の処理を示すフロー図
FIG. 3 is a flowchart showing processing of an audio signal encoding method according to the second embodiment of the present invention;

【図4】従来のオーディオ信号符号化装置の構成を示す
ブロック図
FIG. 4 is a block diagram showing a configuration of a conventional audio signal encoding device.

【図5】同従来例における第1の変換長および第2の変
換長で符号化し復号したデジタルオーディオ信号を示す
FIG. 5 is a diagram showing a digital audio signal encoded and decoded using a first conversion length and a second conversion length in the conventional example.

【図6】同従来例における第1の変換長で得られる周波
数スペクトルデータの説明図
FIG. 6 is an explanatory diagram of frequency spectrum data obtained with a first conversion length in the conventional example.

【図7】同従来例における第2の変換長で得られる周波
数スペクトルデータの説明図
FIG. 7 is an explanatory diagram of frequency spectrum data obtained with a second conversion length in the conventional example.

【図8】同従来例における第1の変換長に対応する周波
数軸の最小可聴値の説明図
FIG. 8 is an explanatory diagram of a minimum audible value on a frequency axis corresponding to a first conversion length in the conventional example.

【図9】同従来例における第2の変換長に対応する周波
数軸の最小可聴値の説明図
FIG. 9 is an explanatory diagram of a minimum audible value on a frequency axis corresponding to a second conversion length in the conventional example.

【符号の説明】[Explanation of symbols]

1、41 周波数変換部 2、42 変換長決定部 3 時間マスキング算出部 4、43 最小可聴値供給部 5、44 聴覚モデル決定部 6、45 量子化および符号化部 1, 41 frequency conversion unit 2, 42 conversion length determination unit 3 time masking calculation unit 4, 43 minimum audible value supply unit 5, 44 auditory model determination unit 6, 45 quantization and coding unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 時系列での個数Mを単位とするデジタル
オーディオ信号を、個数Mの周波数スペクトルデータに
変換する第1の変換長、または時系列でKを正整数とし
てM/Kで与えられる個数Nを単位とするデジタルオー
ディオ信号を、時間軸上での個数がKで連続する個数N
の周波数スペクトルデータに変換する第2の変換長のう
ちの一方で、前記周波数スペクトルデータを算出する周
波数変換部と、前記周波数変換部により前記周波数スペ
クトルデータを算出する際の前記第1の変換長あるいは
第2の変換長を、前記デジタルオーディオ信号に応じて
選択する変換長決定部と、前記第1の変換長あるいは第
2の変換長に応じた周波数軸の最小可聴値を供給する最
小可聴値供給部と、前記周波数変換部で得られた前記周
波数スペクトルデータと前記変換長決定部で選択された
変換長とに基づいて、前記周波数スペクトルデータの量
子化のためのビット数を決定する際に用いられる人間の
聴覚特性に対応する聴覚モデルを算出する聴覚モデル算
出部と、前記聴覚モデル算出部で算出された前記聴覚モ
デルにより決定したビット数で前記周波数スペクトルデ
ータを量子化して、符号化ビット列を生成する量子化お
よび符号化部とを有するオーディオ信号符号化装置であ
って、前記第2の変換長を選択したときは、前記周波数
変換部により算出される時間軸上での個数がKで連続す
る前記周波数スペクトルデータのうち、時間軸上で連続
する複数の前記周波数スペクトルデータの間の時間マス
キング効果を使って時間マスキング閾値を算出する時間
マスキング算出部と、前記周波数スペクトルデータと前
記最小可聴値と前記時間マスキング閾値とを用いて聴覚
モデルを算出する前記聴覚モデル決定部とを備えたこと
を特徴とするオーディオ信号符号化装置。
1. A first conversion length for converting a digital audio signal in units of the number M of time series into frequency spectrum data of the number M, or given by M / K with K being a positive integer in the time series. The number N of digital audio signals whose number on the time axis is continuous with K on the time axis
A frequency conversion unit for calculating the frequency spectrum data, and a first conversion length for calculating the frequency spectrum data by the frequency conversion unit. Alternatively, a conversion length determining unit that selects a second conversion length according to the digital audio signal, and a minimum audible value that supplies a minimum audible value on a frequency axis according to the first conversion length or the second conversion length. When determining the number of bits for quantization of the frequency spectrum data based on the supply unit and the frequency spectrum data obtained by the frequency conversion unit and the conversion length selected by the conversion length determination unit. An auditory model calculation unit that calculates an auditory model corresponding to a human auditory characteristic to be used, and the auditory model is determined by the auditory model calculated by the auditory model calculator. An audio signal encoding device having a quantization and encoding unit that quantizes the frequency spectrum data by the number of bits to generate an encoded bit sequence, wherein when the second conversion length is selected, A time masking threshold is calculated by using a time masking effect between a plurality of the frequency spectrum data continuous on the time axis among the frequency spectrum data whose number on the time axis calculated by the conversion unit is continuous with K. An audio signal encoding apparatus, comprising: a time masking calculation unit that performs the calculation; and the auditory model determination unit that calculates an auditory model using the frequency spectrum data, the minimum audible value, and the time masking threshold.
【請求項2】 前記第2の変換長を選択したときに、L
は1以上の正整数として、前記N個の周波数スペクトル
データを少なくとも1個の周波数スペクトルデータを含
むL個のブロックに分割し、各々のブロック毎の周波数
スペクトルデータの絶対値の最大値、あるいは自乗和で
求められる信号レベルを算出し、時間軸上での個数がK
で連続する個数Lの前記信号レベルのうち、時間軸上で
連続する複数の前記信号レベルの間の時間マスキング効
果を使って時間マスキング閾値を算出する時間マスキン
グ算出部を備えたことを特徴とする請求項1に記載のオ
ーディオ信号符号化装置。
2. When the second conversion length is selected, L
Divides the N pieces of frequency spectrum data into L blocks including at least one piece of frequency spectrum data as one or more positive integers, and calculates the maximum value or the square of the absolute value of the frequency spectrum data for each block. The signal level calculated by the sum is calculated, and the number on the time axis is K
And a time masking calculation unit that calculates a time masking threshold using a time masking effect between a plurality of the signal levels that are continuous on the time axis among the number L of the signal levels that are continuous in the above manner. The audio signal encoding device according to claim 1.
【請求項3】 時系列での個数Mを単位とするデジタル
オーディオ信号を、個数Mの周波数スペクトルデータに
変換する第1の変換長、または時系列でKを正整数とし
てM/Kで与えられる個数Nを単位とするデジタルオー
ディオ信号を、時間軸上での個数がKで連続する個数N
の周波数スペクトルデータに変換する第2の変換長のう
ち、前記デジタルオーディオ信号に応じて選択した変換
長で、前記デジタルオーディオ信号から前記周波数スペ
クトルデータを算出し、この周波数スペクトルデータと
前記選択した変換長とに基づいて、前記周波数スペクト
ルデータの量子化のためのビット数を決定する際に用い
られる人間の聴覚特性に対応する聴覚モデルを算出し、
算出された前記聴覚モデルにより決定したビット数で前
記選択した変換長により算出した周波数スペクトルデー
タを量子化して、符号化ビット列を生成するオーディオ
信号符号化方法であって、前記聴覚モデルの算出で前記
第2の変換長を選択したときは、その変換長により算出
される時間軸上での個数がKで連続する前記周波数スペ
クトルデータのうち、時間軸上で連続する複数の前記周
波数スペクトルデータの間の時間マスキング効果を使っ
て時間マスキング閾値を算出し、前記周波数スペクトル
データと、第1の変換長あるいは第2の変換長に応じた
周波数軸の最小可聴値と、前記時間マスキング閾値を用
いて聴覚モデルを算出することを特徴とするオーディオ
信号符号化方法。
3. A first conversion length for converting a digital audio signal in units of the number M of time series into frequency spectrum data of the number M, or given by M / K with K being a positive integer in the time series. The number N of digital audio signals whose number on the time axis is continuous with K on the time axis
Calculating the frequency spectrum data from the digital audio signal with a conversion length selected according to the digital audio signal among the second conversion lengths to be converted into the frequency spectrum data of Based on the length, to calculate an auditory model corresponding to the human auditory characteristics used in determining the number of bits for quantization of the frequency spectrum data,
An audio signal encoding method for quantizing frequency spectrum data calculated by the selected conversion length with the calculated number of bits determined by the auditory model, and generating an encoded bit sequence, wherein the audio model includes When the second conversion length is selected, among the frequency spectrum data whose number on the time axis calculated by the conversion length is continuous with K, among the plurality of frequency spectrum data continuous on the time axis, A time masking threshold using the time masking effect of the above, and using the frequency spectrum data, a minimum audible value of the frequency axis corresponding to the first conversion length or the second conversion length, and an auditory sense using the time masking threshold An audio signal encoding method comprising calculating a model.
【請求項4】 前記第2の変換長を選択したときに、L
は1以上の正整数として、前記N個の周波数スペクトル
データを少なくとも1個の周波数スペクトルデータを含
むL個のブロックに分割し、各々のブロック毎の周波数
スペクトルデータの絶対値の最大値、あるいは自乗和で
求められる信号レベルを算出し、時間軸上での個数がK
で連続する個数Lの前記信号レベルのうち、時間軸上で
連続する複数の前記信号レベルの間の時間マスキング効
果を使って時間マスキング閾値を算出することを特徴と
する請求項3に記載のオーディオ信号符号化方法。
4. When the second conversion length is selected, L
Divides the N pieces of frequency spectrum data into L blocks including at least one piece of frequency spectrum data as one or more positive integers, and calculates the maximum value or the square of the absolute value of the frequency spectrum data for each block. The signal level calculated by the sum is calculated, and the number on the time axis is K
4. The audio according to claim 3, wherein a time masking threshold is calculated using a time masking effect between a plurality of signal levels that are continuous on a time axis among the number L of the signal levels that are continuous. Signal encoding method.
JP28222599A 1999-10-04 1999-10-04 Audio signal encoding device and audio signal encoding method Pending JP2001109497A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28222599A JP2001109497A (en) 1999-10-04 1999-10-04 Audio signal encoding device and audio signal encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28222599A JP2001109497A (en) 1999-10-04 1999-10-04 Audio signal encoding device and audio signal encoding method

Publications (1)

Publication Number Publication Date
JP2001109497A true JP2001109497A (en) 2001-04-20

Family

ID=17649697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28222599A Pending JP2001109497A (en) 1999-10-04 1999-10-04 Audio signal encoding device and audio signal encoding method

Country Status (1)

Country Link
JP (1) JP2001109497A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299004A (en) * 2007-05-30 2008-12-11 Casio Comput Co Ltd Resonance adding apparatus and resonance adding program
JP2008299005A (en) * 2007-05-30 2008-12-11 Casio Comput Co Ltd Resonance adding apparatus and resonance adding program
KR101021076B1 (en) 2002-04-22 2011-03-11 코닌클리케 필립스 일렉트로닉스 엔.브이. Signal synthesizing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101021076B1 (en) 2002-04-22 2011-03-11 코닌클리케 필립스 일렉트로닉스 엔.브이. Signal synthesizing
JP2008299004A (en) * 2007-05-30 2008-12-11 Casio Comput Co Ltd Resonance adding apparatus and resonance adding program
JP2008299005A (en) * 2007-05-30 2008-12-11 Casio Comput Co Ltd Resonance adding apparatus and resonance adding program

Similar Documents

Publication Publication Date Title
KR101019678B1 (en) Low bit-rate audio coding
US6122618A (en) Scalable audio coding/decoding method and apparatus
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
KR100348368B1 (en) A digital acoustic signal coding apparatus, a method of coding a digital acoustic signal, and a recording medium for recording a program of coding the digital acoustic signal
JP3336617B2 (en) Signal encoding or decoding apparatus, signal encoding or decoding method, and recording medium
JP3131542B2 (en) Encoding / decoding device
JP4570250B2 (en) System and method for entropy encoding quantized transform coefficients of a signal
US20080243518A1 (en) System And Method For Compressing And Reconstructing Audio Files
JP2006011456A (en) Method and device for coding/decoding low-bit rate and computer-readable medium
JPH08190764A (en) Method and device for processing digital signal and recording medium
JPH05313694A (en) Data compressing and expanding device
JPH07336232A (en) Method and device for coding information, method and device for decoding information and information recording medium
JP4063508B2 (en) Bit rate conversion device and bit rate conversion method
JP2001343997A (en) Method and device for encoding digital acoustic signal and recording medium
US7583804B2 (en) Music information encoding/decoding device and method
JP3964860B2 (en) Stereo audio encoding method, stereo audio encoding device, stereo audio decoding method, stereo audio decoding device, and computer-readable recording medium
JPH0846518A (en) Information coding and decoding method, information coder and decoder and information recording medium
JP3344944B2 (en) Audio signal encoding device, audio signal decoding device, audio signal encoding method, and audio signal decoding method
KR100952065B1 (en) Coding method, apparatus, decoding method, and apparatus
KR20020077959A (en) Digital audio encoder and decoding method
RU2214047C2 (en) Method and device for scalable audio-signal coding/decoding
JP2001109497A (en) Audio signal encoding device and audio signal encoding method
JPH08307281A (en) Nonlinear quantization method and nonlinear inverse quantization method
JPH09135173A (en) Device and method for encoding, device and method for decoding, device and method for transmission and recording medium
US20130197919A1 (en) "method and device for determining a number of bits for encoding an audio signal"