KR100880995B1 - Audio encoding apparatus and audio encoding method - Google Patents
Audio encoding apparatus and audio encoding method Download PDFInfo
- Publication number
- KR100880995B1 KR100880995B1 KR1020077001898A KR20077001898A KR100880995B1 KR 100880995 B1 KR100880995 B1 KR 100880995B1 KR 1020077001898 A KR1020077001898 A KR 1020077001898A KR 20077001898 A KR20077001898 A KR 20077001898A KR 100880995 B1 KR100880995 B1 KR 100880995B1
- Authority
- KR
- South Korea
- Prior art keywords
- block
- encoding
- block length
- input signal
- fluctuation ratio
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013139 quantization Methods 0.000 claims description 101
- 238000004364 calculation method Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 34
- 230000000873 masking effect Effects 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000001131 transforming effect Effects 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 처리량을 감소시키면서, 블록의 길이를 적절히 선택하는 것이 가능한 오디오 부호화 장치 및 오디오 부호화 방법을 제공한다. 전력 산출부(402)가 입력 신호로부터 전력 변화비를 산출하고, 예측 이득 변동비 산출부(406)가 입력 신호로부터 예측 이득 변동비를 산출하고, 블록 길이 판정부(407)가 전력 변화비와 예측 이득 변화비로부터 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하고, 이 판정에 기초하여, 장 블록용 MDCT 변화부(409) 또는 단 블록용 MDCT 변화부(410)가 입력 신호에 대하여 이산 코사인 변환을 행한다.
프레임화부, 프리 에코, 양자화부, 전력 변동비, 전력 산출부, 선택기
The present invention provides an audio encoding apparatus and an audio encoding method capable of appropriately selecting the length of a block while reducing the throughput. The power calculator 402 calculates the power change ratio from the input signal, the predicted gain change ratio calculator 406 calculates the predicted gain change ratio from the input signal, and the block length determination unit 407 determines the power change ratio and the predicted gain. From the change ratio, it is determined whether to encode by long block or by short block. Based on this determination, the long block MDCT change unit 409 or the short block MDCT change unit 410 is input. Discrete cosine transform is performed on the signal.
Framer, Pre-Echo, Quantizer, Power Variable Ratio, Power Calculator, Selector
Description
본 발명은 오디오 신호를 부호화하는 오디오 부호화 장치 및 오디오 부호화 방법에 관한 것이다. The present invention relates to an audio encoding apparatus and an audio encoding method for encoding an audio signal.
최근,인터넷이나 위성 방송 등의 통신 분야가 급속히 보급되고 있다. 또한,DVD 등의 AV 기기도 급속히 보급되고 있다. 이들의 보급에 수반하여,오디오 신호를 효율적으로 압축하는 오디오 부호화에 대한 수요가 높아지고 있다. 최근의 오디오 부호화 장치는 인간의 청각 특성을 이용한 적응 변환 오디오 부호화 장치가 주류이다. 적응 변환 오디오 부호화 장치의 기본적인 부호화 처리는 이하와 같다.In recent years, communication fields such as the Internet and satellite broadcasting have been rapidly spreading. In addition, AV equipment such as DVD is also rapidly spreading. With the dissemination of these devices, there is a growing demand for audio coding that efficiently compresses audio signals. In the recent audio coding apparatus, the adaptive conversion audio coding apparatus using human auditory characteristics is mainstream. The basic encoding process of the adaptive transform audio encoding apparatus is as follows.
이러한 부호화 처리에서는,시간 영역의 오디오 신호가 주파수 영역으로 변환된다. 그리고, 주파수축상의 신호가 청각의 주파수 분해 능력에 대응하는 주파수 대역으로 구획된다. 그리고, 인간의 청각 특성을 이용하여, 각 주파수 대역에서 부호화에 필요한 최적의 정보량이 계산된다. In this encoding process, the audio signal in the time domain is converted into the frequency domain. The signal on the frequency axis is then divided into frequency bands corresponding to hearing frequency resolution capability. The optimal amount of information necessary for encoding in each frequency band is calculated using human auditory characteristics.
그리고,각 주파수 대역에 할당된 정보량에 따라서, 주파수축상의 신호가 양자화된다. 적응 변환 오디오 부호화 장치 중에, ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)에서 표준 화된 MPEG(Moving Picture Expens Group)―2 AAC(Advanced Audio Coding) 방식이 있다. 이러한 방식은 BS 디지털 방송에도 채용되고 있다. 이러한 방식은 낮은 비트 레이트로 높은 음질을 실현할 수 있는 오디오 부호화 장치로서 최근 주목을 받고 있다. Then, the signal on the frequency axis is quantized in accordance with the amount of information allocated to each frequency band. Among the adaptive conversion audio encoding apparatuses, there is a Moving Picture Expens Group (MPEG) -2 Advanced Audio Coding (AAC) scheme standardized by the International Organization for Standardization (ISO) / International Electrotechnical Commission (IEC). This method is also employed in BS digital broadcasting. This method is recently attracting attention as an audio encoding apparatus capable of realizing high sound quality at a low bit rate.
<제1 종래 기술><First Prior Art>
도 10은 제1 종래 기술인 MPEG―2 AAC의 인코더의 구성을 나타내는 구성도이다. 이하, 도 10에 도시하는 기술을 제1 종래 기술이라 한다. AAC 인코더의 상세는, 예를 들면 하기의 비 특허 문헌 1에 자세히 기재되어 있다. Fig. 10 is a block diagram showing the configuration of an encoder of MPEG-2 AAC, which is the first conventional technology. Hereinafter, the technique shown in FIG. 10 is called 1st prior art. The detail of an AAC encoder is described in detail in the following
AC 인코더는 입력 신호를 소정의 샘플 수로 이루어지는 프레임으로 분할한다. The AC encoder divides the input signal into frames consisting of a predetermined number of samples.
그리고,AAC 인코더는 프레임마다 부호화 처리를 행한다. AAC 방식의 프레임 길이는 장 블록(1024 샘플)과 단 블록(128 샘플)의 2종류가 있다. 여기서, 1프레임과 1장 블록의 길이는 동일하다. 이하의 설명은 도 10에 도시하는 AAC 인코더의 처리 순서이다. The AAC encoder then performs encoding processing for each frame. There are two types of frame lengths of the AAC system: long blocks (1024 samples) and short blocks (128 samples). Here, the length of one frame and one block is the same. The following description is the processing procedure of the AAC encoder shown in FIG.
(1) 우선,입력 신호가 프레임화부(1001)에 입력된다. 프레임화부(1001)는 입력 신호를 소정의 샘플 수로 이루어지는 프레임(장 블록)으로 분할한다. 프레임화부(1001)로부터 출력된 신호가 장 블록용 이산 코사인 변환부(이하, 간단히 MDCT 변환부라 한다)(1002)와 단 블록용 MDCT 변환부(1003)에 입력된다. (1) First, an input signal is input to the
장 블록용 MDCT 변환부(1002)는 입력된 신호에 대하여 1024점의 MDCT 변환을 행한다. 그리고,장 블록용 MDCT 변환부(1002)는 MDCT 계수(MDCT1)를 산출한다. 또한,단 블록용 MDCT 변환부(1003)는 입력한 신호에 대하여 128점의 MDCT 변환을 행한다. 그리고, 단 블록용 MDCT 변환부(1003)는 MDCT 계수(MDCT2)를 산출한다. 또한, 1프레임당 단 블록은 8블록 있으므로, MDCT2는 8세트 생성된다. The long block
(2) 다음으로,프레임화부(1001)는 분할한 입력 신호를 장 블록용 심리 청각 분석부(1004)로 출력한다. 그리고,장 블록용 심리 청각 분석부(1004)는 입력 신호로부터 장 블록용 마스킹 임계값 Th1과 심리 청각 엔트로피 PE1을 구한다. 여기서, Th1과 PE1의 산출 방법은 비 특허 문헌 1의 심리 청각 모델 항에 기재되어 있는 것이 공지의 방법이다. 마찬가지로, 프레임화부(1001)는 프레임으로 분할한 입력 신호를 단 블록용 심리 청각 분석부(1005)로 출력한다. 그리고,단 블록용 심리 청각 분석부(1005)는 입력 신호로부터 단 블록용 마스킹 임계값 Th2와 심리 청각 엔트로피 PE2를 구한다. (2) Next, the
여기서, 심리 청각 엔트로피란, 신호를 양자화하는데 최저한 필요한 비트 수를 나타내는 정보량이다. 또한,마스킹이란, 양자화부에 의해서 신호를 양자화했을 때의 오차가 있는 기준 이하이면, 그 오차를 인간이 지각할 수 없다고 하는 현상을 가리킨다. 또한,인간이 지각할 수 없는 오차의 한계를 나타내는 기준값은 마스킹 임계값이라 불린다. Psychological auditory entropy is an information amount indicating a minimum number of bits necessary for quantizing a signal. In addition, masking refers to the phenomenon that a human cannot perceive the error, if it is below the reference | standard with the error at the time of quantizing a signal by a quantization part. In addition, a reference value indicating a limit of error that cannot be perceived by humans is called a masking threshold.
(3) 장 블록으로부터 얻어진 PE1 및 Th1과, 단 블록으로부터 얻어진 PE2 및 Th2가, 블록 길이 판정부(1006)에 입력된다. 블록 길이 판정부(1006)는 장 블록과 단 블록 중 어느 쪽으로 양자화할 것인지를 판정한다. (3) PE1 and Th1 obtained from the long block and PE2 and Th2 obtained from the short block are input to the block
일반적으로, 성질이 거의 변화되지 않는 정상적인 신호는 장 블록으로 양자 화하는 것이 바람직하다. 그러나, 블록 내에서 진폭이 급격히 변화되는 신호를 장 블록으로 양자화하면,입력 신호에는 없는 프리 에코로 불리는 잡음이 발생한다. 이러한 잡음의 발생은 음질 열화가 원인이 된다. 도 11은 프리 에코의 예를 나타낸 개략도이다. 도 11의 (a)는 부호화하기 전의 입력 신호를 나타낸 개략도이고, 도 11의 (b)는 장 블록만으로 부호화했을 때의 복호음을 나타낸 그래프이다. 도 11의 (b)의 선두 부분에는 어택음 앞에, 입력 신호에는 없는 잡음이 발생하고 있다. In general, it is desirable to quantize normal signals with little change in properties into long blocks. However, when a signal whose amplitude changes abruptly in a block is quantized into a long block, noise called a pre-echo that does not exist in the input signal occurs. The occurrence of this noise is caused by sound quality deterioration. 11 is a schematic diagram showing an example of pre-echo. FIG. 11A is a schematic diagram showing an input signal before encoding, and FIG. 11B is a graph showing a decoding sound when only a long block is encoded. At the head of FIG. 11B, noise that is not present in the input signal occurs before the attack sound.
이러한 잡음은 프리 에코로 불린다. 프리 에코는 양자화 블록 길이를 짧게 함으로써 해소할 수 있다. 그 때문에,AAC 방식은 블록 길이 판정부(1006)에서 입력 신호의 성질을 판별하고 있다. 그리고, 블록 길이 판정부(1006)는 양자화에 최적인 블록 길이를 판정한다. 구체적으로는,블록 길이 판정부(1006)는 PE1>PE1_thr이면 장 블록을 선택하고, 그 외의 경우에는 단 블록을 선택한다. 여기서, PE1_thr는 미리 정해진 임계값(상수)이다. This noise is called pre echo. The pre echo can be eliminated by shortening the quantization block length. Therefore, in the AAC system, the block
(4) 블록 길이 판정부(1006)의 판정 결과는 MDCT를 선택하는 선택기(1007)로 출력된다. 또한,블록 길이 판정부(1006)가 선택한 마스킹 임계값은 스펙트럼 양자화부(1008)에 출력된다. 즉, 블록 길이 판정부(1006)가 장 블록을 선택한 경우에는 MDCT1과 Th1이 스펙트럼 양자화부(1008)에 입력된다. 또한,블록 길이 판정부(1006)가 단 블록을 선택한 경우에는 MDCT2와 Th2가 스펙트럼 양자화부(1008)에 입력된다. (4) The determination result of the block
(5) 스펙트럼 양자화부(1008)는 입력된 마스킹 임계값에 따라 주파수 대역 마다 MDCT 계수를 양자화한다. 그리고, 스펙트럼 양자화부(1008)는 양자화 부호 1을 출력한다. (5) The
(6) 스펙트럼 양자화부(1008)로부터 출력된 양자화 부호 1은 허프만 부호화부(1009)에 입력된다. 허프만 부호화부(1009)는 양자화 부호 1을 양자화 부호 1보다도 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (6) The quantized
(7) 상기 양자화 부호 2는 허프만 부호화부(1009)로부터 양자화 제어부(1011)로 출력된다. 그리고, 양자화 제어부(1011)는 입력한 양자화 부호 2로부터, 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 10에서 점선으로 둘러싸인 범위는 양자화 제어부(1011)가 제어 가능한 범위이다. (7) The
(8) 양자화 제어부(1011)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (5)∼처리 (7)을 반복하도록, 스펙트럼 양자화부(1008)와 허프만 부호화부(1009)를 제어한다. 또한,양자화 제어부(1011)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(1009)로부터 비트스트림 생성부(1010)에 대하여 양자화 부호(2)를 출력시킨다. 그리고, 하기에서, 양자화 제어부(1011)는 비트스트림 생성부(1010)가 비트스트림을 출력하도록 제어한다. (8) When the calculated total number of bits exceeds the number of bits allowed for the current block, the
여기서, AAC 방식의 양자화 프로세스의 상세를 설명한다. Here, the detail of the quantization process of AAC system is demonstrated.
(a) AAC 방식은 MDCT 스펙트럼의 지수부를 초기값으로 설정한다. (a) The AAC method sets the exponent part of the MDCT spectrum to an initial value.
(b) ACC 방식은 MDCT 스펙트럼을 가수부와 지수부로 변형한다. 즉, AAC 방식은 MDCT 스펙트럼을 부동 소수점 표시로 변형한다. 그리고, AAC 방식은 가수부 를 양자화한다(MDCT 양자화). (b) ACC modifies the MDCT spectrum into mantissa and exponent. That is, the AAC scheme transforms the MDCT spectrum into floating point representation. The AAC method quantizes the mantissa (MDCT quantization).
(c) ACC 방식은 (b)에서 양자화된 가수부와 지수부를 허프만 부호화했을 때에 필요로 되는 비트 수(총 비트 수)를 구한다. (c) The ACC method obtains the number of bits (total number of bits) required when Huffman coding of the mantissa and exponents quantized in (b).
(d) ACC 방식은 (c)에서 구한 총 비트 수가 현 프레임에 허용된 양자화 비트 수(허용 비트 수) 이하이면, 양자화를 종료한다. AAC 방식은 총 비트 수가 허용 비트 수 이상인 경우에는 (a)에서 설정한 지수부를 부적당하다고 판단한다. 그리고, AAC 방식은 지수부를 변경해서 (b)∼(d)의 처리를 반복한다. 그리고, AAC 방식은 총 비트 수가 허용 비트 수 이하로 되는 지수부를 결정한다. (d) The ACC method terminates quantization if the total number of bits obtained in (c) is equal to or less than the number of quantization bits (allowed bits) allowed in the current frame. The AAC method determines that the exponent part set in (a) is inadequate when the total number of bits is more than the allowable number of bits. In the AAC method, the exponent part is changed to repeat the processes of (b) to (d). Then, the AAC method determines the exponent part such that the total number of bits is equal to or less than the allowable number of bits.
즉, AAC 방식은 우선 지수부를 임시로 고정한다. 그리고, AAC 방식은 가수부를 결정해서 MDCT 스펙트럼의 양자화를 행한다. 그리고, AAC 방식은 MDCT 스펙트럼을 지수부와 가수부로 변형했을 때의 양자화 오차가 허용 오차 이하로 된 총 비트 수를 구한다. 그리고,AAC 방식은 총 비트 수가 미리 설정된 비트 레이트보다도 크면 부적당하다고 판단한다. 그리고,AAC 방식은 지수부를 변경하여, 다시, MDCT 스펙트럼의 지수부의 고정 처리 및 가수부의 양자화 처리를 행한다. 그리고 ACC 방식은 양자화 오차가 허용 오차 이하이며, 또한, 총 비트 수가 설정된 비트 레이트 이하로 되는 최적의 지수부와 가수부를 결정한다. That is, the AAC method temporarily fixes the exponent part first. The AAC method determines the mantissa and quantizes the MDCT spectrum. The AAC method finds the total number of bits in which the quantization error when the MDCT spectrum is transformed into the exponent part and the mantissa part becomes less than the allowable error. Then, the AAC method determines that the total bit number is larger than the preset bit rate is inappropriate. In the AAC system, the exponent part is changed, and the fixed part of the exponent part of the MDCT spectrum and the quantization process of the mantissa part are performed again. The ACC method determines an optimal exponent part and mantissa part whose quantization error is equal to or less than the tolerance and the total number of bits is equal to or less than the set bit rate.
이상과 같이, AAC 방식은 양자화와 허프만 부호화를 행한 후에, 필요한 총 비트 수를 계산한다. 그리고,AAC 방식은 총 비트 수가 현 프레임에 허용되는 허용 비트 수 이하로 되는 최적의 지수부와 가수부를 결정한다. 여기서,「최적」이, 「양자화 오차가 허용 오차 이하로 된다」라고 하는 의미이다. As described above, the AAC method calculates the required total number of bits after performing quantization and Huffman coding. Then, the AAC method determines the optimal exponent part and mantissa part whose total number of bits is equal to or less than the allowable number of bits allowed in the current frame. Here, "optimal" means "quantization error is below the tolerance."
이상 설명한 바와 같이, 제1 종래 기술은 장 블록과 단 블록으로부터 최적의 블록 길이를 선택한다. 따라서, 제1 종래 기술은 프리 에코가 적은 양호한 음질을 얻을 수 있다. 그런데, 제1 종래 기술은 MDCT 변환 및 심리 청각 분석을 장 블록용과 단 블록용 각각에서 행한다. 그 때문에, 제1 종래 기술은 처리량이 많다. As described above, the first conventional technique selects an optimal block length from long blocks and short blocks. Therefore, the first prior art can obtain good sound quality with little pre-echo. By the way, the 1st prior art performs MDCT transformation and psychoacoustic analysis for long block and short block, respectively. Therefore, the first prior art has a high throughput.
<제2 종래 기술><2nd prior art>
상기 제1 종래 기술의 문제를 해결하는 방법으로서, MDCT 변환과 심리 청각 분석 전에, 입력 신호의 성질을 조사해서 블록 길이를 먼저 결정하는 방법이 알려져 있다. 입력 신호의 성질을 조사하는 방법에는 예를 들면 하기의 특허 문헌 1에 개시된 방법이 있다. 이것은 공지의 방법이다. As a method for solving the problems of the first prior art, a method of first determining the block length by investigating the properties of the input signal before MDCT transformation and psychoacoustic analysis is known. As a method of examining the property of an input signal, for example, there is a method disclosed in
이하, 특허 문헌 1에 개시된 방법을 제2 종래 기술이라 한다. 그리고, 이 방법의 구성을 도 12에 도시한다. 도 12는 제2 종래 기술의 구성을 나타내는 구성도이다. 이 제2 종래 기술은 1프레임을 더욱 짧은 단 블록으로 분할한다. Hereinafter, the method disclosed in
(1) 우선,입력 신호가 프레임화부(1201)에 입력한다. 프레임화부(1201)는 입력 신호를 소정의 샘플 수로 이루어지는 프레임(장 블록)으로 분할한다. 프레임화부(1201)로부터 출력된 신호는 전력 산출부(1202)와 선택기(1204)와 심리 청각 분석부(1208)에 출력된다. (1) First, an input signal is input to the
전력 산출부(1202)는 입력된 신호로부터 전력 및 전력 변동비를 산출한다. 전력 산출부(1202)는 산출한 전력 변동비를 블록 길이 판정부(1203)에 출력한다. The
블록 길이 판정부(1203)는 입력된 전력 변동비에 기초하여, 장 블록 또는 단 블록 중 어느 것을 이용할 것인지를 판정한다. 그리고,블록 길이 판정부(1203)는 그 판정 결과를 선택기(1204) 및 선택기(1207)에 출력한다. 각 선택기(1204) 및 선택기(1207)는 블록 길이 판정부(1203)의 판정 결과에 기초하여, 장 블록 또는 단 블록 중 어느 것을 이용할 것인지를 선택한다. The block
장 블록용 MDCT 변환부(1205)는 입력된 신호에 대하여 1024점의 MDCT 변환을 행한다. 그리고,장 블록용 MDCT 변환부(1205)는 MDCT 계수(MDCT1)를 산출한다. The long
또한,단 블록용 MDCT 변환부(1206)는 입력된 신호에 대하여 128점의 MDCT 변환을 행한다. 그리고,단 블록용 MDCT 변환부(1206)는 MDCT 계수(MDCT2)를 산출한다. 또한, 1프레임당 단 블록은 8블록 있으므로, MDCT2는 8세트 생성된다. In addition, the block
(2) 다음으로,심리 청각 분석부(1208)는 입력 신호로부터 마스킹 임계값을 구한다. 그리고,입력 신호로부터 얻어진 마스킹 임계값은 스펙트럼 양자화부(1209)에 입력된다. (2) Next, the psychoacoustic
(3) 스펙트럼 양자화부(1209)는 입력된 마스킹 임계값에 따라 주파수 대역 마다 MDCT 계수를 양자화한다. 그리고,스펙트럼 양자화부(1209)는 MDCT 계수를 양자화한 양자화 부호 1을 출력한다. (3) The spectral quantization unit 1209 quantizes MDCT coefficients for each frequency band according to the input masking threshold value. The spectrum quantization unit 1209 outputs a
(4) 스펙트럼 양자화부(1209)로부터 출력된 양자화 부호 1은 허프만 부호화부(1210)에 입력된다. 허프만 부호화부(1210)는 양자화 부호 1을 양자화 부호 1보다도 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (4) The quantized
(5) 이 양자화 부호 2는 양자화 제어부(1212)에 입력된다. 양자화 제어부(1212)는 입력한 양자화 부호 2에 기초하여, 최종적으로 출력되는 비트스트림의 총 수를 계산한다. 또한,도 12에서 점선으로 둘러싸인 범위는 양자화 제어부(1212) 가 제어 가능한 범위이다. (5) This
(6) 양자화 제어부(1212)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (3)∼처리 (5)를 반복하도록, 스펙트럼 양자화부(1209)와 허프만 부호화부(1210)를 제어한다. 또한,양자화 제어부(1212)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(1210)로부터 비트스트림 생성부(1211)에 대하여 양자화 부호 2를 출력시킨다. 그리고, 양자화 제어부(1212)는 비트스트림 생성부(1211)에 대하여, 비트스트림을 출력하도록 제어한다. (6) The
도 13은 제2 종래 기술에서 프레임을 단 블록으로 분할하는 경우의 예를 나타내는 개념도이다. 도 13은 1프레임을 4개의 단 블록으로 분할하는 경우를 나타내고 있다. 제2 종래 기술은 각 단 블록의 입력 신호 전력 P(1), P(2), P(3), P(4)를 구한다. 그리고, 제2 종래 기술은 인접하는 단 블록 간의 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 구한다. 여기서, Δp(i, j)은 단 블록 i와 단 블록 j 사이의 전력 변동비이다. Δp(i, j)는 다음 식으로 구할 수 있다. FIG. 13 is a conceptual diagram illustrating an example of dividing a frame into short blocks in the second prior art. FIG. FIG. 13 shows a case where one frame is divided into four short blocks. The second prior art finds the input signal powers P (1), P (2), P (3), and P (4) of each block. In the second prior art power variable costs between the short blocks adjacent Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) is obtained. Here, Δ p (i, j) is the power variable costs between the short block and the short block i j. Δ p (i, j) can be obtained by the following equation.
전력 변동비는 입력 신호가 급격히 커지는 경우에 커진다. 반대로, 전력 변동비는 입력 신호가 급격히 작아지는 경우에 작아진다. 따라서, 전력 변동비가 거 의 변화되지 않는 경우, 블록 길이 판정부(1203)는 장 블록을 선택한다. 또한,블록 길이 판정부(1203)는 전력 변동비가 급격히 커진 경우나 작아진 경우에 단 블록을 선택한다. 이러한 처리에 의해서, 제2 종래 기술은 최적의 창 길이를 선택할 수 있다. The power fluctuation ratio is large when the input signal is rapidly increased. In contrast, the power fluctuation ratio is small when the input signal is drastically small. Therefore, when the power fluctuation ratio is hardly changed, the block
또한,제2 종래 기술은 블록 길이를, MDCT 변환 및 심리 청각 분석 전에 결정한다. 그 때문에,제2 종래 기술은 장 블록 또는 단 블록 중 어느 한쪽에 대해서만, MDCT 변환 및 심리 청각 분석을 실행한다. 따라서, 제2 종래 기술은 제1 종래 기술에 비해서 적은 처리량으로 오디오 신호를 부호화할 수 있다. The second prior art also determines the block length prior to MDCT transformation and psychoacoustic analysis. For this reason, the second prior art performs MDCT transformation and psychoacoustic analysis only on either the long block or the short block. Therefore, the second conventional technique can encode an audio signal with a smaller throughput than the first conventional technique.
그런데, 전력 변동비가 변화되지 않아도 입력 신호의 성질이 변화되는 경우, 제2 종래 기술은 입력 신호의 성질 변화를 검지할 수 없는 경우가 있다. 예를 들면, 정현파를 입력으로 하고, 또한, 전력이 일정한 채로 정현파의 주파수가 변화된 경우, 제2 종래 기술은 전력 변동비만을 이용하는 방법으로는 신호의 변화점을 검출할 수 없다. By the way, when the property of an input signal changes even if the power fluctuation ratio does not change, the 2nd prior art may be unable to detect the change of the property of an input signal. For example, when the sinusoidal wave is input and the frequency of the sinusoidal wave is changed while the power is constant, the second prior art cannot detect the point of change of the signal by using only the power variation ratio.
여기서, 입력 신호, 전력 변동비 및 예측 이득 변동비의 예에 대해서 도 14를 참조하여 설명한다. 도 14은 입력 신호, 전력 변동비 및 예측 이득 변동비의 예를 나타내는 그래프이다. 도 14의 (a)는 부호화하기 전의 입력 신호를 나타내는 그래프이고, 도 14의 (b)는 전력 변동비의 그래프이고, 도 14의 (c)는 예측 이득 변동비의 그래프이다. 도 14의 구간 B나 구간 C는 무음부에서 유음부로 변화된다. 이 경우에는 전력 변동비도 크게 변화된다. 그 때문에,제2 종래 기술은 이러한 구간에서는 신호의 변화점을 검출할 수 있다.Here, examples of the input signal, power fluctuation ratio, and predictive gain fluctuation ratio will be described with reference to FIG. 14 is a graph illustrating examples of input signals, power fluctuation ratios, and predictive gain fluctuation ratios. FIG. 14A is a graph showing an input signal before encoding, FIG. 14B is a graph of power fluctuation ratio, and FIG. 14C is a graph of predicted gain fluctuation ratio. Section B or section C of FIG. 14 is changed from a silent part to a sound part. In this case, the power fluctuation ratio is also greatly changed. Therefore, the second prior art can detect the point of change of the signal in this section.
그런데, 구간 A는 입력 신호의 성질이 정상부에서 과도부로 변화된다. 이 경우, 전력 변동비는 거의 변화되지 않는다. 그 때문에,이 경우, 제2 종래 기술은 신호의 변화를 검출할 수 없다. 그 때문에,이 경우, 제 2 종래 기술은 장 블록을 선택한다. 그러나,이 제2 종래 기술과 같이, 신호가 급격히 변화되는 부분을 장 블록으로 처리하면,프리 에코가 발생한다. 그 때문에,제2 종래 기술은 음질이 열화한다. However, in section A, the nature of the input signal changes from the normal to the transient. In this case, the power fluctuation ratio hardly changes. Therefore, in this case, the second prior art cannot detect a change in the signal. Therefore, in this case, the second prior art selects a long block. However, as in this second conventional technique, when the portion in which the signal is rapidly changed is treated as a long block, pre-echo occurs. Therefore, in the second prior art, sound quality deteriorates.
<특허 문헌 1> 특개평 7―66733호 공보Patent Document 1: Japanese Patent Laid-Open No. 7-66733
<비 특허 문헌 1> ISO/IEC13818―7의 PART 7, "Advanced Audio Coding(ACC)"<
[발명의 개시][Initiation of invention]
[발명이 해결하고자 하는 과제][Problem to Solve Invention]
상술한 바와 같이, 제1 종래 기술은 MDCT 변환 및 심리 청각 분석을 장 블록용과 단 블록용 각각에서 행한다. 그 때문에,제1 종래 기술은 장 블록 또는 단 블록만의 처리의 경우에 비해서 처리량이 많아진다고 하는 문제가 있다. As described above, the first conventional technique performs MDCT transformation and psychoacoustic analysis for long blocks and short blocks, respectively. Therefore, the first conventional technique has a problem that the throughput increases as compared with the case of processing only a long block or a short block.
또한,제2 종래 기술은 입력 신호의 성질이 변화된 경우라도 전력 변동비가 변화되지 않으면 신호의 성질의 변화를 검지할 수 없다. 그 때문에,제2 종래 기술은 적절한 블록 길이를 선택할 수 없는 경우가 있다고 하는 문제가 있다. In addition, even if the property of the input signal is changed, the second prior art cannot detect the change in the property of the signal unless the power fluctuation ratio is changed. Therefore, the second prior art has a problem that it may not be possible to select an appropriate block length.
본 발명의 목적은, 처리량을 경감하면서 블록 길이를 적절하게 선택하는 것이 가능한 오디오 부호화 장치 및 오디오 부호화 방법을 제공하는 것에 있다. An object of the present invention is to provide an audio encoding apparatus and an audio encoding method capable of appropriately selecting a block length while reducing throughput.
[과제를 해결 하기 위한 수단][Means for solving the problem]
본 발명의 오디오 부호화 장치는, The audio encoding device of the present invention,
입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, 상기 프레임을 분할해서 단 블록으로 하고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 장치로서,An audio encoding device having a long block mode for dividing an input signal into a frame having a predetermined number of samples, encoding an input signal of one frame, and a short block mode for dividing the frame into short blocks and encoding the short block. as,
상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 수단과, Power calculating means for calculating a power fluctuation ratio from the input signal;
상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 수단과, Calculating means for calculating a predicted gain variation ratio from the input signal;
상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 수단을 구비한다. Block length determination means for judging whether to perform long block encoding or short block encoding is provided from the power fluctuation ratio and the predicted gain fluctuation ratio.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 블록 길이 판정 수단이, The block length determining means,
상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 한쪽이 미리 정해진 임계값보다 큰 경우에 단 블록에 의한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 한쪽이 미리 정해진 임계값보다 큰 경우 외의 경우에 장 블록에 의한 부호화를 선택한다. If one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold, encoding by short blocks is selected, and other than when either one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold. Choose encoding by long block.
또한,본 발명의 오디오 부호화 장치는,In addition, the audio encoding apparatus of the present invention,
상기 블록 길이 판정 수단이 이용하는 부호화할 때의 블록 길이를 판정하기 위한 임계값을 상기 블록 길이 판정 수단의 판정 결과에 응답하여 변화시키는 임계값 결정 수단을 포함한다.Threshold determination means for changing a threshold value for determining the block length at the time of encoding used by said block length determination means in response to the determination result of said block length determination means.
또한,본 발명의 오디오 부호화 장치는,In addition, the audio encoding apparatus of the present invention,
상기 임계값 결정 수단이, The threshold value determining means,
상기 블록 길이 판정 수단의 판정 결과가 단 블록에 의한 부호화를 나타내는 경우에 상기 임계값을 초기값보다도 큰 값으로 설정한다. When the determination result of the block length determination means indicates coding by a short block, the threshold value is set to a value larger than the initial value.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 산출 수단이, The calculating means,
상기 전력 산출 수단이 전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 예측 이득 변동비를 산출한다. The power calculating means makes one block using a predetermined number of blocks for calculating power, and calculates the predicted gain variation ratio of the one block.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 전력 산출 수단이, The power calculation means,
상기 산출 수단이 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 전력 변동비를 산출한다. The calculation means sets one block by using a predetermined number of blocks for calculating the prediction gain, and calculates the power variation ratio of the one block.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, A long block mode for dividing an input signal into frames consisting of a predetermined number of samples and encoding an input signal of one frame;
상기 프레임을 분할해서 단 블록으로 하고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 장치로서,An audio encoding device comprising a short block mode that divides the frame into short blocks and encodes the short blocks.
상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 수단과, Power calculating means for calculating a power fluctuation ratio from the input signal;
상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 수단과, Calculating means for calculating a predicted gain variation ratio from the input signal;
상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 수단과, Block length determination means for judging whether to perform long block coding or short block coding from the power fluctuation ratio and the predicted gain fluctuation ratio;
상기 블록 길이 판정 수단에 의해서 장 블록에 의한 부호화가 선택된 경우에 는 장 블록 단위로 입력 신호를 이산 코사인 변환해서 제1 계수를 구하는 제1 변환 수단과, 상기 블록 길이 판정 수단에 의해서 단 블록에 의한 부호화가 선택된 경우에는 단 블록 단위로 입력 신호를 이산 코사인 변환해서 제2 계수를 구하는 제2 변환 수단과, In the case where encoding by long blocks is selected by the block length determining means, first transform means for obtaining a first coefficient by discrete cosine transforming an input signal in units of long blocks and short blocks by means of the block length determining means. Second encoding means for dividing cosine transforming the input signal in units of short blocks to obtain a second coefficient when encoding is selected;
상기 블록 길이 판정 수단의 판정 결과에 응답하여 상기 제1 계수 또는 상기 제2 계수를 제3 계수로서 선택하는 선택 수단과,Selecting means for selecting the first coefficient or the second coefficient as a third coefficient in response to a determination result of the block length determining means;
상기 입력 신호로부터 마스킹 임계값을 구하는 심리 청각 분석 수단과, Psychoacoustic analysis means for obtaining a masking threshold value from the input signal;
상기 마스킹 임계값에 따라 상기 제3 계수를 스펙트럼 양자화해서 제1 부호를 구하는 양자화 수단과, Quantization means for spectral quantizing the third coefficient according to the masking threshold to obtain a first code;
상기 제1 부호를 허프만 부호화해서 제2 부호를 구하는 허프만 부호화 수단과, Huffman coding means for obtaining a second code by Huffman coding the first code,
상기 제2 부호로부터, 출력되는 비트스트림의 총 비트 수를 계산하고, 해당 계산 결과에 기초하여 비트스트림의 출력을 지시하는 양자화 제어 수단과, Quantization control means for calculating the total number of bits of the output bitstream from the second code, and instructing the output of the bitstream based on the calculation result;
상기 제2 부호로부터 비트스트림을 생성하고, 상기 양자화 제어 수단의 지시에 기초하여 비트스트림을 출력하는 비트스트림 생성 수단을 구비한다. Bitstream generation means for generating a bitstream from the second code and outputting the bitstream based on an instruction of the quantization control means.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 블록 길이 판정 수단이, The block length determining means,
상기 전력 변동비 및 상기 예측 이득 변동비 중 적어도 어느 한쪽이 미리 정해진 임계값보다 큰 경우에 단 블록에 의한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 적어도 어느 한쪽이 미리 정해진 임계값보다 큰 경우 외의 경우에는 장 블록에 의한 부호화를 선택한다. If at least one of the power fluctuation ratio and the predicted gain fluctuation ratio is greater than a predetermined threshold, encoding by short blocks is selected, and at least one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold. Otherwise, encoding by long block is selected.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 블록 길이 판정 수단이 이용하는, 부호화할 때의 블록 길이를 판정하기 위한 임계값을 상기 블록 길이 판정 수단의 판정 결과에 응답하여 변화시키는 임계값 결정 수단을 구비한다. Threshold value determining means for changing the threshold value for determining the block length at the time of encoding used by said block length determination means in response to the determination result of said block length determination means.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 임계값 결정 수단이, The threshold value determining means,
상기 블록 길이 판정 수단의 판정 결과가 단 블록에 의한 부호화를 나타내는 경우에 상기 임계값을 초기값보다도 큰 값으로 설정한다. When the determination result of the block length determination means indicates coding by a short block, the threshold value is set to a value larger than the initial value.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 산출 수단이, The calculating means,
상기 전력 산출 수단이 전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 예측 이득 변동비를 산출한다. The power calculating means makes one block using a predetermined number of blocks for calculating power, and calculates the predicted gain variation ratio of the one block.
또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,
상기 전력 산출 수단이, The power calculation means,
상기 산출 수단이 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 전력 변동비를 산출한다. The calculation means sets one block by using a predetermined number of blocks for calculating the prediction gain, and calculates the power variation ratio of the one block.
또한,본 발명의 오디오 부호화 방법은,In addition, the audio encoding method of the present invention,
입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, 상기 프레임을 분할해서 단 블록으로 하 고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 방법으로서,An audio encoding having a long block mode for dividing an input signal into frames having a constant number of samples, encoding an input signal of one frame, and a short block mode for dividing the frame into short blocks and encoding the short blocks. As a way,
상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 공정과, A power calculation step of calculating a power fluctuation ratio from the input signal;
상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 공정과, A calculating step of calculating a predicted gain variation ratio from the input signal;
상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 공정을 구비한다. And a block length determination step of determining whether to perform long block coding or short block coding from the power fluctuation ratio and the predicted gain fluctuation ratio.
또한,본 발명의 오디오 부호화 방법은, In addition, the audio encoding method of the present invention,
입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, A long block mode for dividing an input signal into frames consisting of a predetermined number of samples and encoding an input signal of one frame;
상기 프레임을 분할해서 단 블록으로 하고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 방법으로서,An audio encoding method having a short block mode for dividing the frame into short blocks and encoding the short blocks,
상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 공정과, A power calculation step of calculating a power fluctuation ratio from the input signal;
상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 공정과, A calculating step of calculating a predicted gain variation ratio from the input signal;
상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 공정과, A block length determination step of determining whether to perform long block coding or short block coding from the power fluctuation ratio and the predicted gain fluctuation ratio;
상기 블록 길이 판정 공정에서 장 블록에 의한 부호화가 선택된 경우에는 장 블록 단위로 입력 신호를 이산 코사인 변환해서 제1 계수를 구하는 제1 변환 공정과, A first conversion step of obtaining a first coefficient by discrete cosine transforming an input signal in units of long blocks when encoding by long blocks is selected in the block length determination step;
상기 블록 길이 판정 공정에서 단 블록에 의한 부호화가 선택된 경우에는 단 블록 단위로 입력 신호를 이산 코사인 변환해서 제2 계수를 구하는 제2 변환 공정과, A second conversion step of obtaining a second coefficient by discrete cosine transforming the input signal in units of short blocks when encoding by short blocks is selected in the block length determination step;
상기 블록 길이 판정 공정의 판정 결과에 응답하여 상기 제1 계수 또는 상기 제2 계수를 제3 계수로서 선택하는 선택 공정과, A selection step of selecting the first coefficient or the second coefficient as a third coefficient in response to the determination result of the block length determination process;
상기 입력 신호로부터 마스킹 임계값을 구하는 심리 청각 분석 공정과, A psychoacoustic auditory analysis step of obtaining a masking threshold value from the input signal;
상기 마스킹 임계값에 따라 상기 제3 계수를 스펙트럼 양자화해서 제1 부호를 구하는 양자화 공정과, A quantization step of spectrally quantizing the third coefficient according to the masking threshold to obtain a first code;
상기 제1 부호를 허프만 부호화해서 제2 부호를 구하는 허프만 부호화 공정과, A Huffman encoding step of Huffman encoding the first code to obtain a second code;
상기 제2 부호로부터, 출력되는 비트스트림의 총 비트 수를 계산하고, 해당 계산 결과에 기초하여 비트스트림의 출력을 지시하는 양자화 제어 공정과, A quantization control process of calculating the total number of bits of the output bitstream from the second code and instructing the output of the bitstream based on a result of the calculation;
상기 제2 부호로부터 비트스트림을 생성하고, 상기 양자화 제어 공정에서의 지시에 기초하여 비트스트림을 출력하는 비트스트림 생성 공정을 구비한다. And a bitstream generation step of generating a bitstream from the second code and outputting the bitstream based on the instructions in the quantization control step.
본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은, 전력 변동비와 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정한다. 그 때문에,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 장 블록에 의한 부호화와 단 블록에 의한 부호화의 쌍방을 행할 필요가 없어진다. 그 때문에,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은, 처리량을 경감할 수 있음과 함께, 전력 변동비와 예측 이득 변동비의 쌍방을 이용해서 부호화하는 블록 길이의 판정을 행하기 때문에,보다 적절한 블록 길이에 의한 부호화를 행할 수 있다. The audio encoding apparatus and the audio encoding method of the present invention determine whether to perform long block coding or short block coding from the power fluctuation ratio and the prediction gain fluctuation ratio. Therefore, the audio coding apparatus and the audio coding method of the present invention do not need to perform both long block coding and short block coding. Therefore, the audio encoding apparatus and the audio encoding method of the present invention can reduce the throughput and determine the block length to be encoded by using both the power fluctuation ratio and the predictive gain fluctuation ratio. Encoding can be performed.
또한,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 블록 길이 판정에 이용하는 블록 길이 판정용 임계값을 블록 길이의 판정 결과에 응답하여 변화시킴으로써, 예를 들면, 단 블록에 의한 부호화가 빈번하게 선택되는 것을 방지할 수 있고, 출력되는 음의 음질의 저하를 경감할 수 있다.In addition, the audio encoding apparatus and the audio encoding method of the present invention change the block length determination threshold used for the block length determination in response to the determination result of the block length, so that, for example, encoding by the short block is frequently selected. Can be prevented and the sound quality of the output sound can be reduced.
또한,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이 1개의 블록의 예측 이득 변동비를 산출함으로써, 처리량을 경감할 수 있다.The audio encoding apparatus and the audio encoding method of the present invention can reduce the throughput by setting one block using a predetermined number of power calculation blocks and calculating the predicted gain variation ratio of the one block.
또한,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이 1개의 블록의 전력 변동비를 산출함으로써, 처리량을 경감할 수 있다.In addition, the audio encoding apparatus and the audio encoding method of the present invention can reduce the throughput by making one block by using a predetermined number of blocks for calculating the prediction gain and calculating the power fluctuation ratio of the one block.
[발명의 효과][Effects of the Invention]
이상과 같이, 본 발명에 따르면, 처리량을 경감하면서 블록 길이를 적절하게 선택하는 것이 가능한 오디오 부호화 장치 및 오디오 부호화 방법을 제공할 수 있다.As described above, according to the present invention, an audio encoding apparatus and an audio encoding method capable of appropriately selecting a block length while reducing throughput are provided.
도 1은 본 발명의 오디오 부호화 장치의 개요도. 1 is a schematic diagram of an audio encoding apparatus of the present invention.
도 2는 본 발명의 오디오 부호화 장치에서 이용하는 장 블록과 단 블록의 일례의 개념도. 2 is a conceptual diagram of an example of a long block and a short block used in the audio encoding apparatus of the present invention.
도 3은 본 발명의 오디오 부호화 장치에서의 예측 이득 변동비의 산출 방법 의 개념도. 3 is a conceptual diagram of a method for calculating a predicted gain variation ratio in an audio encoding apparatus of the present invention.
도 4는 본 발명의 오디오 부호화 장치의 제1 실시 형태의 구성도. 4 is a configuration diagram of a first embodiment of an audio encoding device of the present invention.
도 5는 본 발명의 오디오 부호화 장치의 제1 실시 형태가 행하는 블록 길이 판정 방법의 동작의 플로우차트. Fig. 5 is a flowchart of the operation of the block length determination method performed by the first embodiment of the audio encoding device of the present invention.
도 6는 본 발명의 오디오 부호화 장치의 제2 실시 형태의 구성도. 6 is a configuration diagram of a second embodiment of an audio encoding device of the present invention.
도 7은 본 발명의 오디오 부호화 장치의 제2 실시 형태의 임계값 결정부에 서의 임계값 제어 동작을 나타내는 그래프. Fig. 7 is a graph showing a threshold value control operation in the threshold value determining unit of the second embodiment of the audio encoding device of the present invention.
도 8은 본 발명의 오디오 부호화 장치의 제3 실시 형태에서 예측 이득 변동비와 전력 변동비를 구하는 방법의 개념도. Fig. 8 is a conceptual diagram of a method for obtaining a prediction gain variation ratio and a power variation ratio in the third embodiment of the audio encoding apparatus of the present invention.
도 9는 본 발명의 오디오 부호화 장치의 제4 실시 형태에서의 전력 변동비의 산출 방법을 나타내는 개념도. 9 is a conceptual diagram illustrating a method for calculating a power fluctuation ratio in a fourth embodiment of an audio encoding device of the present invention.
도 10은 제1 종래 기술인 MPEG―2 AAC의 인코더의 구성을 나타내는 구성도.Fig. 10 is a configuration diagram showing the configuration of an encoder of MPEG-2 AAC which is the first conventional technology.
도 11은 프리 에코의 예를 나타내는 개략도.11 is a schematic diagram showing an example of pre-echo.
도 12는 제2 종래 기술의 구성을 나타내는 구성도 12 is a configuration diagram showing a configuration of a second conventional technology
도 13은 제2 종래 기술에서 프레임을 단 블록으로 분할하는 경우의 예를 나타내는 개념도. FIG. 13 is a conceptual diagram illustrating an example of dividing a frame into short blocks in a second prior art. FIG.
도 14는 입력 신호, 전력 변동비 및 예측 이득 변동비의 예를 나타내는 그래프. 14 is a graph showing examples of input signals, power fluctuation ratios, and predictive gain fluctuation ratios.
[부호의 설명][Description of the code]
101: 프레임화부101: framing unit
102: 전력 산출부102: power calculation unit
103: 산출부103: calculating unit
104: 블록 길이 판정부104: block length determination unit
105: 선택기105: selector
106: 장 블록용 MDCT 변환부106: MDCT transformation for chapter blocks
107: 단 블록용 MDCT 변환부107: MDCT conversion unit for the short block
108: 선택기108: selector
109: 심리 청각 분석부109: psychological hearing analysis
110: 양자화부110: quantization unit
111: 허프만 부호화부111: Huffman encoder
112: 비트스트림 생성부112: bitstream generator
113: 양자화 제어부113: quantization control
401: 프레임화부401: framing unit
402: 전력 산출부402: power output unit
403: 자기 상관 산출부403: autocorrelation calculation unit
404: k 패러미터 산출부404: k parameter calculator
405: 예측 이득 산출부405: predictive gain calculator
406: 예측 이득 변동비 산출부406: predicted gain variation ratio calculating unit
407: 블록 길이 판정부407: block length determination unit
408: 선택기408: selector
409: 장 블록용 MDCT 변환부409: MDCT transformation for chapter blocks
410: 단 블록용 MDCT 변환부410: MDCT conversion unit for the short block
411: 선택기411: selector
412: 심리 청각 분석부412: psychological hearing analysis
413: 양자화부413: quantization unit
414: 허프만 부호화부414: Huffman encoder
415: 비트스트림 생성부415: bitstream generator
416: 양자화 제어부416: quantization control
601: 프레임화부601: frame unit
602: 전력 산출부602: power output unit
603: 자기 상관 산출부603: autocorrelation calculation unit
604: k 파라미터 산출부604: k parameter calculation unit
605: 예측 이득 산출부605: prediction gain calculator
606: 예측 이득 변동비 산출부606: predicted gain variation ratio calculating unit
607: 블록 길이 판정부607: block length determination unit
608: 임계값 결정부608: threshold determination unit
609: 선택기609: selector
610: 장 블록용 MDCT 변환부610: MDCT transformation unit for long blocks
611: 단 블록용 MDCT 변환부611: MDCT conversion unit for the short block
612: 선택기612: selector
613: 심리 청각 분석부613: psychological hearing analysis
614: 양자화부614: quantization unit
615: 허프만 부호화부615: Huffman encoder
616: 비트스트림 생성부616: bitstream generation unit
617: 양자화 제어부617: Quantization Control
[발명을 실시하기 위한 최량의 형태]Best Mode for Carrying Out the Invention
[본 발명의 개요]SUMMARY OF THE INVENTION
이하, 도면을 참조하여 본 발명을 실시하기 위한 최량의 형태에 대해서 설명한다. 우선,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법의 개요에 대해서 설명한다. 도 1은 본 발명의 오디오 부호화 장치의 개요 도면이다. 이하의 설명은 본 발명의 오디오 부호화 방법의 개요의 설명도 겸한다. 도 1에서,프레임화부(101)는 입력 신호를 소정의 샘플 수로 이루어지는 입력 신호 프레임(장 블록)으로 분할한다. 다음으로,장 블록용 MDCT 변환부(106), 단 블록용 MDCT 변환부(107), 전력 산출부(102) 및 산출부(103)는 1프레임을 장 블록보다도 더욱 짧은 단 블록으로 분할한다. 도 2는 본 발명의 오디오 부호화 장치에서 이용하는 장 블록과 단 블록의 일례의 개념도이다. 도 2는 1프레임(장 블록)을 네개의 단 블록으로 분할하는 경우를 나타내고 있다. 이하에서는, 도 2에 도시되는 예를 바탕으로 설명한다. 그러나, 본 발명은 1프레임을 n개(n>O)로 분할하는 경우에도 마찬가지로 실시할 수 있다. EMBODIMENT OF THE INVENTION Hereinafter, the best form for implementing this invention with reference to drawings is demonstrated. First, the outline | summary of the audio coding apparatus and audio coding method of this invention is demonstrated. 1 is a schematic diagram of an audio encoding apparatus of the present invention. The following description also serves as an overview of the audio encoding method of the present invention. In FIG. 1, the
(1) 전력 산출부(102)는 단 블록마다 입력 신호 전력 P(1), P(2), P(3), P(4)를 구한다. 다음으로,전력 산출부(102)는 인접하는 블록 간의 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 구한다. 여기서, Δp(i, j)은 단 블록 i와 단 블록 j 사이의 전력 변동비로, 상술한 수학식 1로 구할 수 있다. (1) The
(2) 다음으로,산출부(103)는 단 블록의 입력 신호에 대하여 LPC 분석(선형 예측 분석법)을 실행해서 k 파라미터를 구한다. 도 3은 본 발명의 오디오 부호화 장치에서의 예측 이득 변동비의 산출 방법의 개념도이다. 본 발명에서는,k 파라미터의 산출 방법은 임의의 방법이다. 그러나,본 발명은 예를 들면 입력 신호로부터 자기 상관 함수를 구하고, 레빈슨 알고리즘 등의 공지의 방법에 의해서 자기상관 함수로부터 k 파라미터를 산출하는 방법을 이용할 수 있다. (2) Next, the
(3) 다음으로,산출부(103)는 단 블록 i로부터 구한 k 파라미터 k(i, m), (m=1, …p)로부터, 다음 식에 의해서 예측 이득 G(i)를 구한다. 여기서, p는 예측 차수이다. (3) Next, the
(4) 다음으로,산출부(103)는 단 블록 i, j로부터 구한 예측 이득 G(i), G(j)로부터 다음식에 의해서 예측 이득 변동비 Δ(i, j)를 구한다. (4) Next, the
(5) 다음으로,전력 변동비 Δp(i, j)는 블록 길이 판정부(104)에 입력한다. 또한,예측 이득 변동비 ΔG(i, j)는 블록 길이 판정부(104)에 입력한다. 그리고, 블록 길이 판정부(104)는 장 블록과 단 블록 중 어느 쪽으로 양자화할지를 판정한다. 블록 길이 판정부(104)에 의한 판정 방법은 이하의 방법을 이용할 수 있다. 또한,이하의 설명에서, 블록 길이 판정부가 장 블록을 선택한다는 것은 블록 길이 판정부가 장 블록에 의한 부호화를 선택하는 것을 의미한다. 마찬가지로, 블록 길이 판정부가 단 블록을 선택한다는 것은 블록 길이 판정부가 단 블록에 의한 부호화를 선택하는 것을 의미한다. 즉, 블록 길이 판정부가 블록을 선택한다는 것은 블록 길이 판정부가 그 블록에 의한 부호화를 선택하는 것을 의미한다. (5) Next, the power variable costs Δ p (i, j) is input to a block length determining section (104). In addition, the variable cost prediction gain G Δ (i, j) is input to a block length determining section (104). The block
A) 블록 길이 판정부(104)는 전력 변동비에 대한 임계값 THp와 예측 이득 변동비 THG를 설정한다. A) The block
B) 다음으로,블록 길이 판정부(104)는 Δp(1, 2), Δp(2, 3), Δp(3, 4) 중에서 임계값 THP보다도 큰 것이 하나라도 있으면 단 블록을 선택하고, 없으면 다음의 C)로 진행한다. B) Next, if the block length determining section (104) Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) in the threshold value TH P than any great that one of the short blocks If no, go to the next C).
C) 다음으로,블록 길이 판정부(104)는 ΔG(1, 2), ΔG(2, 3), ΔG(3, 4) 중 에서 임계값 THG보다도 큰 것이 하나라도 있으면 단 블록을 선택하고, 없으면 장 블록을 선택한다. C) Next, the block length determining section (104) Δ G (1, 2), Δ G (2, 3), Δ G (3, 4), the threshold TH G all, if any great that one end block at one If not, select the chapter block.
즉, 블록 길이 판정부(104)는 프레임 내의 전력 변동비와 예측 이득 변동비 중 어느 한쪽이 미리 설정한 임계값을 초과한 경우에만 단 블록을 선택하고, 그 외에는 장 블록을 선택한다. In other words, the block
(6) 블록 길이 판정부(104)가 장 블록을 선택한 경우, 그 판정 결과는 선택기(105) 및 선택기(108)에 출력된다. 선택기(105) 및 선택기(108)는 블록 길이 판정부(104)의 판정 결과에 기초하여 블록을 선택한다. 그 때문에,블록 길이 판정부(104)가 장 블록을 선택한 경우, 선택기(105) 및 선택기(108)는 장 블록을 선택한다. (6) When the block
그리고,프레임화부(101)로부터 출력된 입력 신호가 장 블록용 MDCT 변환부(106)에 입력된다. 그리고,장 블록용 MDCT 변환부(106)는 MDCT1을 출력한다. Then, the input signal output from the
또한,블록 길이 판정부(104)가 단 블록을 선택한 경우, 그 판정 결과는 선택기(105) 및 선택기(108)에 출력된다. 그리고, 선택기(105) 및 선택기(108)는 단 블록을 선택한다. In addition, when the block
그리고,프레임화부(101)로부터 출력된 입력 신호가 단 블록용 MDCT 변환부(107)에 입력된다. 그리고,단 블록용 MDCT 변환부(107)는 단 블록의 수만큼 MDCT 계수를 출력한다. 즉, 1프레임이 4개의 단 블록으로 분할되는 경우에는 단 블록용 MDCT 변환부(107)는 4세트의 MDCT 계수를 출력한다. Then, the input signal output from the
(7) 다음으로,심리 청각 분석부(109)는 입력한 입력 신호로부터 마스킹 임계값을 구한다. 여기서, 심리 청각 분석부(109)는 블록 길이 판정부(104)가 장 블록을 선택한 경우, 장 블록용 마스킹 임계값을 구한다. 또한,심리 청각 분석부(109)는 블록 길이 판정부(104)가 단 블록을 선택한 경우, 단 블록용 마스킹 임계값을 구한다. (7) Next, the psychoacoustic
본 발명에서,마스킹 임계값의 산출 방법은 임의의 방법을 이용할 수 있다. 예를 들면, 심리 청각 분석부(109)는 비 특허 문헌 1에 개시되어 있는 방법을 이용할 수 있다. 즉, 심리 청각 분석부(109)는 입력 신호에 대하여 FFT 분석을 행한다. 그리고,심리 청각 분석부(109)는 FFT 스펙트럼을 구한다. 그리고, 심리 청각 분석부(109)는 FFT 스펙트럼으로부터 마스킹 임계값을 산출한다. In the present invention, the calculation method of the masking threshold value can use any method. For example, the psychoacoustic
(8) 다음으로,MDCT 계수와 마스킹 임계값은 양자화부(110)에 입력된다. 양자화부(110)는 입력된 마스킹 임계값에 따라 주파수 대역마다 MDCT 계수를 양자화한다. 그리고, 양자화부(110)는 MDCT 계수가 양자화된 양자화 부호 1을 출력한다.(8) Next, the MDCT coefficients and the masking threshold value are input to the
(9) 다음으로,양자화 부호 1이 허프만 부호화부(111)에 입력된다. 그리고,허프만 부호화부(111)는 양자화 부호 1을 양자화 부호 1보다 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (9) Next, the
(10) 다음으로,허프만 부호화부(111)는 양자화 부호 2를 양자화 제어부(113)에 출력한다. 양자화 제어부(113)는 입력된 양자화 부호 2로부터 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 1에서 점선으로 둘러싸인 범위는 양자화 제어부(113)가 제어 가능한 범위이다. (10) Next, the Huffman coding unit 111 outputs the
(11) 양자화 제어부(113)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회할 경우, 처리 (8)∼처리 (10)을 반복하도록, 양자화부(110)와 허프만 부호화부(111)를 제어한다. 또한,양자화 제어부(113)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회할 경우, 허프만 부호화부(111)로부터 비트스트림 생성부(112)에 대하여 양자화 부호 2를 출력시킨다. 그리고,양자화 제어부(113)는 비트스트림 생성부(112)에 대하여 비트스트림을 출력하도록 제어한다. 이에 의해서,도 1에 도시되는 오디오 부호화 장치는 양자화를 실현한다. 또한,본 발명에서의 양자화의 프로세스는 상술한 종래 기술의 란에서 설명한, AAC 방식의 양자화 프로세스의 상세와 마찬가지이므로, 그 상세한 설명을 생략한다. (11) If the total number of bits calculated exceeds the number of bits allowed for the current block, the
다음으로,도면을 참조해서 본 발명의 실시 형태에 대해서 설명한다. 이하의 실시 형태의 구성은 예시이며, 본 발명은 실시 형태의 구성에 한정되지 않는다. 또한,이하의 각 실시 형태의 설명은 오디오 신호를 부호화하는 오디오 부호화 장치를 예에 이용하여 설명한다. 또한,이하에 설명하는 본 발명의 오디오 부호화 장치의 각 실시 형태의 설명은 본 발명의 오디오 부호화 방법의 각 실시 형태의 설명을 겸한다. Next, an embodiment of the present invention will be described with reference to the drawings. The structure of the following embodiment is an illustration, and this invention is not limited to the structure of embodiment. In addition, description of each following embodiment is demonstrated using the audio coding apparatus which encodes an audio signal as an example. In addition, description of each embodiment of the audio encoding device of the present invention described below also serves as a description of each embodiment of the audio encoding method of the present invention.
<제1 실시 형태><First Embodiment>
도 4는 본 발명의 오디오 부호화 장치의 제1 실시 형태의 구성도이다. 도 4에서,프레임화부(401)는 입력된 신호를 소정의 샘플 수로 이루어지는 입력 신호 프레임(장 블록)으로 분할한다. 4 is a configuration diagram of a first embodiment of an audio encoding device of the present invention. In FIG. 4, the
다음으로,단 블록용 MDCT 변환부(410), 전력 산출부(402) 및 자기 상관 산 출부(403)는 입력한 1프레임을 단 블록으로 분할한다. 본 실시 형태에서의 프레임의 분할에 대해서 상술한 도 2를 참조하여 설명한다. 도 2는 장 블록과 단 블록의 예를 나타내는 개념도이다. 도 2에 도시되는 예는 1프레임(장 블록)을 4개의 단 블록으로 분할한다. 이하에서는, 이러한 예를 바탕으로 설명한다. 그러나,본 실시 형태는 1프레임을 n개(n은 음이 아닌 정수)로 분할하는 경우라도 마찬가지로 이루어진다. Next, the short
(1) 우선,전력 산출부(402)는 단 블록마다 입력 신호 전력 P(1), P(2), P(3), P(4)를 구한다. 그리고, 전력 산출부(402)는 인접하는 블록 간의 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 구한다. 여기서, Δp(i, j)는 단 블록 i와 단 블록 j 사이의 전력 변동비이다. 이 전력 변동비는 상술한 수학식 (1)로 구할 수 있다. (1) First, the
(2) 다음으로,자기 상관 산출부(403)는 단 블록의 입력 신호로부터 자기 상관을 구한다. 그리고,자기 상관 산출부(403)는 이 자기 상관을 k 파라미터 산출부(404)에 출력한다. (2) Next, the
다음으로,k 파라미터 산출부(404)는 자기 상관 함수로부터 레빈슨 알고리즘 등의 공지의 방법에 의해서 k 파라미터를 산출한다. 또한,k 파라미터 산출부(404)가 자기 상관 함수로부터 LPC 계수를 구하고, k 파라미터 산출부(404)가 LPC 계수를 k 파라미터로 변환하는 것으로 해도 된다.Next, the
(3) 그리고, 예측 이득 산출부(405)는 단 블록 i로부터 구한 k 파라미터 k(i, m), (m=1, …, p)로부터 다음 식에 의해서 예측 이득 G(i)를 구한다. 여기서, p는 예측 차수이다. 이 예측 이득 G(i)는 예측 이득 변동비 산출부(406)에 입력한다.(3) Then, the
(4) 다음으로,예측 이득 변동비 산출부(406)는 단 블록 i, 단 블록 j로 구한 예측 이득 G(i), G(j)로부터, 다음식으로 나타내는 예측 이득 변동비ΔG(i, j)를 구한다. 여기서, 자기 상관 산출부(403), k 파라미터 산출부(404), 예측 이득 산출부(405) 및 예측 이득 변동비 산출부(406)는 도 1에 도시되는 산출부(103)의 기능의 일부라 해도 된다.(4) Next, the prediction gain variable
(5) 다음으로,전력 변동비ΔP(i, j)와 예측 이득 변동비 ΔG(i, j)는 블록 길이 판정부(407)에 입력한다. 그리고, 블록 길이 판정부(407)는 장 블록과 단 블록 중 어느 쪽으로 양자화할지를 판정한다. 블록 길이 판정부(407)가 이용하는 판정 방법은 이하의 방법을 이용할 수 있다. 이하, 블록 길이 판정부가 행하는 판정 방법에 대해서 도 5를 참조하여 설명한다. 도 5는 본 발명의 오디오 부호화 장치의 제1 실시 형태가 행하는 블록 길이 판정 방법의 동작의 플로우차트이다. 또한,이하의 설명에서는,상술한 바와 같이, 블록 길이 판정부가 장 블록을 선택한다는 것은 블록 길이 판정부가 장 블록에 의한 부호화를 선택하는 것을 의미한다. 마찬가지로, 블록 길이 판정부가 단 블록을 선택한다는 것은 블록 길이 판정부가 단 블록에 의한 부호화를 선택하는 것을 의미한다. 즉, 블록 길이 판정부가 블록을 선택한다는 것은 블록 길이 판정부가 그 블록에 의한 부호화를 선택하는 것을 의미한다. (5) Next, the power variable costs Δ P (i, j) and the variable cost prediction gain G Δ (i, j) is input to a block length determining section (407). The block length determination unit 407 then determines which of the long block and the short block is quantized. As the determination method used by the block length determination unit 407, the following method can be used. Hereinafter, the determination method performed by the block length determination unit will be described with reference to FIG. 5. 5 is a flowchart of the operation of the block length determination method performed by the first embodiment of the audio encoding apparatus of the present invention. In addition, in the following description, as described above, that the block length determination unit selects the long block means that the block length determination unit selects encoding by the long block. Similarly, the block length determining unit selecting the short block means that the block length determining unit selects encoding by the short block. That is, that the block length determination unit selects a block means that the block length determination unit selects encoding by the block.
(A) 블록 길이 판정부(407)는 전력 변동비에 대한 임계값 THp와 예측 이득 변동비에 대한 임계값 THG를 설정한다. (A) The block length determination unit 407 sets the threshold TH p for the power fluctuation ratio and the threshold TH G for the predicted gain fluctuation ratio.
(B) 블록 길이 판정부(407)는 Δp(1, 2),Δp(2, 3), Δp(3, 4) 중에서 임계값 THp보다도 큰 것이 하나라도 있으면 단 블록을 선택하고(S501, S502, S503, S508), 없으면 (C)로 진행한다. (B) a block length determining section 407 selects the short blocks if Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) from the threshold TH p than any large that one (S501, S502, S503, S508), if no, go to (C).
(C) 블록 길이 판정부(407)는 ΔG(1, 2), ΔG(2, 3), ΔG(3,4) 중에서 임계값 THG보다도 큰 것이 하나라도 있으면 단 블록을 선택하고(S504, S505, S506, S508), 없으면 장 블록을 선택한다(S507). (C) a block length determining section 407 if Δ G (1, 2), Δ G (2, 3), Δ G (3,4) in the threshold value TH G larger than any one to select the short blocks, and (S504, S505, S506, S508) If not, the long block is selected (S507).
즉, 블록 길이 판정부(407)는 프레임 내의 전력 변동비와 예측 이득 변동비 중 어느 한쪽이 미리 설정된 임계값을 초과한 경우에만 단 블록을 선택하고, 그 외 에는 장 블록을 선택한다. In other words, the block length determination unit 407 selects a short block only when either one of the power fluctuation ratio and the predicted gain fluctuation ratio in the frame exceeds a preset threshold value, and selects a long block elsewhere.
(6) 블록 길이 판정부(407)의 판정 결과는 선택기(408) 및 선택기(411)에 입력된다. 각 선택기(408) 및 선택기(411)는 블록 길이 판정부(407)의 판정 결과에 기초하여, 이용하는 블록 길이를 선택한다. (6) The determination result of the block length determination unit 407 is input to the
블록 길이 판정부(407)가 장 블록을 선택한 경우에는 입력 신호가 장 블록용 MDCT 변환부(409) 입력한다. 그리고, 장 블록용 MDCT 변환부(409)는 MDCT 계수를 출력한다. When the block length determination unit 407 selects the long block, the input signal is input to the long
또한,블록 길이 판정부(407)가 단 블록을 선택한 경우에는 입력 신호가 단 블록용 MDCT 변환부(410)에 입력된다. 그리고,단 블록용 MDCT 변환부(410)는 단 블록의 수 분의 MDCT 계수를 출력한다. 즉, 1프레임이 4개의 단 블록으로 분할되는 경우, 단 블록용 MDCT 변환부(410)는 4세트의 MDCT 계수를 출력한다. In addition, when the block length determination unit 407 selects a short block, an input signal is input to the short
(7) 다음으로,심리 청각 분석부(412)는 입력된 입력 신호로부터 마스킹 임계값을 구한다. 심리 청각 분석부(412)에는 프레임화부(401)로부터 출력된 입력 신호가 입력된다. 여기서, 심리 청각 분석부(412)는 블록 길이 판정부(407)가 장 블록을 선택한 경우, 장 블록용 마스킹 임계값을 구한다. 또한,심리 청각 분석부(412)는 블록 길이 판정부(407)가 단 블록을 선택한 경우, 단 블록용 마스킹 임계값을 구한다. (7) Next, the psychoacoustic
본 실시 형태에서, 마스킹 임계값의 산출 방법은 임의의 방법을 이용할 수 있다. 예를 들면, 심리 청각 분석부(412)는 비 특허 문헌 1에 개시되어 있는 방법을 이용할 수 있다. 즉, 심리 청각 분석부(412)는 입력 신호에 대하여 FFT 분석을 행한다. 그리고,심리 청각 분석부(412)는 FFT 스펙트럼을 구한다. 그리고,심리 청각 분석부(412)는 FFT 스펙트럼으로부터 마스킹 임계값을 산출한다. In this embodiment, the calculation method of a masking threshold value can use arbitrary methods. For example, the psychoacoustic
(8) MDCT 계수와 마스킹 임계값은 양자화부(413)에 입력된다. 양자화부(413)는 입력된 마스킹 임계값에 따라 주파수 대역마다 MDCT 계수를 양자화한다. 양자화부(413)는 MDCT 계수를 양자화한 양자화 부호 1을 출력한다. (8) The MDCT coefficients and masking thresholds are input to the quantization unit 413. The quantization unit 413 quantizes the MDCT coefficients for each frequency band according to the input masking threshold. The quantization unit 413 outputs a
(9) 다음으로,양자화 부호(1)는 허프만 부호화부(414)에 입력된다. 그리고,허프만 부호화부(414)는 양자화 부호 1을 양자화 부호 1보다 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (9) Next, the
(10) 다음으로,허프만 부호화부(414)는 양자화 부호 2를 양자화 제어부(416)에 출력한다. 양자화 제어부(416)는 입력된 양자화 부호 2로부터 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 4에서 점선으로 둘러싸인 범위는 양자화 제어부(416)가 제어 가능한 범위이다. (10) Next, the Huffman coding unit 414 outputs the
(11) 양자화 제어부(416)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (8)∼처리 (10)을 반복하도록, 양자화부(413)과 허프만 부호화부(414)를 제어한다. 또한,양자화 제어부(416)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(414)로부터 비트스트림 생성부(415)에 대하여 양자화 부호 2를 출력시킨다. 그리고,양자화 제어부(415)는 비트스트림 생성부(415)에 대하여, 비트스트림을 출력하도록 제어한다. 이에 의해서,본 실시 형태는 양자화를 실현한다. 또한,본 실시 형태에서의 양자화 프로세스는 상술한 종래 기술 란에서 설명한, AAC 방식의 양자화 프로세스의 상 세와 마찬가지이므로, 그 상세한 설명을 생략한다. (11) If the total number of bits calculated exceeds the number of bits allowed for the current block, the
또한,본 실시 형태에서는 1프레임을 4개의 단 블록으로 분할하는 경우를 예에 설명했다. 본 발명은 1프레임을 임의인 개수(예를 들면, 8블록)로 분할하는 경우라도 마찬가지로 실현할 수 있다.In this embodiment, the case where one frame is divided into four short blocks has been described in the example. The present invention can be similarly realized even when one frame is divided into an arbitrary number (for example, eight blocks).
이상 설명한 대로, 본 실시 형태는 MDCT 변환 전에 블록 길이를 판정하고 있기 때문에,제1 종래 기술에 비해서 적은 처리량으로 고품질의 오디오 신호의 부호화가 가능하다. 또한,본 실시 형태는 전력 변동비와 예측 이득 변동비를 이용해서 블록 길이의 판정을 행하고 있기 때문에,제2 종래 기술보다도 블록 길이의 판정이 아주 정밀하게 되기 때문에, 제2 종래 기술보다도 고품질의 오디오 신호의 부호화가 가능하다. As described above, in the present embodiment, since the block length is determined before the MDCT conversion, the audio signal of high quality can be encoded with a small throughput compared to the first conventional technology. Further, in the present embodiment, since the block length is determined using the power fluctuation ratio and the predicted gain fluctuation ratio, the block length is more precisely determined than in the second prior art. Coding is possible.
즉, 본 실시 형태는 MDCT 변환 및 심리 청각 분석 전에, 부호화를 행하는 블록 길이를 판정한다. 그 때문에,본 실시 형태는 제1 종래 기술에 비해서 적은 처리량으로 고품질의 부호화가 가능하다. 또한,본 실시 형태는 블록 길이 판정 수단에서, 전력 변동비와 예측 이득 변동비를 이용한다. 그 때문에,본 실시 형태는 제2 종래 기술에 비해서 블록 길이를 정밀도 좋게 판정할 수 있다.In other words, the present embodiment determines the block length for encoding before MDCT transformation and psychoacoustic analysis. Therefore, this embodiment can encode high quality with a small throughput compared with the first prior art. In this embodiment, the block length determining means uses the power fluctuation ratio and the predicted gain fluctuation ratio. For this reason, the present embodiment can accurately determine the block length as compared with the second prior art.
본 실시 형태의 효과에 대해서, 상술한 도 14를 이용해서 더욱 상세히 설명한다. 도 14는 전력 변동비와 예측 이득 변동비의 산출 결과를 나타내는 그래프이다. 도 14의 (a)에 도시되는 입력 신호는, 구간 A에서는 전력 변동비의 값이 0으로 거의 변화되지 않는다(도 14의 (b)). 이에 대해서, 도 14의 (a)에 도시되는 입력 신호는, 구간 A에서는 예측 이득 변동비가 크게 변동되고 있다(도 14의 (c)). The effect of this embodiment is demonstrated in more detail using FIG. 14 mentioned above. 14 is a graph showing the results of calculating the power fluctuation ratio and the predicted gain fluctuation ratio. In the input signal shown in FIG. 14A, the value of the power fluctuation ratio hardly changes to 0 in the section A (FIG. 14B). In contrast, in the input signal shown in FIG. 14A, the predicted gain variation ratio is greatly changed in the section A (FIG. 14C).
본 실시 형태는 전력 변동비와 예측 이득 변동비의 양방을 산출한다. 그리고,본 실시 형태는 전력 변동비와 예측 이득 변동비 중 어느 한쪽이 임계값을 초과한 경우에 단 블록을 선택한다. 그 때문에,본 실시 형태는 도 14에 도시되는 구간 A와 같은 입력 신호에서도 정밀도 좋게 블록 길이를 판정할 수 있다.This embodiment calculates both a power fluctuation ratio and a prediction gain fluctuation ratio. Then, in this embodiment, if either one of the power fluctuation ratio and the predicted gain fluctuation ratio exceeds the threshold, the short block is selected. Therefore, the present embodiment can accurately determine the block length even in an input signal such as the section A shown in FIG.
또한,도 14에 도시되는 구간 B, 구간 C에서는,예측 이득 변동비는 거의 변동되지 않는다. 한편,도 14에 도시되는 구간 B, 구간 C에서는,전력 변동비가 크게 변동된다. 따라서,본 실시 형태는 구간 B, 구간 C에 대해서도 제2 종래 기술 과 마찬가지로 신호의 변화점을 검출할 수 있다. In addition, in the sections B and C shown in Fig. 14, the predicted gain fluctuation ratio is hardly changed. On the other hand, in the sections B and C shown in Fig. 14, the power fluctuation ratio varies greatly. Therefore, the present embodiment can detect the change point of the signal in the sections B and C as in the second conventional technique.
<제2 실시 형태><2nd embodiment>
도 6은 본 발명의 오디오 부호화 장치의 제2 실시 형태의 구성도이다. 본 실시 형태는 제1 실시 형태와 비교해서, 전력 변동비에 대한 임계값 THP와 예측 이득 변동비에 대한 임계값 THG를 동적으로 변화시키는 부분이 서로 다르다. 그 외의 부분은 제1 실시 형태와 공통이므로 설명을 생략한다. 6 is a configuration diagram of a second embodiment of an audio encoding device of the present invention. Compared with the first embodiment, the present embodiment differs from the threshold TH P for the power fluctuation ratio and the portion for dynamically changing the threshold TH G for the predicted gain fluctuation ratio. Since other parts are common to the first embodiment, description thereof is omitted.
일반적으로, 단 블록은 어택(attack)음 등의 급격히 변화되는 부분에서 선택되는 경우가 많다. 어택음은 넓은 주파수 범위에 걸쳐서 MDCT 스펙트럼의 진폭이 크다. 그 때문에,어택음은 부호화하는 경우에 대량의 양자화 비트 수가 필요하게 된다. In general, the short block is often selected from a rapidly changing portion such as an attack sound. Attack sounds have large amplitudes in the MDCT spectrum over a wide frequency range. Therefore, when the attack sound is encoded, a large number of quantized bits is required.
연속해서 단 블록이 선택되면,양자화 비트 수가 부족해서 음질이 극단적으로 열화할 경우가 있다. 그 때문에,저 비트 레이트로 오디오 신호를 부호화하기 위해서는, 되도록 단 블록이 연속해서 선택되지 않도록 제어하는 것이 필요한 경우가 있다. If a short block is selected in succession, the sound quality may be extremely degraded due to insufficient number of quantized bits. Therefore, in order to encode an audio signal at a low bit rate, it may be necessary to control such that short blocks are not selected continuously.
따라서,본 실시 형태에서는,한번, 단 블록이 선택된 경우, 그 후 일정 시간 동안은 임계값 THP와 임계값 THG를 크게 한다. 그 결과, 본 실시 형태에서는,가능한 단 블록이 연속해서 선택되지 않도록 한다. Therefore, in the present embodiment, once a short block is selected, the threshold value TH P and the threshold value TH G are increased for a certain time thereafter. As a result, in this embodiment, the possible short blocks are not selected continuously.
여기서, 본 발명의 오디오 부호화 장치의 제2 실시 형태의 구성에 대해서 설명한다. 본 실시 형태의 구성은 도 6에 도시된다. 그리고,도 6에 도시된 각 블록 중,블록 길이 판정부(607) 및 임계값 결정부(608) 외의 블록의 동작은 도 4에 도시되는 대응하는 각 블록의 동작과 마찬가지이므로, 그 상세한 설명을 생략한다. Here, the configuration of the second embodiment of the audio encoding device of the present invention will be described. The configuration of this embodiment is shown in FIG. Since the operation of blocks other than the block
즉, 도 6에 도시된 프레임화부(601)의 동작은 도 4에 도시된 프레임화부(401)의 동작과 마찬가지이고, 전력 산출부(602)의 동작은 도 4에 도시되는 전력 산출부(402)의 동작과 마찬가지이고, 자기 상관 산출부(603)의 동작은 도 4에 도시되는 자기 상관 산출부(403)의 동작과 마찬가지이고, k 파라미터 산출부(604)의 동작은 도 4에 도시되는 k 파라미터 산출부(404)의 동작과 마찬가지이고, 예측 이득 산출부(605)의 동작은 도 4에 도시되는 예측 이득 산출부(405)의 동작과 마찬가지이다. That is, the operation of the
또한,예측 이득 변동비 산출부(606)의 동작은 도 4에 도시되는 예측 이득 변동비 산출부(406)의 동작과 마찬가지이고, 선택기(609)의 동작은 도 4에 도시되는 선택기(408)의 동작과 마찬가지이고, 장 블록용 MDCT 변환부(610)의 동작은 도 4에 도시되는 장 블록용 MDCT 변환부(409)의 동작과 마찬가지이다. In addition, the operation of the predicted gain variation
또한,단 블록용 MDCT 변환부(611)의 동작은 도 4에 도시되는 단 블록용 MDCT 변환부(410)의 동작과 마찬가지이고, 선택기(612)의 동작은 도 4에 도시되는 선택기(411)의 동작과 마찬가지이고, 심리 청각 분석부(613)의 동작은 도 4에 도시되는 심리 청각 분석부(412)의 동작과 마찬가지이고, 양자화부(614)의 동작은 도 4에 도시되는 양자화부(413)의 동작과 마찬가지이고, 허프만 부호화부(615)의 동작은 도 4에 도시되는 허프만 부호화부(414)의 동작과 마찬가지이고, 비트스트림 생성부(616)의 동작은 도 4에 도시되는 비트스트림 생성부(415)의 동작과 마찬가지이고, 양자화 제어부(617)의 동작은 도 4에 도시되는 양자화 제어부(416)의 동작과 마찬가지이다. 또한,도 6에서 점선으로 둘러싸인 범위는 양자화 제어부(617)가 제어 가능한 범위이다. In addition, the operation of the short
한편,도 6에 도시되는 블록 길이 판정부(607)는 임계값 결정부(608)에서 결정된 임계값을 수신한다. 또한,블록 길이 판정부(607)는 블록 길이의 판정 결과를 선택기(609), 선택기(612) 및 임계값 결정부(608)에 출력한다. 임계값 결정부(608)는 블록 길이 판정부(607)로부터 출력된 판정 결과에 기초하여 임계값을 결정한다. 즉, 임계값 결정부(608)는 블록 길이 판정부(607)로부터 출력된 판정 결과가 단 블록을 선택하는 판정 결과인 경우에는 증가한 임계값의 값을 출력한다. 또한,블록 길이 판정부(607)는 임계값 결정부(608)로부터 수신한 임계값에 기초하여 판정 처리를 행한다. 임계값이 변동될 수 있다는 점 외에는 블록 길이 판정부(607)에서의 판정 처리는 상술한 도 5에 도시되는 경우와 마찬가지이므로, 그 상세 한 설명을 생략한다. 또한,임계값 결정부(608)는 도 1에 도시되는 산출부(103)의 기능의 일부인 것으로 해도 된다. On the other hand, the block
도 7은 본 발명의 오디오 부호화 장치의 제2 실시 형태의 임계치 결정부에서의 임계값 제어 동작을 나타내는 그래프이다. 도 7에 도시되는 그래프에서는,단 블록이 선택되면, 임계값 THG는 THG+α로 변경된다. 여기서, α>0으로 한다. 마찬가지로, 단 블록이 선택되면,임계값 THP는 THP+β로 변경된다. 여기서, β>0으로 한다. Fig. 7 is a graph showing a threshold value control operation in the threshold value determination unit of the second embodiment of the audio encoding device of the present invention. In the graph shown in FIG. 7, when a block is selected, the threshold value TH G is changed to TH G + α. Here, α> 0. Similarly, if a short block is selected, the threshold value TH P is changed to TH P + β. Here, β> 0.
그 후, 일정 시간 Δt가 경과하면,임계값은 원래의 값(초기값) THG, THp로 변경된다. 즉, 본 실시 형태에서는,한 번, 단 블록이 선택된 경우, 그 후 일정 시간 동안은 임계값 THP와 임계값 THG를 크게 하여, 가능한 단 블록이 연속해서 선택되지 않도록 한다. After that, when the predetermined time Δt elapses, the threshold value is changed to the original value (initial value) TH G , TH p . That is, in the present embodiment, once a short block is selected, the threshold value TH P and the threshold value TH G are increased for a predetermined time thereafter so that the possible short blocks are not selected continuously.
이상, 설명한 대로, 본 실시 형태는 상술한 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 또한,본 실시 형태는 한번 단 블록이 선택된 경우에 그 후 일정 시간 동안은 단 블록이 선택되지 않도록 임계값을 제어한다. 그 때문에,본 실시 형태에서는,연속해서 단 블록이 선택됨으로써 발생하는 음질 열화를 경감할 수 있다.As described above, the present embodiment can obtain the same effects as those of the first embodiment described above. In addition, in this embodiment, when a short block is selected, the threshold value is controlled so that the short block is not selected for a certain time thereafter. Therefore, in this embodiment, the sound quality deterioration which arises by selecting a continuous block continuously can be reduced.
또한,본 실시 형태의 변형예로서, 이하의 방법을 실시할 수도 있다. 이하의 변형예에서도, 상기 본 발명의 오디오 부호화 장치의 제2 실시 형태와 마찬가지의 효과를 얻을 수 있다. In addition, as a modification of this embodiment, the following method can also be implemented. Also in the following modifications, the same effects as in the second embodiment of the audio encoding device of the present invention can be obtained.
(1)본 실시 형태의 변형예는 단 블록이 선택된 후, 일정 시간 동안은 단 블록을 선택하지 않는다.(1) In the modification of this embodiment, after the short block is selected, the short block is not selected for a predetermined time.
(2)본 실시 형태의 변형예는 단 블록이 선택된 후, α 또는 β를 충분히 크게 한다. 단,본 실시 형태의 변형예는 THG 또는 THP 범위를 미리 조사해 둘 필요가 있다. (2) In the modification of the present embodiment, after the block is selected, α or β is sufficiently large. However, in the modification of the present embodiment, it is necessary to examine the TH G or TH P range in advance.
(3)본 실시 형태의 변형예는 단 블록이 선택되고, 임계값이 THG+α 또는 THP+β로 되어 있는 경우에 다시 단 블록이 선택된 경우, 임계값을 THG+α+α 또는 THP+β+β라 한다. 단,본 실시 형태의 변형예는 일정 시간 후에는 임계값을 원래의 값으로 되돌린다. (3) In the modification of the present embodiment, when the short block is selected and the short block is selected again when the threshold value is TH G + α or TH P + β, the threshold value is set to TH G + α + α or TH P + β + β. However, the modified example of this embodiment returns a threshold value to an original value after a fixed time.
<제3 실시 형태>Third Embodiment
다음으로,본 발명의 오디오 부호화 장치의 제3 실시 형태에 대해서 설명한다. 본 실시 형태의 구성은 도 4에 도시되는 제1 실시 형태와 동일하다. 그러나,제3 실시 형태는 예측 이득 변동비를 프레임 단위로 구하는 점이 상술한 제1 실시 형태와는 서로 다르다. 즉, 본 실시 형태에서는,전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이러한 1개의 블록의 예측 이득 변동비를 산출한다. Next, a third embodiment of the audio encoding device of the present invention will be described. The structure of this embodiment is the same as that of 1st embodiment shown in FIG. However, the third embodiment differs from the above-described first embodiment in that the prediction gain variation ratio is obtained in units of frames. In other words, in this embodiment, one block is calculated using a predetermined number of power calculating blocks, and the predicted gain variation ratio of the one block is calculated.
제1 실시 형태는 단 블록 마다 LPC 분석을 행한다. 그 때문에,제1 실시 형태는 정밀하게 예측 이득 변동비를 산출할 수 있다. 그러나,제1 실시 형태에서는 LPC 분석의 실행 횟수가 많아지기 때문에 처리량도 증가한다. 본 실시 형태에서는 1개의 블록에 대해서 1회의 LPC 분석을 행한다. 그 때문에,본 실시 형태는 제1 실시 형태에 비하면 연산량을 보다 적게할 수 있다.In the first embodiment, LPC analysis is performed for each block. Therefore, the first embodiment can calculate the predicted gain variation ratio precisely. However, in the first embodiment, since the number of times of performing LPC analysis increases, the throughput also increases. In this embodiment, one LPC analysis is performed for one block. Therefore, this embodiment can reduce the amount of computation as compared with the first embodiment.
도 8은 본 발명의 오디오 부호화 장치의 제3 실시 형태에서, 예측 이득 변동비와 전력 변동비를 구하는 방법의 개념도이다. 제1 실시 형태는 단 블록마다 LPC 분석을 행하여 얻어진 k 파라미터로부터 예측 이득을 구한다. 그리고,제1 실시 형태는 1개 전의 단 블록에서 마찬가지로 하여 구한 예측 이득의 비에 의해서 예측 이득 변동비를 산출한다.8 is a conceptual diagram of a method for obtaining a predicted gain variation ratio and a power variation ratio in the third embodiment of the audio encoding apparatus of the present invention. In the first embodiment, the prediction gain is obtained from the k parameter obtained by performing LPC analysis for each block. In the first embodiment, the predicted gain variation ratio is calculated based on the ratio of the predicted gains obtained in the same manner in one previous block.
이에 대해서, 본 실시 형태는 도8의 (a)에 도시된 바와 같이, 1개의 장 블록(제n 프레임)의 입력 신호에 대해서 LPC 분석을 행하여 k 파라미터를 구한다. 즉, k 파라미터 산출부가 1개의 장 블록(제n 프레임)의 입력 신호에 대해서 LPC 분석을 행하여 k 파라미터를 구한다. 그리고,본 실시 형태는 k 파라미터로부터 예측 이득 G(n)을 산출한다. 다음으로,본 실시 형태는 1개 전의 프레임(제n―1 프레임)에서 마찬가지로 하여 구한 예측 이득 전력 G(n―1)와 G(n)을 이용하여, 다음 식에 의해서 예측 이득 변동비 ΔG(n)를 산출한다. In contrast, in this embodiment, as shown in Fig. 8A, LPC analysis is performed on an input signal of one long block (n-th frame) to obtain a k parameter. In other words, the k parameter calculation unit performs LPC analysis on the input signal of one long block (n-th frame) to obtain the k parameter. In this embodiment, the prediction gain G (n) is calculated from the k parameter. Next, the embodiment using the prediction gain power G (n-1) and G (n) obtained in the same manner as in the one previous frame (the n-1 frame), prediction gain variable costs by the following formula: Δ G ( calculate n).
한편,본 실시 형태는 도 8의 (b)에 도시된 바와 같이, 제1 실시 형태와 마찬가지로,단 블록마다 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 산출한다. 다음으로,본 실시 형태는 산출된 예측 이득 변동비와 전력 변동비로부터 최적의 블록 길이를 결정한다. 이하, 이 결정 동작에 대해서 설명한다. On the other hand, as the present embodiment is shown in (b) of Figure 8, as in the first embodiment, each short block power variable costs Δ p (1, 2), Δ p (2, 3), Δ p (3 , 4). Next, the present embodiment determines the optimum block length from the calculated predicted gain variation ratio and power variation ratio. This determination operation will be described below.
(1) 블록 길이 판정부는 ΔG(n)가 미리 정해진 임계값 THG보다도 크면 단 블록을 선택한다. (1) Δ G (n) block length determining section is larger than the threshold value TH G predetermined selects the short blocks.
(2) 다음으로,블록 길이 판정부는 Δp(1, 2), Δp(2, 3), Δp(3, 4) 중에서, 하나라도 미리 정해진 임계값 THP보다도 큰 것이 있으면 단 블록을 선택한다. (2) Next, the block length determining section Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) from, only one block, even if there is pre-large determined than the threshold value TH P Choose.
(3) 그리고, 블록 길이 판정부는 (1) 또는 (2) 중 어느 한쪽에서 단 블록이 선택되지 않은 경우에는 장 블록을 선택한다. 본 실시 형태는 블록 길이를 선택 한 후의 구성과 처리 내용은 제1 실시 형태와 공통이다. 그 때문에, 본 실시 형태의 블록 길이를 선택한 후의 구성과 처리 내용에 대해서는 설명을 생략한다. (3) And if the short block is not selected in either (1) or (2), a block length determination part selects a long block. In this embodiment, the configuration and processing contents after the block length is selected are common to the first embodiment. Therefore, description is abbreviate | omitted about the structure and content after selecting the block length of this embodiment.
이상 설명한 대로, 본 실시 형태는 상술한 본 발명의 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 또한,본 실시 형태는 LPC 분석을 장 블록당 1회만 행함으로써, 제1 실시 형태에 비해서 보다 적은 처리량으로 블록 길이를 선택할 수 있다. 단,본 실시 형태에서는 예측 이득을 산출하는 블록으로서, 1프레임의 블록을 이용할 경우에 한정되는 것이 아니라, 전력을 산출하는 블록을 임의의 수만큼 이용하여 1개의 블록으로 하고, 이러한 1개의 블록의 예측 이득을 산출하는 것으로 해도 된다. 이러한 경우라도, 본 실시 형태는 상기한 바와 마찬가지의 효과를 얻을 수 있다. As explained above, this embodiment can acquire the effect similar to 1st embodiment of this invention mentioned above. In addition, in this embodiment, the LPC analysis is performed only once per long block, so that the block length can be selected with a smaller throughput than in the first embodiment. However, in the present embodiment, the block for calculating the prediction gain is not limited to the case of using a block of one frame, and the block for calculating the power is used as an arbitrary number of blocks. The prediction gain may be calculated. Even in such a case, the present embodiment can obtain the same effects as described above.
<제4 실시 형태><4th embodiment>
다음으로,본 발명의 오디오 부호화 장치의 제4 실시 형태에 대해서 설명한다. 본 실시 형태의 구성은 제1 실시 형태의 구성과 같다. 그러나,본 실시 형태는 1프레임을 8개의 블록으로 분할해서 행하는 전력 변동비의 계산 방법이 제1 실시 형태와 서로 다르다. 즉, 본 실시 형태는 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이러한 1개의 블록의 전력 변동비를 산출한다.Next, a fourth embodiment of the audio encoding device of the present invention will be described. The configuration of this embodiment is the same as that of the first embodiment. However, the present embodiment differs from the first embodiment in the method of calculating the power fluctuation ratio which is performed by dividing one frame into eight blocks. That is, in this embodiment, one block is calculated using a predetermined number of blocks for calculating the prediction gain, and the power fluctuation ratio of one such block is calculated.
도 9는 본 발명의 오디오 부호화 장치의 제 4 실시 형태에서의 전력 변동비의 산출 방법을 나타내는 개념도이다. 도 9에 도시된 바와 같이, 본 실시 형태는 1프레임을 8개의 단 블록으로 분할하고, 전력 변동비를 계산한다. 단,본 실시 형태는 제1 실시 형태와 같이 1개의 단 블록 당 1개의 전력 변동비를 구하는 것이 아니다. 9 is a conceptual diagram illustrating a method for calculating a power fluctuation ratio in a fourth embodiment of an audio encoding device of the present invention. As shown in Fig. 9, the present embodiment divides one frame into eight short blocks and calculates a power fluctuation ratio. However, this embodiment does not calculate the power fluctuation ratio per one block as in the first embodiment.
즉, 본 실시 형태는 인접하는 복수의 단 블록으로부터 전력 변동비를 구하는 점이 제1 실시 형태와 서로 다르다.본 실시 형태의 전력 변동비의 산출 방법을 이하에 기재한다. In other words, the present embodiment differs from the first embodiment in that the power variation ratio is obtained from a plurality of adjacent single blocks. The calculation method of the power variation ratio of the present embodiment is described below.
본 실시 형태에서는,제1 및 제2 단 블록으로부터 전력 P(1)을 구한다. 또한,본 실시 형태는 제3 및 제4 단 블록으로부터 전력 P(2)를 구한다. 또한, 본 실시 형태는 제5 및 제6 단 블록으로부터 전력 P(3)을 구한다. 또한,본 실시 형태는 제7 및 제8 단 블록으로부터 전력 P(4)를 구한다. In this embodiment, the power P (1) is obtained from the first and second end blocks. In this embodiment, the power P (2) is obtained from the third and fourth end blocks. In this embodiment, the power P (3) is obtained from the fifth and sixth end blocks. In this embodiment, the power P (4) is obtained from the seventh and eighth end blocks.
다음으로,본 실시 형태는 P(1)과 P(2)로부터 전력 변동비ΔP(1, 2)를 구한다. 또한,본 실시 형태는 P(2)와 P(3)으로부터 전력 변동비 ΔP(2, 3)을 구한다. 또한,본 실시 형태는 P(3)과 P(4)로부터 전력 변동비ΔP(3, 4)를 구한다. Next, the present embodiment calculates the power variable costs Δ P (1, 2) from P (1) and P (2). In addition, this embodiment calculates a power variable costs Δ P (2, 3) from P (2) and P (3). In addition, the present embodiment calculates the power variable costs Δ P (3, 4) from the P (3) and P (4).
상기한 바와 같이, 본 실시 형태는 2개의 단 블록의 전력을 구하는 점이 제1 실시 형태와는 서로 다르다. 즉, 제1 실시 형태에서는,예측 이득 변동비가 8개, 전력 변동비가 8개 계산되는 것에 비하여, 본 실시 형태에서는,예측 이득 변동비가 8개, 전력 변동비가 4개밖에 계산되지 않는다. 즉, 본 실시 형태에서는,1프레임 내에서 산출하는 예측 이득 변동비와 전력 변동비 수가 달라도 된다. 본 실시 형태의 상술한 부분 이외에 대해서는 제1 실시 형태와 동일하므로, 설명을 생략한다. As described above, the present embodiment differs from the first embodiment in that power of two short blocks is obtained. In other words, in the first embodiment, eight prediction gain variation ratios and eight power variation ratios are calculated. In this embodiment, only eight prediction gain variation ratios and four power variation ratios are calculated. That is, in this embodiment, the number of prediction gain fluctuation ratios and power fluctuation ratios calculated within one frame may be different. Since it is the same as that of 1st Embodiment except the above-mentioned part of this embodiment, description is abbreviate | omitted.
이처럼, 본 실시 형태는 상술의 본 발명의 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 또한,본 실시 형태는 2개의 단 블록의 전력을 구함으로써, 전력의 산출 처리의 계산량을 제1 실시 형태에 비해서 경감할 수 있다. 또한,본 실시 형태는 전력을 산출하는 블록으로서, 단 블록 2개를 이용하는 경우에 한정되지 않고, 3개 이상의 임의의 수의 단 블록을 이용해서 전력을 산출할 수도 있다. 이 경우에도 상기의 효과와 마찬가지의 효과를 얻을 수 있다. Thus, this embodiment can acquire the effect similar to the 1st Embodiment of this invention mentioned above. In addition, in this embodiment, by calculating the power of two short blocks, the calculation amount of the power calculation process can be reduced as compared with the first embodiment. In addition, this embodiment is a block which calculates electric power, It is not limited to using two single blocks, You can calculate electric power using three or more arbitrary numbers of short blocks. Also in this case, an effect similar to the above effect can be obtained.
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020077001898A KR100880995B1 (en) | 2007-01-25 | 2004-07-22 | Audio encoding apparatus and audio encoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020077001898A KR100880995B1 (en) | 2007-01-25 | 2004-07-22 | Audio encoding apparatus and audio encoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070030926A KR20070030926A (en) | 2007-03-16 |
KR100880995B1 true KR100880995B1 (en) | 2009-02-03 |
Family
ID=41346225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077001898A KR100880995B1 (en) | 2007-01-25 | 2004-07-22 | Audio encoding apparatus and audio encoding method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100880995B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102160114B (en) * | 2008-09-17 | 2012-08-29 | 法国电信公司 | Method and device of pre-echo attenuation in a digital audio signal |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003232400A (en) | 2001-11-26 | 2003-08-22 | Chao Chii Lee | Seismic isolation bearing |
JP2004054156A (en) | 2002-07-24 | 2004-02-19 | Victor Co Of Japan Ltd | Method and device for encoding sound signal |
US20040117175A1 (en) | 2002-10-29 | 2004-06-17 | Chu Wai C. | Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard |
-
2004
- 2004-07-22 KR KR1020077001898A patent/KR100880995B1/en not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003232400A (en) | 2001-11-26 | 2003-08-22 | Chao Chii Lee | Seismic isolation bearing |
JP2004054156A (en) | 2002-07-24 | 2004-02-19 | Victor Co Of Japan Ltd | Method and device for encoding sound signal |
US20040117175A1 (en) | 2002-10-29 | 2004-06-17 | Chu Wai C. | Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard |
Non-Patent Citations (1)
Title |
---|
The Multimode Transform Predictive Coding Paradigm, IEEE Trans. on Speech and Audio Processing, Vol.11, No.2, 2003.03.31.* |
Also Published As
Publication number | Publication date |
---|---|
KR20070030926A (en) | 2007-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3246918B1 (en) | Audio decoder, method for decoding an audio signal and computer program | |
EP0966793B1 (en) | Audio coding method and apparatus | |
US9361900B2 (en) | Encoding device and method, decoding device and method, and program | |
KR100814673B1 (en) | audio coding | |
RU2670797C9 (en) | Method and apparatus for generating from a coefficient domain representation of hoa signals a mixed spatial/coefficient domain representation of said hoa signals | |
KR100840439B1 (en) | Audio coding apparatus and audio decoding apparatus | |
US20140200899A1 (en) | Encoding device and encoding method, decoding device and decoding method, and program | |
JP5583881B2 (en) | Audio signal conversion method and conversion apparatus, audio signal adaptive encoding method and adaptive encoding apparatus | |
KR20080025399A (en) | Selectively using multiple entropy models in adaptive coding and decoding | |
US20070118368A1 (en) | Audio encoding apparatus and audio encoding method | |
US20070168186A1 (en) | Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method | |
KR20160060085A (en) | Coding of spectral coefficients of a spectrum of an audio signal | |
RU2505921C2 (en) | Method and apparatus for encoding and decoding audio signals (versions) | |
JP2003015694A (en) | Device and method for converting bit rate | |
KR20060114002A (en) | Audio encoding | |
EP1668462A2 (en) | A fast codebook selection method in audio encoding | |
KR100880995B1 (en) | Audio encoding apparatus and audio encoding method | |
JP4699117B2 (en) | A signal encoding device, a signal decoding device, a signal encoding method, and a signal decoding method. | |
JP2003233397A (en) | Device, program, and data transmission device for audio encoding | |
JP2001154698A (en) | Audio encoding device and its method | |
JP2010078964A (en) | Operation device and method, quantization device and method, and program | |
JPH08160998A (en) | Voice encoding device | |
JP4273062B2 (en) | Encoding method, encoding apparatus, decoding method, and decoding apparatus | |
KR100827458B1 (en) | Method for audio signal coding | |
JPS6333025A (en) | Sound encoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |