KR100880995B1 - Audio encoding apparatus and audio encoding method - Google Patents

Audio encoding apparatus and audio encoding method Download PDF

Info

Publication number
KR100880995B1
KR100880995B1 KR1020077001898A KR20077001898A KR100880995B1 KR 100880995 B1 KR100880995 B1 KR 100880995B1 KR 1020077001898 A KR1020077001898 A KR 1020077001898A KR 20077001898 A KR20077001898 A KR 20077001898A KR 100880995 B1 KR100880995 B1 KR 100880995B1
Authority
KR
South Korea
Prior art keywords
block
encoding
block length
input signal
fluctuation ratio
Prior art date
Application number
KR1020077001898A
Other languages
Korean (ko)
Other versions
KR20070030926A (en
Inventor
마사나오 스즈끼
요시떼루 쯔찌나가
미유끼 시라까와
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Priority to KR1020077001898A priority Critical patent/KR100880995B1/en
Publication of KR20070030926A publication Critical patent/KR20070030926A/en
Application granted granted Critical
Publication of KR100880995B1 publication Critical patent/KR100880995B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 처리량을 감소시키면서, 블록의 길이를 적절히 선택하는 것이 가능한 오디오 부호화 장치 및 오디오 부호화 방법을 제공한다. 전력 산출부(402)가 입력 신호로부터 전력 변화비를 산출하고, 예측 이득 변동비 산출부(406)가 입력 신호로부터 예측 이득 변동비를 산출하고, 블록 길이 판정부(407)가 전력 변화비와 예측 이득 변화비로부터 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하고, 이 판정에 기초하여, 장 블록용 MDCT 변화부(409) 또는 단 블록용 MDCT 변화부(410)가 입력 신호에 대하여 이산 코사인 변환을 행한다.

Figure R1020077001898

프레임화부, 프리 에코, 양자화부, 전력 변동비, 전력 산출부, 선택기

The present invention provides an audio encoding apparatus and an audio encoding method capable of appropriately selecting the length of a block while reducing the throughput. The power calculator 402 calculates the power change ratio from the input signal, the predicted gain change ratio calculator 406 calculates the predicted gain change ratio from the input signal, and the block length determination unit 407 determines the power change ratio and the predicted gain. From the change ratio, it is determined whether to encode by long block or by short block. Based on this determination, the long block MDCT change unit 409 or the short block MDCT change unit 410 is input. Discrete cosine transform is performed on the signal.

Figure R1020077001898

Framer, Pre-Echo, Quantizer, Power Variable Ratio, Power Calculator, Selector

Description

오디오 부호화 장치 및 오디오 부호화 방법{AUDIO ENCODING APPARATUS AND AUDIO ENCODING METHOD}AUDIO ENCODING APPARATUS AND AUDIO ENCODING METHOD}

본 발명은 오디오 신호를 부호화하는 오디오 부호화 장치 및 오디오 부호화 방법에 관한 것이다. The present invention relates to an audio encoding apparatus and an audio encoding method for encoding an audio signal.

최근,인터넷이나 위성 방송 등의 통신 분야가 급속히 보급되고 있다. 또한,DVD 등의 AV 기기도 급속히 보급되고 있다. 이들의 보급에 수반하여,오디오 신호를 효율적으로 압축하는 오디오 부호화에 대한 수요가 높아지고 있다. 최근의 오디오 부호화 장치는 인간의 청각 특성을 이용한 적응 변환 오디오 부호화 장치가 주류이다. 적응 변환 오디오 부호화 장치의 기본적인 부호화 처리는 이하와 같다.In recent years, communication fields such as the Internet and satellite broadcasting have been rapidly spreading. In addition, AV equipment such as DVD is also rapidly spreading. With the dissemination of these devices, there is a growing demand for audio coding that efficiently compresses audio signals. In the recent audio coding apparatus, the adaptive conversion audio coding apparatus using human auditory characteristics is mainstream. The basic encoding process of the adaptive transform audio encoding apparatus is as follows.

이러한 부호화 처리에서는,시간 영역의 오디오 신호가 주파수 영역으로 변환된다. 그리고, 주파수축상의 신호가 청각의 주파수 분해 능력에 대응하는 주파수 대역으로 구획된다. 그리고, 인간의 청각 특성을 이용하여, 각 주파수 대역에서 부호화에 필요한 최적의 정보량이 계산된다. In this encoding process, the audio signal in the time domain is converted into the frequency domain. The signal on the frequency axis is then divided into frequency bands corresponding to hearing frequency resolution capability. The optimal amount of information necessary for encoding in each frequency band is calculated using human auditory characteristics.

그리고,각 주파수 대역에 할당된 정보량에 따라서, 주파수축상의 신호가 양자화된다. 적응 변환 오디오 부호화 장치 중에, ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)에서 표준 화된 MPEG(Moving Picture Expens Group)―2 AAC(Advanced Audio Coding) 방식이 있다. 이러한 방식은 BS 디지털 방송에도 채용되고 있다. 이러한 방식은 낮은 비트 레이트로 높은 음질을 실현할 수 있는 오디오 부호화 장치로서 최근 주목을 받고 있다. Then, the signal on the frequency axis is quantized in accordance with the amount of information allocated to each frequency band. Among the adaptive conversion audio encoding apparatuses, there is a Moving Picture Expens Group (MPEG) -2 Advanced Audio Coding (AAC) scheme standardized by the International Organization for Standardization (ISO) / International Electrotechnical Commission (IEC). This method is also employed in BS digital broadcasting. This method is recently attracting attention as an audio encoding apparatus capable of realizing high sound quality at a low bit rate.

<제1 종래 기술><First Prior Art>

도 10은 제1 종래 기술인 MPEG―2 AAC의 인코더의 구성을 나타내는 구성도이다. 이하, 도 10에 도시하는 기술을 제1 종래 기술이라 한다. AAC 인코더의 상세는, 예를 들면 하기의 비 특허 문헌 1에 자세히 기재되어 있다. Fig. 10 is a block diagram showing the configuration of an encoder of MPEG-2 AAC, which is the first conventional technology. Hereinafter, the technique shown in FIG. 10 is called 1st prior art. The detail of an AAC encoder is described in detail in the following nonpatent literature 1, for example.

AC 인코더는 입력 신호를 소정의 샘플 수로 이루어지는 프레임으로 분할한다. The AC encoder divides the input signal into frames consisting of a predetermined number of samples.

그리고,AAC 인코더는 프레임마다 부호화 처리를 행한다. AAC 방식의 프레임 길이는 장 블록(1024 샘플)과 단 블록(128 샘플)의 2종류가 있다. 여기서, 1프레임과 1장 블록의 길이는 동일하다. 이하의 설명은 도 10에 도시하는 AAC 인코더의 처리 순서이다. The AAC encoder then performs encoding processing for each frame. There are two types of frame lengths of the AAC system: long blocks (1024 samples) and short blocks (128 samples). Here, the length of one frame and one block is the same. The following description is the processing procedure of the AAC encoder shown in FIG.

(1) 우선,입력 신호가 프레임화부(1001)에 입력된다. 프레임화부(1001)는 입력 신호를 소정의 샘플 수로 이루어지는 프레임(장 블록)으로 분할한다. 프레임화부(1001)로부터 출력된 신호가 장 블록용 이산 코사인 변환부(이하, 간단히 MDCT 변환부라 한다)(1002)와 단 블록용 MDCT 변환부(1003)에 입력된다. (1) First, an input signal is input to the framer 1001. The framer 1001 divides the input signal into frames (long blocks) consisting of a predetermined number of samples. The signal output from the framer 1001 is input to a long block discrete cosine transform unit (hereinafter simply referred to as an MDCT transform unit) 1002 and a short block MDCT transform unit 1003.

장 블록용 MDCT 변환부(1002)는 입력된 신호에 대하여 1024점의 MDCT 변환을 행한다. 그리고,장 블록용 MDCT 변환부(1002)는 MDCT 계수(MDCT1)를 산출한다. 또한,단 블록용 MDCT 변환부(1003)는 입력한 신호에 대하여 128점의 MDCT 변환을 행한다. 그리고, 단 블록용 MDCT 변환부(1003)는 MDCT 계수(MDCT2)를 산출한다. 또한, 1프레임당 단 블록은 8블록 있으므로, MDCT2는 8세트 생성된다. The long block MDCT conversion unit 1002 performs MDCT conversion of 1024 points on the input signal. Then, the long block MDCT converter 1002 calculates the MDCT coefficient MDCT1. In addition, the block MDCT conversion unit 1003 performs MDCT conversion of 128 points on the input signal. Then, the short block MDCT converter 1003 calculates the MDCT coefficient MDCT2. In addition, since there are eight blocks per frame, eight sets of MDCT2 are generated.

(2) 다음으로,프레임화부(1001)는 분할한 입력 신호를 장 블록용 심리 청각 분석부(1004)로 출력한다. 그리고,장 블록용 심리 청각 분석부(1004)는 입력 신호로부터 장 블록용 마스킹 임계값 Th1과 심리 청각 엔트로피 PE1을 구한다. 여기서, Th1과 PE1의 산출 방법은 비 특허 문헌 1의 심리 청각 모델 항에 기재되어 있는 것이 공지의 방법이다. 마찬가지로, 프레임화부(1001)는 프레임으로 분할한 입력 신호를 단 블록용 심리 청각 분석부(1005)로 출력한다. 그리고,단 블록용 심리 청각 분석부(1005)는 입력 신호로부터 단 블록용 마스킹 임계값 Th2와 심리 청각 엔트로피 PE2를 구한다. (2) Next, the framer 1001 outputs the divided input signal to the psychoacoustic hearing analyzer 1004 for the long block. In addition, the psychoacoustic hearing analysis unit 1004 for the long block obtains the masking threshold value Th1 for the long block and the psychoacoustic entropy PE1 from the input signal. Here, the calculation method of Th1 and PE1 is a well-known method as described in the psychoacoustic model part of nonpatent literature 1. Similarly, the framer 1001 outputs an input signal divided into frames to the psychoacoustic auditory analyzer 1005 for a short block. The psychoacoustic auditory analysis unit 1005 for the short block obtains the masking threshold value Th2 and the psychoacoustic entropy PE2 for the short block from the input signal.

여기서, 심리 청각 엔트로피란, 신호를 양자화하는데 최저한 필요한 비트 수를 나타내는 정보량이다. 또한,마스킹이란, 양자화부에 의해서 신호를 양자화했을 때의 오차가 있는 기준 이하이면, 그 오차를 인간이 지각할 수 없다고 하는 현상을 가리킨다. 또한,인간이 지각할 수 없는 오차의 한계를 나타내는 기준값은 마스킹 임계값이라 불린다. Psychological auditory entropy is an information amount indicating a minimum number of bits necessary for quantizing a signal. In addition, masking refers to the phenomenon that a human cannot perceive the error, if it is below the reference | standard with the error at the time of quantizing a signal by a quantization part. In addition, a reference value indicating a limit of error that cannot be perceived by humans is called a masking threshold.

(3) 장 블록으로부터 얻어진 PE1 및 Th1과, 단 블록으로부터 얻어진 PE2 및 Th2가, 블록 길이 판정부(1006)에 입력된다. 블록 길이 판정부(1006)는 장 블록과 단 블록 중 어느 쪽으로 양자화할 것인지를 판정한다. (3) PE1 and Th1 obtained from the long block and PE2 and Th2 obtained from the short block are input to the block length determination unit 1006. The block length determination unit 1006 determines which of the long block and the short block to quantize.

일반적으로, 성질이 거의 변화되지 않는 정상적인 신호는 장 블록으로 양자 화하는 것이 바람직하다. 그러나, 블록 내에서 진폭이 급격히 변화되는 신호를 장 블록으로 양자화하면,입력 신호에는 없는 프리 에코로 불리는 잡음이 발생한다. 이러한 잡음의 발생은 음질 열화가 원인이 된다. 도 11은 프리 에코의 예를 나타낸 개략도이다. 도 11의 (a)는 부호화하기 전의 입력 신호를 나타낸 개략도이고, 도 11의 (b)는 장 블록만으로 부호화했을 때의 복호음을 나타낸 그래프이다. 도 11의 (b)의 선두 부분에는 어택음 앞에, 입력 신호에는 없는 잡음이 발생하고 있다. In general, it is desirable to quantize normal signals with little change in properties into long blocks. However, when a signal whose amplitude changes abruptly in a block is quantized into a long block, noise called a pre-echo that does not exist in the input signal occurs. The occurrence of this noise is caused by sound quality deterioration. 11 is a schematic diagram showing an example of pre-echo. FIG. 11A is a schematic diagram showing an input signal before encoding, and FIG. 11B is a graph showing a decoding sound when only a long block is encoded. At the head of FIG. 11B, noise that is not present in the input signal occurs before the attack sound.

이러한 잡음은 프리 에코로 불린다. 프리 에코는 양자화 블록 길이를 짧게 함으로써 해소할 수 있다. 그 때문에,AAC 방식은 블록 길이 판정부(1006)에서 입력 신호의 성질을 판별하고 있다. 그리고, 블록 길이 판정부(1006)는 양자화에 최적인 블록 길이를 판정한다. 구체적으로는,블록 길이 판정부(1006)는 PE1>PE1_thr이면 장 블록을 선택하고, 그 외의 경우에는 단 블록을 선택한다. 여기서, PE1_thr는 미리 정해진 임계값(상수)이다. This noise is called pre echo. The pre echo can be eliminated by shortening the quantization block length. Therefore, in the AAC system, the block length determination unit 1006 determines the nature of the input signal. The block length determination unit 1006 then determines a block length that is optimal for quantization. Specifically, the block length determining unit 1006 selects the long block if PE1> PE1_thr, and otherwise selects the short block. PE1_thr is a predetermined threshold value (constant).

(4) 블록 길이 판정부(1006)의 판정 결과는 MDCT를 선택하는 선택기(1007)로 출력된다. 또한,블록 길이 판정부(1006)가 선택한 마스킹 임계값은 스펙트럼 양자화부(1008)에 출력된다. 즉, 블록 길이 판정부(1006)가 장 블록을 선택한 경우에는 MDCT1과 Th1이 스펙트럼 양자화부(1008)에 입력된다. 또한,블록 길이 판정부(1006)가 단 블록을 선택한 경우에는 MDCT2와 Th2가 스펙트럼 양자화부(1008)에 입력된다. (4) The determination result of the block length determination unit 1006 is output to the selector 1007 for selecting MDCT. In addition, the masking threshold value selected by the block length determination unit 1006 is output to the spectrum quantization unit 1008. In other words, when the block length determination unit 1006 selects the long block, the MDCT1 and Th1 are input to the spectrum quantization unit 1008. In addition, when the block length determination unit 1006 selects a short block, MDCT2 and Th2 are input to the spectral quantization unit 1008.

(5) 스펙트럼 양자화부(1008)는 입력된 마스킹 임계값에 따라 주파수 대역 마다 MDCT 계수를 양자화한다. 그리고, 스펙트럼 양자화부(1008)는 양자화 부호 1을 출력한다. (5) The spectral quantization unit 1008 quantizes MDCT coefficients for each frequency band according to the input masking threshold value. The spectral quantization unit 1008 then outputs a quantization code 1.

(6) 스펙트럼 양자화부(1008)로부터 출력된 양자화 부호 1은 허프만 부호화부(1009)에 입력된다. 허프만 부호화부(1009)는 양자화 부호 1을 양자화 부호 1보다도 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (6) The quantized code 1 output from the spectral quantizer 1008 is input to the Huffman encoder 1009. The Huffman encoder 1009 converts the quantized code 1 into the quantized code 2 from which redundancy has been removed more than that of the quantized code 1.

(7) 상기 양자화 부호 2는 허프만 부호화부(1009)로부터 양자화 제어부(1011)로 출력된다. 그리고, 양자화 제어부(1011)는 입력한 양자화 부호 2로부터, 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 10에서 점선으로 둘러싸인 범위는 양자화 제어부(1011)가 제어 가능한 범위이다. (7) The quantization code 2 is output from the Huffman coding unit 1009 to the quantization control unit 1011. The quantization control unit 1011 then calculates the total number of bits of the finally output bit stream from the input quantization code 2. In addition, the range enclosed by the dotted line in FIG. 10 is the range which the quantization control part 1011 can control.

(8) 양자화 제어부(1011)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (5)∼처리 (7)을 반복하도록, 스펙트럼 양자화부(1008)와 허프만 부호화부(1009)를 제어한다. 또한,양자화 제어부(1011)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(1009)로부터 비트스트림 생성부(1010)에 대하여 양자화 부호(2)를 출력시킨다. 그리고, 하기에서, 양자화 제어부(1011)는 비트스트림 생성부(1010)가 비트스트림을 출력하도록 제어한다. (8) When the calculated total number of bits exceeds the number of bits allowed for the current block, the quantization control unit 1011 repeats the processes (5) to (7) so that the spectral quantization unit 1008 and the Huffman coding unit ( 1009). In addition, the quantization control unit 1011 outputs the quantization code 2 from the Huffman encoder 1009 to the bitstream generator 1010 when the calculated total number of bits is less than the number of bits allowed for the current block. In the following description, the quantization controller 1011 controls the bitstream generator 1010 to output a bitstream.

여기서, AAC 방식의 양자화 프로세스의 상세를 설명한다. Here, the detail of the quantization process of AAC system is demonstrated.

(a) AAC 방식은 MDCT 스펙트럼의 지수부를 초기값으로 설정한다. (a) The AAC method sets the exponent part of the MDCT spectrum to an initial value.

(b) ACC 방식은 MDCT 스펙트럼을 가수부와 지수부로 변형한다. 즉, AAC 방식은 MDCT 스펙트럼을 부동 소수점 표시로 변형한다. 그리고, AAC 방식은 가수부 를 양자화한다(MDCT 양자화). (b) ACC modifies the MDCT spectrum into mantissa and exponent. That is, the AAC scheme transforms the MDCT spectrum into floating point representation. The AAC method quantizes the mantissa (MDCT quantization).

(c) ACC 방식은 (b)에서 양자화된 가수부와 지수부를 허프만 부호화했을 때에 필요로 되는 비트 수(총 비트 수)를 구한다. (c) The ACC method obtains the number of bits (total number of bits) required when Huffman coding of the mantissa and exponents quantized in (b).

(d) ACC 방식은 (c)에서 구한 총 비트 수가 현 프레임에 허용된 양자화 비트 수(허용 비트 수) 이하이면, 양자화를 종료한다. AAC 방식은 총 비트 수가 허용 비트 수 이상인 경우에는 (a)에서 설정한 지수부를 부적당하다고 판단한다. 그리고, AAC 방식은 지수부를 변경해서 (b)∼(d)의 처리를 반복한다. 그리고, AAC 방식은 총 비트 수가 허용 비트 수 이하로 되는 지수부를 결정한다. (d) The ACC method terminates quantization if the total number of bits obtained in (c) is equal to or less than the number of quantization bits (allowed bits) allowed in the current frame. The AAC method determines that the exponent part set in (a) is inadequate when the total number of bits is more than the allowable number of bits. In the AAC method, the exponent part is changed to repeat the processes of (b) to (d). Then, the AAC method determines the exponent part such that the total number of bits is equal to or less than the allowable number of bits.

즉, AAC 방식은 우선 지수부를 임시로 고정한다. 그리고, AAC 방식은 가수부를 결정해서 MDCT 스펙트럼의 양자화를 행한다. 그리고, AAC 방식은 MDCT 스펙트럼을 지수부와 가수부로 변형했을 때의 양자화 오차가 허용 오차 이하로 된 총 비트 수를 구한다. 그리고,AAC 방식은 총 비트 수가 미리 설정된 비트 레이트보다도 크면 부적당하다고 판단한다. 그리고,AAC 방식은 지수부를 변경하여, 다시, MDCT 스펙트럼의 지수부의 고정 처리 및 가수부의 양자화 처리를 행한다. 그리고 ACC 방식은 양자화 오차가 허용 오차 이하이며, 또한, 총 비트 수가 설정된 비트 레이트 이하로 되는 최적의 지수부와 가수부를 결정한다. That is, the AAC method temporarily fixes the exponent part first. The AAC method determines the mantissa and quantizes the MDCT spectrum. The AAC method finds the total number of bits in which the quantization error when the MDCT spectrum is transformed into the exponent part and the mantissa part becomes less than the allowable error. Then, the AAC method determines that the total bit number is larger than the preset bit rate is inappropriate. In the AAC system, the exponent part is changed, and the fixed part of the exponent part of the MDCT spectrum and the quantization process of the mantissa part are performed again. The ACC method determines an optimal exponent part and mantissa part whose quantization error is equal to or less than the tolerance and the total number of bits is equal to or less than the set bit rate.

이상과 같이, AAC 방식은 양자화와 허프만 부호화를 행한 후에, 필요한 총 비트 수를 계산한다. 그리고,AAC 방식은 총 비트 수가 현 프레임에 허용되는 허용 비트 수 이하로 되는 최적의 지수부와 가수부를 결정한다. 여기서,「최적」이, 「양자화 오차가 허용 오차 이하로 된다」라고 하는 의미이다. As described above, the AAC method calculates the required total number of bits after performing quantization and Huffman coding. Then, the AAC method determines the optimal exponent part and mantissa part whose total number of bits is equal to or less than the allowable number of bits allowed in the current frame. Here, "optimal" means "quantization error is below the tolerance."

이상 설명한 바와 같이, 제1 종래 기술은 장 블록과 단 블록으로부터 최적의 블록 길이를 선택한다. 따라서, 제1 종래 기술은 프리 에코가 적은 양호한 음질을 얻을 수 있다. 그런데, 제1 종래 기술은 MDCT 변환 및 심리 청각 분석을 장 블록용과 단 블록용 각각에서 행한다. 그 때문에, 제1 종래 기술은 처리량이 많다. As described above, the first conventional technique selects an optimal block length from long blocks and short blocks. Therefore, the first prior art can obtain good sound quality with little pre-echo. By the way, the 1st prior art performs MDCT transformation and psychoacoustic analysis for long block and short block, respectively. Therefore, the first prior art has a high throughput.

<제2 종래 기술><2nd prior art>

상기 제1 종래 기술의 문제를 해결하는 방법으로서, MDCT 변환과 심리 청각 분석 전에, 입력 신호의 성질을 조사해서 블록 길이를 먼저 결정하는 방법이 알려져 있다. 입력 신호의 성질을 조사하는 방법에는 예를 들면 하기의 특허 문헌 1에 개시된 방법이 있다. 이것은 공지의 방법이다. As a method for solving the problems of the first prior art, a method of first determining the block length by investigating the properties of the input signal before MDCT transformation and psychoacoustic analysis is known. As a method of examining the property of an input signal, for example, there is a method disclosed in Patent Document 1 below. This is a known method.

이하, 특허 문헌 1에 개시된 방법을 제2 종래 기술이라 한다. 그리고, 이 방법의 구성을 도 12에 도시한다. 도 12는 제2 종래 기술의 구성을 나타내는 구성도이다. 이 제2 종래 기술은 1프레임을 더욱 짧은 단 블록으로 분할한다. Hereinafter, the method disclosed in patent document 1 is called 2nd prior art. And the structure of this method is shown in FIG. It is a block diagram which shows the structure of a 2nd prior art. This second prior art divides one frame into shorter short blocks.

(1) 우선,입력 신호가 프레임화부(1201)에 입력한다. 프레임화부(1201)는 입력 신호를 소정의 샘플 수로 이루어지는 프레임(장 블록)으로 분할한다. 프레임화부(1201)로부터 출력된 신호는 전력 산출부(1202)와 선택기(1204)와 심리 청각 분석부(1208)에 출력된다. (1) First, an input signal is input to the frame unit 1201. The framer 1201 divides the input signal into frames (long blocks) made up of a predetermined number of samples. The signal output from the framer 1201 is output to the power calculator 1202, the selector 1204, and the psychoacoustic hearing analyzer 1208.

전력 산출부(1202)는 입력된 신호로부터 전력 및 전력 변동비를 산출한다. 전력 산출부(1202)는 산출한 전력 변동비를 블록 길이 판정부(1203)에 출력한다. The power calculator 1202 calculates a power and a power variation ratio from the input signal. The power calculating section 1202 outputs the calculated power fluctuation ratio to the block length determining section 1203.

블록 길이 판정부(1203)는 입력된 전력 변동비에 기초하여, 장 블록 또는 단 블록 중 어느 것을 이용할 것인지를 판정한다. 그리고,블록 길이 판정부(1203)는 그 판정 결과를 선택기(1204) 및 선택기(1207)에 출력한다. 각 선택기(1204) 및 선택기(1207)는 블록 길이 판정부(1203)의 판정 결과에 기초하여, 장 블록 또는 단 블록 중 어느 것을 이용할 것인지를 선택한다. The block length determination unit 1203 determines whether a long block or a short block is to be used, based on the input power fluctuation ratio. The block length determination unit 1203 then outputs the determination result to the selector 1204 and the selector 1207. Each selector 1204 and 1207 select whether to use a long block or a short block based on the determination result of the block length determination unit 1203.

장 블록용 MDCT 변환부(1205)는 입력된 신호에 대하여 1024점의 MDCT 변환을 행한다. 그리고,장 블록용 MDCT 변환부(1205)는 MDCT 계수(MDCT1)를 산출한다. The long block MDCT converter 1205 performs 1024 MDCT transforms on the input signal. And the long block MDCT converter 1205 calculates an MDCT coefficient MDCT1.

또한,단 블록용 MDCT 변환부(1206)는 입력된 신호에 대하여 128점의 MDCT 변환을 행한다. 그리고,단 블록용 MDCT 변환부(1206)는 MDCT 계수(MDCT2)를 산출한다. 또한, 1프레임당 단 블록은 8블록 있으므로, MDCT2는 8세트 생성된다. In addition, the block MDCT conversion unit 1206 performs MDCT conversion of 128 points on the input signal. The block MDCT converter 1206 then calculates an MDCT coefficient MDCT2. In addition, since there are eight blocks per frame, eight sets of MDCT2 are generated.

(2) 다음으로,심리 청각 분석부(1208)는 입력 신호로부터 마스킹 임계값을 구한다. 그리고,입력 신호로부터 얻어진 마스킹 임계값은 스펙트럼 양자화부(1209)에 입력된다. (2) Next, the psychoacoustic auditory analysis unit 1208 obtains a masking threshold value from the input signal. The masking threshold value obtained from the input signal is input to the spectrum quantization unit 1209.

(3) 스펙트럼 양자화부(1209)는 입력된 마스킹 임계값에 따라 주파수 대역 마다 MDCT 계수를 양자화한다. 그리고,스펙트럼 양자화부(1209)는 MDCT 계수를 양자화한 양자화 부호 1을 출력한다. (3) The spectral quantization unit 1209 quantizes MDCT coefficients for each frequency band according to the input masking threshold value. The spectrum quantization unit 1209 outputs a quantization code 1 obtained by quantizing the MDCT coefficients.

(4) 스펙트럼 양자화부(1209)로부터 출력된 양자화 부호 1은 허프만 부호화부(1210)에 입력된다. 허프만 부호화부(1210)는 양자화 부호 1을 양자화 부호 1보다도 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (4) The quantized code 1 output from the spectral quantizer 1209 is input to the Huffman encoder 1210. The Huffman encoder 1210 converts the quantized code 1 into the quantized code 2 with redundancy removed from the quantized code 1.

(5) 이 양자화 부호 2는 양자화 제어부(1212)에 입력된다. 양자화 제어부(1212)는 입력한 양자화 부호 2에 기초하여, 최종적으로 출력되는 비트스트림의 총 수를 계산한다. 또한,도 12에서 점선으로 둘러싸인 범위는 양자화 제어부(1212) 가 제어 가능한 범위이다. (5) This quantization code 2 is input to the quantization control unit 1212. The quantization control unit 1212 calculates the total number of bit streams finally output, based on the input quantization code 2. In addition, the range enclosed by the dotted line in FIG. 12 is the range which the quantization control part 1212 can control.

(6) 양자화 제어부(1212)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (3)∼처리 (5)를 반복하도록, 스펙트럼 양자화부(1209)와 허프만 부호화부(1210)를 제어한다. 또한,양자화 제어부(1212)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(1210)로부터 비트스트림 생성부(1211)에 대하여 양자화 부호 2를 출력시킨다. 그리고, 양자화 제어부(1212)는 비트스트림 생성부(1211)에 대하여, 비트스트림을 출력하도록 제어한다. (6) The quantization control unit 1212, when the calculated total number of bits exceeds the number of bits allowed in the current block, causes the spectral quantization unit 1209 and the Huffman encoder to repeat the processes (3) to (5). 1210). In addition, the quantization control unit 1212 outputs a quantization code 2 from the Huffman encoder 1210 to the bitstream generator 1211 when the calculated total number of bits is less than the number of bits allowed for the current block. The quantization controller 1212 controls the bitstream generator 1211 to output a bitstream.

도 13은 제2 종래 기술에서 프레임을 단 블록으로 분할하는 경우의 예를 나타내는 개념도이다. 도 13은 1프레임을 4개의 단 블록으로 분할하는 경우를 나타내고 있다. 제2 종래 기술은 각 단 블록의 입력 신호 전력 P(1), P(2), P(3), P(4)를 구한다. 그리고, 제2 종래 기술은 인접하는 단 블록 간의 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 구한다. 여기서, Δp(i, j)은 단 블록 i와 단 블록 j 사이의 전력 변동비이다. Δp(i, j)는 다음 식으로 구할 수 있다. FIG. 13 is a conceptual diagram illustrating an example of dividing a frame into short blocks in the second prior art. FIG. FIG. 13 shows a case where one frame is divided into four short blocks. The second prior art finds the input signal powers P (1), P (2), P (3), and P (4) of each block. In the second prior art power variable costs between the short blocks adjacent Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) is obtained. Here, Δ p (i, j) is the power variable costs between the short block and the short block i j. Δ p (i, j) can be obtained by the following equation.

Figure 112007007725608-pct00001
Figure 112007007725608-pct00001

전력 변동비는 입력 신호가 급격히 커지는 경우에 커진다. 반대로, 전력 변동비는 입력 신호가 급격히 작아지는 경우에 작아진다. 따라서, 전력 변동비가 거 의 변화되지 않는 경우, 블록 길이 판정부(1203)는 장 블록을 선택한다. 또한,블록 길이 판정부(1203)는 전력 변동비가 급격히 커진 경우나 작아진 경우에 단 블록을 선택한다. 이러한 처리에 의해서, 제2 종래 기술은 최적의 창 길이를 선택할 수 있다. The power fluctuation ratio is large when the input signal is rapidly increased. In contrast, the power fluctuation ratio is small when the input signal is drastically small. Therefore, when the power fluctuation ratio is hardly changed, the block length determination unit 1203 selects the long block. In addition, the block length determination unit 1203 selects a short block when the power fluctuation ratio rapidly increases or decreases. By this process, the second prior art can select the optimum window length.

또한,제2 종래 기술은 블록 길이를, MDCT 변환 및 심리 청각 분석 전에 결정한다. 그 때문에,제2 종래 기술은 장 블록 또는 단 블록 중 어느 한쪽에 대해서만, MDCT 변환 및 심리 청각 분석을 실행한다. 따라서, 제2 종래 기술은 제1 종래 기술에 비해서 적은 처리량으로 오디오 신호를 부호화할 수 있다. The second prior art also determines the block length prior to MDCT transformation and psychoacoustic analysis. For this reason, the second prior art performs MDCT transformation and psychoacoustic analysis only on either the long block or the short block. Therefore, the second conventional technique can encode an audio signal with a smaller throughput than the first conventional technique.

그런데, 전력 변동비가 변화되지 않아도 입력 신호의 성질이 변화되는 경우, 제2 종래 기술은 입력 신호의 성질 변화를 검지할 수 없는 경우가 있다. 예를 들면, 정현파를 입력으로 하고, 또한, 전력이 일정한 채로 정현파의 주파수가 변화된 경우, 제2 종래 기술은 전력 변동비만을 이용하는 방법으로는 신호의 변화점을 검출할 수 없다. By the way, when the property of an input signal changes even if the power fluctuation ratio does not change, the 2nd prior art may be unable to detect the change of the property of an input signal. For example, when the sinusoidal wave is input and the frequency of the sinusoidal wave is changed while the power is constant, the second prior art cannot detect the point of change of the signal by using only the power variation ratio.

여기서, 입력 신호, 전력 변동비 및 예측 이득 변동비의 예에 대해서 도 14를 참조하여 설명한다. 도 14은 입력 신호, 전력 변동비 및 예측 이득 변동비의 예를 나타내는 그래프이다. 도 14의 (a)는 부호화하기 전의 입력 신호를 나타내는 그래프이고, 도 14의 (b)는 전력 변동비의 그래프이고, 도 14의 (c)는 예측 이득 변동비의 그래프이다. 도 14의 구간 B나 구간 C는 무음부에서 유음부로 변화된다. 이 경우에는 전력 변동비도 크게 변화된다. 그 때문에,제2 종래 기술은 이러한 구간에서는 신호의 변화점을 검출할 수 있다.Here, examples of the input signal, power fluctuation ratio, and predictive gain fluctuation ratio will be described with reference to FIG. 14 is a graph illustrating examples of input signals, power fluctuation ratios, and predictive gain fluctuation ratios. FIG. 14A is a graph showing an input signal before encoding, FIG. 14B is a graph of power fluctuation ratio, and FIG. 14C is a graph of predicted gain fluctuation ratio. Section B or section C of FIG. 14 is changed from a silent part to a sound part. In this case, the power fluctuation ratio is also greatly changed. Therefore, the second prior art can detect the point of change of the signal in this section.

그런데, 구간 A는 입력 신호의 성질이 정상부에서 과도부로 변화된다. 이 경우, 전력 변동비는 거의 변화되지 않는다. 그 때문에,이 경우, 제2 종래 기술은 신호의 변화를 검출할 수 없다. 그 때문에,이 경우, 제 2 종래 기술은 장 블록을 선택한다. 그러나,이 제2 종래 기술과 같이, 신호가 급격히 변화되는 부분을 장 블록으로 처리하면,프리 에코가 발생한다. 그 때문에,제2 종래 기술은 음질이 열화한다. However, in section A, the nature of the input signal changes from the normal to the transient. In this case, the power fluctuation ratio hardly changes. Therefore, in this case, the second prior art cannot detect a change in the signal. Therefore, in this case, the second prior art selects a long block. However, as in this second conventional technique, when the portion in which the signal is rapidly changed is treated as a long block, pre-echo occurs. Therefore, in the second prior art, sound quality deteriorates.

<특허 문헌 1> 특개평 7―66733호 공보Patent Document 1: Japanese Patent Laid-Open No. 7-66733

<비 특허 문헌 1> ISO/IEC13818―7의 PART 7, "Advanced Audio Coding(ACC)"<Non-Patent Document 1> PART 7, "Advanced Audio Coding (ACC)" of ISO / IEC13818-7

[발명의 개시][Initiation of invention]

[발명이 해결하고자 하는 과제][Problem to Solve Invention]

상술한 바와 같이, 제1 종래 기술은 MDCT 변환 및 심리 청각 분석을 장 블록용과 단 블록용 각각에서 행한다. 그 때문에,제1 종래 기술은 장 블록 또는 단 블록만의 처리의 경우에 비해서 처리량이 많아진다고 하는 문제가 있다. As described above, the first conventional technique performs MDCT transformation and psychoacoustic analysis for long blocks and short blocks, respectively. Therefore, the first conventional technique has a problem that the throughput increases as compared with the case of processing only a long block or a short block.

또한,제2 종래 기술은 입력 신호의 성질이 변화된 경우라도 전력 변동비가 변화되지 않으면 신호의 성질의 변화를 검지할 수 없다. 그 때문에,제2 종래 기술은 적절한 블록 길이를 선택할 수 없는 경우가 있다고 하는 문제가 있다. In addition, even if the property of the input signal is changed, the second prior art cannot detect the change in the property of the signal unless the power fluctuation ratio is changed. Therefore, the second prior art has a problem that it may not be possible to select an appropriate block length.

본 발명의 목적은, 처리량을 경감하면서 블록 길이를 적절하게 선택하는 것이 가능한 오디오 부호화 장치 및 오디오 부호화 방법을 제공하는 것에 있다. An object of the present invention is to provide an audio encoding apparatus and an audio encoding method capable of appropriately selecting a block length while reducing throughput.

[과제를 해결 하기 위한 수단][Means for solving the problem]

본 발명의 오디오 부호화 장치는, The audio encoding device of the present invention,

입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, 상기 프레임을 분할해서 단 블록으로 하고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 장치로서,An audio encoding device having a long block mode for dividing an input signal into a frame having a predetermined number of samples, encoding an input signal of one frame, and a short block mode for dividing the frame into short blocks and encoding the short block. as,

상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 수단과, Power calculating means for calculating a power fluctuation ratio from the input signal;

상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 수단과, Calculating means for calculating a predicted gain variation ratio from the input signal;

상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 수단을 구비한다. Block length determination means for judging whether to perform long block encoding or short block encoding is provided from the power fluctuation ratio and the predicted gain fluctuation ratio.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 블록 길이 판정 수단이, The block length determining means,

상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 한쪽이 미리 정해진 임계값보다 큰 경우에 단 블록에 의한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 한쪽이 미리 정해진 임계값보다 큰 경우 외의 경우에 장 블록에 의한 부호화를 선택한다. If one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold, encoding by short blocks is selected, and other than when either one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold. Choose encoding by long block.

또한,본 발명의 오디오 부호화 장치는,In addition, the audio encoding apparatus of the present invention,

상기 블록 길이 판정 수단이 이용하는 부호화할 때의 블록 길이를 판정하기 위한 임계값을 상기 블록 길이 판정 수단의 판정 결과에 응답하여 변화시키는 임계값 결정 수단을 포함한다.Threshold determination means for changing a threshold value for determining the block length at the time of encoding used by said block length determination means in response to the determination result of said block length determination means.

또한,본 발명의 오디오 부호화 장치는,In addition, the audio encoding apparatus of the present invention,

상기 임계값 결정 수단이, The threshold value determining means,

상기 블록 길이 판정 수단의 판정 결과가 단 블록에 의한 부호화를 나타내는 경우에 상기 임계값을 초기값보다도 큰 값으로 설정한다. When the determination result of the block length determination means indicates coding by a short block, the threshold value is set to a value larger than the initial value.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 산출 수단이, The calculating means,

상기 전력 산출 수단이 전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 예측 이득 변동비를 산출한다. The power calculating means makes one block using a predetermined number of blocks for calculating power, and calculates the predicted gain variation ratio of the one block.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 전력 산출 수단이, The power calculation means,

상기 산출 수단이 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 전력 변동비를 산출한다. The calculation means sets one block by using a predetermined number of blocks for calculating the prediction gain, and calculates the power variation ratio of the one block.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, A long block mode for dividing an input signal into frames consisting of a predetermined number of samples and encoding an input signal of one frame;

상기 프레임을 분할해서 단 블록으로 하고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 장치로서,An audio encoding device comprising a short block mode that divides the frame into short blocks and encodes the short blocks.

상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 수단과, Power calculating means for calculating a power fluctuation ratio from the input signal;

상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 수단과, Calculating means for calculating a predicted gain variation ratio from the input signal;

상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 수단과, Block length determination means for judging whether to perform long block coding or short block coding from the power fluctuation ratio and the predicted gain fluctuation ratio;

상기 블록 길이 판정 수단에 의해서 장 블록에 의한 부호화가 선택된 경우에 는 장 블록 단위로 입력 신호를 이산 코사인 변환해서 제1 계수를 구하는 제1 변환 수단과, 상기 블록 길이 판정 수단에 의해서 단 블록에 의한 부호화가 선택된 경우에는 단 블록 단위로 입력 신호를 이산 코사인 변환해서 제2 계수를 구하는 제2 변환 수단과, In the case where encoding by long blocks is selected by the block length determining means, first transform means for obtaining a first coefficient by discrete cosine transforming an input signal in units of long blocks and short blocks by means of the block length determining means. Second encoding means for dividing cosine transforming the input signal in units of short blocks to obtain a second coefficient when encoding is selected;

상기 블록 길이 판정 수단의 판정 결과에 응답하여 상기 제1 계수 또는 상기 제2 계수를 제3 계수로서 선택하는 선택 수단과,Selecting means for selecting the first coefficient or the second coefficient as a third coefficient in response to a determination result of the block length determining means;

상기 입력 신호로부터 마스킹 임계값을 구하는 심리 청각 분석 수단과, Psychoacoustic analysis means for obtaining a masking threshold value from the input signal;

상기 마스킹 임계값에 따라 상기 제3 계수를 스펙트럼 양자화해서 제1 부호를 구하는 양자화 수단과, Quantization means for spectral quantizing the third coefficient according to the masking threshold to obtain a first code;

상기 제1 부호를 허프만 부호화해서 제2 부호를 구하는 허프만 부호화 수단과, Huffman coding means for obtaining a second code by Huffman coding the first code,

상기 제2 부호로부터, 출력되는 비트스트림의 총 비트 수를 계산하고, 해당 계산 결과에 기초하여 비트스트림의 출력을 지시하는 양자화 제어 수단과, Quantization control means for calculating the total number of bits of the output bitstream from the second code, and instructing the output of the bitstream based on the calculation result;

상기 제2 부호로부터 비트스트림을 생성하고, 상기 양자화 제어 수단의 지시에 기초하여 비트스트림을 출력하는 비트스트림 생성 수단을 구비한다. Bitstream generation means for generating a bitstream from the second code and outputting the bitstream based on an instruction of the quantization control means.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 블록 길이 판정 수단이, The block length determining means,

상기 전력 변동비 및 상기 예측 이득 변동비 중 적어도 어느 한쪽이 미리 정해진 임계값보다 큰 경우에 단 블록에 의한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 적어도 어느 한쪽이 미리 정해진 임계값보다 큰 경우 외의 경우에는 장 블록에 의한 부호화를 선택한다. If at least one of the power fluctuation ratio and the predicted gain fluctuation ratio is greater than a predetermined threshold, encoding by short blocks is selected, and at least one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold. Otherwise, encoding by long block is selected.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 블록 길이 판정 수단이 이용하는, 부호화할 때의 블록 길이를 판정하기 위한 임계값을 상기 블록 길이 판정 수단의 판정 결과에 응답하여 변화시키는 임계값 결정 수단을 구비한다. Threshold value determining means for changing the threshold value for determining the block length at the time of encoding used by said block length determination means in response to the determination result of said block length determination means.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 임계값 결정 수단이, The threshold value determining means,

상기 블록 길이 판정 수단의 판정 결과가 단 블록에 의한 부호화를 나타내는 경우에 상기 임계값을 초기값보다도 큰 값으로 설정한다. When the determination result of the block length determination means indicates coding by a short block, the threshold value is set to a value larger than the initial value.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 산출 수단이, The calculating means,

상기 전력 산출 수단이 전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 예측 이득 변동비를 산출한다. The power calculating means makes one block using a predetermined number of blocks for calculating power, and calculates the predicted gain variation ratio of the one block.

또한,본 발명의 오디오 부호화 장치는, In addition, the audio encoding apparatus of the present invention,

상기 전력 산출 수단이, The power calculation means,

상기 산출 수단이 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 해당 1개의 블록의 상기 전력 변동비를 산출한다. The calculation means sets one block by using a predetermined number of blocks for calculating the prediction gain, and calculates the power variation ratio of the one block.

또한,본 발명의 오디오 부호화 방법은,In addition, the audio encoding method of the present invention,

입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, 상기 프레임을 분할해서 단 블록으로 하 고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 방법으로서,An audio encoding having a long block mode for dividing an input signal into frames having a constant number of samples, encoding an input signal of one frame, and a short block mode for dividing the frame into short blocks and encoding the short blocks. As a way,

상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 공정과, A power calculation step of calculating a power fluctuation ratio from the input signal;

상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 공정과, A calculating step of calculating a predicted gain variation ratio from the input signal;

상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 공정을 구비한다. And a block length determination step of determining whether to perform long block coding or short block coding from the power fluctuation ratio and the predicted gain fluctuation ratio.

또한,본 발명의 오디오 부호화 방법은, In addition, the audio encoding method of the present invention,

입력 신호를 일정한 샘플 수로 이루어지는 프레임으로 분할하고, 1프레임의 입력 신호를 부호화하는 장 블록 모드와, A long block mode for dividing an input signal into frames consisting of a predetermined number of samples and encoding an input signal of one frame;

상기 프레임을 분할해서 단 블록으로 하고, 해당 단 블록을 부호화하는 단 블록 모드를 구비한 오디오 부호화 방법으로서,An audio encoding method having a short block mode for dividing the frame into short blocks and encoding the short blocks,

상기 입력 신호로부터 전력 변동비를 산출하는 전력 산출 공정과, A power calculation step of calculating a power fluctuation ratio from the input signal;

상기 입력 신호로부터 예측 이득 변동비를 산출하는 산출 공정과, A calculating step of calculating a predicted gain variation ratio from the input signal;

상기 전력 변동비와 상기 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정하는 블록 길이 판정 공정과, A block length determination step of determining whether to perform long block coding or short block coding from the power fluctuation ratio and the predicted gain fluctuation ratio;

상기 블록 길이 판정 공정에서 장 블록에 의한 부호화가 선택된 경우에는 장 블록 단위로 입력 신호를 이산 코사인 변환해서 제1 계수를 구하는 제1 변환 공정과, A first conversion step of obtaining a first coefficient by discrete cosine transforming an input signal in units of long blocks when encoding by long blocks is selected in the block length determination step;

상기 블록 길이 판정 공정에서 단 블록에 의한 부호화가 선택된 경우에는 단 블록 단위로 입력 신호를 이산 코사인 변환해서 제2 계수를 구하는 제2 변환 공정과, A second conversion step of obtaining a second coefficient by discrete cosine transforming the input signal in units of short blocks when encoding by short blocks is selected in the block length determination step;

상기 블록 길이 판정 공정의 판정 결과에 응답하여 상기 제1 계수 또는 상기 제2 계수를 제3 계수로서 선택하는 선택 공정과, A selection step of selecting the first coefficient or the second coefficient as a third coefficient in response to the determination result of the block length determination process;

상기 입력 신호로부터 마스킹 임계값을 구하는 심리 청각 분석 공정과, A psychoacoustic auditory analysis step of obtaining a masking threshold value from the input signal;

상기 마스킹 임계값에 따라 상기 제3 계수를 스펙트럼 양자화해서 제1 부호를 구하는 양자화 공정과, A quantization step of spectrally quantizing the third coefficient according to the masking threshold to obtain a first code;

상기 제1 부호를 허프만 부호화해서 제2 부호를 구하는 허프만 부호화 공정과, A Huffman encoding step of Huffman encoding the first code to obtain a second code;

상기 제2 부호로부터, 출력되는 비트스트림의 총 비트 수를 계산하고, 해당 계산 결과에 기초하여 비트스트림의 출력을 지시하는 양자화 제어 공정과, A quantization control process of calculating the total number of bits of the output bitstream from the second code and instructing the output of the bitstream based on a result of the calculation;

상기 제2 부호로부터 비트스트림을 생성하고, 상기 양자화 제어 공정에서의 지시에 기초하여 비트스트림을 출력하는 비트스트림 생성 공정을 구비한다. And a bitstream generation step of generating a bitstream from the second code and outputting the bitstream based on the instructions in the quantization control step.

본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은, 전력 변동비와 예측 이득 변동비로부터, 장 블록에 의한 부호화를 행할지 또는 단 블록에 의한 부호화를 행할지를 판정한다. 그 때문에,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 장 블록에 의한 부호화와 단 블록에 의한 부호화의 쌍방을 행할 필요가 없어진다. 그 때문에,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은, 처리량을 경감할 수 있음과 함께, 전력 변동비와 예측 이득 변동비의 쌍방을 이용해서 부호화하는 블록 길이의 판정을 행하기 때문에,보다 적절한 블록 길이에 의한 부호화를 행할 수 있다. The audio encoding apparatus and the audio encoding method of the present invention determine whether to perform long block coding or short block coding from the power fluctuation ratio and the prediction gain fluctuation ratio. Therefore, the audio coding apparatus and the audio coding method of the present invention do not need to perform both long block coding and short block coding. Therefore, the audio encoding apparatus and the audio encoding method of the present invention can reduce the throughput and determine the block length to be encoded by using both the power fluctuation ratio and the predictive gain fluctuation ratio. Encoding can be performed.

또한,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 블록 길이 판정에 이용하는 블록 길이 판정용 임계값을 블록 길이의 판정 결과에 응답하여 변화시킴으로써, 예를 들면, 단 블록에 의한 부호화가 빈번하게 선택되는 것을 방지할 수 있고, 출력되는 음의 음질의 저하를 경감할 수 있다.In addition, the audio encoding apparatus and the audio encoding method of the present invention change the block length determination threshold used for the block length determination in response to the determination result of the block length, so that, for example, encoding by the short block is frequently selected. Can be prevented and the sound quality of the output sound can be reduced.

또한,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이 1개의 블록의 예측 이득 변동비를 산출함으로써, 처리량을 경감할 수 있다.The audio encoding apparatus and the audio encoding method of the present invention can reduce the throughput by setting one block using a predetermined number of power calculation blocks and calculating the predicted gain variation ratio of the one block.

또한,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법은 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이 1개의 블록의 전력 변동비를 산출함으로써, 처리량을 경감할 수 있다.In addition, the audio encoding apparatus and the audio encoding method of the present invention can reduce the throughput by making one block by using a predetermined number of blocks for calculating the prediction gain and calculating the power fluctuation ratio of the one block.

[발명의 효과][Effects of the Invention]

이상과 같이, 본 발명에 따르면, 처리량을 경감하면서 블록 길이를 적절하게 선택하는 것이 가능한 오디오 부호화 장치 및 오디오 부호화 방법을 제공할 수 있다.As described above, according to the present invention, an audio encoding apparatus and an audio encoding method capable of appropriately selecting a block length while reducing throughput are provided.

도 1은 본 발명의 오디오 부호화 장치의 개요도. 1 is a schematic diagram of an audio encoding apparatus of the present invention.

도 2는 본 발명의 오디오 부호화 장치에서 이용하는 장 블록과 단 블록의 일례의 개념도. 2 is a conceptual diagram of an example of a long block and a short block used in the audio encoding apparatus of the present invention.

도 3은 본 발명의 오디오 부호화 장치에서의 예측 이득 변동비의 산출 방법 의 개념도. 3 is a conceptual diagram of a method for calculating a predicted gain variation ratio in an audio encoding apparatus of the present invention.

도 4는 본 발명의 오디오 부호화 장치의 제1 실시 형태의 구성도. 4 is a configuration diagram of a first embodiment of an audio encoding device of the present invention.

도 5는 본 발명의 오디오 부호화 장치의 제1 실시 형태가 행하는 블록 길이 판정 방법의 동작의 플로우차트. Fig. 5 is a flowchart of the operation of the block length determination method performed by the first embodiment of the audio encoding device of the present invention.

도 6는 본 발명의 오디오 부호화 장치의 제2 실시 형태의 구성도. 6 is a configuration diagram of a second embodiment of an audio encoding device of the present invention.

도 7은 본 발명의 오디오 부호화 장치의 제2 실시 형태의 임계값 결정부에 서의 임계값 제어 동작을 나타내는 그래프. Fig. 7 is a graph showing a threshold value control operation in the threshold value determining unit of the second embodiment of the audio encoding device of the present invention.

도 8은 본 발명의 오디오 부호화 장치의 제3 실시 형태에서 예측 이득 변동비와 전력 변동비를 구하는 방법의 개념도. Fig. 8 is a conceptual diagram of a method for obtaining a prediction gain variation ratio and a power variation ratio in the third embodiment of the audio encoding apparatus of the present invention.

도 9는 본 발명의 오디오 부호화 장치의 제4 실시 형태에서의 전력 변동비의 산출 방법을 나타내는 개념도. 9 is a conceptual diagram illustrating a method for calculating a power fluctuation ratio in a fourth embodiment of an audio encoding device of the present invention.

도 10은 제1 종래 기술인 MPEG―2 AAC의 인코더의 구성을 나타내는 구성도.Fig. 10 is a configuration diagram showing the configuration of an encoder of MPEG-2 AAC which is the first conventional technology.

도 11은 프리 에코의 예를 나타내는 개략도.11 is a schematic diagram showing an example of pre-echo.

도 12는 제2 종래 기술의 구성을 나타내는 구성도 12 is a configuration diagram showing a configuration of a second conventional technology

도 13은 제2 종래 기술에서 프레임을 단 블록으로 분할하는 경우의 예를 나타내는 개념도. FIG. 13 is a conceptual diagram illustrating an example of dividing a frame into short blocks in a second prior art. FIG.

도 14는 입력 신호, 전력 변동비 및 예측 이득 변동비의 예를 나타내는 그래프. 14 is a graph showing examples of input signals, power fluctuation ratios, and predictive gain fluctuation ratios.

[부호의 설명][Description of the code]

101: 프레임화부101: framing unit

102: 전력 산출부102: power calculation unit

103: 산출부103: calculating unit

104: 블록 길이 판정부104: block length determination unit

105: 선택기105: selector

106: 장 블록용 MDCT 변환부106: MDCT transformation for chapter blocks

107: 단 블록용 MDCT 변환부107: MDCT conversion unit for the short block

108: 선택기108: selector

109: 심리 청각 분석부109: psychological hearing analysis

110: 양자화부110: quantization unit

111: 허프만 부호화부111: Huffman encoder

112: 비트스트림 생성부112: bitstream generator

113: 양자화 제어부113: quantization control

401: 프레임화부401: framing unit

402: 전력 산출부402: power output unit

403: 자기 상관 산출부403: autocorrelation calculation unit

404: k 패러미터 산출부404: k parameter calculator

405: 예측 이득 산출부405: predictive gain calculator

406: 예측 이득 변동비 산출부406: predicted gain variation ratio calculating unit

407: 블록 길이 판정부407: block length determination unit

408: 선택기408: selector

409: 장 블록용 MDCT 변환부409: MDCT transformation for chapter blocks

410: 단 블록용 MDCT 변환부410: MDCT conversion unit for the short block

411: 선택기411: selector

412: 심리 청각 분석부412: psychological hearing analysis

413: 양자화부413: quantization unit

414: 허프만 부호화부414: Huffman encoder

415: 비트스트림 생성부415: bitstream generator

416: 양자화 제어부416: quantization control

601: 프레임화부601: frame unit

602: 전력 산출부602: power output unit

603: 자기 상관 산출부603: autocorrelation calculation unit

604: k 파라미터 산출부604: k parameter calculation unit

605: 예측 이득 산출부605: prediction gain calculator

606: 예측 이득 변동비 산출부606: predicted gain variation ratio calculating unit

607: 블록 길이 판정부607: block length determination unit

608: 임계값 결정부608: threshold determination unit

609: 선택기609: selector

610: 장 블록용 MDCT 변환부610: MDCT transformation unit for long blocks

611: 단 블록용 MDCT 변환부611: MDCT conversion unit for the short block

612: 선택기612: selector

613: 심리 청각 분석부613: psychological hearing analysis

614: 양자화부614: quantization unit

615: 허프만 부호화부615: Huffman encoder

616: 비트스트림 생성부616: bitstream generation unit

617: 양자화 제어부617: Quantization Control

[발명을 실시하기 위한 최량의 형태]Best Mode for Carrying Out the Invention

[본 발명의 개요]SUMMARY OF THE INVENTION

이하, 도면을 참조하여 본 발명을 실시하기 위한 최량의 형태에 대해서 설명한다. 우선,본 발명의 오디오 부호화 장치 및 오디오 부호화 방법의 개요에 대해서 설명한다. 도 1은 본 발명의 오디오 부호화 장치의 개요 도면이다. 이하의 설명은 본 발명의 오디오 부호화 방법의 개요의 설명도 겸한다. 도 1에서,프레임화부(101)는 입력 신호를 소정의 샘플 수로 이루어지는 입력 신호 프레임(장 블록)으로 분할한다. 다음으로,장 블록용 MDCT 변환부(106), 단 블록용 MDCT 변환부(107), 전력 산출부(102) 및 산출부(103)는 1프레임을 장 블록보다도 더욱 짧은 단 블록으로 분할한다. 도 2는 본 발명의 오디오 부호화 장치에서 이용하는 장 블록과 단 블록의 일례의 개념도이다. 도 2는 1프레임(장 블록)을 네개의 단 블록으로 분할하는 경우를 나타내고 있다. 이하에서는, 도 2에 도시되는 예를 바탕으로 설명한다. 그러나, 본 발명은 1프레임을 n개(n>O)로 분할하는 경우에도 마찬가지로 실시할 수 있다. EMBODIMENT OF THE INVENTION Hereinafter, the best form for implementing this invention with reference to drawings is demonstrated. First, the outline | summary of the audio coding apparatus and audio coding method of this invention is demonstrated. 1 is a schematic diagram of an audio encoding apparatus of the present invention. The following description also serves as an overview of the audio encoding method of the present invention. In FIG. 1, the framer 101 divides an input signal into an input signal frame (long block) consisting of a predetermined number of samples. Next, the long block MDCT converter 106, the short block MDCT converter 107, the power calculator 102, and the calculator 103 divide one frame into short blocks shorter than the long block. 2 is a conceptual diagram of an example of a long block and a short block used in the audio encoding apparatus of the present invention. 2 shows a case where one frame (long block) is divided into four short blocks. The following description will be made based on the example shown in FIG. 2. However, the present invention can be similarly implemented even when one frame is divided into n pieces (n> O).

(1) 전력 산출부(102)는 단 블록마다 입력 신호 전력 P(1), P(2), P(3), P(4)를 구한다. 다음으로,전력 산출부(102)는 인접하는 블록 간의 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 구한다. 여기서, Δp(i, j)은 단 블록 i와 단 블록 j 사이의 전력 변동비로, 상술한 수학식 1로 구할 수 있다. (1) The power calculator 102 calculates input signal powers P (1), P (2), P (3), and P (4) for each block. Next, the power calculation unit 102, a power variable costs between adjacent blocks Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) is obtained. Here, Δ p (i, j) can be determined by power variable costs between the short block and the short block i j, in the above-described equation (1).

(2) 다음으로,산출부(103)는 단 블록의 입력 신호에 대하여 LPC 분석(선형 예측 분석법)을 실행해서 k 파라미터를 구한다. 도 3은 본 발명의 오디오 부호화 장치에서의 예측 이득 변동비의 산출 방법의 개념도이다. 본 발명에서는,k 파라미터의 산출 방법은 임의의 방법이다. 그러나,본 발명은 예를 들면 입력 신호로부터 자기 상관 함수를 구하고, 레빈슨 알고리즘 등의 공지의 방법에 의해서 자기상관 함수로부터 k 파라미터를 산출하는 방법을 이용할 수 있다. (2) Next, the calculation unit 103 performs LPC analysis (linear prediction analysis) on the input signal of the short block to obtain a k parameter. 3 is a conceptual diagram of a method of calculating a predicted gain variation ratio in the audio encoding apparatus of the present invention. In the present invention, the calculation method of the k parameter is arbitrary. However, the present invention can use a method of obtaining an autocorrelation function from an input signal, for example, and calculating a k parameter from an autocorrelation function by a known method such as a Levinson algorithm.

(3) 다음으로,산출부(103)는 단 블록 i로부터 구한 k 파라미터 k(i, m), (m=1, …p)로부터, 다음 식에 의해서 예측 이득 G(i)를 구한다. 여기서, p는 예측 차수이다. (3) Next, the calculation unit 103 obtains the prediction gain G (i) from the k parameters k (i, m) and (m = 1, ... p) obtained from the block i using the following equation. Where p is the predicted order.

Figure 112007007725608-pct00002
Figure 112007007725608-pct00002

(4) 다음으로,산출부(103)는 단 블록 i, j로부터 구한 예측 이득 G(i), G(j)로부터 다음식에 의해서 예측 이득 변동비 Δ(i, j)를 구한다. (4) Next, the calculation unit 103 obtains the predicted gain variation ratio Δ (i, j) from the predicted gains G (i) and G (j) obtained from the blocks i and j using the following equation.

Figure 112007007725608-pct00003
Figure 112007007725608-pct00003

(5) 다음으로,전력 변동비 Δp(i, j)는 블록 길이 판정부(104)에 입력한다. 또한,예측 이득 변동비 ΔG(i, j)는 블록 길이 판정부(104)에 입력한다. 그리고, 블록 길이 판정부(104)는 장 블록과 단 블록 중 어느 쪽으로 양자화할지를 판정한다. 블록 길이 판정부(104)에 의한 판정 방법은 이하의 방법을 이용할 수 있다. 또한,이하의 설명에서, 블록 길이 판정부가 장 블록을 선택한다는 것은 블록 길이 판정부가 장 블록에 의한 부호화를 선택하는 것을 의미한다. 마찬가지로, 블록 길이 판정부가 단 블록을 선택한다는 것은 블록 길이 판정부가 단 블록에 의한 부호화를 선택하는 것을 의미한다. 즉, 블록 길이 판정부가 블록을 선택한다는 것은 블록 길이 판정부가 그 블록에 의한 부호화를 선택하는 것을 의미한다. (5) Next, the power variable costs Δ p (i, j) is input to a block length determining section (104). In addition, the variable cost prediction gain G Δ (i, j) is input to a block length determining section (104). The block length determination unit 104 then determines which of the long block and the short block is quantized. As the determination method by the block length determination unit 104, the following method can be used. In addition, in the following description, that the block length determination unit selects the long block means that the block length determination unit selects encoding by the long block. Similarly, the block length determining unit selecting the short block means that the block length determining unit selects encoding by the short block. That is, that the block length determination unit selects a block means that the block length determination unit selects encoding by the block.

A) 블록 길이 판정부(104)는 전력 변동비에 대한 임계값 THp와 예측 이득 변동비 THG를 설정한다. A) The block length determination unit 104 sets the threshold TH p and the predicted gain variation ratio TH G with respect to the power variation ratio.

B) 다음으로,블록 길이 판정부(104)는 Δp(1, 2), Δp(2, 3), Δp(3, 4) 중에서 임계값 THP보다도 큰 것이 하나라도 있으면 단 블록을 선택하고, 없으면 다음의 C)로 진행한다. B) Next, if the block length determining section (104) Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) in the threshold value TH P than any great that one of the short blocks If no, go to the next C).

C) 다음으로,블록 길이 판정부(104)는 ΔG(1, 2), ΔG(2, 3), ΔG(3, 4) 중 에서 임계값 THG보다도 큰 것이 하나라도 있으면 단 블록을 선택하고, 없으면 장 블록을 선택한다. C) Next, the block length determining section (104) Δ G (1, 2), Δ G (2, 3), Δ G (3, 4), the threshold TH G all, if any great that one end block at one If not, select the chapter block.

즉, 블록 길이 판정부(104)는 프레임 내의 전력 변동비와 예측 이득 변동비 중 어느 한쪽이 미리 설정한 임계값을 초과한 경우에만 단 블록을 선택하고, 그 외에는 장 블록을 선택한다. In other words, the block length determination unit 104 selects a short block only when either one of the power fluctuation ratio and the predicted gain fluctuation ratio in the frame exceeds a preset threshold, and otherwise selects the long block.

(6) 블록 길이 판정부(104)가 장 블록을 선택한 경우, 그 판정 결과는 선택기(105) 및 선택기(108)에 출력된다. 선택기(105) 및 선택기(108)는 블록 길이 판정부(104)의 판정 결과에 기초하여 블록을 선택한다. 그 때문에,블록 길이 판정부(104)가 장 블록을 선택한 경우, 선택기(105) 및 선택기(108)는 장 블록을 선택한다. (6) When the block length determination unit 104 selects the long block, the determination result is output to the selector 105 and the selector 108. The selector 105 and the selector 108 select a block based on the determination result of the block length determination unit 104. Therefore, when the block length determination unit 104 selects the long block, the selector 105 and the selector 108 select the long block.

그리고,프레임화부(101)로부터 출력된 입력 신호가 장 블록용 MDCT 변환부(106)에 입력된다. 그리고,장 블록용 MDCT 변환부(106)는 MDCT1을 출력한다. Then, the input signal output from the framer 101 is input to the long block MDCT converter 106. And the long block MDCT converter 106 outputs MDCT1.

또한,블록 길이 판정부(104)가 단 블록을 선택한 경우, 그 판정 결과는 선택기(105) 및 선택기(108)에 출력된다. 그리고, 선택기(105) 및 선택기(108)는 단 블록을 선택한다. In addition, when the block length determination unit 104 selects a short block, the determination result is output to the selector 105 and the selector 108. The selector 105 and the selector 108 select a short block.

그리고,프레임화부(101)로부터 출력된 입력 신호가 단 블록용 MDCT 변환부(107)에 입력된다. 그리고,단 블록용 MDCT 변환부(107)는 단 블록의 수만큼 MDCT 계수를 출력한다. 즉, 1프레임이 4개의 단 블록으로 분할되는 경우에는 단 블록용 MDCT 변환부(107)는 4세트의 MDCT 계수를 출력한다. Then, the input signal output from the framer 101 is input to the short block MDCT converter 107. Then, the short block MDCT converter 107 outputs MDCT coefficients by the number of short blocks. That is, when one frame is divided into four short blocks, the short block MDCT converter 107 outputs four sets of MDCT coefficients.

(7) 다음으로,심리 청각 분석부(109)는 입력한 입력 신호로부터 마스킹 임계값을 구한다. 여기서, 심리 청각 분석부(109)는 블록 길이 판정부(104)가 장 블록을 선택한 경우, 장 블록용 마스킹 임계값을 구한다. 또한,심리 청각 분석부(109)는 블록 길이 판정부(104)가 단 블록을 선택한 경우, 단 블록용 마스킹 임계값을 구한다. (7) Next, the psychoacoustic auditory analyzer 109 calculates a masking threshold value from the input signal. Here, when the block length determination unit 104 selects a long block, the psychoacoustic analysis unit 109 obtains a masking threshold value for the long block. In addition, when the block length determination unit 104 selects a short block, the psychoacoustic analysis unit 109 calculates a masking threshold value for the short block.

본 발명에서,마스킹 임계값의 산출 방법은 임의의 방법을 이용할 수 있다. 예를 들면, 심리 청각 분석부(109)는 비 특허 문헌 1에 개시되어 있는 방법을 이용할 수 있다. 즉, 심리 청각 분석부(109)는 입력 신호에 대하여 FFT 분석을 행한다. 그리고,심리 청각 분석부(109)는 FFT 스펙트럼을 구한다. 그리고, 심리 청각 분석부(109)는 FFT 스펙트럼으로부터 마스킹 임계값을 산출한다. In the present invention, the calculation method of the masking threshold value can use any method. For example, the psychoacoustic hearing analyzing unit 109 can use the method disclosed in Non Patent Literature 1. In other words, the psychoacoustic analysis unit 109 performs FFT analysis on the input signal. The psychoacoustic analysis unit 109 then obtains an FFT spectrum. Then, the psychoacoustic hearing analyzing unit 109 calculates a masking threshold value from the FFT spectrum.

(8) 다음으로,MDCT 계수와 마스킹 임계값은 양자화부(110)에 입력된다. 양자화부(110)는 입력된 마스킹 임계값에 따라 주파수 대역마다 MDCT 계수를 양자화한다. 그리고, 양자화부(110)는 MDCT 계수가 양자화된 양자화 부호 1을 출력한다.(8) Next, the MDCT coefficients and the masking threshold value are input to the quantization unit 110. The quantization unit 110 quantizes MDCT coefficients for each frequency band according to the input masking threshold. The quantization unit 110 outputs a quantization code 1 in which the MDCT coefficients are quantized.

(9) 다음으로,양자화 부호 1이 허프만 부호화부(111)에 입력된다. 그리고,허프만 부호화부(111)는 양자화 부호 1을 양자화 부호 1보다 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (9) Next, the quantization code 1 is input to the Huffman coding unit 111. The Huffman encoder 111 converts the quantized code 1 into the quantized code 2 with redundancy removed from the quantized code 1.

(10) 다음으로,허프만 부호화부(111)는 양자화 부호 2를 양자화 제어부(113)에 출력한다. 양자화 제어부(113)는 입력된 양자화 부호 2로부터 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 1에서 점선으로 둘러싸인 범위는 양자화 제어부(113)가 제어 가능한 범위이다. (10) Next, the Huffman coding unit 111 outputs the quantization code 2 to the quantization control unit 113. The quantization control unit 113 calculates the total number of bits of the bitstream finally output from the input quantization code 2. In addition, the range enclosed by the dotted line in FIG. 1 is the range which the quantization control part 113 can control.

(11) 양자화 제어부(113)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회할 경우, 처리 (8)∼처리 (10)을 반복하도록, 양자화부(110)와 허프만 부호화부(111)를 제어한다. 또한,양자화 제어부(113)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회할 경우, 허프만 부호화부(111)로부터 비트스트림 생성부(112)에 대하여 양자화 부호 2를 출력시킨다. 그리고,양자화 제어부(113)는 비트스트림 생성부(112)에 대하여 비트스트림을 출력하도록 제어한다. 이에 의해서,도 1에 도시되는 오디오 부호화 장치는 양자화를 실현한다. 또한,본 발명에서의 양자화의 프로세스는 상술한 종래 기술의 란에서 설명한, AAC 방식의 양자화 프로세스의 상세와 마찬가지이므로, 그 상세한 설명을 생략한다. (11) If the total number of bits calculated exceeds the number of bits allowed for the current block, the quantization control unit 113 repeats the processes (8) to (10) so that the quantization unit 110 and the Huffman coding unit 111 are repeated. ). In addition, the quantization control unit 113 outputs the quantization code 2 from the Huffman encoder 111 to the bitstream generator 112 when the calculated total number of bits is less than the number of bits allowed for the current block. The quantization control unit 113 controls the bitstream generation unit 112 to output a bitstream. As a result, the audio encoding apparatus shown in FIG. 1 realizes quantization. In addition, since the process of quantization in this invention is the same as the detail of the AAC system quantization process demonstrated in the column of the prior art mentioned above, the detailed description is abbreviate | omitted.

다음으로,도면을 참조해서 본 발명의 실시 형태에 대해서 설명한다. 이하의 실시 형태의 구성은 예시이며, 본 발명은 실시 형태의 구성에 한정되지 않는다. 또한,이하의 각 실시 형태의 설명은 오디오 신호를 부호화하는 오디오 부호화 장치를 예에 이용하여 설명한다. 또한,이하에 설명하는 본 발명의 오디오 부호화 장치의 각 실시 형태의 설명은 본 발명의 오디오 부호화 방법의 각 실시 형태의 설명을 겸한다. Next, an embodiment of the present invention will be described with reference to the drawings. The structure of the following embodiment is an illustration, and this invention is not limited to the structure of embodiment. In addition, description of each following embodiment is demonstrated using the audio coding apparatus which encodes an audio signal as an example. In addition, description of each embodiment of the audio encoding device of the present invention described below also serves as a description of each embodiment of the audio encoding method of the present invention.

<제1 실시 형태><First Embodiment>

도 4는 본 발명의 오디오 부호화 장치의 제1 실시 형태의 구성도이다. 도 4에서,프레임화부(401)는 입력된 신호를 소정의 샘플 수로 이루어지는 입력 신호 프레임(장 블록)으로 분할한다. 4 is a configuration diagram of a first embodiment of an audio encoding device of the present invention. In FIG. 4, the framer 401 divides the input signal into an input signal frame (long block) consisting of a predetermined number of samples.

다음으로,단 블록용 MDCT 변환부(410), 전력 산출부(402) 및 자기 상관 산 출부(403)는 입력한 1프레임을 단 블록으로 분할한다. 본 실시 형태에서의 프레임의 분할에 대해서 상술한 도 2를 참조하여 설명한다. 도 2는 장 블록과 단 블록의 예를 나타내는 개념도이다. 도 2에 도시되는 예는 1프레임(장 블록)을 4개의 단 블록으로 분할한다. 이하에서는, 이러한 예를 바탕으로 설명한다. 그러나,본 실시 형태는 1프레임을 n개(n은 음이 아닌 정수)로 분할하는 경우라도 마찬가지로 이루어진다. Next, the short block MDCT converter 410, the power calculator 402, and the autocorrelation calculator 403 divide the input one frame into short blocks. The division of the frame in the present embodiment will be described with reference to FIG. 2 described above. 2 is a conceptual diagram illustrating an example of a long block and a short block. The example shown in FIG. 2 divides one frame (long block) into four short blocks. The following description will be made based on such an example. However, this embodiment is similarly performed even when one frame is divided into n (n is a non-negative integer).

(1) 우선,전력 산출부(402)는 단 블록마다 입력 신호 전력 P(1), P(2), P(3), P(4)를 구한다. 그리고, 전력 산출부(402)는 인접하는 블록 간의 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 구한다. 여기서, Δp(i, j)는 단 블록 i와 단 블록 j 사이의 전력 변동비이다. 이 전력 변동비는 상술한 수학식 (1)로 구할 수 있다. (1) First, the power calculating section 402 obtains input signal powers P (1), P (2), P (3), and P (4) for each block. Then, the power calculation unit 402 the power variable costs between adjacent blocks Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) is obtained. Here, Δ p (i, j) is the power fluctuation ratio between the short block i and the short block j. This power fluctuation ratio can be obtained from the above equation (1).

(2) 다음으로,자기 상관 산출부(403)는 단 블록의 입력 신호로부터 자기 상관을 구한다. 그리고,자기 상관 산출부(403)는 이 자기 상관을 k 파라미터 산출부(404)에 출력한다. (2) Next, the autocorrelation calculation unit 403 obtains autocorrelation from the input signal of the short block. The autocorrelation calculator 403 then outputs this autocorrelation to the k parameter calculator 404.

다음으로,k 파라미터 산출부(404)는 자기 상관 함수로부터 레빈슨 알고리즘 등의 공지의 방법에 의해서 k 파라미터를 산출한다. 또한,k 파라미터 산출부(404)가 자기 상관 함수로부터 LPC 계수를 구하고, k 파라미터 산출부(404)가 LPC 계수를 k 파라미터로 변환하는 것으로 해도 된다.Next, the k parameter calculator 404 calculates the k parameter from a autocorrelation function by a known method such as a Levinson algorithm. In addition, the k parameter calculator 404 may obtain the LPC coefficient from the autocorrelation function, and the k parameter calculator 404 may convert the LPC coefficient into the k parameter.

(3) 그리고, 예측 이득 산출부(405)는 단 블록 i로부터 구한 k 파라미터 k(i, m), (m=1, …, p)로부터 다음 식에 의해서 예측 이득 G(i)를 구한다. 여기서, p는 예측 차수이다. 이 예측 이득 G(i)는 예측 이득 변동비 산출부(406)에 입력한다.(3) Then, the prediction gain calculator 405 calculates the prediction gain G (i) from the k parameters k (i, m) and (m = 1, ..., p) obtained from the block i by the following equation. Where p is the predicted order. The predicted gain G (i) is input to the predicted gain variation ratio calculation unit 406.

Figure 112007007725608-pct00004
Figure 112007007725608-pct00004

(4) 다음으로,예측 이득 변동비 산출부(406)는 단 블록 i, 단 블록 j로 구한 예측 이득 G(i), G(j)로부터, 다음식으로 나타내는 예측 이득 변동비ΔG(i, j)를 구한다. 여기서, 자기 상관 산출부(403), k 파라미터 산출부(404), 예측 이득 산출부(405) 및 예측 이득 변동비 산출부(406)는 도 1에 도시되는 산출부(103)의 기능의 일부라 해도 된다.(4) Next, the prediction gain variable cost calculation unit 406 is the short blocks i, from a single block prediction gain calculated by j G (i), G (j), the prediction gain variable costs shown by the following equation Δ G (i, j ) Here, the autocorrelation calculator 403, the k parameter calculator 404, the predictive gain calculator 405, and the predicted gain variation ratio calculator 406 are part of the functions of the calculator 103 shown in FIG. 1. You may also

Figure 112007007725608-pct00005
Figure 112007007725608-pct00005

(5) 다음으로,전력 변동비ΔP(i, j)와 예측 이득 변동비 ΔG(i, j)는 블록 길이 판정부(407)에 입력한다. 그리고, 블록 길이 판정부(407)는 장 블록과 단 블록 중 어느 쪽으로 양자화할지를 판정한다. 블록 길이 판정부(407)가 이용하는 판정 방법은 이하의 방법을 이용할 수 있다. 이하, 블록 길이 판정부가 행하는 판정 방법에 대해서 도 5를 참조하여 설명한다. 도 5는 본 발명의 오디오 부호화 장치의 제1 실시 형태가 행하는 블록 길이 판정 방법의 동작의 플로우차트이다. 또한,이하의 설명에서는,상술한 바와 같이, 블록 길이 판정부가 장 블록을 선택한다는 것은 블록 길이 판정부가 장 블록에 의한 부호화를 선택하는 것을 의미한다. 마찬가지로, 블록 길이 판정부가 단 블록을 선택한다는 것은 블록 길이 판정부가 단 블록에 의한 부호화를 선택하는 것을 의미한다. 즉, 블록 길이 판정부가 블록을 선택한다는 것은 블록 길이 판정부가 그 블록에 의한 부호화를 선택하는 것을 의미한다. (5) Next, the power variable costs Δ P (i, j) and the variable cost prediction gain G Δ (i, j) is input to a block length determining section (407). The block length determination unit 407 then determines which of the long block and the short block is quantized. As the determination method used by the block length determination unit 407, the following method can be used. Hereinafter, the determination method performed by the block length determination unit will be described with reference to FIG. 5. 5 is a flowchart of the operation of the block length determination method performed by the first embodiment of the audio encoding apparatus of the present invention. In addition, in the following description, as described above, that the block length determination unit selects the long block means that the block length determination unit selects encoding by the long block. Similarly, the block length determining unit selecting the short block means that the block length determining unit selects encoding by the short block. That is, that the block length determination unit selects a block means that the block length determination unit selects encoding by the block.

(A) 블록 길이 판정부(407)는 전력 변동비에 대한 임계값 THp와 예측 이득 변동비에 대한 임계값 THG를 설정한다. (A) The block length determination unit 407 sets the threshold TH p for the power fluctuation ratio and the threshold TH G for the predicted gain fluctuation ratio.

(B) 블록 길이 판정부(407)는 Δp(1, 2),Δp(2, 3), Δp(3, 4) 중에서 임계값 THp보다도 큰 것이 하나라도 있으면 단 블록을 선택하고(S501, S502, S503, S508), 없으면 (C)로 진행한다. (B) a block length determining section 407 selects the short blocks if Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) from the threshold TH p than any large that one (S501, S502, S503, S508), if no, go to (C).

(C) 블록 길이 판정부(407)는 ΔG(1, 2), ΔG(2, 3), ΔG(3,4) 중에서 임계값 THG보다도 큰 것이 하나라도 있으면 단 블록을 선택하고(S504, S505, S506, S508), 없으면 장 블록을 선택한다(S507). (C) a block length determining section 407 if Δ G (1, 2), Δ G (2, 3), Δ G (3,4) in the threshold value TH G larger than any one to select the short blocks, and (S504, S505, S506, S508) If not, the long block is selected (S507).

즉, 블록 길이 판정부(407)는 프레임 내의 전력 변동비와 예측 이득 변동비 중 어느 한쪽이 미리 설정된 임계값을 초과한 경우에만 단 블록을 선택하고, 그 외 에는 장 블록을 선택한다. In other words, the block length determination unit 407 selects a short block only when either one of the power fluctuation ratio and the predicted gain fluctuation ratio in the frame exceeds a preset threshold value, and selects a long block elsewhere.

(6) 블록 길이 판정부(407)의 판정 결과는 선택기(408) 및 선택기(411)에 입력된다. 각 선택기(408) 및 선택기(411)는 블록 길이 판정부(407)의 판정 결과에 기초하여, 이용하는 블록 길이를 선택한다. (6) The determination result of the block length determination unit 407 is input to the selector 408 and the selector 411. Each selector 408 and selector 411 select the block length to be used based on the determination result of the block length determination unit 407.

블록 길이 판정부(407)가 장 블록을 선택한 경우에는 입력 신호가 장 블록용 MDCT 변환부(409) 입력한다. 그리고, 장 블록용 MDCT 변환부(409)는 MDCT 계수를 출력한다. When the block length determination unit 407 selects the long block, the input signal is input to the long block MDCT converter 409. The long block MDCT converter 409 outputs MDCT coefficients.

또한,블록 길이 판정부(407)가 단 블록을 선택한 경우에는 입력 신호가 단 블록용 MDCT 변환부(410)에 입력된다. 그리고,단 블록용 MDCT 변환부(410)는 단 블록의 수 분의 MDCT 계수를 출력한다. 즉, 1프레임이 4개의 단 블록으로 분할되는 경우, 단 블록용 MDCT 변환부(410)는 4세트의 MDCT 계수를 출력한다. In addition, when the block length determination unit 407 selects a short block, an input signal is input to the short block MDCT converter 410. Then, the short block MDCT converter 410 outputs a few MDCT coefficients of the short block. That is, when one frame is divided into four short blocks, the short block MDCT converter 410 outputs four sets of MDCT coefficients.

(7) 다음으로,심리 청각 분석부(412)는 입력된 입력 신호로부터 마스킹 임계값을 구한다. 심리 청각 분석부(412)에는 프레임화부(401)로부터 출력된 입력 신호가 입력된다. 여기서, 심리 청각 분석부(412)는 블록 길이 판정부(407)가 장 블록을 선택한 경우, 장 블록용 마스킹 임계값을 구한다. 또한,심리 청각 분석부(412)는 블록 길이 판정부(407)가 단 블록을 선택한 경우, 단 블록용 마스킹 임계값을 구한다. (7) Next, the psychoacoustic auditory analyzer 412 obtains a masking threshold value from the input signal. The psychoacoustic auditory analyzer 412 receives an input signal output from the framer 401. Here, when the block length determination unit 407 selects a long block, the psychoacoustic hearing analyzer 412 obtains a masking threshold value for the long block. In addition, when the block length determining unit 407 selects the short block, the psychoacoustic hearing analyzing unit 412 calculates a masking threshold value for the short block.

본 실시 형태에서, 마스킹 임계값의 산출 방법은 임의의 방법을 이용할 수 있다. 예를 들면, 심리 청각 분석부(412)는 비 특허 문헌 1에 개시되어 있는 방법을 이용할 수 있다. 즉, 심리 청각 분석부(412)는 입력 신호에 대하여 FFT 분석을 행한다. 그리고,심리 청각 분석부(412)는 FFT 스펙트럼을 구한다. 그리고,심리 청각 분석부(412)는 FFT 스펙트럼으로부터 마스킹 임계값을 산출한다. In this embodiment, the calculation method of a masking threshold value can use arbitrary methods. For example, the psychoacoustic hearing analyzing unit 412 can use the method disclosed in Non Patent Literature 1. That is, the psychoacoustic hearing analyzing unit 412 performs FFT analysis on the input signal. The psychoacoustic analysis unit 412 then obtains an FFT spectrum. Then, the psychoacoustic hearing analyzer 412 calculates a masking threshold value from the FFT spectrum.

(8) MDCT 계수와 마스킹 임계값은 양자화부(413)에 입력된다. 양자화부(413)는 입력된 마스킹 임계값에 따라 주파수 대역마다 MDCT 계수를 양자화한다. 양자화부(413)는 MDCT 계수를 양자화한 양자화 부호 1을 출력한다. (8) The MDCT coefficients and masking thresholds are input to the quantization unit 413. The quantization unit 413 quantizes the MDCT coefficients for each frequency band according to the input masking threshold. The quantization unit 413 outputs a quantization code 1 obtained by quantizing the MDCT coefficients.

(9) 다음으로,양자화 부호(1)는 허프만 부호화부(414)에 입력된다. 그리고,허프만 부호화부(414)는 양자화 부호 1을 양자화 부호 1보다 더욱 용장도가 제거된 양자화 부호 2로 변환한다. (9) Next, the quantization code 1 is input to the Huffman encoder 414. The Huffman encoder 414 converts the quantized code 1 into the quantized code 2 with redundancy removed from the quantized code 1.

(10) 다음으로,허프만 부호화부(414)는 양자화 부호 2를 양자화 제어부(416)에 출력한다. 양자화 제어부(416)는 입력된 양자화 부호 2로부터 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 4에서 점선으로 둘러싸인 범위는 양자화 제어부(416)가 제어 가능한 범위이다. (10) Next, the Huffman coding unit 414 outputs the quantization code 2 to the quantization control unit 416. The quantization control unit 416 calculates the total number of bits of the bitstream finally output from the input quantization code 2. In addition, the range enclosed by the dotted line in FIG. 4 is the range which the quantization control part 416 can control.

(11) 양자화 제어부(416)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (8)∼처리 (10)을 반복하도록, 양자화부(413)과 허프만 부호화부(414)를 제어한다. 또한,양자화 제어부(416)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(414)로부터 비트스트림 생성부(415)에 대하여 양자화 부호 2를 출력시킨다. 그리고,양자화 제어부(415)는 비트스트림 생성부(415)에 대하여, 비트스트림을 출력하도록 제어한다. 이에 의해서,본 실시 형태는 양자화를 실현한다. 또한,본 실시 형태에서의 양자화 프로세스는 상술한 종래 기술 란에서 설명한, AAC 방식의 양자화 프로세스의 상 세와 마찬가지이므로, 그 상세한 설명을 생략한다. (11) If the total number of bits calculated exceeds the number of bits allowed for the current block, the quantization control unit 416 repeats the processes (8) to (10) so that the quantization unit 413 and the Huffman encoder 414 are repeated. ). In addition, the quantization control unit 416 outputs the quantization code 2 from the Huffman encoder 414 to the bitstream generator 415 when the calculated total number of bits is less than the number of bits allowed for the current block. The quantization controller 415 controls the bitstream generator 415 to output a bitstream. This embodiment realizes quantization. In addition, since the quantization process in this embodiment is the same as the detail of the AAC system quantization process demonstrated in the above-mentioned prior art column, the detailed description is abbreviate | omitted.

또한,본 실시 형태에서는 1프레임을 4개의 단 블록으로 분할하는 경우를 예에 설명했다. 본 발명은 1프레임을 임의인 개수(예를 들면, 8블록)로 분할하는 경우라도 마찬가지로 실현할 수 있다.In this embodiment, the case where one frame is divided into four short blocks has been described in the example. The present invention can be similarly realized even when one frame is divided into an arbitrary number (for example, eight blocks).

이상 설명한 대로, 본 실시 형태는 MDCT 변환 전에 블록 길이를 판정하고 있기 때문에,제1 종래 기술에 비해서 적은 처리량으로 고품질의 오디오 신호의 부호화가 가능하다. 또한,본 실시 형태는 전력 변동비와 예측 이득 변동비를 이용해서 블록 길이의 판정을 행하고 있기 때문에,제2 종래 기술보다도 블록 길이의 판정이 아주 정밀하게 되기 때문에, 제2 종래 기술보다도 고품질의 오디오 신호의 부호화가 가능하다. As described above, in the present embodiment, since the block length is determined before the MDCT conversion, the audio signal of high quality can be encoded with a small throughput compared to the first conventional technology. Further, in the present embodiment, since the block length is determined using the power fluctuation ratio and the predicted gain fluctuation ratio, the block length is more precisely determined than in the second prior art. Coding is possible.

즉, 본 실시 형태는 MDCT 변환 및 심리 청각 분석 전에, 부호화를 행하는 블록 길이를 판정한다. 그 때문에,본 실시 형태는 제1 종래 기술에 비해서 적은 처리량으로 고품질의 부호화가 가능하다. 또한,본 실시 형태는 블록 길이 판정 수단에서, 전력 변동비와 예측 이득 변동비를 이용한다. 그 때문에,본 실시 형태는 제2 종래 기술에 비해서 블록 길이를 정밀도 좋게 판정할 수 있다.In other words, the present embodiment determines the block length for encoding before MDCT transformation and psychoacoustic analysis. Therefore, this embodiment can encode high quality with a small throughput compared with the first prior art. In this embodiment, the block length determining means uses the power fluctuation ratio and the predicted gain fluctuation ratio. For this reason, the present embodiment can accurately determine the block length as compared with the second prior art.

본 실시 형태의 효과에 대해서, 상술한 도 14를 이용해서 더욱 상세히 설명한다. 도 14는 전력 변동비와 예측 이득 변동비의 산출 결과를 나타내는 그래프이다. 도 14의 (a)에 도시되는 입력 신호는, 구간 A에서는 전력 변동비의 값이 0으로 거의 변화되지 않는다(도 14의 (b)). 이에 대해서, 도 14의 (a)에 도시되는 입력 신호는, 구간 A에서는 예측 이득 변동비가 크게 변동되고 있다(도 14의 (c)). The effect of this embodiment is demonstrated in more detail using FIG. 14 mentioned above. 14 is a graph showing the results of calculating the power fluctuation ratio and the predicted gain fluctuation ratio. In the input signal shown in FIG. 14A, the value of the power fluctuation ratio hardly changes to 0 in the section A (FIG. 14B). In contrast, in the input signal shown in FIG. 14A, the predicted gain variation ratio is greatly changed in the section A (FIG. 14C).

본 실시 형태는 전력 변동비와 예측 이득 변동비의 양방을 산출한다. 그리고,본 실시 형태는 전력 변동비와 예측 이득 변동비 중 어느 한쪽이 임계값을 초과한 경우에 단 블록을 선택한다. 그 때문에,본 실시 형태는 도 14에 도시되는 구간 A와 같은 입력 신호에서도 정밀도 좋게 블록 길이를 판정할 수 있다.This embodiment calculates both a power fluctuation ratio and a prediction gain fluctuation ratio. Then, in this embodiment, if either one of the power fluctuation ratio and the predicted gain fluctuation ratio exceeds the threshold, the short block is selected. Therefore, the present embodiment can accurately determine the block length even in an input signal such as the section A shown in FIG.

또한,도 14에 도시되는 구간 B, 구간 C에서는,예측 이득 변동비는 거의 변동되지 않는다. 한편,도 14에 도시되는 구간 B, 구간 C에서는,전력 변동비가 크게 변동된다. 따라서,본 실시 형태는 구간 B, 구간 C에 대해서도 제2 종래 기술 과 마찬가지로 신호의 변화점을 검출할 수 있다. In addition, in the sections B and C shown in Fig. 14, the predicted gain fluctuation ratio is hardly changed. On the other hand, in the sections B and C shown in Fig. 14, the power fluctuation ratio varies greatly. Therefore, the present embodiment can detect the change point of the signal in the sections B and C as in the second conventional technique.

<제2 실시 형태><2nd embodiment>

도 6은 본 발명의 오디오 부호화 장치의 제2 실시 형태의 구성도이다. 본 실시 형태는 제1 실시 형태와 비교해서, 전력 변동비에 대한 임계값 THP와 예측 이득 변동비에 대한 임계값 THG를 동적으로 변화시키는 부분이 서로 다르다. 그 외의 부분은 제1 실시 형태와 공통이므로 설명을 생략한다. 6 is a configuration diagram of a second embodiment of an audio encoding device of the present invention. Compared with the first embodiment, the present embodiment differs from the threshold TH P for the power fluctuation ratio and the portion for dynamically changing the threshold TH G for the predicted gain fluctuation ratio. Since other parts are common to the first embodiment, description thereof is omitted.

일반적으로, 단 블록은 어택(attack)음 등의 급격히 변화되는 부분에서 선택되는 경우가 많다. 어택음은 넓은 주파수 범위에 걸쳐서 MDCT 스펙트럼의 진폭이 크다. 그 때문에,어택음은 부호화하는 경우에 대량의 양자화 비트 수가 필요하게 된다. In general, the short block is often selected from a rapidly changing portion such as an attack sound. Attack sounds have large amplitudes in the MDCT spectrum over a wide frequency range. Therefore, when the attack sound is encoded, a large number of quantized bits is required.

연속해서 단 블록이 선택되면,양자화 비트 수가 부족해서 음질이 극단적으로 열화할 경우가 있다. 그 때문에,저 비트 레이트로 오디오 신호를 부호화하기 위해서는, 되도록 단 블록이 연속해서 선택되지 않도록 제어하는 것이 필요한 경우가 있다. If a short block is selected in succession, the sound quality may be extremely degraded due to insufficient number of quantized bits. Therefore, in order to encode an audio signal at a low bit rate, it may be necessary to control such that short blocks are not selected continuously.

따라서,본 실시 형태에서는,한번, 단 블록이 선택된 경우, 그 후 일정 시간 동안은 임계값 THP와 임계값 THG를 크게 한다. 그 결과, 본 실시 형태에서는,가능한 단 블록이 연속해서 선택되지 않도록 한다. Therefore, in the present embodiment, once a short block is selected, the threshold value TH P and the threshold value TH G are increased for a certain time thereafter. As a result, in this embodiment, the possible short blocks are not selected continuously.

여기서, 본 발명의 오디오 부호화 장치의 제2 실시 형태의 구성에 대해서 설명한다. 본 실시 형태의 구성은 도 6에 도시된다. 그리고,도 6에 도시된 각 블록 중,블록 길이 판정부(607) 및 임계값 결정부(608) 외의 블록의 동작은 도 4에 도시되는 대응하는 각 블록의 동작과 마찬가지이므로, 그 상세한 설명을 생략한다. Here, the configuration of the second embodiment of the audio encoding device of the present invention will be described. The configuration of this embodiment is shown in FIG. Since the operation of blocks other than the block length determining unit 607 and the threshold value determining unit 608 in each block shown in FIG. 6 is the same as that of the corresponding respective block shown in FIG. Omit.

즉, 도 6에 도시된 프레임화부(601)의 동작은 도 4에 도시된 프레임화부(401)의 동작과 마찬가지이고, 전력 산출부(602)의 동작은 도 4에 도시되는 전력 산출부(402)의 동작과 마찬가지이고, 자기 상관 산출부(603)의 동작은 도 4에 도시되는 자기 상관 산출부(403)의 동작과 마찬가지이고, k 파라미터 산출부(604)의 동작은 도 4에 도시되는 k 파라미터 산출부(404)의 동작과 마찬가지이고, 예측 이득 산출부(605)의 동작은 도 4에 도시되는 예측 이득 산출부(405)의 동작과 마찬가지이다. That is, the operation of the framer 601 shown in FIG. 6 is the same as the operation of the framer 401 shown in FIG. 4, and the operation of the power calculator 602 is the power calculator 402 shown in FIG. 4. The operation of the autocorrelation calculation unit 603 is the same as the operation of the autocorrelation calculation unit 403 shown in FIG. 4, and the operation of the k parameter calculation unit 604 is shown in FIG. 4. Similar to the operation of the k parameter calculator 404, the operation of the predictive gain calculator 605 is the same as the operation of the predictive gain calculator 405 shown in FIG.

또한,예측 이득 변동비 산출부(606)의 동작은 도 4에 도시되는 예측 이득 변동비 산출부(406)의 동작과 마찬가지이고, 선택기(609)의 동작은 도 4에 도시되는 선택기(408)의 동작과 마찬가지이고, 장 블록용 MDCT 변환부(610)의 동작은 도 4에 도시되는 장 블록용 MDCT 변환부(409)의 동작과 마찬가지이다. In addition, the operation of the predicted gain variation ratio calculating unit 606 is the same as the operation of the predicted gain variation ratio calculating unit 406 shown in FIG. 4, and the operation of the selector 609 is the operation of the selector 408 shown in FIG. 4. Similarly, the operation of the long block MDCT converter 610 is the same as the operation of the long block MDCT converter 409 shown in FIG.

또한,단 블록용 MDCT 변환부(611)의 동작은 도 4에 도시되는 단 블록용 MDCT 변환부(410)의 동작과 마찬가지이고, 선택기(612)의 동작은 도 4에 도시되는 선택기(411)의 동작과 마찬가지이고, 심리 청각 분석부(613)의 동작은 도 4에 도시되는 심리 청각 분석부(412)의 동작과 마찬가지이고, 양자화부(614)의 동작은 도 4에 도시되는 양자화부(413)의 동작과 마찬가지이고, 허프만 부호화부(615)의 동작은 도 4에 도시되는 허프만 부호화부(414)의 동작과 마찬가지이고, 비트스트림 생성부(616)의 동작은 도 4에 도시되는 비트스트림 생성부(415)의 동작과 마찬가지이고, 양자화 제어부(617)의 동작은 도 4에 도시되는 양자화 제어부(416)의 동작과 마찬가지이다. 또한,도 6에서 점선으로 둘러싸인 범위는 양자화 제어부(617)가 제어 가능한 범위이다. In addition, the operation of the short block MDCT converter 611 is the same as the operation of the short block MDCT converter 410 shown in FIG. 4, and the operation of the selector 612 is the selector 411 shown in FIG. 4. The operation of the psychoacoustic analysis unit 613 is similar to that of the psychoacoustic analysis unit 412 shown in FIG. 4, and the operation of the quantization unit 614 is similar to the operation of the quantization unit ( Similar to the operation of 413, the operation of the Huffman encoder 615 is the same as the operation of the Huffman encoder 414 shown in FIG. 4, and the operation of the bitstream generator 616 is the bit shown in FIG. 4. Similar to the operation of the stream generator 415, the operation of the quantization control unit 617 is the same as the operation of the quantization control unit 416 shown in FIG. 4. In addition, the range enclosed by the dotted line in FIG. 6 is the range which the quantization control part 617 can control.

한편,도 6에 도시되는 블록 길이 판정부(607)는 임계값 결정부(608)에서 결정된 임계값을 수신한다. 또한,블록 길이 판정부(607)는 블록 길이의 판정 결과를 선택기(609), 선택기(612) 및 임계값 결정부(608)에 출력한다. 임계값 결정부(608)는 블록 길이 판정부(607)로부터 출력된 판정 결과에 기초하여 임계값을 결정한다. 즉, 임계값 결정부(608)는 블록 길이 판정부(607)로부터 출력된 판정 결과가 단 블록을 선택하는 판정 결과인 경우에는 증가한 임계값의 값을 출력한다. 또한,블록 길이 판정부(607)는 임계값 결정부(608)로부터 수신한 임계값에 기초하여 판정 처리를 행한다. 임계값이 변동될 수 있다는 점 외에는 블록 길이 판정부(607)에서의 판정 처리는 상술한 도 5에 도시되는 경우와 마찬가지이므로, 그 상세 한 설명을 생략한다. 또한,임계값 결정부(608)는 도 1에 도시되는 산출부(103)의 기능의 일부인 것으로 해도 된다. On the other hand, the block length determination unit 607 shown in FIG. 6 receives the threshold value determined by the threshold value determination unit 608. The block length determination unit 607 further outputs the block length determination result to the selector 609, the selector 612, and the threshold value determination unit 608. The threshold value determination unit 608 determines the threshold value based on the determination result output from the block length determination unit 607. That is, the threshold value determination unit 608 outputs the increased threshold value when the determination result output from the block length determination unit 607 is a determination result of selecting a short block. In addition, the block length determination unit 607 performs the determination processing based on the threshold value received from the threshold determination unit 608. The determination processing in the block length determination unit 607 is the same as the case shown in FIG. 5 described above except that the threshold value can be changed, and thus detailed description thereof is omitted. The threshold value determination unit 608 may be part of the function of the calculation unit 103 shown in FIG. 1.

도 7은 본 발명의 오디오 부호화 장치의 제2 실시 형태의 임계치 결정부에서의 임계값 제어 동작을 나타내는 그래프이다. 도 7에 도시되는 그래프에서는,단 블록이 선택되면, 임계값 THG는 THG+α로 변경된다. 여기서, α>0으로 한다. 마찬가지로, 단 블록이 선택되면,임계값 THP는 THP+β로 변경된다. 여기서, β>0으로 한다. Fig. 7 is a graph showing a threshold value control operation in the threshold value determination unit of the second embodiment of the audio encoding device of the present invention. In the graph shown in FIG. 7, when a block is selected, the threshold value TH G is changed to TH G + α. Here, α> 0. Similarly, if a short block is selected, the threshold value TH P is changed to TH P + β. Here, β> 0.

그 후, 일정 시간 Δt가 경과하면,임계값은 원래의 값(초기값) THG, THp로 변경된다. 즉, 본 실시 형태에서는,한 번, 단 블록이 선택된 경우, 그 후 일정 시간 동안은 임계값 THP와 임계값 THG를 크게 하여, 가능한 단 블록이 연속해서 선택되지 않도록 한다. After that, when the predetermined time Δt elapses, the threshold value is changed to the original value (initial value) TH G , TH p . That is, in the present embodiment, once a short block is selected, the threshold value TH P and the threshold value TH G are increased for a predetermined time thereafter so that the possible short blocks are not selected continuously.

이상, 설명한 대로, 본 실시 형태는 상술한 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 또한,본 실시 형태는 한번 단 블록이 선택된 경우에 그 후 일정 시간 동안은 단 블록이 선택되지 않도록 임계값을 제어한다. 그 때문에,본 실시 형태에서는,연속해서 단 블록이 선택됨으로써 발생하는 음질 열화를 경감할 수 있다.As described above, the present embodiment can obtain the same effects as those of the first embodiment described above. In addition, in this embodiment, when a short block is selected, the threshold value is controlled so that the short block is not selected for a certain time thereafter. Therefore, in this embodiment, the sound quality deterioration which arises by selecting a continuous block continuously can be reduced.

또한,본 실시 형태의 변형예로서, 이하의 방법을 실시할 수도 있다. 이하의 변형예에서도, 상기 본 발명의 오디오 부호화 장치의 제2 실시 형태와 마찬가지의 효과를 얻을 수 있다. In addition, as a modification of this embodiment, the following method can also be implemented. Also in the following modifications, the same effects as in the second embodiment of the audio encoding device of the present invention can be obtained.

(1)본 실시 형태의 변형예는 단 블록이 선택된 후, 일정 시간 동안은 단 블록을 선택하지 않는다.(1) In the modification of this embodiment, after the short block is selected, the short block is not selected for a predetermined time.

(2)본 실시 형태의 변형예는 단 블록이 선택된 후, α 또는 β를 충분히 크게 한다. 단,본 실시 형태의 변형예는 THG 또는 THP 범위를 미리 조사해 둘 필요가 있다. (2) In the modification of the present embodiment, after the block is selected, α or β is sufficiently large. However, in the modification of the present embodiment, it is necessary to examine the TH G or TH P range in advance.

(3)본 실시 형태의 변형예는 단 블록이 선택되고, 임계값이 THG+α 또는 THP+β로 되어 있는 경우에 다시 단 블록이 선택된 경우, 임계값을 THG+α+α 또는 THP+β+β라 한다. 단,본 실시 형태의 변형예는 일정 시간 후에는 임계값을 원래의 값으로 되돌린다. (3) In the modification of the present embodiment, when the short block is selected and the short block is selected again when the threshold value is TH G + α or TH P + β, the threshold value is set to TH G + α + α or TH P + β + β. However, the modified example of this embodiment returns a threshold value to an original value after a fixed time.

<제3 실시 형태>Third Embodiment

다음으로,본 발명의 오디오 부호화 장치의 제3 실시 형태에 대해서 설명한다. 본 실시 형태의 구성은 도 4에 도시되는 제1 실시 형태와 동일하다. 그러나,제3 실시 형태는 예측 이득 변동비를 프레임 단위로 구하는 점이 상술한 제1 실시 형태와는 서로 다르다. 즉, 본 실시 형태에서는,전력을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이러한 1개의 블록의 예측 이득 변동비를 산출한다. Next, a third embodiment of the audio encoding device of the present invention will be described. The structure of this embodiment is the same as that of 1st embodiment shown in FIG. However, the third embodiment differs from the above-described first embodiment in that the prediction gain variation ratio is obtained in units of frames. In other words, in this embodiment, one block is calculated using a predetermined number of power calculating blocks, and the predicted gain variation ratio of the one block is calculated.

제1 실시 형태는 단 블록 마다 LPC 분석을 행한다. 그 때문에,제1 실시 형태는 정밀하게 예측 이득 변동비를 산출할 수 있다. 그러나,제1 실시 형태에서는 LPC 분석의 실행 횟수가 많아지기 때문에 처리량도 증가한다. 본 실시 형태에서는 1개의 블록에 대해서 1회의 LPC 분석을 행한다. 그 때문에,본 실시 형태는 제1 실시 형태에 비하면 연산량을 보다 적게할 수 있다.In the first embodiment, LPC analysis is performed for each block. Therefore, the first embodiment can calculate the predicted gain variation ratio precisely. However, in the first embodiment, since the number of times of performing LPC analysis increases, the throughput also increases. In this embodiment, one LPC analysis is performed for one block. Therefore, this embodiment can reduce the amount of computation as compared with the first embodiment.

도 8은 본 발명의 오디오 부호화 장치의 제3 실시 형태에서, 예측 이득 변동비와 전력 변동비를 구하는 방법의 개념도이다. 제1 실시 형태는 단 블록마다 LPC 분석을 행하여 얻어진 k 파라미터로부터 예측 이득을 구한다. 그리고,제1 실시 형태는 1개 전의 단 블록에서 마찬가지로 하여 구한 예측 이득의 비에 의해서 예측 이득 변동비를 산출한다.8 is a conceptual diagram of a method for obtaining a predicted gain variation ratio and a power variation ratio in the third embodiment of the audio encoding apparatus of the present invention. In the first embodiment, the prediction gain is obtained from the k parameter obtained by performing LPC analysis for each block. In the first embodiment, the predicted gain variation ratio is calculated based on the ratio of the predicted gains obtained in the same manner in one previous block.

이에 대해서, 본 실시 형태는 도8의 (a)에 도시된 바와 같이, 1개의 장 블록(제n 프레임)의 입력 신호에 대해서 LPC 분석을 행하여 k 파라미터를 구한다. 즉, k 파라미터 산출부가 1개의 장 블록(제n 프레임)의 입력 신호에 대해서 LPC 분석을 행하여 k 파라미터를 구한다. 그리고,본 실시 형태는 k 파라미터로부터 예측 이득 G(n)을 산출한다. 다음으로,본 실시 형태는 1개 전의 프레임(제n―1 프레임)에서 마찬가지로 하여 구한 예측 이득 전력 G(n―1)와 G(n)을 이용하여, 다음 식에 의해서 예측 이득 변동비 ΔG(n)를 산출한다. In contrast, in this embodiment, as shown in Fig. 8A, LPC analysis is performed on an input signal of one long block (n-th frame) to obtain a k parameter. In other words, the k parameter calculation unit performs LPC analysis on the input signal of one long block (n-th frame) to obtain the k parameter. In this embodiment, the prediction gain G (n) is calculated from the k parameter. Next, the embodiment using the prediction gain power G (n-1) and G (n) obtained in the same manner as in the one previous frame (the n-1 frame), prediction gain variable costs by the following formula: Δ G ( calculate n).

Figure 112007007725608-pct00006
Figure 112007007725608-pct00006

한편,본 실시 형태는 도 8의 (b)에 도시된 바와 같이, 제1 실시 형태와 마찬가지로,단 블록마다 전력 변동비 Δp(1, 2), Δp(2, 3), Δp(3, 4)를 산출한다. 다음으로,본 실시 형태는 산출된 예측 이득 변동비와 전력 변동비로부터 최적의 블록 길이를 결정한다. 이하, 이 결정 동작에 대해서 설명한다. On the other hand, as the present embodiment is shown in (b) of Figure 8, as in the first embodiment, each short block power variable costs Δ p (1, 2), Δ p (2, 3), Δ p (3 , 4). Next, the present embodiment determines the optimum block length from the calculated predicted gain variation ratio and power variation ratio. This determination operation will be described below.

(1) 블록 길이 판정부는 ΔG(n)가 미리 정해진 임계값 THG보다도 크면 단 블록을 선택한다. (1) Δ G (n) block length determining section is larger than the threshold value TH G predetermined selects the short blocks.

(2) 다음으로,블록 길이 판정부는 Δp(1, 2), Δp(2, 3), Δp(3, 4) 중에서, 하나라도 미리 정해진 임계값 THP보다도 큰 것이 있으면 단 블록을 선택한다. (2) Next, the block length determining section Δ p (1, 2), Δ p (2, 3), Δ p (3, 4) from, only one block, even if there is pre-large determined than the threshold value TH P Choose.

(3) 그리고, 블록 길이 판정부는 (1) 또는 (2) 중 어느 한쪽에서 단 블록이 선택되지 않은 경우에는 장 블록을 선택한다. 본 실시 형태는 블록 길이를 선택 한 후의 구성과 처리 내용은 제1 실시 형태와 공통이다. 그 때문에, 본 실시 형태의 블록 길이를 선택한 후의 구성과 처리 내용에 대해서는 설명을 생략한다. (3) And if the short block is not selected in either (1) or (2), a block length determination part selects a long block. In this embodiment, the configuration and processing contents after the block length is selected are common to the first embodiment. Therefore, description is abbreviate | omitted about the structure and content after selecting the block length of this embodiment.

이상 설명한 대로, 본 실시 형태는 상술한 본 발명의 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 또한,본 실시 형태는 LPC 분석을 장 블록당 1회만 행함으로써, 제1 실시 형태에 비해서 보다 적은 처리량으로 블록 길이를 선택할 수 있다. 단,본 실시 형태에서는 예측 이득을 산출하는 블록으로서, 1프레임의 블록을 이용할 경우에 한정되는 것이 아니라, 전력을 산출하는 블록을 임의의 수만큼 이용하여 1개의 블록으로 하고, 이러한 1개의 블록의 예측 이득을 산출하는 것으로 해도 된다. 이러한 경우라도, 본 실시 형태는 상기한 바와 마찬가지의 효과를 얻을 수 있다. As explained above, this embodiment can acquire the effect similar to 1st embodiment of this invention mentioned above. In addition, in this embodiment, the LPC analysis is performed only once per long block, so that the block length can be selected with a smaller throughput than in the first embodiment. However, in the present embodiment, the block for calculating the prediction gain is not limited to the case of using a block of one frame, and the block for calculating the power is used as an arbitrary number of blocks. The prediction gain may be calculated. Even in such a case, the present embodiment can obtain the same effects as described above.

<제4 실시 형태><4th embodiment>

다음으로,본 발명의 오디오 부호화 장치의 제4 실시 형태에 대해서 설명한다. 본 실시 형태의 구성은 제1 실시 형태의 구성과 같다. 그러나,본 실시 형태는 1프레임을 8개의 블록으로 분할해서 행하는 전력 변동비의 계산 방법이 제1 실시 형태와 서로 다르다. 즉, 본 실시 형태는 예측 이득을 산출하는 블록을 소정 수 이용하여 1개의 블록으로 하고, 이러한 1개의 블록의 전력 변동비를 산출한다.Next, a fourth embodiment of the audio encoding device of the present invention will be described. The configuration of this embodiment is the same as that of the first embodiment. However, the present embodiment differs from the first embodiment in the method of calculating the power fluctuation ratio which is performed by dividing one frame into eight blocks. That is, in this embodiment, one block is calculated using a predetermined number of blocks for calculating the prediction gain, and the power fluctuation ratio of one such block is calculated.

도 9는 본 발명의 오디오 부호화 장치의 제 4 실시 형태에서의 전력 변동비의 산출 방법을 나타내는 개념도이다. 도 9에 도시된 바와 같이, 본 실시 형태는 1프레임을 8개의 단 블록으로 분할하고, 전력 변동비를 계산한다. 단,본 실시 형태는 제1 실시 형태와 같이 1개의 단 블록 당 1개의 전력 변동비를 구하는 것이 아니다. 9 is a conceptual diagram illustrating a method for calculating a power fluctuation ratio in a fourth embodiment of an audio encoding device of the present invention. As shown in Fig. 9, the present embodiment divides one frame into eight short blocks and calculates a power fluctuation ratio. However, this embodiment does not calculate the power fluctuation ratio per one block as in the first embodiment.

즉, 본 실시 형태는 인접하는 복수의 단 블록으로부터 전력 변동비를 구하는 점이 제1 실시 형태와 서로 다르다.본 실시 형태의 전력 변동비의 산출 방법을 이하에 기재한다. In other words, the present embodiment differs from the first embodiment in that the power variation ratio is obtained from a plurality of adjacent single blocks. The calculation method of the power variation ratio of the present embodiment is described below.

본 실시 형태에서는,제1 및 제2 단 블록으로부터 전력 P(1)을 구한다. 또한,본 실시 형태는 제3 및 제4 단 블록으로부터 전력 P(2)를 구한다. 또한, 본 실시 형태는 제5 및 제6 단 블록으로부터 전력 P(3)을 구한다. 또한,본 실시 형태는 제7 및 제8 단 블록으로부터 전력 P(4)를 구한다. In this embodiment, the power P (1) is obtained from the first and second end blocks. In this embodiment, the power P (2) is obtained from the third and fourth end blocks. In this embodiment, the power P (3) is obtained from the fifth and sixth end blocks. In this embodiment, the power P (4) is obtained from the seventh and eighth end blocks.

다음으로,본 실시 형태는 P(1)과 P(2)로부터 전력 변동비ΔP(1, 2)를 구한다. 또한,본 실시 형태는 P(2)와 P(3)으로부터 전력 변동비 ΔP(2, 3)을 구한다. 또한,본 실시 형태는 P(3)과 P(4)로부터 전력 변동비ΔP(3, 4)를 구한다. Next, the present embodiment calculates the power variable costs Δ P (1, 2) from P (1) and P (2). In addition, this embodiment calculates a power variable costs Δ P (2, 3) from P (2) and P (3). In addition, the present embodiment calculates the power variable costs Δ P (3, 4) from the P (3) and P (4).

상기한 바와 같이, 본 실시 형태는 2개의 단 블록의 전력을 구하는 점이 제1 실시 형태와는 서로 다르다. 즉, 제1 실시 형태에서는,예측 이득 변동비가 8개, 전력 변동비가 8개 계산되는 것에 비하여, 본 실시 형태에서는,예측 이득 변동비가 8개, 전력 변동비가 4개밖에 계산되지 않는다. 즉, 본 실시 형태에서는,1프레임 내에서 산출하는 예측 이득 변동비와 전력 변동비 수가 달라도 된다. 본 실시 형태의 상술한 부분 이외에 대해서는 제1 실시 형태와 동일하므로, 설명을 생략한다. As described above, the present embodiment differs from the first embodiment in that power of two short blocks is obtained. In other words, in the first embodiment, eight prediction gain variation ratios and eight power variation ratios are calculated. In this embodiment, only eight prediction gain variation ratios and four power variation ratios are calculated. That is, in this embodiment, the number of prediction gain fluctuation ratios and power fluctuation ratios calculated within one frame may be different. Since it is the same as that of 1st Embodiment except the above-mentioned part of this embodiment, description is abbreviate | omitted.

이처럼, 본 실시 형태는 상술의 본 발명의 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 또한,본 실시 형태는 2개의 단 블록의 전력을 구함으로써, 전력의 산출 처리의 계산량을 제1 실시 형태에 비해서 경감할 수 있다. 또한,본 실시 형태는 전력을 산출하는 블록으로서, 단 블록 2개를 이용하는 경우에 한정되지 않고, 3개 이상의 임의의 수의 단 블록을 이용해서 전력을 산출할 수도 있다. 이 경우에도 상기의 효과와 마찬가지의 효과를 얻을 수 있다. Thus, this embodiment can acquire the effect similar to the 1st Embodiment of this invention mentioned above. In addition, in this embodiment, by calculating the power of two short blocks, the calculation amount of the power calculation process can be reduced as compared with the first embodiment. In addition, this embodiment is a block which calculates electric power, It is not limited to using two single blocks, You can calculate electric power using three or more arbitrary numbers of short blocks. Also in this case, an effect similar to the above effect can be obtained.

Claims (14)

입력 신호에 기초하여 전력 변동비를 산출하는 전력 산출 수단; Power calculating means for calculating a power fluctuation ratio based on an input signal; 상기 입력 신호에 기초하여 예측 이득 변동비를 산출하는 산출 수단; Calculating means for calculating a predicted gain variation ratio based on the input signal; 상기 전력 변동비 및 상기 예측 이득 변동비에 기초하여, 입력 신호를 각각이 소정의 샘플 수로 이루어지는 프레임들로 분할하고 상기 프레임들의 각각을 부호화하는 장(長) 블록 모드를 이용한 부호화와, 상기 프레임들의 각각을 단(短) 블록들로 분할하고 상기 단 블록들의 각각을 부호화하는 단 블록 모드를 이용한 부호화 중 하나를 선택하는 블록 길이 판정 수단; 및 Based on the power fluctuation ratio and the predicted gain fluctuation ratio, encoding using a long block mode for dividing an input signal into frames each consisting of a predetermined number of samples and encoding each of the frames; Block length determining means for dividing into short blocks and selecting one of encoding using a short block mode for encoding each of the short blocks; And 부호화할 때에 상기 블록 길이 판정 수단에 의해 이용되는 블록 길이를 판정하기 위한 임계값을, 상기 블록 길이 판정 수단의 선택 결과에 따라 변화시키는 임계값 결정 수단Threshold determination means for changing a threshold value for determining the block length used by the block length determination means at the time of encoding according to the selection result of the block length determination means. 을 포함하며, Including; 상기 블록 길이 판정 수단은, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 미리 정해진 임계값보다 큰 경우에 단 블록 모드를 이용한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 상기 미리 정해진 임계값보다 큰 경우 이외의 경우에는 장 블록 모드를 이용한 부호화를 선택하는 오디오 부호화 장치. The block length determining means selects coding using the short block mode when any one of the power fluctuation ratio and the predictive gain fluctuation ratio is larger than a predetermined threshold value, and one of the power fluctuation ratio and the predictive gain fluctuation ratio is The audio encoding apparatus which selects the coding using the long block mode except when it is larger than a predetermined threshold. 제1항에 있어서, The method of claim 1, 상기 임계값 결정 수단은, The threshold value determining means, 상기 블록 길이 판정 수단의 선택 결과가 상기 단 블록 모드를 이용한 부호화의 선택을 나타내는 경우에 상기 임계값을 초기값보다도 큰 값으로 설정하는 오디오 부호화 장치. And the threshold value is set to a value larger than an initial value when the selection result of the block length determination means indicates the selection of the encoding using the short block mode. 제1항에 있어서, The method of claim 1, 상기 산출 수단은, The calculating means, 각각이 전력을 산출하는 상기 전력 산출 수단에 의해 이용되는 소정수의 블록들의 조합인 단일 블록의 상기 예측 이득 변동비를 산출하는 오디오 부호화 장치. And an audio encoding apparatus for calculating the predicted gain variation ratio of a single block, each of which is a combination of a predetermined number of blocks used by the power calculating means for calculating power. 제1항에 있어서, The method of claim 1, 상기 전력 산출 수단은, The power calculation means, 각각이 예측 이득을 산출하는 상기 산출 수단에 의해 이용되는 소정수의 블록들의 조합인 단일 블록의 상기 전력 변동비를 산출하는 오디오 부호화 장치. An audio encoding apparatus for calculating the power variation ratio of a single block, each of which is a combination of a predetermined number of blocks used by the calculating means for calculating a prediction gain. 입력 신호에 기초하여 전력 변동비를 산출하는 전력 산출 수단; Power calculating means for calculating a power fluctuation ratio based on an input signal; 상기 입력 신호에 기초하여 예측 이득 변동비를 산출하는 산출 수단; Calculating means for calculating a predicted gain variation ratio based on the input signal; 상기 전력 변동비 및 상기 예측 이득 변동비에 기초하여, 입력 신호를 각각이 소정의 샘플 수로 이루어지는 프레임들로 분할하고 상기 프레임들의 각각을 부호화하는 장 블록 모드를 이용한 부호화와, 상기 프레임들의 각각을 단 블록들로 분할하고 상기 단 블록들의 각각을 부호화하는 단 블록 모드를 이용한 부호화 중 하나를 선택하는 블록 길이 판정 수단;Based on the power fluctuation ratio and the prediction gain fluctuation ratio, encoding using a long block mode for dividing an input signal into frames each consisting of a predetermined number of samples and encoding each of the frames, and blocks each of the frames Block length determining means for dividing into and selecting one of encodings using a short block mode for encoding each of the short blocks; 부호화할 때에 상기 블록 길이 판정 수단에 의해 이용되는 블록 길이를 판정하기 위한 임계값을, 상기 블록 길이 판정 수단의 선택 결과에 따라 변화시키는 임계값 결정 수단; Threshold value determining means for changing a threshold value for determining the block length used by said block length determination means at the time of encoding according to a selection result of said block length determination means; 상기 블록 길이 판정 수단이 장 블록 모드를 이용한 부호화를 선택하는 경우에는, 장 블록 단위로 상기 입력 신호를 변형 이산 코사인 변환(modified discrete cosine transform)함으로써 제1 계수를 구하는 제1 변환 수단;A first transforming means for obtaining a first coefficient by performing a modified discrete cosine transform on the input signal in units of long blocks when the block length determining means selects encoding using a long block mode; 상기 블록 길이 판정 수단이 단 블록 모드를 이용한 부호화를 선택하는 경우에는, 단 블록 단위로 상기 입력 신호를 변형 이산 코사인 변환함으로써 제2 계수를 구하는 제2 변환 수단;Second conversion means for obtaining a second coefficient by transforming discrete input cosine transforming the input signal in units of short blocks when the block length determining means selects encoding using a short block mode; 상기 블록 길이 판정 수단의 선택 결과에 따라, 상기 제1 계수 및 상기 제2 계수 중 하나를 제3 계수로서 선택하는 선택 수단;Selecting means for selecting one of the first coefficient and the second coefficient as a third coefficient according to a selection result of the block length determining means; 상기 입력 신호로부터 마스킹 임계값을 구하는 심리 청각 분석 수단;Psychoacoustic analysis means for obtaining a masking threshold value from the input signal; 상기 마스킹 임계값에 따라 상기 제3 계수를 스펙트럼 양자화함으로써 제1 부호를 구하는 양자화 수단;Quantization means for obtaining a first code by spectral quantizing the third coefficient according to the masking threshold; 상기 제1 부호를 허프만 부호화함으로써 제2 부호를 구하는 허프만 부호화 수단;Huffman coding means for obtaining a second code by Huffman coding the first code; 상기 제2 부호로부터, 출력되는 비트스트림을 구성하는 총 비트 수를 계산하고, 상기 총 비트 수의 계산 결과에 기초하여 비트스트림의 출력을 지시하는 양자화 제어 수단; 및Quantization control means for calculating the total number of bits constituting the output bitstream from the second code, and instructing the output of the bitstream based on the calculation result of the total number of bits; And 상기 제2 부호로부터 비트스트림을 생성하고, 상기 양자화 제어 수단의 지시에 기초하여 상기 비트스트림을 출력하는 비트스트림 생성 수단Bitstream generating means for generating a bitstream from the second code and outputting the bitstream based on an instruction of the quantization control means 을 포함하며, Including; 상기 블록 길이 판정 수단은, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 미리 정해진 임계값보다 큰 경우에 단 블록 모드의 이용에 기초한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 상기 미리 정해진 임계값보다 큰 경우 이외의 경우에는 장 블록 모드의 이용에 기초한 부호화를 선택하는 오디오 부호화 장치. The block length determining means selects an encoding based on use of the short block mode when any one of the power fluctuation ratio and the prediction gain fluctuation ratio is larger than a predetermined threshold, and selects any one of the power fluctuation ratio and the prediction gain fluctuation ratio. Audio encoding apparatus for selecting encoding based on the use of the long block mode when is not larger than the predetermined threshold. 입력 신호에 기초하여 전력 변동비를 산출하는 전력 산출 단계; Calculating a power fluctuation ratio based on the input signal; 상기 입력 신호에 기초하여 예측 이득 변동비를 산출하는 산출 단계; Calculating a predicted gain variation ratio based on the input signal; 상기 전력 변동비 및 상기 예측 이득 변동비에 기초하여, 입력 신호를 각각이 소정의 샘플 수로 이루어지는 프레임들로 분할하고 해당 프레임들의 각각을 부호화하는 장 블록 모드를 이용한 부호화와, 상기 프레임들의 각각을 단 블록들로 분할하고 상기 단 블록들의 각각을 부호화하는 단 블록 모드를 이용한 부호화 중 하나를 선택하는 블록 길이 판정 단계; 및 Based on the power fluctuation ratio and the prediction gain fluctuation ratio, encoding using a long block mode for dividing an input signal into frames each consisting of a predetermined number of samples and encoding each of the frames, and blocks each of the frames. A block length determining step of dividing into and selecting one of encodings using a short block mode for encoding each of the short blocks; And 부호화할 때에 상기 블록 길이 판정 단계에서 이용되는 블록 길이를 판정하기 위한 임계값을, 상기 블록 길이 판정 단계의 선택 결과에 따라 변화시키는 임계값 결정 단계A threshold value determining step of changing a threshold value for determining the block length used in the block length determining step in accordance with a selection result of the block length determining step when encoding; 를 포함하며,Including; 상기 블록 길이 판정 단계는, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 미리 정해진 임계값보다 큰 경우에 단 블록 모드를 이용한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 상기 미리 정해진 임계값보다 큰 경우 이외의 경우에는 장 블록 모드를 이용한 부호화를 선택하는 오디오 부호화 방법. In the block length determination step, when any one of the power fluctuation ratio and the predictive gain fluctuation ratio is greater than a predetermined threshold value, encoding is selected using the short block mode, and one of the power fluctuation ratio and the predictive gain fluctuation ratio is An audio encoding method for selecting encoding using a long block mode when it is not larger than a predetermined threshold. 입력 신호에 기초하여 전력 변동비를 산출하는 전력 산출 단계; Calculating a power fluctuation ratio based on the input signal; 상기 입력 신호에 기초하여 예측 이득 변동비를 산출하는 산출 단계; Calculating a predicted gain variation ratio based on the input signal; 상기 전력 변동비 및 상기 예측 이득 변동비에 기초하여, 입력 신호를 각각이 소정의 샘플 수로 이루어지는 프레임들로 분할하고 상기 프레임들의 각각을 부호화하는 장 블록 모드를 이용한 부호화와, 상기 프레임들의 각각을 단 블록들로 분할하고 상기 단 블록들의 각각을 부호화하는 단 블록 모드를 이용한 부호화 중 하나를 선택하는 블록 길이 판정 단계;Based on the power fluctuation ratio and the prediction gain fluctuation ratio, encoding using a long block mode for dividing an input signal into frames each consisting of a predetermined number of samples and encoding each of the frames, and blocks each of the frames A block length determining step of dividing into and selecting one of encodings using a short block mode for encoding each of the short blocks; 부호화할 때에 상기 블록 길이 판정 단계에서 이용되는 블록 길이를 판정하기 위한 임계값을, 상기 블록 길이 판정 단계의 선택 결과에 따라 변화시키는 임계값 결정 단계; A threshold value determining step of changing a threshold value for determining the block length used in the block length determining step when encoding, according to a selection result of the block length determining step; 상기 블록 길이 판정 단계에서 장 블록 모드를 이용한 부호화가 선택되는 경우에는, 장 블록 단위로 상기 입력 신호를 변형 이산 코사인 변환함으로써 제1 계수를 구하는 제1 변환 단계;A first transforming step of obtaining a first coefficient by performing transformed discrete cosine transforming the input signal on a long block basis when encoding using a long block mode is selected in the block length determining step; 상기 블록 길이 판정 단계에서 단 블록 모드를 이용한 부호화가 선택되는 경우에는, 단 블록 단위로 상기 입력 신호를 변형 이산 코사인 변환함으로써 제2 계수를 구하는 제2 변환 단계;A second transforming step of obtaining a second coefficient by transforming discrete cosine transforming the input signal in units of short blocks when encoding using a short block mode is selected in the block length determining step; 상기 블록 길이 판정 단계의 선택 결과에 따라, 상기 제1 계수 및 상기 제2 계수 중 하나를 제3 계수로서 선택하는 선택 단계;A selecting step of selecting one of the first coefficient and the second coefficient as a third coefficient according to a selection result of the block length determining step; 상기 입력 신호로부터 마스킹 임계값을 구하는 심리 청각 분석 단계;Psychoacoustic analysis step of obtaining a masking threshold value from the input signal; 상기 마스킹 임계값에 따라 상기 제3 계수를 스펙트럼 양자화함으로써 제1 부호를 구하는 양자화 단계;A quantization step of obtaining a first code by spectral quantizing the third coefficient according to the masking threshold; 상기 제1 부호를 허프만 부호화함으로써 제2 부호를 구하는 허프만 부호화 단계;A Huffman encoding step of obtaining a second code by Huffman encoding the first code; 상기 제2 부호로부터, 출력되는 비트스트림을 구성하는 총 비트 수를 계산하고, 상기 총 비트 수의 계산 결과에 기초하여 비트스트림의 출력을 지시하는 양자화 제어 단계; 및A quantization control step of calculating a total number of bits constituting the output bitstream from the second code and indicating an output of the bitstream based on a result of the calculation of the total number of bits; And 상기 제2 부호로부터 비트스트림을 생성하고, 상기 양자화 제어 단계에서의 지시에 기초하여 상기 비트스트림을 출력하는 비트스트림 생성 단계A bitstream generation step of generating a bitstream from the second code and outputting the bitstream based on an instruction in the quantization control step 를 포함하며,Including; 상기 블록 길이 판정 단계는, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 미리 정해진 임계값보다 큰 경우에 단 블록 모드의 이용에 기초한 부호화를 선택하고, 상기 전력 변동비 및 상기 예측 이득 변동비 중 어느 하나가 상기 미리 정해진 임계값보다 큰 경우 이외의 경우에는 장 블록 모드의 이용에 기초한 부호화를 선택하는 오디오 부호화 방법. In the block length determination step, when any one of the power fluctuation ratio and the prediction gain fluctuation ratio is greater than a predetermined threshold value, the encoding is selected based on use of the short block mode, and any one of the power fluctuation ratio and the prediction gain fluctuation ratio is selected. Audio encoding method for selecting encoding based on the use of the long block mode when is not larger than the case where the predetermined threshold value is larger than the predetermined threshold value. 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020077001898A 2007-01-25 2004-07-22 Audio encoding apparatus and audio encoding method KR100880995B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020077001898A KR100880995B1 (en) 2007-01-25 2004-07-22 Audio encoding apparatus and audio encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020077001898A KR100880995B1 (en) 2007-01-25 2004-07-22 Audio encoding apparatus and audio encoding method

Publications (2)

Publication Number Publication Date
KR20070030926A KR20070030926A (en) 2007-03-16
KR100880995B1 true KR100880995B1 (en) 2009-02-03

Family

ID=41346225

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077001898A KR100880995B1 (en) 2007-01-25 2004-07-22 Audio encoding apparatus and audio encoding method

Country Status (1)

Country Link
KR (1) KR100880995B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102160114B (en) * 2008-09-17 2012-08-29 法国电信公司 Method and device of pre-echo attenuation in a digital audio signal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003232400A (en) 2001-11-26 2003-08-22 Chao Chii Lee Seismic isolation bearing
JP2004054156A (en) 2002-07-24 2004-02-19 Victor Co Of Japan Ltd Method and device for encoding sound signal
US20040117175A1 (en) 2002-10-29 2004-06-17 Chu Wai C. Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003232400A (en) 2001-11-26 2003-08-22 Chao Chii Lee Seismic isolation bearing
JP2004054156A (en) 2002-07-24 2004-02-19 Victor Co Of Japan Ltd Method and device for encoding sound signal
US20040117175A1 (en) 2002-10-29 2004-06-17 Chu Wai C. Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The Multimode Transform Predictive Coding Paradigm, IEEE Trans. on Speech and Audio Processing, Vol.11, No.2, 2003.03.31.*

Also Published As

Publication number Publication date
KR20070030926A (en) 2007-03-16

Similar Documents

Publication Publication Date Title
EP3246918B1 (en) Audio decoder, method for decoding an audio signal and computer program
EP0966793B1 (en) Audio coding method and apparatus
US9361900B2 (en) Encoding device and method, decoding device and method, and program
KR100814673B1 (en) audio coding
RU2670797C9 (en) Method and apparatus for generating from a coefficient domain representation of hoa signals a mixed spatial/coefficient domain representation of said hoa signals
KR100840439B1 (en) Audio coding apparatus and audio decoding apparatus
US20140200899A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
JP5583881B2 (en) Audio signal conversion method and conversion apparatus, audio signal adaptive encoding method and adaptive encoding apparatus
KR20080025399A (en) Selectively using multiple entropy models in adaptive coding and decoding
US20070118368A1 (en) Audio encoding apparatus and audio encoding method
US20070168186A1 (en) Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method
KR20160060085A (en) Coding of spectral coefficients of a spectrum of an audio signal
RU2505921C2 (en) Method and apparatus for encoding and decoding audio signals (versions)
JP2003015694A (en) Device and method for converting bit rate
KR20060114002A (en) Audio encoding
EP1668462A2 (en) A fast codebook selection method in audio encoding
KR100880995B1 (en) Audio encoding apparatus and audio encoding method
JP4699117B2 (en) A signal encoding device, a signal decoding device, a signal encoding method, and a signal decoding method.
JP2003233397A (en) Device, program, and data transmission device for audio encoding
JP2001154698A (en) Audio encoding device and its method
JP2010078964A (en) Operation device and method, quantization device and method, and program
JPH08160998A (en) Voice encoding device
JP4273062B2 (en) Encoding method, encoding apparatus, decoding method, and decoding apparatus
KR100827458B1 (en) Method for audio signal coding
JPS6333025A (en) Sound encoding method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee