KR20080112000A - Encoding and decoding using the resemblance of a tonality - Google Patents
Encoding and decoding using the resemblance of a tonality Download PDFInfo
- Publication number
- KR20080112000A KR20080112000A KR1020070060666A KR20070060666A KR20080112000A KR 20080112000 A KR20080112000 A KR 20080112000A KR 1020070060666 A KR1020070060666 A KR 1020070060666A KR 20070060666 A KR20070060666 A KR 20070060666A KR 20080112000 A KR20080112000 A KR 20080112000A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- frame
- decoding
- difference
- past frame
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012856 packing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 abstract description 5
- 238000007906 compression Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 241001342895 Chorus Species 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
도 1은 본 발명의 일실시예에 의한 부호화 장치의 구성이 도시된 블록도,1 is a block diagram showing a configuration of an encoding apparatus according to an embodiment of the present invention;
도 2는 본 발명의 일실시예에 의한 부호화 장치에서 생성되는 비트스트림의 형태가 도시된 도,2 is a diagram illustrating a form of a bitstream generated by an encoding apparatus according to an embodiment of the present invention.
도 3은 도 1의 부호화 장치 중 음색특성 추출부의 구성이 도시된 블록도,FIG. 3 is a block diagram illustrating a configuration of a tone characteristic extracting unit of the encoding apparatus of FIG. 1;
도 4는 도 3의 필터부를 구성하는 밴드패스 필터의 센터주파수를 도시된 매트릭스,4 is a matrix showing the center frequency of the bandpass filter constituting the filter of FIG.
도 5는 본 발명의 일실시예에 의한 복호화 장치의 구성이 도시된 블록도이다.5 is a block diagram showing the configuration of a decoding apparatus according to an embodiment of the present invention.
본 발명은 신호의 부호화/복호화 방법 및 장치에 관한 것으로, 더욱 상세하게는 반복되는 음색의 유사성을 활용하여 신호를 압축하여 비트스트림 데이터량을 감소시킬 수 있는 부호화/복호화 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for encoding / decoding a signal. More particularly, the present invention relates to a method and apparatus for encoding / decoding which can reduce the amount of bitstream data by compressing a signal by using similarities of repeated tones.
일반적으로 오디오 신호의 부호화에서는 심리음향적인 측면에서 신호를 압축 한다. 오디오 신호를 주파수별로 분석한 후, 각 주파수별 에너지 크기를 비교하여 가청주파수 내에 존재하지 않는 신호 또는 마스킹 효과로 인해 인식할 수 없는 신호를 생략하는 방법이다. In general, in encoding an audio signal, a signal is compressed in a psychoacoustic aspect. After analyzing the audio signal for each frequency, the method compares the energy level of each frequency and omits a signal that does not exist within the audible frequency or a signal that cannot be recognized due to a masking effect.
그러나, 대부분의 음악은 반복되는 과정을 가지고 있음에도 기존의 압축방법에서는 그 해당 프레임의 정보만 사용하여 부호화를 수행한다. 따라서, 실질적으로 반복되는 음악의 경우에도 각기 독립적으로 표현된다. However, even though most music has a repetitive process, the existing compression method performs encoding using only the information of the corresponding frame. Therefore, even in the case of substantially repeated music, each is represented independently.
따라서, 신호의 압축에 한계가 있다.Therefore, there is a limit to the compression of the signal.
본 발명은 반복되는 오디오 신호의 경우 과거 오디오 신호의 부호화/복호화 정보를 활용하도록 하여 신호의 압축률을 증가시킬 수 있는 부호화/복호화 방법 및 장치를 제공하는 것을 목적으로 한다. An object of the present invention is to provide an encoding / decoding method and apparatus capable of increasing the compression ratio of a signal by using encoding / decoding information of a past audio signal in the case of a repeated audio signal.
상술한 바와 같은 기술적 과제를 해결하기 위한 본 발명에 의한 복호화 방법은 오디오 신호 복호화 방법에 있어서, 입력되는 비트스트림에 포함된 현재 프레임이 과거 프레임 디코딩 정보를 참조하는 경우, 참조되는 과거 프레임 정보와, 현재 프레임 및 상기 참조되는 과거 프레임의 차이에 관한 차이정보를 추출하는 단계, 상기 추출된 과거 프레임 정보에 해당하는 상기 과거 프레임의 디코딩 정보를 참조하는 단계, 및 상기 참조된 디코딩 정보를 상기 추출된 차이정보에 따라 보상하는 단계를 포함하는 것을 특징으로 한다.The decoding method according to the present invention for solving the technical problem as described above, in the audio signal decoding method, when the current frame included in the input bitstream refers to the past frame decoding information, the past frame information to be referred to, Extracting difference information about a difference between a current frame and the referenced past frame, referring to decoding information of the past frame corresponding to the extracted past frame information, and extracting the referenced decoding information from the extracted difference Compensating according to the information.
상술한 바와 같은 기술적 과제를 해결하기 위한 본 발명에 의한 부호화 방법 은 오디오 신호 부호화 방법에 있어서, 입력 신호에 포함된 현재 프레임과 과거 프레임의 차이정보를 산출하는 단계, 및 상기 차이정보의 값이 설정된 임계치 이하인 경우, 상기 과거 프레임 정보와 상기 차이정보를 이용하여 비트스트림을 생성하는 단계를 포함하는 것을 특징으로 한다.The encoding method according to the present invention for solving the technical problem as described above, in the audio signal encoding method, calculating the difference information between the current frame and the past frame included in the input signal, and the value of the difference information is set If it is less than the threshold value, characterized in that it comprises the step of generating a bitstream using the past frame information and the difference information.
상술한 바와 같은 기술적 과제를 해결하기 위한 본 발명에 의한 복호화 장치는 프레임별 디코딩 정보가 저장되는 저장부, 입력되는 비트스트림에 포함된 현재 프레임이 과거 프레임의 디코딩 정보를 참조하는 경우 해당 과거 프레임과의 차이정보를 추출하는 비트언팩킹부, 및 상기 과거 프레임의 디코딩 정보를 상기 추출된 차이정보에 따라 보상하여 오디오 신호를 생성하는 차이정보 보상부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a decoding apparatus including a storage unit for storing decoding information for each frame, and a corresponding past frame when a current frame included in an input bitstream refers to decoding information of a past frame. And a bit information unpacking unit for extracting the difference information of the difference information, and a difference information compensation unit for generating an audio signal by compensating the decoding information of the past frame according to the extracted difference information.
상술한 바와 같은 기술적 과제를 해결하기 위한 본 발명에 의한 부호화 장치는 과거 입력된 프레임의 음색특성이 저장되는 저장부, 입력되는 신호에 포함된 현재 프레임의 음색특성과 상기 저장부에 과거 프레임 음색특성과 차이정보를 산출하고, 산출된 차이정보가 임계치 이하인 경우 해당 과거 프레임 정보와 차이정보를 출력하는 음색특성 추출부, 및 상기 과거 프레임 정보와 상기 차이정보를 이용하여 비트스트림을 생성하는 비트팩킹부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a coding apparatus including: a storage unit storing timbre characteristics of a past input frame, a timbre characteristic of a current frame included in an input signal, and a past frame timbre characteristic of the storage unit And difference information, and if the calculated difference information is less than or equal to a threshold value, a tone feature extraction unit for outputting corresponding past frame information and difference information, and a bit packing unit for generating a bitstream using the past frame information and the difference information. It is characterized by including.
상기 본 발명에 의한 부호화/복호화 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.The encoding / decoding method according to the present invention may preferably be implemented as a computer-readable recording medium having recorded thereon a program for execution on a computer.
상기 본 발명에 의한 부호화/복호화 장치는 바람직하게는 멀티 미디어 방송 장치로 구현할 수 있다.The encoding / decoding apparatus according to the present invention may preferably be implemented as a multimedia broadcasting apparatus.
이하에서는 도면을 참조하여 본 발명에 따른 신호의 부호화/복호화 방법 및 장치에 대해 상세하게 설명한다.Hereinafter, a method and apparatus for encoding / decoding a signal according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 오디오 신호 부호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 부호화 장치는 인코더(10), 음색특성 추출부(20), 음색 데이터베이스(30), 비트팩킹부(40)를 포함하여 이루어진다.1 is a block diagram showing an embodiment of the configuration of an audio signal encoding apparatus according to the present invention. The encoding apparatus shown in FIG. 1 includes an
오디오 신호가 주어진 경우 이를 프레임으로 나누어 심리음향적인 측면에서 인코딩을 수행한다. 예를 들어, 아날로그 신호인 입력된 오디오 신호를 구현하고자 하는 음질 또는 전송률에 따라 샘플링한 후, 샘플링된 데이터를 양자화한다. 양자화된 신호들은 전송 시에 잡음에 매우 민감하므로 전송 및 처리에 적합하도록 부호화한다. If an audio signal is given, it is divided into frames and encoded in a psychoacoustic aspect. For example, the sampled data is sampled according to a sound quality or a transmission rate to implement an input audio signal, which is an analog signal, and then quantized. Quantized signals are very sensitive to noise during transmission, so they are coded for transmission and processing.
도 1의 인코더(10)는 입력된 오디오 신호의 샘플링, 양자화, 부호화를 수행하는 바, 가변장 부호화 또는 엔트로피 부호화 방식을 통해 오디오 신호를 압축한다. MPEG 오디오인 경우, 신호를 주파수 성분으로 나누고 각 서브밴드의 부호화를 수행한다. 각 서브밴드마다 양자화 단계에서 스케일 팩터 및 양자화 스텝을 조정하고, 조정과정에서 양자화 잡음이 최소가청한계 이하가 되도록 청각심리 부호화를 수행한다. The
이때, 음색특성 추출부(20)는 입력된 오디오 신호의 음색특성을 추출하고, 추출된 음색특성이 과거 입력된 오디오 신호의 음색특성과 얼마나 유사한지 비교한다. At this time, the timbre
음색 데이터베이스(30)는 음색특성 추출부(20)에서 추출된 오디오 신호의 음 색특성에 관한 정보가 저장된 데이터베이스이다. 따라서, 음색특성 추출부(20)는 입력된 오디오 신호의 음색특성을 추출하면 추출된 음색특성 정보를 음색 데이터베이스(30)에 저장한다. 또한, 음색특성 추출부(20)는 추출된 음색특성 정보가 음색 데이터베이스(30)에 저장된 과거 입력 오디오 신호의 음색특성과 얼마나 유사한지 판단한다. The
일반적으로 음색특성 비교는 프레임 단위로 이루어질 수 있으며, 이하 사용되는 프레임이란 용어는 소정 시간동안 재생 가능한 오디오 신호 단위를 포함하는 개념이다. 이는 음색특성 반복은 오디오의 경우 후렴구에서 찾아볼 수 있기 때문이다. 즉, 오디오는 일정 시간 간격으로 소정 시간동안 재생되는 복수개의 후렴구로 이루어지는 것이 일반적이다. In general, the comparison of the tone characteristics may be performed in units of frames, and the term “frame” used below is a concept including an audio signal unit that can be reproduced for a predetermined time. This is because the repetition of tone characteristics can be found in the chorus. In other words, the audio is generally composed of a plurality of choruses that are reproduced for a predetermined time at regular time intervals.
음색(Timbre, Tonality)은 본 발명에서는 각 프레임을 구성하는 음원의 음높이나 각 음 사이의 상대적인 크기 또는 진동방법에 관한 특성을 의미한다. 일반적으로 음색이란 음의 성분 차이에서 생기는 감각적 특성을 의미하는 바, 본 발명에서는 심리음향적으로 음에 대한 느낌에 영향을 줄 수 있는 특성들을 프레임 단위로 추출하고 그 유사성을 비교한다. 음색은 동일한 음높이를 가지는 음이라고 하더라도 그 배음 성분의 구조와 각 주파수 성분의 에너지 비율의 차이에 영향을 받는다. 예를 들어 A4=440Hz인 표준음계의 음을 연주하는 경우라 하더라도, 880Hz, 1320Hz 등의 고조파 성분의 구조에 따라 음색이 차이가 느껴진다. In the present invention, timbre (Timbre, Tonality) means the characteristics of the pitch of the sound source constituting each frame, the relative magnitude or vibration method between each sound. In general, the tone refers to the sensory characteristics generated by the difference in the components of the sound. In the present invention, characteristics that may affect the feeling of the sound in psychoacoustics are extracted in units of frames and the similarities are compared. Even if the tone has the same pitch, the tone is affected by the difference between the structure of the harmonic component and the energy ratio of each frequency component. For example, even if you play a note of the standard scale A4 = 440 Hz, the tone is different depending on the structure of harmonic components such as 880 Hz, 1320 Hz.
따라서, 음색특성 추출부(20)는 입력되는 오디오 신호를 각 프레임 단위로 주파수 분석을 수행하여 음색특성을 추출한다. 그리고 추출된 음색특성을 음색 데 이터베이스(30)에 저장된 과거 프레임의 음색특성과 비교하여 차이정보를 산출한다. Therefore, the
음색특성 추출부(20)에서 추출된 차이정보가 설정된 임계치보다 적은 경우, 현재 입력되는 오디오 신호의 음색은 과거 프레임의 음색과 유사한 것으로 판단된다. 이 경우, 비트팩킹부(40)에서는 인코더(10)에서 인코딩된 오디오 데이터에 따라 비트스트림을 생성하는 것이 아니라, 음색특성 추출부(20)에서 전송된 데이터(①)에 따라 비트스트림을 생성한다. When the difference information extracted by the
음색특성 추출부(20)는 검출된 차이정보가 임계치보다 작은 경우 비트팩킹부(40)로 참조된 과거 프레임 정보와 차이정보를 전송한다. 이는 관하여는 도 3에서 후술한다. When the detected difference information is smaller than the threshold value, the timbre
비트팩킹부(40)에서 생성되는 비트스트림의 일실시예는 도 2에 도시되어 있다. An embodiment of a bitstream generated by the
음색특성 추출부(20)에서 현재 입력되는 오디오 신호의 음색이 과거 프레임의 음색과 유사한 것으로 판단되지 않는 경우, 비트팩킹부(40)는 (a)에 도시된 바와 같은 형태의 비트스트림을 생성한다. 이는 음색특성 추출부(20)에서 과거 프레임 정보와 차이정보가 비트팩킹부(40)로 출력되지 아니한 경우이다. If the tone of the audio signal currently input by the
즉, 헤더(A)에 과거 프레임 정보를 참조하지 않아도 되는 오디오 신호임을 알리는 의미에서 숫자 '0'을 포함한다. 헤더(A)에 연이은 비트스트림(B)에는 인코더(10)에서 인코딩된 데이터가 포함된다. 복호화 장치는 헤더(A)에 포함된 데이터가 '0'인 경우, 연이은 비트스트림의 디코딩을 수행하여 오디오 신호로서 출력한 다.That is, the number "0" is included in the header A in the meaning that the audio signal does not need to refer to the past frame information. The bitstream B following the header A contains the data encoded by the
음색특성 추출부(20)에서 현재 입력되는 오디오 신호의 음색이 과거 프레임의 음색과 유사한 것으로 판단된 경우 비트팩킹부(40)는 (b)에 도시된 바와 같은 형태의 비트스트림을 생성한다. 이는 음색특성 추출부(20)에서 과거 프레임 정보와 차이정보를 비트팩킹부(40)로 출력한 경우이다. If it is determined that the timbre of the audio signal currently input by the
즉, 헤더(C)에 과거 프레임 정보를 참조하는 오디오 신호임을 알리는 의미에서 숫자 '1'을 포함한다. 연이은 비트스트림에는 참조할 과거 프레임 정보(D)와, 참조되는 과거 프레임과 차이정보(E)가 포함된다.That is, the number "1" is included in the header C in the meaning that it indicates that the audio signal refers to the past frame information. The subsequent bitstream includes past frame information D to be referred to, and past frame and difference information E to be referred to.
도 3은 본 발명의 일실시예에 따른 음색특성 추출부(20)의 구조가 도시된 도이다. 입력된 오디오 신호의 주파수 분석을 수행하는 필터부(21)와, 주파수 분석결과 산출된 입력 오디오 신호의 음색특성을 음색 데이터베이스(30)에 저장된 과거 프레임의 음색특성과 비교분석하는 밴드정보 비교분석부(22)로 구성된다. 3 is a diagram showing the structure of the tone
본 발명의 일실시예에서 프레임별 음색특성은 주파수 밴드별 에너지로 표현 가능하다. 이 경우, 현재 오디오 신호와 과거 프레임과 차이정보는 각 주파수 밴드별 에너지 라벨 차이에 관한 정보이다. 그러나, 이는 음색을 표현하기 위한 하나의 실시예에 불과한 바, 음색을 표현하기 위한 다른 정보를 사용하는 것도 본 발명의 범위에 포함된다고 할 것이다.In one embodiment of the present invention, the tone characteristics of each frame may be represented by energy of each frequency band. In this case, the current audio signal, the past frame, and the difference information are information on energy label differences for each frequency band. However, this is only one embodiment for expressing the timbre, and it will be said that the use of other information for the timbre is included in the scope of the present invention.
도 3에 도시된 바와 같이, 필터부(21)는 복수개의 밴드패스 필터로 구성된다. 입력되는 오디오 신호의 음색특성을 분석하기 위하여 상기 필터부(21)는 적어도 1개의 옥타브로 이루어진 음계의 주파수를 센터 주파수로 하는 밴드패스 필터를 포함해야 한다. 본 실시예의 경우 9개의 옥타브로 이루어진 음계의 주파수를 센터 주파수로 하는 밴드패스 필터(#1~#9 옥타브 BPF)를 포함한다.As shown in FIG. 3, the
다시 말해, 1개의 옥타브로 이루어진 음계는 모두 12개의 밴드로 이루어진다. 따라서, 본 실시예의 필터부(21)는 입력되는 오디오 신호를 12 밴드씩 총 9 옥타브에 대하여 밴드패스 필터링한다. 12밴드 * 9 옥타브, 총 108 밴드에 대하여 밴드패스 필터링하는 셈이다. 이는 입력되는 오디오 신호를 각 옥타브 별, 그리고 각 옥타브 내의 각 음고(12 밴드이므로 음고는 12개이다) 별로 필터링함을 의미한다. In other words, one octave scale consists of 12 bands. Accordingly, the
밴드정보 비교분석부(22)는 상기 필터부(21)의 주파수 분석결과에 따른 각 밴드별 에너지 레벨정보를 산출하여 이를 음색 데이터베이스(30)에 저장(②)한다. 에너지 레벨정보는 각 주파수의 진폭 등을 이용하여 산출할 수 있다. 또한, 음색 데이터베이스(30)에 저장된 과거 프레임의 주파수별 에너지 레벨정보와 비교한다.The band
밴드정보 비교분석부(22)는 현재 오디오 신호와 과거 프레임의 에너지 레벨의 차이정보를 산출한다. 산출된 차이정보가 임계치 이하인 경우 현재 오디오 신호는 과거 프레임과 주파수별 에너지 레벨이 상당히 유사함을 알 수 있다. The band
따라서, 밴드정보 비교분석부(22)는 현재 입력된 오디오 신호와 주파수별 에너지 레벨이 상당히 유사한 과거 프레임 정보와, 과거 프레임과의 차이정보를 비트팩킹부(40)로 전송한다. Accordingly, the band information comparison and
비트팩킹부(40)는 밴드정보 비교분석부(22)에서 전송된 과거 프레임 정보와 차이정보 및 헤더에 '1'를 포함한 비트스트림(도 2의 (b))를 생성하여 출력한다.The
산출된 차이정보와 비교되는 임계치는 심리음향적인 요소를 고려하여 정해진 다. 즉, 밴드별로 추출된 에너지를 바탕으로 하여 Equal Loudness Contour(음향학에서 사람이 소리에 대해서 느끼는 감각적인 크기가 동일한 곡선으로 주파수별, 기준음의 레벨에 따라 실험적으로 얻어진다), 마스킹 효과 등을 고려하여 정해진다. The threshold compared with the calculated difference information is determined in consideration of psychoacoustic factors. In other words, based on the energy extracted for each band, Equal Loudness Contour (a curve with the same sensational magnitude that a person feels about sound in acoustics is experimentally obtained according to frequency and reference sound level), masking effect, etc. Is determined.
상기 임계치는 결국 오디오 신호의 인코딩 데이터 전송과 차이정보 전송의 경제성 여부에 따라 결정될 것이다. 만일, 오디오 신호의 인코딩 데이터 전송의 데이터량이 크지 않을 경우 입력되는 오디오 신호의 인코딩 데이터(인코더(20)의 출력데이터)를 비트스트림에 포함시킬 것이다. The threshold will ultimately be determined depending on the economics of transmitting the encoded data of the audio signal and transmitting the difference information. If the data amount of the encoding data transmission of the audio signal is not large, the encoding data (output data of the encoder 20) of the input audio signal will be included in the bitstream.
그러나, 차이정보만 전송하여 오디오 신호를 복호화하는데 문제가 없고 그 차이정보의 데이터양이 인코딩 데이터보다 적은 경우, 차이정보와 참조되는 과거 프레임 정보로 이루어진 비트스트림이 생성된다.However, if there is no problem in decoding the audio signal by transmitting only the difference information and the amount of data of the difference information is smaller than the encoded data, a bitstream composed of the difference information and the referenced frame information is generated.
도 4는 본 발명의 일실시예에 따른 필터부(21)를 구성하는 밴드패스 필터의 센터주파수(Hz)를 매트릭스 형태로 도시한 것이다.4 illustrates a center frequency (Hz) of a band pass filter constituting the
매트릭스의 y 방향은 1개의 옥타브가 가지는 밴드, 즉 음고를 주파수 크기에 따라 나열한 것이다. 12밴드인 바, 음고(A~G#)는 모두 12개임을 알 수 있다. 오른쪽으로 갈수록 더 높은 주파수를 가지는 높은 음이다. The y-direction of the matrix lists the bands, or pitches, of one octave according to frequency magnitude. As it is 12 bands, it can be seen that there are 12 pitches (A ~ G #). To the right is a higher note with a higher frequency.
매트릭스의 x 방향은 필터부(21)에 포함된 복수개의 밴드패스 필터가 커버하는 옥타브 수(1~9)를 나열하고 있는 바, 오른쪽으로 갈수록 더 높은 주파수의 밴드를 필터링하는 옥타브 밴드패스 필터이다.The x direction of the matrix is an octave bandpass filter that filters the higher frequency band toward the right, which lists the
특히, 본 발명의 필터부(21)를 구성하는 밴드패스 필터의 개수는 구현하고자 하는 음질에 따라 줄어들 수 있으며, A4=440Hz인 표준음계를 기준으로 하고 있다. 일반적으로 음원들의 거의 대부분이 440Hz를 기준으로 하는 표준음계에 의하여 만들어져 있으며, 440Hz 근처의 약간 다르게 튜닝된 음원도 440Hz 센터주파수로 하는 밴드피스 필터에 통과해도 크게 무리는 없을 것인 바, 이 역시 본원발명의 특징이라고 할 수 있다.In particular, the number of band pass filters constituting the
한편, 본 발명에 따른 복호화 장치는 상기에서 설명한 부호화 장치의 동작의 역과정을 수행함으로서 오디오 신호를 복원할 수 있다.Meanwhile, the decoding apparatus according to the present invention may restore an audio signal by performing an inverse process of the above-described operation of the encoding apparatus.
도 5는 본 발명의 일실시예에 따른 복호화 장치의 구성을 개략적으로 도시한 블록도로서, 비트언팩킹부(50), 디코더(60), 버퍼(70), 차이정보 보상부(80)로 구성된다.FIG. 5 is a block diagram schematically illustrating a configuration of a decoding apparatus according to an embodiment of the present invention, wherein the
비트언팩킹부(50)는 입력되는 비트스트림의 헤더를 통해 복호화하고자 하는 오디오 신호가 과거 프레임의 디코딩 정보를 참조해야 하는지 여부를 확인한다. 만일, 헤더에 '0'이 포함된 경우 연이은 비트스트림 데이터가 오디오 신호의 인코딩 데이터이므로 디코더(60)를 통해 디코딩이 수행된다. The
디코더(60)는 오디오 신호의 인코더(10)에서 수행한 인코딩의 역과정을 수행하는 바, 상기 인코더(10)의 인코딩 방식에 대응되는 디코딩 방식에 따른다. 가변장 부호화, 엔트로피 부호화, 또는 MPEG 오디오에 따른 청각심리 부호화가 이루어진 경우 해당 부호화의 역순으로 이루어진 복호화가 진행된다. 본 발명의 인코더(10)와 디코더(60)는 그 외 다양한 방법에 따라 인코딩 및 디코딩을 수행할 수 있는 바, 모두 본원발명의 권리범위에 속한다고 할 것이다. The
디코딩된 데이터는 해당 프레임의 디코딩 데이터로 버퍼(70)에 저장된다. 즉, 버퍼(70)에는 과거에 입력된 프레임의 번호 등에 관한 정보와, 해당 프레임의 디코딩 데이터가 저장된다.The decoded data is stored in the
만일, 헤더에 '1'이 포함된 경우 오디오 신호 복원 시 과거 프레임을 참조해야 한다. 따라서, 비트언팩킹부(50)는 과거 프레임의 디코딩 정보를 보상할 수 있는 차이정보를 입력되는 비트스트림에서 추출한다. If '1' is included in the header, the past frame should be referenced when restoring the audio signal. Accordingly, the
차이정보 보상부(80)는 비트언팩킹부(50)에서 추출된 과거 프레임 정보에 따라 참조할 과거 프레임의 디코딩 정보를 버퍼(70)에서 읽어들인다. 또한, 비트언팩킹부(50)에서 추출된 차이정보에 따라 디코딩 정보를 보상한다. The
본 실시예에 의할 경우 상기 차이정보는 주파수별 에너지 레벨차이에 관한 정보로 이루어져 있다. 따라서, 차이정보 보상부(80)는 참조할 프레임의 디코딩 신호의 주파수별 에너지 레벨을 상기 차이정보에 포함된 상기 주파수별 에너지 레벨차이에 관한 정보를 기준으로 가감할 것이다. According to the present embodiment, the difference information consists of information on the energy level difference for each frequency. Accordingly, the
보상된 디코딩 정보는 해당 프레임의 디코딩 정보로서 상기 버퍼(70)에 프레임 정보와 함께 저장된다. 따라서, 복호화 시 차이정보에 따라 보상되어야 하는 제1 프레임을 참조로 하는 제2 프레임이 오디오 신호로 입력되는 경우, 제2 프레임의 차이정보는 상기 제1 프레임의 디코딩 정보를 기준으로 생성될 수 있다.The compensated decoding information is stored together with the frame information in the
만일, 음원이 저장된 미디어의 경우 상기 버퍼(70)가 저장되어 있는 미디어 파일의 특정 주소이므로, 버퍼링을 위한 메모리가 별도로 필요하지 않다. 이 경우, 차이정보 보상부는 참조될 주소정보에 따라 음원이 저장된 미디어에 직접 엑세스하여 복호화할 디코딩 정보를 읽는다. 그 후 차이정보 보상부는 읽은 디코딩 정보에 차이정보에 따른 에너지 레벨을 가감하여 오디오 신호를 복호화한다. In the case of the media in which the sound source is stored, since the
또한, 이 경우에 음색특성 추출부는 과거의 프레임만 참조하는 것이 아니라 음원 전체를 다 분석한 후 유사한 프레임단의 평균을 독립 프레임으로 설정할 수 있다. 따라서, 차이정보는 상기 독립 프레임의 디코딩 정보를 기반으로 하는 차이정보이다. 디코더에서는 상기 독립 프레임을 참조하여 차이정보를 보상해가며 음원 전체를 복호화할 수 있다. Also, in this case, the tone characteristic extractor may not only refer to the past frame but may analyze the entire sound source and set the average of similar frame stages as independent frames. Accordingly, the difference information is difference information based on decoding information of the independent frame. The decoder may decode the entire sound source by compensating the difference information with reference to the independent frame.
따라서, 미디어에 저장될 데이터량을 대폭 감소시킬 수 있으며, 오디오 신호 재생에 필요한 신호 처리 연산량도 대폭 감소시킬 수 있다. 매우 적은 양의 데이터 저장공간을 갖춘 재생장치를 통해서도 여러 음원 재생이 가능하다.Therefore, the amount of data to be stored in the media can be greatly reduced, and the amount of signal processing computation required for audio signal reproduction can be greatly reduced. The playback device with a very small amount of data storage also enables playback of multiple sound sources.
상술한 본 발명에 따른 부호화/복호화 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 상기한 본 발명에 따른 데이터 구조를 가지는 멀티 미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. The encoding / decoding method according to the present invention described above may be stored in a computer-readable recording medium that is produced as a program for execution on a computer, and multimedia data having a data structure according to the present invention may also be read by a computer. Can be stored in a recording medium.
상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 사용자 추적 방법을 구현하기 위한 기능적 인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다. 또한, 상술한 부호화 방법에 의해 생성된 비트스트림은 상기 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.The computer readable recording medium includes all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet). Include. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. In addition, functional programs, codes, and code segments for implementing a user tracking method can be easily inferred by programmers in the art to which the present invention belongs. In addition, the bitstream generated by the above-described encoding method may be stored in the computer-readable recording medium or transmitted using a wired / wireless communication network.
상술한 본 발명에 따른 복호화 장치는 이동 통신 단말기, PMP(Portable Multimedia Player)와 같은 멀티미디어 플레이어, PDA(Personal Digital Assistants) 등의 재생 장치에 구비될 수 있다. 또한, 상술한 복호화 장치는 하드웨어적으로 구현되어 재생 장치 등에 포함되거나, 상술한 바와 같이 소프트웨어적으로 재생 장치에 구현될 수도 있다.The decoding apparatus according to the present invention described above may be provided in a mobile communication terminal, a multimedia player such as a portable multimedia player (PMP), and a playback device such as a personal digital assistant (PDA). In addition, the above-described decoding apparatus may be implemented in hardware and included in a reproduction apparatus or the like, or as described above, may be implemented in a reproduction apparatus in software.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although the preferred embodiment of the present invention has been shown and described above, the present invention is not limited to the specific embodiments described above, but the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Of course, various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.
상술한 바와 같은 본 발명에 의하면, 오디오 신호를 부호화/복호화함에 있어서 과거 프레임과 음색이 유사한 프레임의 경우 과거 프레임과의 차이를 보상해 오디오 신호를 복호화하여, 오디오 신호 압축률을 증가시키며 데이터 처리 속도를 증가시킬 수 있다. According to the present invention as described above, in encoding / decoding an audio signal, in the case of a frame having a similar tone to a past frame, the audio signal is decoded by compensating for the difference from the past frame, thereby increasing the audio signal compression rate and increasing the data processing speed. Can be increased.
Claims (23)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070060666A KR20080112000A (en) | 2007-06-20 | 2007-06-20 | Encoding and decoding using the resemblance of a tonality |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070060666A KR20080112000A (en) | 2007-06-20 | 2007-06-20 | Encoding and decoding using the resemblance of a tonality |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080112000A true KR20080112000A (en) | 2008-12-24 |
Family
ID=40370039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070060666A KR20080112000A (en) | 2007-06-20 | 2007-06-20 | Encoding and decoding using the resemblance of a tonality |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080112000A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016006915A1 (en) * | 2014-07-08 | 2016-01-14 | 삼성전자 주식회사 | Method and apparatus for sending multimedia data |
KR20160006106A (en) * | 2014-07-08 | 2016-01-18 | 삼성전자주식회사 | Method and apparatus for transmitting multimedia data |
-
2007
- 2007-06-20 KR KR1020070060666A patent/KR20080112000A/en not_active Application Discontinuation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016006915A1 (en) * | 2014-07-08 | 2016-01-14 | 삼성전자 주식회사 | Method and apparatus for sending multimedia data |
KR20160006106A (en) * | 2014-07-08 | 2016-01-18 | 삼성전자주식회사 | Method and apparatus for transmitting multimedia data |
CN106688211A (en) * | 2014-07-08 | 2017-05-17 | 三星电子株式会社 | Method and apparatus for sending multimedia data |
EP3169026A4 (en) * | 2014-07-08 | 2018-01-03 | Samsung Electronics Co., Ltd. | Method and apparatus for sending multimedia data |
US10170127B2 (en) | 2014-07-08 | 2019-01-01 | Samsung Electronics Co., Ltd. | Method and apparatus for sending multimedia data |
CN106688211B (en) * | 2014-07-08 | 2020-03-13 | 三星电子株式会社 | Method and apparatus for transmitting multimedia data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1351401B1 (en) | Audio signal decoding device and audio signal encoding device | |
US5886276A (en) | System and method for multiresolution scalable audio signal encoding | |
US6446037B1 (en) | Scalable coding method for high quality audio | |
JP5226777B2 (en) | Recovery of hidden data embedded in audio signals | |
CN101055720B (en) | Method and apparatus for encoding and decoding an audio signal | |
JP2005531024A (en) | How to generate a hash from compressed multimedia content | |
JP2005157390A (en) | Method and apparatus for encoding/decoding mpeg-4 bsac audio bitstream having ancillary information | |
JP2006011456A (en) | Method and device for coding/decoding low-bit rate and computer-readable medium | |
KR20010021226A (en) | A digital acoustic signal coding apparatus, a method of coding a digital acoustic signal, and a recording medium for recording a program of coding the digital acoustic signal | |
US8687818B2 (en) | Method for dynamically adjusting the spectral content of an audio signal | |
JP3765171B2 (en) | Speech encoding / decoding system | |
CN114550732B (en) | Coding and decoding method and related device for high-frequency audio signal | |
CA2490064A1 (en) | Audio coding method and apparatus using harmonic extraction | |
JP4657570B2 (en) | Music information encoding apparatus and method, music information decoding apparatus and method, program, and recording medium | |
JP2003108197A (en) | Audio signal decoding device and audio signal encoding device | |
KR100750115B1 (en) | Method and apparatus for encoding/decoding audio signal | |
JP2009532734A (en) | Input signal quantization and inverse quantization method and apparatus, and input signal encoding and decoding method and apparatus | |
EP2595147A1 (en) | Audio data encoding method and device | |
US20130085762A1 (en) | Audio encoding device | |
KR20080112000A (en) | Encoding and decoding using the resemblance of a tonality | |
JP4508599B2 (en) | Data compression method | |
KR20080066537A (en) | Encoding/decoding an audio signal with a side information | |
KR20080092823A (en) | Apparatus and method for encoding and decoding signal | |
JP5724338B2 (en) | Encoding device, encoding method, decoding device, decoding method, and program | |
Yan | Audio compression via nonlinear transform coding and stochastic binary activation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |