JP2004234021A - Device and method for decoding audio signal or bit stream - Google Patents

Device and method for decoding audio signal or bit stream Download PDF

Info

Publication number
JP2004234021A
JP2004234021A JP2004099419A JP2004099419A JP2004234021A JP 2004234021 A JP2004234021 A JP 2004234021A JP 2004099419 A JP2004099419 A JP 2004099419A JP 2004099419 A JP2004099419 A JP 2004099419A JP 2004234021 A JP2004234021 A JP 2004234021A
Authority
JP
Japan
Prior art keywords
codeword
spectral
code
raster
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004099419A
Other languages
Japanese (ja)
Other versions
JP3978194B2 (en
Inventor
Ralph Sperschneider
スペルシュナイダー、ラルフ
Martin Dietz
ディーツ、マルティン
Andreas Ehret
エーレト、アンドレアス
Karlheinz Brandenburg
ブランデンブルク、カールハインツ
Heinz Gerhaeuser
ゲルハオイサー、ハインツ
Nowbakht-Irani Ali
ノブバクート−イラニ、アリ
Lauber Pierre
ラオバー、ピエレ
Bitto Roland
ビット、ローラント
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE19747119A priority Critical patent/DE19747119C2/en
Priority claimed from DE19840853A external-priority patent/DE19840853B4/en
Priority to PCT/EP1998/008475 priority patent/WO2000039933A1/en
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to JP2004099419A priority patent/JP3978194B2/en
Priority to JP2004099417A priority patent/JP4168000B2/en
Priority to JP2004099418A priority patent/JP3902642B2/en
Publication of JP2004234021A publication Critical patent/JP2004234021A/en
Application granted granted Critical
Publication of JP3978194B2 publication Critical patent/JP3978194B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/662Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a time/frequency relationship, e.g. time compression or expansion
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • H03M13/35Unequal or adaptive error protection, e.g. by providing a different level of protection according to significance of source information or by adapting the coding according to the change of transmission channel characteristics
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide concepts for decoding of an audio signal or bit stream which is efficient although errors are permitted. <P>SOLUTION: Disclosed is a device or method for decoding the bit stream, which includes argots which are derived from a code table and have length different from one another; and information regarding the length of the longest argot which is actually generated is included as side information. The decoding device includes a decoding unit which decodes the bit stream by using a code table. THis decoding unit can detect whether an argot extracted from the bit stream is longer than the longest argot and, therefore, whether the argot is wrong and also take a countermeasure when such a wrong argot is detected. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

本発明は誤差許容エントロピー復号化、特に誤差許容ハフマンデコーディングを実行することができる、オーディオ信号又はビットストリームを復号化するための装置及び方法に関する。   The present invention relates to an apparatus and a method for decoding an audio signal or a bit stream, which can perform error-tolerant entropy decoding, in particular, error-tolerant Huffman decoding.

最近のオーディオ符号化あるいは復号化の方法は、例えば、MPEG層3標準によるものであるが、信号の質の明らかな低下を生じることなく、例えば因数12によってオーディオ信号のデータレートを圧縮することが可能である。このような高いデータレートの圧縮を可能にするためには、オーディオ信号をサンプリングし、結果的に一連の離散時間型サンプルとなる。この種の技術において知られているように、ウィンドウされた時間的なサンプル群を得るために、この一連の離散時間型サンプルは、適当なウィンドウ機能を使用してウィンドウされる。ある一つのウィンドウされた時間的なサンプル群は、フィルタバンク、変形離散コサイン変換(MDCT)あるいは他の適当な方法によって周波数領域に変更され、それにより、周波数領域における、そのオーディオ信号、つまり、その離散時間型サンプル群からなるその時間的部分を表すスペクトル値を得る。通常、50%重なる時間群が生成され、MCDTによって周波数領域に変換される。MDCTの特性のために、例えば1024の離散時間型サンプルは、常に1024のスペクトル値になる。   Recent methods of audio encoding or decoding are, for example, based on the MPEG Layer 3 standard, but it is possible to compress the data rate of the audio signal by, for example, a factor of 12, without any noticeable degradation in signal quality. It is possible. To enable such high data rate compression, the audio signal is sampled, resulting in a series of discrete time samples. As is known in the art, to obtain a windowed set of temporal samples, the series of discrete time samples is windowed using a suitable windowing function. A windowed set of temporal samples is transformed into the frequency domain by a filter bank, a modified discrete cosine transform (MDCT) or other suitable method, so that the audio signal in the frequency domain, that is, the Obtain a spectral value that represents the temporal portion of the discrete time sample group. Usually, a group of times that overlap by 50% is generated and transformed into the frequency domain by the MCDT. Due to the nature of MDCT, for example, 1024 discrete time samples always result in 1024 spectral values.

人間の耳の感受性はオーディオ信号そのものの時間的なスペクトルによることが知られている。これはいわゆる心理聴覚モデルに反映されている。このモデルを利用して、時間的スペクトルによるマスキング閾値を計算することが可能であった。マスキングとは、ある特定のトーン又はスペクトル部分が、例えば、その隣り合うスペクトル領域が比較的高いエネルギーを有する時、聞こえないものと判断されることである。このマスキング現象は、変換後のスペクトル値をできるだけ粗く量子化するために利用される。従って、目的は、できる限り少ないビットを符号化、あるいはここでは量子化し、復号化されたオーディオ信号には可聴範囲の妨害を避けることである。量子化により引き起こされる妨害、つまり、量子化ノイズはマスキング閾値以下であり、従って可聴域外であるべきである。周知の方法によれば、スペクトル値は従っていわゆる倍率帯域に予備分割され、これは、人間の聴覚の周波数群を反映している。ある倍率群のスペクトル値には、倍率帯域全体のスペクトル値を調整するために、ある倍率を掛ける。そして、倍率で調整された倍率帯域は量子化され、量子化されたスペクトル値を生成する。もちろん、倍率帯域にグルーピングすることは重要でない。しかし、この手順はMPEG層3標準及びMPEG−2 AAC (AACは上級オーディオ符号化)標準に使用されている。   It is known that the sensitivity of the human ear depends on the temporal spectrum of the audio signal itself. This is reflected in the so-called psychological hearing model. Using this model, it was possible to calculate a masking threshold by temporal spectrum. Masking is that a particular tone or portion of the spectrum is determined to be inaudible, for example, when its adjacent spectral regions have relatively high energy. This masking phenomenon is used to quantize the converted spectral value as coarsely as possible. Therefore, the objective is to encode or quantize as few bits as possible, so as to avoid interference with the decoded audio signal in the audible range. The disturbance caused by the quantization, ie the quantization noise, should be below the masking threshold and should therefore be outside the audible range. According to known methods, the spectral values are therefore pre-divided into so-called magnification bands, which reflect the frequency of the human hearing. A spectrum value of a certain magnification group is multiplied by a certain magnification in order to adjust the spectrum value of the whole magnification band. Then, the magnification band adjusted by the magnification is quantized to generate a quantized spectrum value. Of course, it is not important to group into magnification bands. However, this procedure is used in the MPEG Layer 3 standard and the MPEG-2 AAC (AAC is Advanced Audio Coding) standard.

データ圧縮の非常に重要な要素は、量子化されたスペクトル値のエントロピー符号化である。普通、ハフマンコーディングがこれに利用される。ハフマンコーディングは長さが変動する符号化を伴う。つまり、符号化されるべき値のための暗語の長さは、この値が起こりうる可能性に基づいている。論理的には、最も起こり易い記号が最も短い符号、つまり、暗語を割り当てられ、その結果、ハフマンコーディングによって非常に良好な余分な部分の削減が達成できる。よく知られている長さ変動の符号化の一つの例は、モールス式符号である。   A very important element of data compression is the entropy coding of the quantized spectral values. Usually, Huffman coding is used for this. Huffman coding involves coding that varies in length. That is, the length of the code word for the value to be encoded is based on the likelihood that this value will occur. Logically, the most probable symbol is assigned the shortest code, i.e., the code word, so that a very good reduction of extras can be achieved with Huffman coding. One example of a well-known length variation encoding is a Morse code.

オーディオ符号化の際、ハフマンコードは量子化されたスペクトル値を符号化するために用いられる。例えば、MPEG−2 AAC標準で作動する最近のオーディオコーダは、量子化されたスペクトル値を符号化するために、部分ごとに特定の標準に基づき、スペクトルに割り当てられる、複数の異なるハフマンコード表を使用する。ここでは、二つ又は四つのスペクトル値が常に一体的に一つの暗語に符号化される。   In audio encoding, Huffman codes are used to encode quantized spectral values. For example, modern audio coders that operate on the MPEG-2 AAC standard use a plurality of different Huffman code tables, which are assigned to the spectrum based on a particular standard on a part-by-part basis to encode the quantized spectral values. use. Here, two or four spectral values are always integrally encoded into one codeword.

MPEG−2 AACに基づく方法がMPEG層3の方法と異なる点の一つは、異なる倍率帯域、つまり、異なるスペクトル値が、任意の数のスペクトル部分にグループ分けされることである。AACにおいて、一つのスペクトル部分は少なくとも四つのスペクトル値、好ましくはそれ以上のスペクトル値を含んでいる。スペクトル値の全周波数領域は、このようにして隣接するいくつかの部分、それぞれの部分は周波数帯域を表すのだが、に分割され、結果的に、これら全ての部分が変換前のスペクトル値に渡る全ての周波数領域をカバーする。   One of the differences between the MPEG-2 AAC based method and the MPEG layer 3 method is that different magnification bands, ie, different spectral values, are grouped into any number of spectral parts. In AAC, one spectral portion contains at least four spectral values, preferably more. The entire frequency domain of the spectral values is thus divided into several contiguous parts, each part representing a frequency band, but consequently all these parts span the unconverted spectral values Covers all frequency ranges.

余分な部分の削減を最大にするために、MPEG層3による方法と同様に、いわゆるハフマン表、複数のこのようなハフマン表のうちの一つが各部分に割り当てられる。AAC方法のビットストリームでは、普通1024のスペクトル値を含み、これらのスペクトル値のためのハフマン暗語は周波数が高くなって行く順に並んでいる。各周波数部分で使用される表の情報はサイド情報として送られる。この状況を図2に示す。   To maximize the reduction of extra parts, a so-called Huffman table, one of a plurality of such Huffman tables, is assigned to each part, as in the method with the MPEG layer 3. The bit stream of the AAC method usually contains 1024 spectral values, and the Huffman code words for these spectral values are arranged in order of increasing frequency. The table information used in each frequency part is sent as side information. This situation is shown in FIG.

図2に一例として示すケースでは、ビットストリームは10のハフマン暗語を含んでいる。もし一つの暗語が常に一つのスペクトラル値から形成されるならば、10個のスペクトル値がここで符号化できる。しかし、通常、2個又は4個のスペクトル値が常に一体的に一つの暗語に符号化されるので、図2は20個又は40個のスペクトル値を含む符号化されたビットスリームの一部を示していることになる。各ハフマン暗語が2個のスペクトル値を含んでいる場合、番号1で示されている暗語は最初の2個のスペクトル値を表している。この暗語の長さは比較的短く、この最初の二つのスペクトル値、つまり、最も低い二つの周波数係数は比較的頻繁に起こることを意味している。他方、番号2で示されている暗語は比較的長く、この符号化されたオーディオ信号では3番目及び4番目のスペクトル係数の発生は比較的まれで、それ故にこれらのスペクトル係数は比較的大きなビット数で符号化される。図2に示すように、番号3,4,5で示される暗語はスペクトル係数5,6,7,8,9,10を表しているが、これらの各暗語は比較的短いので、これらの係数は比較的頻繁に発生する。番号6〜10で示されている暗語についても同様の考え方ができる。   In the case shown by way of example in FIG. 2, the bitstream contains ten Huffman code words. If one codeword is always formed from one spectral value, ten spectral values can be encoded here. However, FIG. 2 shows a portion of an encoded bitstream containing 20 or 40 spectral values, since usually two or four spectral values are always integrally coded into one codeword. It will show. If each Huffman codeword contains two spectral values, the codeword designated by number 1 represents the first two spectral values. The length of the code word is relatively short, meaning that the first two spectral values, the two lowest frequency coefficients, occur relatively frequently. On the other hand, the codeword denoted by number 2 is relatively long, and the third and fourth spectral coefficients occur relatively rarely in this encoded audio signal, and therefore these spectral coefficients are relatively large bits. It is encoded by a number. As shown in FIG. 2, the code words 3, 4, and 5 represent the spectral coefficients 5, 6, 7, 8, 9, and 10. Since these code words are relatively short, these code words are used. Occurs relatively frequently. The same idea can be applied to the code words indicated by the numbers 6 to 10.

前述したように、図2からも明らかなように、符号化されたスペクトル値のためのハフマン暗語は、周知の符号化装置によって生成されるビットストリームの場合、そのビットストリーム中に周波数が高くなっていく順に一列に並んでいる。   As mentioned above, as is evident from FIG. 2, the Huffman code words for the encoded spectral values, in the case of a bit stream generated by a known encoding device, have a higher frequency in the bit stream. They are arranged in a row in the order they go.

エラーが発生するチャンネルにおけるハフマンコーディングの最大の不利益は、そのエラーを伝達してしまうことである。例えば、図2中の番号2で示される暗語が伝えられる際に、この暗語2の長さが変更されるかもしれないという無意味とは言えない可能性がある。このようにして正しい長さとは異なる場合がある。図2の場合、もし暗語2の長さが妨害により変更されたなら、デコーダはもはや、暗語3−10がどこから始まるのかを判断できなくなり、つまり、そのオーディオ信号のほとんど全ての部分が影響を受けることになる。このように、妨害された暗語に続く他の全ての暗語さえも正確に復号化されなくなる。それは、これらの暗語がどこから始まるのかわからなくなり、この誤差のために、間違った開始点が選ばれてしまうからである。   The biggest disadvantage of Huffman coding in the channel where the error occurs is that it conveys the error. For example, it may not be meaningless that the length of the code word 2 may be changed when the code word indicated by number 2 in FIG. 2 is transmitted. Thus, the correct length may be different. In the case of FIG. 2, if the length of the code word 2 has been changed due to interference, the decoder can no longer determine where the code word 3-10 starts, ie almost all parts of the audio signal are affected. Will be. In this way, even all other code words following the disturbed code words will not be correctly decoded. This is because it is not clear where these codewords begin, and this error causes the wrong starting point to be chosen.

このようなエラー伝達の問題を解決するために、ヨーロッパ特許第0612156号は、一つの暗語の始まりが、完全な復号化をしなくても、あるいは誤った伝達の場合にでも、より簡単に確認できるように、長さの異なる暗語のいくつかをラスター配列させ、他の暗語を残りの隙間に配置させることを提案している。   In order to solve the problem of error transmission, EP 0 612 156 proposes that the start of a codeword can be more easily determined even without complete decoding or in case of incorrect transmission. In order to be able to do so, it has been proposed that some of the code words having different lengths are arranged in a raster, and other code words are arranged in the remaining gaps.

この周知の方法の効率を決定づけるパラメータは、そのラスターが実際どのように定義されるのか、つまり、いくつのラスターポイントが必要なのか、ラスターポイント間のラスター距離等である。しかし、ヨーロッパ特許第0612156号は、誤差の伝達を抑えるためにラスターが利用されるべきであるという一般的な提案を超えるものではなく、誤差許容と同時に効率的な符号化を達成するためにどのようにしてラスターを効率的に構築するのかについて、何の詳細な説明もない。   The parameters that determine the efficiency of this known method are how the raster is actually defined, ie how many raster points are needed, the raster distance between the raster points, etc. However, EP 0 612 156 does not go beyond the general suggestion that rasters should be used to suppress the transmission of errors, but not any more to achieve error-tolerant and efficient coding. There is no detailed explanation on how to build a raster efficiently.

EP−A−0717503は、音楽信号の離散時間型サンプルを周波数領域に変換し、得られたスペクトル値を量子化及びエントロピー符号化するデジタル符号化及び復号化の方法を開示している。このエントロピー符号化は、長さの異なるある特定の数の暗語を生み出し、これらの暗語のいくつかはラスター配置され、他のものはラスターの残りの空間に挿入されている。
EP−A−0492537は、情報が小さなピクセル群に分けられ、各ピクセル群は直交変換手段によって直交する成分に変換される、ビデオ及びオーディオ情報の記録装置に関する。そして、直交する成分は、長さの異なる暗語を有するコードを用いて符号化される。符号化された暗語のいくつかは第1メモリに書き込まれる。もし暗語が、第1メモリに書込み可能なものよりも多くのビットを有している場合、その暗語の残りのビットは別のメモリに書き込まれる。
EP-A-0 717 503 discloses a digital coding and decoding method for transforming discrete time samples of a music signal into the frequency domain and quantizing and entropy coding the resulting spectral values. This entropy coding produces a certain number of code words of different lengths, some of which are raster arranged and others inserted in the remaining space of the raster.
EP-A-0492537 relates to a video and audio information recording device in which the information is divided into small pixel groups, each pixel group being converted into orthogonal components by orthogonal transformation means. Then, the orthogonal components are encoded using codes having secret words of different lengths. Some of the encoded code words are written to the first memory. If the codeword has more bits than can be written to the first memory, the remaining bits of the codeword are written to another memory.

そこで、本発明の目的は、誤差許容にもかかわらず効率的なオーディオ信号又はビットストリームの復号化のための概念を提供することにある。   It is an object of the present invention to provide a concept for efficient decoding of an audio signal or bit stream despite error tolerance.

前記目的は、請求項1に係るビットストリームの復号化装置、請求項6に係るビットストリームの復号化方法により達成される。   The object is achieved by a bit stream decoding device according to claim 1 and a bit stream decoding method according to claim 6.

本発明は、既に提案されているラスターは誤差許容符号化/復号化だけでなく、効率的な符号化/復号化を可能にするように形成または使用されなければならないという発見に基づくものである。ここで最も重要なことは、ハフマンコーディングという形でのエントロピー符号化によって得られる暗語は本質的に長さの異なるものである。最も大きな符号化の成果は、最も頻繁に起こる値に最も短い暗語を与える場合、現れる。他方、比較的まれに起こる値は、たとえ長い暗語を与えても、統計上、データ量としては最適値になる。ハフマンコーディングによって得られる暗語は、本質的に異なる長さを有するものである。   The present invention is based on the discovery that already proposed rasters must be formed or used to enable efficient encoding / decoding as well as error-tolerant encoding / decoding. . Most importantly, the codewords obtained by entropy coding in the form of Huffman coding are of essentially different lengths. The largest coding results appear when the most frequently occurring values are given the shortest code words. On the other hand, values that occur relatively rarely become statistically optimal values for the amount of data even if a long code word is given. The code words obtained by Huffman coding are of essentially different lengths.

本発明の第1の特徴点によると、いわゆる優先暗語がラスターポイントに配置され、これにより、たとえビットストリーム中にエラーがあっても、ラスターを通してデコーダが間違いなく各優先暗語の始まりを認知することができる。優先暗語は、心理音響的に重要な暗語である。このことは、いわゆる優先暗語によって符号化されたスペクトル値が、復号化されたオーディオ信号の聴感覚に実質的に貢献するということを意味している。オーディオ信号が高い割合でスピーチを含んでいる場合、優先暗語は低いスペクトル値を表す暗語である。なぜならば、この場合、重要なスペクトル情報はスペクトルの低い領域にあるからである。オーディオ信号がスペクトルの中領域にあるトーン群を持っている場合、優先暗語は周波数領域のこれに相当する中領域のスペクトル値に割り当てられた暗語である。なぜならば、これらが心理音響的に重要なスペクトル値であるからである。心理音響的に重要なスペクトル値は、また、その規模つまり信号エネルギーがスペクトル内の他のスペクトル値に比べて大きいものである。他方、心理音響的にさほど重要でない暗語、いわゆる非優先暗語がこのラスターを埋める。従って、これらの暗語はラスターポイントと共には位置しないが、優先暗語がラスターポイントに配置された後、残りの空間に「はめ込まれる」。   According to a first aspect of the invention, a so-called priority codeword is located at a raster point, so that even if there is an error in the bitstream, the decoder will definitely recognize the beginning of each priority codeword through the raster. Can be. Priority code words are code words that are psychoacoustically important. This means that the spectral values encoded by the so-called priority codewords substantially contribute to the audibility of the decoded audio signal. If the audio signal contains a high percentage of speech, the preferred codeword is a codeword that represents a low spectral value. This is because, in this case, the important spectral information is in the lower region of the spectrum. If the audio signal has a group of tones in the middle region of the spectrum, the preferred codeword is the codeword assigned to the corresponding spectral value in the middle region of the frequency domain. This is because these are spectrally important spectral values. Psychoacoustically important spectral values are also those whose magnitude or signal energy is large compared to other spectral values in the spectrum. On the other hand, psychoacoustically insignificant words, so-called non-prioritized words, fill this raster. Thus, these codewords are not located with the raster point, but are "fitted" into the remaining space after the preferred codeword is placed at the raster point.

従って、本発明の第1の特徴点によれば、優先暗語、つまり、心理音響的に重要なスペクトル値に与えられた暗語が、これらの優先暗語の開始点とラスターポイントが一致するようにラスター配列される。   Therefore, according to the first feature of the present invention, the preferred secret words, that is, the secret words given to the psychoacoustically important spectral values are rasterized so that the starting points of these preferred secret words coincide with the raster points. Are arranged.

本発明の第2の特徴点によると、スペクトル値はスペクトル部分にグループ分けされ、異なるコード表が各スペクトル部分に与えられる。スペクトル部分へのコード表の割り当ては、信号の統計的な考慮に基づいて、例えば、あるスペクトル部分の符号化に最も適するコード表はどれかということに基づいてなされる。スペクトル部分へのコード表の割り当ては、すでにこの技術分野では周知である。   According to a second aspect of the invention, the spectral values are grouped into spectral parts, and a different code table is provided for each spectral part. The assignment of a code table to a spectral part is made based on statistical considerations of the signal, for example, which code table is most suitable for coding a spectral part. The assignment of code tables to spectral parts is already well known in the art.

等距離で配列されたラスターポイントのグループがいくつか集まったラスターが使用されることになる。一つのラスターポイントグループ内のラスターポイント間の距離は、一つのスペクトル部分の符号化に使用されるコード表に基づいている。他の別のスペクトル部分では、最適なデータ圧縮を行うために別のコード表が使用される。この別のコード表は、別のグループの等距離で配列されているラスターポイントに割り当てられ、このラスターポイントグループ内の二つのラスターポイントの距離はその関連するコード表に基づいている。互いに異なるラスターポイントグループの二つのラスターポイントの距離は、少なくとも三つの方法で決定することができる。   A raster will be used where several groups of raster points are arranged at equal distances. The distance between raster points within a raster point group is based on a code table used to encode one spectral portion. In other alternative parts of the spectrum, different code tables are used for optimal data compression. The other code table is assigned to another group of equidistantly arranged raster points, and the distance between the two raster points in the raster point group is based on its associated code table. The distance between two raster points in different raster point groups can be determined in at least three ways.

最初に、一のコード表の暗語の最大長さを確定する。このコード表が与えられたラスターポイントグループ内の二つのラスターポイントの距離は、そのコード表の暗語の最大長さと同じか又は最大長さよりも大きいので、ラスターにはこのコード表の最長の暗語のための空間がある。別のコード表に関連する別のラスターポイントグループ内の二つのラスターポイントの距離は、この別のコード表の暗語の最大長さに基づき、同様の方法で決定される。   First, the maximum length of a code word in one code table is determined. Since the distance between the two raster points in the raster point group given this code table is equal to or greater than the maximum length of the code word in that code table, the raster contains the longest code word in this code table. There is space for The distance between two raster points in another raster point group associated with another code table is determined in a similar manner based on the maximum length of the code word in this other code table.

以下に説明する2番目の方法は、ラスターポイントの数の増加にも貢献する。ハフマンコードの本質的な特性のために、あまり頻繁に発生しない暗語は、より頻繁に発生する暗語よりも長い。ラスターポイント間の距離を、ある表の暗語の最大長さと同じか又はそれよりも大きく設定する場合、そのラスターに挿入される暗語は通常そのラスターポイント間距離よりも短い。従って、ラスターポイント間距離は、ある表の暗語の最大長さよりも短く設定することも可能である。符号化の際にそのラスターに入りきらない暗語が現れた場合、ラスターに入らない残りの部分は、ビットストリームのラスター配列外の他の適当な場所に挿入される。結果として、この分断された暗語はもはやエラー伝達から有効に保護されない。これは非常にまれなことであり、ラスターポイントの数の増加という利益のために受け入れられるものである。   The second method described below also contributes to increasing the number of raster points. Due to the intrinsic properties of the Huffman code, less frequently occurring code words are longer than more frequently occurring code words. If the distance between raster points is set to be greater than or equal to the maximum length of a word in a table, the word inserted into the raster is usually shorter than the distance between the raster points. Therefore, the distance between raster points can be set shorter than the maximum length of a codeword in a certain table. If a codeword that does not fit into the raster appears during encoding, the remaining part that does not fit in the raster is inserted into the bitstream at some other suitable location outside the raster array. As a result, this fragmented codeword is no longer effectively protected from error transmission. This is very rare and is acceptable for the benefit of increasing the number of raster points.

異なるラスターポイント間距離を決定する第3の方法は、コード表の暗語の最大長さではなく、符号化されたスペクトル部分に実際に生じるビットストリーム中の暗語の最大長さを考慮することである。   A third method of determining the distance between different raster points is to consider the maximum length of the codeword in the bitstream that actually occurs in the encoded spectral portion, rather than the maximum length of the codeword in the code table. .

本発明の第3の特徴点によると、本質的に周波数に関して直線的に高くなる順番によるビットストリーム中の暗語の配列に代わり、暗語が周波数領域に渡り分散される配列が使用され、これはまた「スクランブリング」として知られている方法である。これはいわゆる「突発的なエラー」が、全周波数帯域の間違った複合化につながることはなく、単にいくつかの異なる周波数領域で小さな妨害が見られる程度であるという利点を有している。   According to a third aspect of the invention, instead of an arrangement of the code words in the bitstream in an order that is essentially linearly higher in frequency, an arrangement is used in which the code words are distributed over the frequency domain, This is a method known as "scrambling". This has the advantage that the so-called "sudden errors" do not lead to false compounding of the whole frequency band, but only to the extent that small disturbances are seen in several different frequency ranges.

本発明の第4の特徴点によると、本質的に周波数に関して直線的に高くなる順番による暗語の配列に代わり、例えばn番目ごと(例えば、2番目ごと、3番目ごと、又は4番目ごと)の暗語だけがラスターに配列されるという配列方法が使用され得る。この方法では、可能なラスターポイントの数が優先暗語の数よりも小さい場合、優先暗語を使用するスペクトル領域を可能な限り大きくすること、つまり、エラー伝達を防止することが可能になる。   According to a fourth aspect of the invention, instead of an arrangement of cryptographic words in an order of essentially linearly increasing frequency, for example, every nth (eg every second, every third, or every fourth) An arrangement method in which only the code words are arranged in the raster can be used. In this way, if the number of possible raster points is smaller than the number of preferential passwords, it is possible to make the spectral region using the preferential passwords as large as possible, ie prevent error transmission.

さらに、効率的な作動を達成するような方法で優先暗語を決定することに優先権が与えられる。好ましくは、このことは心理音響的に重要な暗語、つまり優先暗語が低周波のスペクトル値を符号化するものであるという仮説を放棄することを意味する。このような場合はしばしばあるが、常にそうであるとは限らない。   Furthermore, priority is given to determining the preferred codeword in such a way as to achieve efficient operation. Preferably, this means dismissing the hypothesis that the psychoacoustically important codeword, ie the preferred codeword, encodes low frequency spectral values. This is often the case, but not always.

通常、優先暗語は心理音響的に重要なスペクトルラインを符号化するものであり、これらは通常高いエネルギーを有するスペクトル値である。高いエネルギーを有するスペクトルラインはエラーによっては生じない。   Usually, the preferred codewords encode spectral lines of psychoacoustic importance, which are spectral values that usually have high energy. Spectral lines with high energy are not caused by errors.

本発明によると、すでに暗黙的に決定されたインディケータが使用される。このインディケータは使用されるコード表に基づくものである。AAC標準において、例えば、異なる絶対値域を有する11のコード表がある。コード表1は例えば−1〜+1の絶対値を持つスペクトル値を含み、コード表11は−8191〜+8191のスペクトル値を符号化する。コード表番号が大きくなればなるほど、それが符号化できる値域が大きくなる。このことは、小さい番号のコード表は比較的小さな値のみを表し、それ故に比較的小さなエラーを引き起こすだけであり、大きな番号のコード表は比較的大きな値域を表し、比較的大きなエラーを引き起こすことを意味している。   According to the invention, an indicator that has already been implicitly determined is used. This indicator is based on the code table used. In the AAC standard, for example, there are 11 code tables with different absolute value ranges. Code table 1 includes, for example, spectral values having absolute values of −1 to +1, and code table 11 encodes spectral values of −8191 to +8191. The larger the code table number, the larger the range in which it can be encoded. This means that a low numbered code table represents only relatively small values and therefore only causes a relatively small error, while a high numbered code table represents a relatively large range and causes a relatively large error. Means

小さな番号のコード表においてエラーが発生しても、それはよく聞こえないものであり、間違ったスペクトルラインの結果は、元々の正しいスペクトルラインとさほど違わないものとなる。しかし、最も大きな番号のコード表においてエラーが発生した場合、このエラーは原則としてこのコード表の絶対値のいくつかとなり得る。最も大きな番号のコード表で符号化されたスペクトルラインが小さい値を有し、例えば伝達の間に生じたエラーのために、デコーダ内で、このコード表によって最も高い絶対値を持つスペクトルラインとして複合化された場合、この間違ったスペクトルラインは確かに聞こえるものとなる。   If an error occurs in a small numbered code table, it will not be heard, and the result of the wrong spectral line will not be very different from the original correct spectral line. However, if an error occurs in the highest numbered code table, this error can in principle be some of the absolute values of this code table. The spectral line encoded with the code table with the highest number has a small value and is combined in the decoder as the spectral line with the highest absolute value by this code table, for example due to an error that has occurred during transmission. If so, this incorrect spectral line will be audible.

誤差許容に関して、最も重要なコード表は従って最も大きな番号のコード表(AAC標準ではコード表11)である。なぜならば、このコード表は、値を−213+1(−8191)〜+213−1(+8191)の間に逃してしまうからである。 With regard to error tolerance, the most important code table is therefore the highest numbered code table (code table 11 in the AAC standard). This is because this code table misses the value between −2 13 +1 (−8191) and +2 13 −1 (+8191).

本発明のさらなる特徴点によると、短いウィンドウがAAC標準の伝達信号のために使用される。短いウィンドウにより、周波数分解能はより高い時間的分解能のために減じられる。優先暗語は、心理音響的に重要なスペクトル値、つまり低周波のスペクトル値又は番号の大きいコード表からのスペクトル値がラスターポイント上に確かに配置されるように、決定される。倍率帯域のインターリービングは、これはAAC標準の特徴であるが、この目的のために解除される。   According to a further aspect of the invention, a short window is used for the AAC standard transmission. With a short window, the frequency resolution is reduced for higher temporal resolution. The preferred codeword is determined such that the psychoacoustically significant spectral values, i.e. low frequency spectral values or spectral values from the higher numbered code table, are reliably located on the raster points. Multiplier band interleaving, which is a feature of the AAC standard, is defeated for this purpose.

本発明の好ましい実施形態を添付図面を参照しながら説明する。   Preferred embodiments of the present invention will be described with reference to the accompanying drawings.

本発明を説明するために、図2に優先暗語を斜線で示す。図2は、周知の異なる長さの暗語の配列を示しているが、これは周波数に関して直線的に高くなる順番によるものである。図2では、優先暗語が暗語1〜5である。前述したように、オーディオ信号が例えば高い割合でスピーチを含んでいる場合、または多くの低周波音を含んでいる場合、低周波のスペクトル値に与えられる暗語が優先暗語である。図2中、暗語6〜10は高周波のスペクトル値に関連するものであり、これらのスペクトル値は復号化された信号の全体的な印象に貢献するものの、聴感覚には大して影響せず、従って心理音響的にあまり重要ではない。   For the purpose of explaining the present invention, priority code words are shown by hatching in FIG. FIG. 2 shows an arrangement of known lengths of codewords, in order of linearly increasing frequency. In FIG. 2, the preferred secret words are secret words 1 to 5. As mentioned above, if the audio signal contains, for example, a high proportion of speech, or contains many low-frequency sounds, the secret word given to the low-frequency spectral value is the priority secret word. In FIG. 2, the code words 6 to 10 relate to high-frequency spectral values, which contribute to the overall impression of the decoded signal, but do not significantly affect the auditory perception, Not very psychoacoustical.

図1は、ラスターポイント10〜18を有するビットストリームを示す。図1中、ラスターポイント10とラスターポイント12の間の距離をD1、ラスターポイント14とラスターポイント16の間の距離をD2とする。   FIG. 1 shows a bit stream having raster points 10-18. In FIG. 1, the distance between the raster points 10 and 12 is D1, and the distance between the raster points 14 and 16 is D2.

本発明の第1の特徴点の説明に関して、ラスターポイント10からラスターポイント14の間のビットストリームだけを考える。優先暗語1,2は、図2に示された例では低周波域に位置している重要なスペクトル部分であるが、これが復号化の際にエラー伝達の対象とならないように、ラスターに配列されている。非優先暗語、図1、図2において斜線を符していないものであるが、これらは優先暗語の後に、ラスターを埋めるように配置される。ハフマン暗語の長さは暗語そのものからわかるので、非優先暗語を一固まりでラスターに入れ込む必要はない。デコーダは、読み取ったものが暗語の単に一部だけであるのかどうかを判別できる。この場合、デコーダは自動的に、暗語の最初の部分に、次のラスターポイントの後の優先暗語に引き続き、ある特定のビット数を付加する。従って、非優先暗語7,8,9のそれぞれがビットストリーム中二つに分けられ、つまり、7a,7b、8a,8b、9a,9bに分けられるように、非優先暗語の最初の部分をラスターの最初の空き場所に挿入し、残りの部分を他の場所に挿入することが可能である。   For the description of the first aspect of the present invention, only the bit stream between raster points 10 to 14 will be considered. Priority code words 1 and 2 are important spectral portions located in the low frequency range in the example shown in FIG. 2, but are arranged in a raster so that they are not subject to error transmission during decoding. ing. The non-priority code words, which are not hatched in FIGS. 1 and 2, are arranged to fill the raster after the priority code word. Since the length of the Huffman codeword is known from the codeword itself, there is no need to put non-priority codewords together in the raster. The decoder can determine if what is read is just a part of the code word. In this case, the decoder automatically adds a certain number of bits to the first part of the codeword, following the preferred codeword after the next raster point. Therefore, the first part of the non-priority codeword is rasterized so that each of the non-priority codewords 7, 8, 9 is split into two in the bitstream, ie, 7a, 7b, 8a, 8b, 9a, 9b. Can be inserted into the first empty space, and the rest can be inserted elsewhere.

既に説明したように、図1のビットストリームの第2の部分は本発明の第2の特徴点を説明している。ラスター距離D1が小さなラスター距離D2に変更されなければ、優先暗語1〜5のどれでもが入る距離D1を有するラスターは、いわば、ラスターの残りの部分を埋めるだけの十分な非優先暗語がないというような長いビットストリームを作る結果となりうる。従って、ビットストリームに挿入されるべき多くの優先暗語だけをオーディオ信号から抜き出し、根本的に空き場所を残さないようにし、ビットストリームが不必要に延長されることがないようにする。   As already explained, the second part of the bit stream of FIG. 1 illustrates the second aspect of the invention. Unless the raster distance D1 is changed to a small raster distance D2, a raster having a distance D1 that can contain any of the preferred code words 1 to 5 has, so to speak, not enough non-preferred code words to fill the rest of the raster. Such a long bit stream can result. Therefore, only a number of priority code words to be inserted into the bit stream are extracted from the audio signal so as not to leave a fundamentally empty space, and the bit stream is not unnecessarily extended.

本発明の第2の特徴点を、図1を参照しながら詳細に説明する。MPEG−2 AAC標準に基づく符号化方法の場合において、11の異なるハフマンコード表が符号化のために使用される。これらの表の大部分にとって、可能な限りの最大の暗語長さは10〜20ビットである。しかし、特別な表、いわゆる「逃し表」は49ビットの最大長さを含む。もし全ての表のうちで最長暗語の長さをラスター距離Dとして使用するならば、49ビットのラスター距離を設定することになる。この結果、非常に大きな幅のラスターとなり、全ての優先暗語がラスターポイントに配列された場合、ビットストリームはあまりにも長すぎるものとなるので、ほとんど全ての表にとって非効率的なものとなる。従って、本発明によると、ラスターの幅は使用されるコード表に基づき調整される。前述したように、スペクトル値はいくつかのスペクトル部分にグループ分けされ、各スペクトル部分には、信号の統計的要素を考慮して最適なコード表が与えられる。ひとつのコード表における最大の暗語長さは、普通、他のコード表における最大の暗語長さとは異なる。   The second feature of the present invention will be described in detail with reference to FIG. In the case of an encoding method based on the MPEG-2 AAC standard, 11 different Huffman code tables are used for encoding. For most of these tables, the maximum possible codeword length is 10-20 bits. However, a special table, the so-called "miss table", contains a maximum length of 49 bits. If the length of the longest code word in all the tables is used as the raster distance D, a raster distance of 49 bits is set. This results in a raster of very large width, and if all preferred codewords are arranged at raster points, the bitstream would be too long and inefficient for almost all tables. Thus, according to the invention, the width of the raster is adjusted based on the code table used. As mentioned above, the spectral values are grouped into several spectral parts, each of which is given an optimal code table taking into account the statistical elements of the signal. The maximum code word length in one code table is usually different from the maximum code word length in other code tables.

暗語1,2で表されるスペクトル値は第1のスペクトル部分に属し、暗語3〜10で表されるスペクトル値は第2のスペクトル部分に属すると仮定する。この場合、ビットストリームは二つのラスターポイントグループによってラスターされる。第1のラスターポイントグループはラスターポイント10,12,14からなり、第2のラスターポイントグループはラスターポイント14,16,18からなる。さらに、スペクトル部分0はハフマンコード表nを与えられ、スペクトル部分1はハフマンコード表mを与えられ、また、暗語2はスペクトル部分0に与えられた表nのうちの最長暗語である。第1のラスターポイントグループのラスター距離は表nの最大の暗語長さ、つまりこの例での暗語2の長さよりも大きいか、あるいは好ましくはそれと等しい。   It is assumed that the spectral values represented by code words 1 and 2 belong to the first spectral part and the spectral values represented by code words 3 to 10 belong to the second spectral part. In this case, the bitstream is rastered by two raster point groups. The first raster point group consists of raster points 10, 12, and 14, and the second raster point group consists of raster points 14, 16, 18. Further, spectral part 0 is given a Huffman code table n, spectral part 1 is given a Huffman code table m, and code word 2 is the longest code word of table n given to spectral part 0. The raster distance of the first group of raster points is greater than or preferably equal to the maximum code word length in Table n, that is, the code word 2 length in this example.

他方、ラスターポイント14と暗語10でのビットストリームの終点との間の部分からわかるように、この例ではコード表mにおける最長の暗語は現れない。従って、グループ2で示されるビットストリームのラスターには長さD2の暗語はない。   On the other hand, as can be seen from the portion between the raster point 14 and the end of the bitstream at the code word 10, the longest code word in the code table m does not appear in this example. Therefore, there is no codeword of length D2 in the raster of the bitstream represented by group 2.

本発明の第2の特徴点によれば、ラスターの幅は使用されるコード表に基づいて選択される。しかし、この場合、使用される表はデコーダで復号化される際に認識されなければならない。しかし、コード表番号が各スペクトル部分のサイド情報として常に送信されるならば、デコーダは、ある特定の異なる、この例では11の、ハフマン表のうちのどのコード表であるかを認識することができる。   According to a second aspect of the invention, the width of the raster is selected based on the code table used. However, in this case, the tables used must be recognized as they are decoded at the decoder. However, if the code table number is always transmitted as side information of each spectral part, the decoder can recognize which code table of a certain different, in this example eleven, Huffman tables. it can.

前述したように、ラスター距離が使用されるコード表により決定されても、49ビットの暗語を含む逃し表を考えるとわかるように、最適なデータ圧縮が達成されるわけではない。この逃し表の場合、ラスター距離は最大サイズのスペクトル値を符号化できるように49ビットに調節されることになるからである。逃し表は、短いコード表を持つために、逃し表と共に短いコード表を使用して比較的大きい値を符号化できるように、使用される。一つのコード表の値域を超える値の場合、このスペクトル値のための暗語はある特定の値になり、このことは、コーダ内で逃し表もまた使用されたということをデコーダに示すことになる。あるコード表が値0〜2を含んでいる場合、例えば、そのコード表の3の値がデコーダに逃し表が使用されたことを示すことになる。「基礎」のコード表の値3を有する暗語は同時に、その基礎コード表の最大値と共に、該当するスペクトル値を形成する逃し表の値を与える。   As described above, even if the raster distance is determined by the code table used, optimal data compression is not achieved, as can be seen by considering the missed table containing the 49-bit codeword. This is because in the case of this missing table, the raster distance would be adjusted to 49 bits so that the maximum size spectral value could be encoded. The miss table is used to have a short code table so that relatively large values can be encoded using the short code table along with the miss table. For values beyond the range of one code table, the code word for this spectral value will be a particular value, which will indicate to the decoder that the miss table has also been used in the coder. . If a code table contains the values 0-2, for example, a value of 3 in the code table will indicate to the decoder that the miss table has been used. A codeword having a value of 3 in the "basic" code table, together with the maximum value in that basic code table, gives the value of the missed table forming the corresponding spectral value.

本発明のさらなる実施形態によると、一つのグループ(例えばグループ1又はグループ2)内のラスターポイント間距離は、もはやあるコード表における最長暗語の長さと同じではなく、あるコード表に属するビットストリームに実際に発生する最長暗語の長さと同じである。本発明の第2の特徴点の第1実施形態においては、逃し表における符号化効率は未だ最適ではないので、この実施形態ではこれをさらに改良した。この表の暗語の最大長さ(スペクトル内で)は通常、技術的符号化の理由からかなり短いものである。逃し表の最長の暗語は例えば49ビットである。   According to a further embodiment of the invention, the distance between raster points in one group (eg group 1 or group 2) is no longer the same as the length of the longest codeword in a code table, but rather the length of the bit stream belonging to the code table. It is the same as the length of the longest code word that actually occurs. In the first embodiment of the second feature point of the present invention, the encoding efficiency in the missing table is not yet optimal, so this embodiment is further improved. The maximum length (within the spectrum) of the code words in this table is usually quite short for technical coding reasons. The longest codeword in the missed table is, for example, 49 bits.

通常のオーディオ信号中に実際に発生する最も長い逃し表の暗語は、典型的には約20ビットの長さである。従って、ラスターポイントの数、及び一つのブロック内の最長暗語の長さを送信することによりラスターポイントに配列され得る優先暗語の数をさらに増すことができる。そしてラスターの長さは実際に発生する最長暗語の長さか又は現在使用されている表の論理的な最長暗語の長さのうちのどちらか最小値である方に等しい。最小値を決定するために、各コード表の実際に発生する暗語又は単に一つのオーディオフレームで使用される全てのコード表の最長暗語のどちらかを使用することができる。この選択は非逃し表、つまり「基礎」ハフマン表にも利用できるが、逃し表ほどには効率的ではない。   The longest escape table codeword that actually occurs in a normal audio signal is typically about 20 bits long. Therefore, by transmitting the number of raster points and the length of the longest codeword in one block, the number of priority codewords that can be arranged at the raster points can be further increased. The length of the raster is then equal to the length of the longest code word that actually occurs or the length of the logical longest code word of the currently used table, whichever is the minimum value. To determine the minimum value, either the actually occurring code words of each code table or simply the longest code words of all code tables used in one audio frame can be used. This choice can also be used for non-missing tables, or "basic" Huffman tables, but is not as efficient as missed tables.

あるスペクトル部分又はスペクトルブロック内の最長暗語の長さを送信することは別の有利な副作用を生み出す。デコーダは、既に発生した最大長さから、妨害されたかもしれないより長い暗語がそのビットストリームの中に存在するかどうかを検知することができる。長い暗語は普通、スペクトル値の高いエネルギーを表している。非常に長い暗語が伝達エラーのために発生した場合、これは非常に可聴な妨害となる。最大長さを送信することは、ほとんどの場合このようなエラーを感知し、それに対して策を講じる手段を与えることになる。エラーに対する対向策とは、長すぎる暗語を単に空白にしておくか又は何かもっと複雑な隠蔽工作であろう。   Transmitting the length of the longest codeword in a spectral part or spectral block creates another advantageous side effect. The decoder can detect from the already generated maximum length whether there is a longer codeword in the bitstream that may have been disturbed. Long code words usually represent high energy spectral values. If a very long codeword occurs due to a transmission error, this will be a very audible disturbance. Transmitting the maximum length will in most cases provide a means of sensing such errors and taking action. The countermeasure against the error may be to simply leave the overly long codeword blank or to do something more complicated.

誤差許容と同時に効率的な符号化のためにはできる限り多くのラスターポイントが望ましいということを銘記しておくことは重要である。しかし、ラスターポイントの数はビットストリームの全長によって制限される。これはもちろんラスタリングの結果として長くされるべきではなく、なぜならば、ビットストリーム中に使用されない場所ができてしまい、全体的なデータ圧縮の理論とは矛盾することになるからである。しかし、応用によっては、ビットストリームの延長は高い程度での誤差許容のためには受け入れられることもあるということも、また指摘しておかねばならない。考慮すべき別の点は、ラスターはできるだけ多くの暗語がラスターポイントから始まるように構築されることが好ましいということである。よって、本発明は、先行技術に比べてラスターポイント間距離の選択に関して有効な融通性がある。全く理想的な場合には、この融通性によって全ての暗語がラスターポイント上に配置されるが、このためには非常に大きな技術努力が必要である。前述のラスターポイントの配置方法、つまり各スペクトル部分でのラスターポイント間距離を関連するコード表に基づいて決定する方法は、この最適ケースに非常に近いものを可能とする。しかし、これは特に、全ての暗語が心理音響的に重要なものではなく、ビットストリーム中に使用されない場所を残さないために、心理音響的にさほど重要でない暗語は、ビットストリーム内に、ラスター配列された心理音響的に重要な暗語の間に挿入されるからである。   It is important to note that as many raster points as possible are desirable for efficient coding as well as error tolerance. However, the number of raster points is limited by the total length of the bitstream. This should, of course, not be lengthened as a result of rastering, because it leaves unused places in the bitstream, which contradicts the theory of overall data compression. However, it must also be pointed out that in some applications the extension of the bitstream may be acceptable for a high degree of error tolerance. Another point to consider is that the raster is preferably constructed so that as many code words as possible start at the raster point. Thus, the present invention has more flexibility in selecting the distance between raster points than in the prior art. In the very ideal case, this flexibility places all code words on raster points, but this requires a great deal of technical effort. The above-described method of arranging raster points, that is, a method of determining the distance between raster points in each spectral portion based on an associated code table, can be very close to this optimal case. However, this is especially the case when the code words that are less important psychoacoustically are not rasterized in the bit stream, because not all code words are psychoacoustically significant and leave no unused places in the bit stream. This is because it is inserted between the psychoacoustically important secret words.

本発明の第3の特徴点によれば、暗語は、ビットストリーム中に、もはや周波数に関して高くなる順に直線状に並べられてはいず、異なるスペクトル値の暗語が「スクランブル」されている。図1において、暗語の周波数に関わる交互的な直線的配列がある程度見られる。斜線で示された優先暗語は周波数が高くなる順に配列され、斜線を施されていない非優先暗語も、周波数が高くなる順にビットストリーム中に挿入されているからである。いわゆる「突発的」エラーが図1に示すビットストリーム中に発生した場合、すなわち、引き続くいくつかの暗語の崩壊につながるような妨害が発生した場合、例えば暗語6,7a,2,3,7bが同時に影響を受けることになる。   According to a third aspect of the invention, the code words are no longer linearly arranged in the bitstream in order of increasing frequency, but code words of different spectral values are "scrambled". In FIG. 1, there is some alternating linear arrangement related to the codeword frequency. This is because priority passwords indicated by oblique lines are arranged in descending order of frequency, and non-priority passwords that are not indicated by oblique lines are also inserted into the bit stream in descending order of frequency. If a so-called "sudden" error occurs in the bit stream shown in FIG. 1, i.e., if a disturbance occurs that leads to the collapse of several subsequent cryptograms, for example, the cryptograms 6,7a, 2,3,7b You will be affected at the same time.

これに相当する復号化されたオーディオ信号には、スペクトル的に比較的広く故にはっきりと聞こえる妨害が、優先暗語2,3によって示されるスペクトル帯域内に発生することになる。突発的なエラーの問題については、図1の非常に単純な例からはあまり明らかではない。しかし、実際、5個以上のラスターポイントがあり、突発的エラーがしばしば複数のラスターポイントに跨って発生することが考えられ、このような場合には、比較的広い周波数帯域でのデータの損失となり得る。この理由から、本発明の第3の特徴点によれば、スペクトル値の優先暗語は周波数の高くなる順に配列されないことが好ましく、周波数に関してランダムなあるいはランダムに見えるような配列になるように「スクランブル」にする方が好ましい。非優先暗語もまた同様に取り扱ってもよい。ランダムのような配列の場合、この分散状況はデコーダに前もってセットできるので、この分散についてはサイド情報として送信する必要はない。結果として、ビットストリーム中の連続する暗語の損失が完全な一つの周波数帯域の損失とはならず、単にいくつかの周波数帯域での非常に小さい損失となるだけである。この妨害が聞こえることはめったになく、一つの周波数帯域全体の損失よりも効果的に隠すことができる。   Corresponding decoded audio signals will have clearly audible disturbances in the spectral band indicated by the preferred code words 2, 3 because they are relatively wide spectrally. The problem of catastrophic errors is less clear from the very simple example of FIG. However, in reality, there are five or more raster points, and it is considered that a catastrophic error often occurs over a plurality of raster points. In such a case, data loss occurs in a relatively wide frequency band. obtain. For this reason, according to the third aspect of the present invention, it is preferable that the priority code words of the spectrum values are not arranged in the order of increasing frequency, and the scramble is made so as to be arranged in a random or random manner with respect to frequency. Is more preferable. Non-priority codewords may be handled as well. In the case of a random-like arrangement, this distribution need not be transmitted as side information as this distribution can be set in advance in the decoder. As a result, the loss of consecutive code words in the bitstream does not result in a complete loss of one frequency band, but only a very small loss in some frequency bands. This disturbance is rarely audible and can be masked more effectively than the loss of an entire frequency band.

本発明の第4の特徴点によれば、優先暗語及び非優先暗語の周波数に関して高くなる順の直線的な配列に代わり、例えばn番目ごとの暗語がラスター配列され、残りの暗語はそれらの間に挿入されるという配列が使用可能である。前述したように、一つのビットストリームのためのラスターポイントの数は全長及びラスターポイント間距離によって限定される。例えば、低い帯域幅でのサンプリングの場合を考えると、大多数の暗語が心理音響的に重要な暗語である。16kHzのサンプリングレートが使用された場合、信号全てが論理的に使用可能な8kHzの帯域幅を有しているからである。経験的には、暗語のうちの30%だけがラスターポイント上に配列され、残りの70%はラスターを完全に埋めるように配列されなければならない。しかし、このことは、重要な周波数領域、例えばスピーチ信号の場合は0〜4kHzであるが、これがラスターポイント上に配置された暗語によってカバーあるいは「保護」され得ないということを意味している。従って、重要な周波数領域でのエラー伝達を適切に阻止するために、全ての優先暗語をラスターポイント上に配置する代わりに、2番目ごと、3番目ごと、4番目ごと等の優先暗語のみをこのように配置し、他の優先暗語は一直線に並べられるのではなく、ラスターを埋めるように配置される。例えば、2番目ごと、3番目ごと等のスペクトル値が低周波領域にあることがわかり、点在する暗語が伝達の間に崩壊する場合、例えば予測等のエラー隠蔽技術を使用してデコーダ内でこれらの暗語を再構築することも可能である。   According to a fourth feature of the present invention, instead of a linear arrangement in which the priority of the priority word and the non-priority word are higher in frequency, for example, every nth word is raster-arranged, and the remaining word is interposed between them. Can be used. As described above, the number of raster points for one bit stream is limited by the total length and the distance between raster points. For example, considering the case of sampling at low bandwidth, the majority of code words are psycho-acoustically important code words. If a sampling rate of 16 kHz is used, all signals have a logically usable bandwidth of 8 kHz. Empirically, only 30% of the code words must be arranged on raster points and the remaining 70% must be arranged to completely fill the raster. However, this means that important frequency regions, e.g. 0-4 kHz for speech signals, cannot be covered or "protected" by code words located on raster points. Therefore, instead of placing all priority code words on a raster point, only the second, third, fourth, etc. priority code words are used to properly block error transmission in important frequency domains. The other priority code words are not arranged in a straight line, but arranged to fill the raster. For example, if every second, every third, etc. spectral value is found to be in the low frequency region, and the interspersed codewords collapse during transmission, the error concealment techniques such as prediction may be used in the decoder. It is also possible to reconstruct these code words.

ビットストリームを復号化するための方法及び装置は前述の符号化を反映するように働く。   A method and apparatus for decoding a bitstream serves to reflect the encoding described above.

符号化されたビットストリームが一つのコード表に異なる長さの暗語と等距離のラスターポイント(10,12,14)を持つラスターを有し、これらの暗語は、他のスペクトル値と比べて心理音響的に重要なあるスペクトル値を表す優先暗語を含み、優先暗語はラスターポイントによって配列されているという符号化されたオーディオ信号で表されるビットストリームを復号化するための一般的な方法では、(a)二つのラスターポイント間の距離D1が決定される。二つのラスターポイント間の距離がわかれば、(b)ラスターポイントに配列されている符号化されたビットストリーム中の優先暗語が、周波数に関して直線的な順で、各優先暗語の始まりがラスターポイントと一致する配列となるように、再分類される。これにより優先暗語は図2に示す一般的な周波数に関する直線的な配列となり、(c)復号化されたスペクトル値を得るために、関連するコード表を用いてこれらの優先暗語を復号化することができる。(d)復号化されたスペクトル値を時間領域に戻すように変換して、復号化されたオーディオ信号が得られ、例えばラウドスピーカに送り込めるように何らかのよく知られた方法で加工することができる。   The encoded bitstream has rasters with raster points (10,12,14) equidistant from codewords of different lengths in one code table, and these codewords are psychological compared to other spectral values. A common method for decoding a bitstream represented by an encoded audio signal that includes a preferred codeword that represents some acoustically significant spectral value, wherein the preferred codeword is arranged by raster points, (A) The distance D1 between two raster points is determined. If the distance between the two raster points is known, (b) the preferred code words in the encoded bitstream arranged at the raster points are in linear order with respect to frequency, and each priority code word begins with the raster point. It is reclassified to have a matching sequence. This results in the preferred code words being in a linear array with respect to the general frequencies shown in FIG. 2, and (c) decoding these code words using the associated code table to obtain decoded spectral values. Can be. (D) transforming the decoded spectral values back into the time domain to obtain a decoded audio signal, which can be processed in any well-known way, for example to be sent to a loudspeaker .

ビットストリームがただ一つのコード表を使用して符号化された場合、ラスターポイント間距離は、どの表が符号化のために使用されたのかをビットストリームのサイド情報から見つけ出すことによって、極めて簡単に設定することができる。符号化によっては、この距離はこの表の最長暗語の長さであるかもしれず、それはそのコーダに永久的にセットされ得る。その距離が、コード表が与えられたビットストリームの一部に実際に発生する最長暗語の長さであれば、このことはビットストリームに伴うサイド情報等でデコーダに発信される。   If the bitstream is encoded using only one code table, the distance between raster points can be very easily determined by finding out which table was used for encoding from the side information of the bitstream. Can be set. Depending on the encoding, this distance may be the length of the longest codeword in this table, which can be set permanently to its coder. If that distance is the length of the longest codeword that actually occurs in a portion of the given bitstream, this is signaled to the decoder, such as in side information associated with the bitstream.

デコーダは、優先暗語及び非優先暗語の再分類を、例えば符号化されたビットストリームにポインタを当てることによって行う。デコーダがラスター距離を認識しており、優先暗語が周波数に関して直線的に配列されている場合、デコーダはラスターポイントに飛び越し、そこから始まる暗語を読むことができる。一つの暗語を読み終えると、ポインタは次のラスターポイントへ飛び、このようなプロセスを繰り返す。全ての優先暗語が読まれても、ビットストリームはまだ非優先暗語を含んでいる。ビットストリーム中の優先暗語と非優先暗語の直線的配列が選択された場合、非優先暗語はすでに周波数に関して直線的に配列されており、さらなる分類をすることなしに、復号化及び元の状態への変換がなされる。   The decoder performs the reclassification of the preferred and non-preferred code words, for example, by pointing a pointer to the encoded bitstream. If the decoder is aware of the raster distance and the preferred code words are linearly arranged in frequency, the decoder can jump to the raster point and read the code words starting there. After reading one codeword, the pointer jumps to the next raster point and repeats this process. Even if all preferred code words have been read, the bitstream still contains non-preferred code words. If a linear arrangement of priority and non-priority code words in the bitstream is selected, the non-priority code words are already linearly arranged in frequency and can be decoded and returned to their original state without further classification. Is performed.

本発明の第3又は第4の特徴点に係る符号化が選択されると、スクランブル情報がサイド情報として送られるか、またはスクランブル状態の分布が前もって固定され、それにより最初からデコーダはこのことがわかる。同じ考慮が第4の特徴点にも当てはまる。一定の分布を規定するか、またはデコーダにサイド情報として連絡された可変の分布を選択することは常に可能である。   If the coding according to the third or fourth aspect of the invention is selected, the scrambling information is sent as side information or the distribution of the scrambling state is fixed in advance, so that from the beginning the decoder can do this. Understand. The same considerations apply to the fourth feature point. It is always possible to define a constant distribution or to select a variable distribution that is communicated to the decoder as side information.

ここで、優先暗語を決定し操作する有利な方法を説明する。ただ一つのコード表を使用する場合には一つのラスター距離を、あるいは多数のコード表を使用する場合には複数のラスター距離を設定することによって符号化されたビットストリームのためのラスターを決定した後、優先暗語は、それぞれがラスターポイントと一致するようにラスターに配置されなければならない。   An advantageous method for determining and manipulating the preferred secret word will now be described. Determine the raster for the encoded bitstream by setting a single raster distance when using only one code table, or multiple raster distances when using multiple code tables Later, the preferred code words must be placed on the raster such that each coincides with a raster point.

本発明の好ましい実施形態では、この配置は、暗語を一種のソート表から本来は空のラスターに順に挿入していくことによって達成される。表の最初の暗語から始められる。従って、優先暗語は表中の暗語の並びによって影響されるが、優先暗語は常にラスターの場所にある暗語、つまり、ラスターポイントが使用可能である暗語である。もはやラスターポイントがない表中の暗語に関しては、ビットストリーム中の残りの空間にそれらを挿入していく以外に選択の余地はない。これらの暗語は従って本発明の感覚からすると、優先暗語ではない。   In a preferred embodiment of the invention, this arrangement is achieved by inserting the codewords from a sort table into an otherwise empty raster. You can start with the first codeword in the table. Thus, the preferred codeword is affected by the sequence of the codewords in the table, but the codeword is always the codeword at the location of the raster, that is, the codeword for which raster points are available. For code words in the table that no longer have raster points, there is no choice but to insert them into the remaining space in the bitstream. These passwords are therefore not preferred passwords in the sense of the present invention.

優先暗語の数は前もっては決定されない。符号化されたビットストリームのためのメモリが満たされるまでは、すなわち、もはや優先暗語が書き込めなくなるまでは、優先暗語が書き込まれる。このメモリの大きさは、そのスペクトルデータのために以前に使用されたビットの合計と同じである。つまり、それ以上のビットはラスタリングによって要求されない。メモリは、このように符号化の効率がラスター処理の結果として落ち込むのを阻止するために、暗語の数によって制限される。もちろん、誤差を許容することができるように、全ての暗語がラスターポイント上に配置されてもよい。しかし、この場合、ラスターポイント間に空のビットが使用されないままになるので、符号化効率の顕著な低下につながる。   The number of preferred code words is not predetermined. Priority code words are written until the memory for the encoded bitstream is full, that is, until the priority code words can no longer be written. The size of this memory is the same as the sum of bits previously used for that spectral data. That is, no more bits are required by rastering. The memory is limited by the number of code words in order to prevent the efficiency of the encoding from dropping as a result of the raster processing. Of course, all code words may be placed on raster points so that errors can be tolerated. However, in this case, empty bits remain unused between raster points, leading to a significant reduction in coding efficiency.

本発明の第1の特徴点は優先暗語、つまり、他のスペクトル値に比べて心理音響的に重要なスペクトル値を表す暗語の決定に係わるものである。心理音響的に重要なスペクトルラインとは、例えば、他のスペクトルラインよりも大きなエネルギーを含んでいるスペクトルラインである。概略的に言えば、大きなエネルギーを有していればいるほど、そのスペクトルラインはより重要である。従って、高いエネルギーを有するスペクトルラインが妨害されないことと、それと同様に、高いエネルギーを有するスペクトルラインがエラーの結果として発生することはないということが重要である。   A first feature of the present invention relates to the determination of a priority code word, that is, a code word representing a spectral value that is more psychoacoustical than other spectral values. The psychoacoustically important spectral line is, for example, a spectral line containing more energy than other spectral lines. Generally speaking, the higher the energy, the more important the spectral line is. It is therefore important that the spectral lines with high energy are not disturbed and, similarly, that the spectral lines with high energy do not occur as a result of errors.

これまでは、高いエネルギーを有するスペクトルラインが主にスペクトルの低い部分に位置しているという仮定で説明してきた。これは多くの場合事実であるが、全ての場合ではない。本発明は、一つの暗語に符号化されたスペクトルラインの、または複数のスペクトルラインが一つの暗語に符号化されている場合はこれら複数のスペクトルラインのエネルギーを概算するための含蓄されたインディケータを使用することによって、この仮説を無視するものである。   So far, the description has been made on the assumption that the spectral line with the higher energy is located mainly in the lower part of the spectrum. This is often the case, but not all. The present invention provides an implied indicator for estimating the energy of spectral lines encoded in one codeword or, if multiple spectral lines are encoded in one codeword, these multiple spectral lines. Use ignores this hypothesis.

このインディケータは、使用されるハフマンコード表のようなコードブック又はコード表である。例えばAAC標準では、11個の表が使用される。これらの表の値域はかなり違っている。表1〜11の最大絶対値は以下の通りである。   This indicator is a code book or code table, such as the Huffman code table used. For example, in the AAC standard, eleven tables are used. The ranges in these tables are quite different. The maximum absolute values in Tables 1 to 11 are as follows.

1;1;2;2;4;4;7;7;12;12;8191.   1; 1; 2; 2; 4; 4; 7; 7; 12; 12; 8191.

これらの異なる値域の結果として、最大エラーは表による。各表の表示を考えると、これは表の中から確認可能であるか、または表以外から送信されてくるが、最大エラーは前記絶対値の2倍になる。本発明によれば、優先暗語の決定は使用されるコード表に基づいてなされ、そのインディケータは最大絶対値と含蓄的にコード表番号である。まず、そのコード表が最大の値域を有している暗語を考える。次に、そのコード表が2番目に大きい値を有する暗語が続き、という手順である。従って、AAC標準の場合、表11が最初に考慮され、表9,10が続き、表1,2が優先順位の最後である。ラスターポイントに配置される優先暗語は、このように、ラスターポイントがそれのために使用され得るソート表の中にある暗語である。   As a result of these different ranges, the maximum error is tabulated. Considering the display of each table, this can be confirmed from within the table or transmitted from outside the table, but the maximum error is twice the absolute value. According to the invention, the determination of the preferred codeword is made on the basis of the code table used, the indicator of which is the code table number implicitly with the maximum absolute value. First, consider a code word whose code table has the largest range. Next, the code table is followed by a code word having the second largest value. Thus, for the AAC standard, Table 11 is considered first, followed by Tables 9 and 10, and Tables 1 and 2 are the last in priority. The preferred codeword placed at the raster point is thus the codeword in the sort table for which the raster point can be used.

暗語を決定するこの方法の利点は、使用される表がサイド情報で送信され、この情報からデコーダは送信中に使用される暗語の並びを決めることができるので、他の付加的な情報をデコーダに送信する必要はない。   The advantage of this method of determining the secret word is that the table used is transmitted in side information, from which the decoder can determine the sequence of secret words used during the transmission, so that other additional information can be passed to the decoder. No need to send to.

本発明の第2の特徴点は、オーディオ信号を表すスペクトル値を得るためにその周波数領域内でのオーディオ信号の離散時間型サンプルを変換するために、長いウィンドウに対向するものとして、短い(サンプリング)ウィンドウを使用することに関する。短いウィンドウはAAC標準及び標準層3で定義される。短いウィンドウの場合、一つの長いMDCTの代わりに多数の短いMDCTが使用される。   A second feature of the invention is that a short (sampling) is used as opposed to a long window to transform discrete time samples of the audio signal in its frequency domain to obtain spectral values representing the audio signal. ) Regarding using windows. Short windows are defined in the AAC standard and standard layer 3. For short windows, multiple short MDCTs are used instead of one long MDCT.

AAC標準では、それぞれが128の出力値を有する8個のMDCTからなるグループが、例えば1024の出力値を有する一つのMDCTの代わりに使用される。これはコーダの周波数分解能を犠牲にして時間的分解能を高めることになる。一般的に短いウィンドウは一時的な信号に使用される。例えば短いウィンドウがAACと共に使用される場合、8つの連続した完全なスペクトル、すなわちそれぞれのセットが全スペクトルを含む8セットのスペクトル値が得られるが、スペクトル値間の距離もまた8倍の大きさである。これは周波数分解能の低下を表し、そしてこれは時間的分解能の高まりを伴う。   In the AAC standard, a group of eight MDCTs each having 128 output values is used instead of one MDCT having, for example, 1024 output values. This will increase the temporal resolution at the expense of the coder's frequency resolution. Generally, short windows are used for temporary signals. For example, if a short window is used with AAC, eight consecutive complete spectra are obtained, i.e., eight sets of spectral values, each set containing the full spectrum, but the distance between the spectral values is also eight times as large. It is. This represents a decrease in frequency resolution, and this is accompanied by an increase in temporal resolution.

AAC標準ではグループ分けが行われる。すなわち、8つのスペクトルからグループが形成される。これらのグループのために1セットの倍率がある。最も単純な場合、各グループが一つのウィンドウを含んでいる。この場合、8セットの倍率が送信されなければならない。より強い圧縮を達成するためには、一般的に心理音響的な必要条件を考慮して、複数のウィンドウがAAC標準の一つのグループに集められる。これは送信されるべき倍率の数を減少させ、より良いデータ圧縮となる。スペクトルデータはグループ毎に順に符号化されたビットストリームに記載されて送信される。グループ内では倍率帯域の交互配置が行われる。   Grouping is performed in the AAC standard. That is, a group is formed from eight spectra. There is one set of magnifications for these groups. In the simplest case, each group contains one window. In this case, eight sets of magnifications must be transmitted. To achieve stronger compression, multiple windows are grouped into one group of the AAC standard, generally taking into account psychoacoustic requirements. This reduces the number of magnifications to be transmitted and results in better data compression. The spectrum data is described and transmitted in a bit stream that is sequentially coded for each group. Within the group, the magnification bands are alternately arranged.

このことは下記の例によって示される。ここでは三つのグループに分けられる。第1グループは二つのウィンドウを含み、第2グループは三つのウィンドウを含み、第3グループも三つのウィンドウを含んでいる。各スペクトルは12の倍率帯域を有する。グループ分けは下記の通りである。   This is illustrated by the following example. Here, it is divided into three groups. The first group includes two windows, the second group includes three windows, and the third group includes three windows. Each spectrum has 12 magnification bands. The grouping is as follows.

第1グループ、第1ウィンドウ、第1倍率帯域
第1グループ、第2ウィンドウ、第1倍率帯域
第1グループ、第1ウィンドウ、第2倍率帯域
第1グループ、第2ウィンドウ、第2倍率帯域
...
第1グループ、第2ウィンドウ、第12倍率帯域
第2グループ、第3ウィンドウ、第1倍率帯域
第2グループ、第4ウィンドウ、第1倍率帯域
第2グループ、第5ウィンドウ、第1倍率帯域
第2グループ、第3ウィンドウ、第2倍率帯域
...
1st group, 1st window, 1st magnification band 1st group, 2nd window, 1st magnification band 1st group, 1st window, 2nd magnification band 1st group, 2nd window, 2nd magnification band. . .
1st group, 2nd window, 12th magnification band 2nd group, 3rd window, 1st magnification band 2nd group, 4th window, 1st magnification band 2nd group, 5th window, 1st magnification band 2nd Group, third window, second magnification band. . .

この配列は、プレソーティング(予備分類)、あるいはソート表から暗語をラスターに挿入するのには適さない。なぜならば、連続的な挿入がなされる場合、第1グループの全スペクトルは保護されるが最後のグループのスペクトルは保護されないからである。この理由で、本発明の第2の特徴点に係るプレソーティングは、短いウィンドウのために行われる。AAC標準の場合、グループ分けと倍率帯域によるアプローチは放棄される。新しいプレソーティングは、今度はスペクトルラインのユニットという形で行われる。   This arrangement is not suitable for pre-sorting or inserting dark words from a sorted table into a raster. This is because, when successive insertions are made, the entire spectrum of the first group is protected but the spectrum of the last group is not. For this reason, the pre-sorting according to the second aspect of the invention is performed for short windows. In the case of the AAC standard, the grouping and scaling band approaches are abandoned. The new presorting is now in the form of spectral line units.

本発明の好ましい実施形態において、各ユニットは四つのスペクトルラインを含む。AAC標準では従って各ウィンドウは、128のスペクトルラインに相当する32のユニットを含む。スペクトルデータは下記の通りである。   In a preferred embodiment of the present invention, each unit contains four spectral lines. According to the AAC standard, each window thus contains 32 units, corresponding to 128 spectral lines. The spectrum data is as follows.

第1ウィンドウ、第1ユニット
第2ウィンドウ、第1ユニット
...
第8ウィンドウ、第1ユニット
第1ウィンドウ、第2ユニット
第2ウィンドウ、第2ユニット
...
第8ウィンドウ、第2ユニット
第1ウィンドウ、第3ユニット
...
First window, first unit Second window, first unit. . .
Eighth window, first unit First window, second unit Second window, second unit,. . .
Eighth window, second unit First window, third unit,. . .

このプレソーティングは全てのウィンドウの個々のスペクトル領域は互いに近くに位置する、つまり、低いスペクトル値は、周波数に基づき、より高い周波数を有するスペクトル値の前に、個々のセットのスペクトル値から短い表の前部分に書き込まれる。低いスペクトル領域のスペクトル値は心理音響的に特に重要であり、ソート表の前述のプレソーティングは、スペクトル値をソート表からラスターに挿入するための基礎を与える。この暗語のプレソーティング、つまり、優先暗語を決定することにより、いかなる付加的情報をも送る必要はない。なぜならば、デコーダはサイド情報からこのブロック又はフレームでは短いウィンドウが使用されたことを認識し、ユニットを生成するためのコーダの分類アルゴリズムが常に一定とされ、故にそれがデコーダに永久的にプログラムされるからである。   This pre-sorting is such that the individual spectral regions of all windows are located close to each other, i.e., lower spectral values are based on frequency and a shorter table from the individual set of spectral values before spectral values with higher frequencies. Is written in front of. The spectral values in the lower spectral range are particularly important psychoacoustically, and the aforementioned presorting of the sort table provides a basis for inserting spectral values from the sort table into a raster. By pre-sorting this codeword, i.e. determining the preferred codeword, it is not necessary to send any additional information. Because the decoder knows from the side information that a short window has been used in this block or frame, the coder's classification algorithm for generating units is always constant, so that it is permanently programmed into the decoder. This is because that.

暗語をソート表にプレソーティングすることは優先暗語を決定することに相当することを銘記しておくことは重要である。なぜなら、ラスターポイントに位置する暗語、つまり、優先暗語がソート表の最初、つまり前又は上の部分にある可能性が高いので、この表はそれ自体、高い可能性で、どの暗語がラスターポイントに書かれ得るのかを決定するからである。   It is important to keep in mind that pre-sorting code words into a sort table is equivalent to determining a preferred code word. Because the codeword located at the raster point, that is, the preferred codeword, is likely to be at the beginning, that is, before or above the sort table, the table itself is highly likely, and which codeword is at the raster point. It is because it determines whether it can be written.

この好ましい実施形態以外では、このプレソーティングはソート表によっては行われず、個々の暗語を指し、指し示された暗語がビットストリーム中に書き入れられる順番を決定することで行われる。   Other than in this preferred embodiment, this pre-sorting is not performed by the sort table, but by pointing to individual code words and determining the order in which the indicated code words are written into the bitstream.

AAC標準から、いくつかのコード表は2次元又は4次元的であること、すなわち、一つの暗語が2個又は4個のスペクトル値を符号化することが知られている。従って、四つのスペクトルライン又はその倍数を一つのユニットにグループ化することが有利である。このようにすれば同じ周波数領域を符号化する暗語が直接互いに連続するように分類されるからである。一つのユニットのスペクトルラインの数はそのコード表の異なる次元によって割り切れることが好ましい。すなわち、ユニットごとのラインの数は暗語ごとのラインの数の公倍数であり、最小公倍数ならば最適である。   It is known from the AAC standard that some code tables are two-dimensional or four-dimensional, that is, one codeword encodes two or four spectral values. Therefore, it is advantageous to group the four spectral lines or their multiples into one unit. In this way, the code words encoding the same frequency region are classified so as to be directly continuous with each other. Preferably, the number of spectral lines in a unit is divisible by the different dimensions of the code table. That is, the number of lines per unit is a common multiple of the number of lines per codeword, and the least common multiple is optimal.

本発明は第1、第2の特徴点が組み合わされたとき、特に効果的である。本発明に係るユニットへの再分類が短いウィンドウのために行われ、次にコード表のインディケータを用いて優先暗語の決定が行われ、その際、高い程度のエラー防止を達成するために高いコード表からの暗語が一定のラスターポイント上に配置されることを確実にするために、ユニットへの再分類の結果が再び再分類される。 この組み合わせは必ずしも必要ではないが、最良の結果を導くものである。   The present invention is particularly effective when the first and second features are combined. Reclassification into units according to the invention is performed for short windows, and then a determination of the preferred codeword is made using the indicators in the code table, where a high code is used to achieve a high degree of error protection. The results of the reclassification into units are reclassified again to ensure that the code words from the table are located on certain raster points. This combination is not required, but will lead to the best results.

暗語を含む符号化されたビットストリームの、本発明の第2の特徴点に係るラスタリングの一例を示す。FIG. 9 shows an example of rastering of an encoded bitstream including a cryptographic word according to the second aspect of the present invention. FIG. 従来技術による、周波数に関して直線的に高くなる順番による暗語の配列を示す。1 shows an arrangement of code words in order of linearly increasing frequency with respect to the prior art.

Claims (8)

ビットストリームを復号化する装置であり、該ビットストリームはコード表から引き出された互いに異なる長さを有する暗語を含み、また、実際に発生する最も長い暗語の長さに関する情報をサイド情報として含むものである、該装置は以下のものを含むことを特徴とする、
コード表を用いてビットストリームを復号化する復号化ユニット、該復号化ユニットは、前記ビットストリームから抜粋された暗語が発生する最も長い暗語の長さよりも長いかどうか、従って間違った暗語であるかどうかを検知可能であり、さらに、このような間違った暗語を検知した場合には対策を講じることができる。
An apparatus for decoding a bit stream, the bit stream including code words having different lengths extracted from a code table, and including information regarding the length of the longest code word that actually occurs as side information. Wherein the device comprises:
A decoding unit for decoding a bitstream using a code table, which decoding unit is longer than the length of the longest codeword in which the codeword extracted from the bitstream occurs, and thus whether it is the wrong codeword; Can be detected, and if such an incorrect codeword is detected, countermeasures can be taken.
請求項1記載の装置であり、前記復号化ユニットは、前記対策として、間違った暗語の空白化又は隠蔽を行うことができる。   2. The apparatus according to claim 1, wherein the decoding unit can perform blanking or concealment of an incorrect codeword as the countermeasure. 請求項1又は請求項2記載の装置であり、前記ビットストリームは符合化されたオーディオ信号を表し、長い暗語は高いエネルギーを有するオーディオ信号のスペクトル値に相当し、比較的短い暗語は比較的低いエネルギーを有するオーディオ信号のスペクトル値に相当する。   Apparatus according to claim 1 or 2, wherein the bit stream represents an encoded audio signal, wherein long code words correspond to spectral values of the audio signal with high energy and relatively short code words are relatively low. It corresponds to the spectral value of an audio signal having energy. 請求項1、請求項2又は請求項3記載の装置であり、前記ビットストリームは、そのビットストリームがコード表から引き出された互いに長さの異なる暗語を含み、等距離で並ぶラスターポイント(10,12,14)を持つラスターを有する符合化されたオーディオ信号を表すものであり、該暗語は、他のスペクトル値に比べて心理音響的に重要なスペクトル値群を表す優先暗語を含み、該スペクトル値群はオーディオ信号の時間的サンプル群のスペクトルを示し、該優先暗語は、前記スペクトル値群のうちの一つのスペクトル値を表す優先暗語の始まりが一つのラスターポイントに一致し、該スペクトル値群の別のスペクトル値を表す優先暗語の始まりが別のラスターポイントに一致するように、ラスターに配置されている、前記装置はさらに以下のものを含むことを特徴とする、
前記ビットストリーム中サイド情報として送信されてくる実際に発生する最も長い暗語の長さを使用して、隣り合う二つのラスターポイント間の距離(D1)を検知し、その距離をその長さに等しくなるように設定するユニット、
前記ビットストリーム中、その始まりがラスターポイントと一致するようにラスターポイントに配置された優先暗語を読み出すユニット、これにより、関連するコード表を用いて優先暗語が復号化されて復号化されたスペクトル値が得られ、それが時間領域に変換されて復号化されたオーディオ信号が得られる。
4. The apparatus according to claim 1, wherein the bit stream comprises code words of different lengths derived from a code table, the raster points being arranged at equidistant distances. 12, 14), wherein the code word comprises a priority code word representing a group of spectrally-acceptable spectral values compared to other spectral values. The value group indicates a spectrum of a temporal sample group of the audio signal, wherein the priority code word has a start point of the priority code word representing one spectrum value of the spectrum value group coincides with one raster point, The apparatus is arranged on a raster such that the beginning of a preferred codeword representing another spectral value of corresponds to another raster point. Characterized in that it comprises the following in al,
The length (D1) between two adjacent raster points is detected by using the length of the longest actually occurring code word transmitted as side information in the bit stream, and the distance is made equal to that length. Unit to set,
A unit for reading a priority codeword located at a raster point in the bitstream such that its start coincides with the raster point, whereby the priority codeword is decoded using the associated code table and the decoded spectral value Which is transformed to the time domain to obtain a decoded audio signal.
請求項4記載の装置であり、前記ビットストリームは少なくとも二つのコード表から引き出された互いに異なる長さの暗語を含み、等距離に配置されたラスターポイント(10,12,14及び14,16,18)のグループを少なくとも二つ持つラスターを有し、一つの部分に関して、そのスペクトル部分で実際に発生する最も長い暗語の長さをサイド情報として含むものであり、前記装置はスペクトル部分に関連するコード表を認知するユニットをさらに含み、
前記距離検知ユニットは、一スペクトル部分に関連する暗語に対する二つのラスターポイント間の距離を、そのスペクトル部分で発生する最も長い暗語の長さに等しくなるように設定する、
復号化において、スペクトル部分の優先暗語は関連するコード表によって復号化され、
該復号化ユニットは、一つの部分において、その部分に関連する暗語が発生する最も長い暗語の長さよりも長いかどうかを検知可能である。
5. The apparatus according to claim 4, wherein the bit stream comprises codewords of different lengths derived from at least two code tables and equidistantly arranged raster points (10,12,14 and 14,16,14). 18) a raster having at least two groups, including, for one part, the length of the longest code word actually occurring in that spectral part as side information, wherein the device is associated with the spectral part. It further includes a unit that recognizes the code table,
The distance sensing unit sets a distance between two raster points for a cryptographic word associated with a spectral portion to be equal to the length of the longest cryptographic word occurring in that spectral portion;
In decoding, the preferred code words of the spectral part are decoded by the associated code table,
The decoding unit is able to detect in one part whether the codeword associated with that part is longer than the longest codeword that occurs.
ビットストリームを復号化する方法であり、該ビットストリームはコード表から引き出された互いに異なる長さを有する暗語を含み、また、実際に発生する最も長い暗語の長さに関する情報をサイド情報として含むものである、該方法は以下のステップを含むことを特徴とする、
コード表を用いてビットストリームを復号化する、該復号化ステップは以下のサブステップを含む、
前記ビットストリームから抜粋された暗語が発生する最も長い暗語の長さよりも長いかどうか、従って間違った暗語であるかどうかを検知する、
このような間違った暗語を検知した場合、対策を講じる。
A method for decoding a bitstream, wherein the bitstream includes codewords having different lengths extracted from a code table, and includes information regarding the length of the longest codeword that actually occurs as side information. The method comprises the following steps:
Decoding the bitstream using the code table, the decoding step includes the following sub-steps:
Detecting whether the codeword extracted from the bitstream is longer than the longest codeword occurring, and thus whether it is a wrong codeword,
If such an incorrect codeword is detected, take measures.
請求項6記載の方法であり、
前記符号化されたビットストリームは、そのビットストリームがコード表から引き出された互いに長さの異なる暗語を含み、等距離で並ぶラスターポイント(10,12,14)を持つラスターを有する符合化されたオーディオ信号を表すものであり、該暗語は、他の暗語に比べて心理音響的に重要なスペクトル値群の特別なスペクトル値を表す優先暗語を含み、該スペクトル値群は該オーディオ信号の時間的サンプル群のスペクトルを示し、該優先暗語は、該スペクトル値群の一つのスペクトル値を表す優先暗語の始まりが一つのラスターポイントに一致し、該スペクトル値群の別のスペクトル値を表す別の優先暗語の始まりが別のラスターポイントに一致するように、ラスターポイントによって配列されている、
前記方法は以下のステップをさらに含むことを特徴とする、
前記ビットストリーム中サイド情報として送信されてきた実際に発生する最も長い暗語の長さに関する情報に基づき、二つの隣り合うラスターポイントの距離(D1)を検知し、その距離をその長さに等しくなるように設定する、
前記符合化されたビットストリーム中、優先暗語の始まりがラスターポイントと一致するようにラスターポイントによって配置された優先暗語を、周波数に関して直線的な配列にするために再分類し、これにより、該優先暗語は関連するコード表によって復号化されて復号化されたスペクトル値が得られ、さらに時間領域に変換されて復号化されたオーディオ信号が得られる。
7. The method of claim 6, wherein
The encoded bitstream is encoded with rasters having raster points (10,12,14) equidistantly aligned with each other, including codewords of different lengths derived from a code table. An audio signal, wherein the secret word includes a priority secret word representing a special spectral value of a group of spectral values that are psychoacoustically significant compared to other secret words, and the spectral value group includes a temporal code of the audio signal. 5 shows a spectrum of a group of samples, wherein the priority codeword is a different priority value representing the first spectral value of one of the spectral value groups coincides with one raster point and representing another spectral value of the spectral value group. Are arranged by raster points so that the beginning of the codeword coincides with another raster point,
The method further comprises the following steps:
The distance (D1) between two adjacent raster points is detected based on the information regarding the length of the longest code word actually generated and transmitted as the side information in the bit stream, and the distance becomes equal to the length. To set,
In the encoded bitstream, the priority codewords arranged by raster points such that the beginning of the priority codeword coincides with the raster point are re-classified in a linear arrangement with respect to frequency, whereby The codeword is decoded by an associated code table to obtain a decoded spectral value, and further converted to a time domain to obtain a decoded audio signal.
請求項7記載の方法であり、
前記ビットストリームは少なくとも二つのコード表から引き出された互いに異なる長さの暗語を含み、等距離に配置されたラスターポイント(10,12,14及び14,16,18)のグループを少なくとも二つ持つラスターを有し、一つの部分に関して、そのスペクトル部分で実際に発生する最も長い暗語の長さをサイド情報として含むものであり、前記装置はスペクトル部分に関連するコード表を認知するステップをさらに含み、
前記距離検知ステップにおいて、一スペクトル部分に関連する暗語に対する二つのラスターポイント間の距離は、そのスペクトル部分で発生する最も長い暗語の長さに等しくなるように設定され、
復号化において、一スペクトル部分の優先暗語はそれに関連するコード表によって復号化され、
前記検知及び対策のサブステップは、サイド情報としてビットストリーム中に含まれるそれぞれの部分の発生する最も長い暗語の長さを使用して、各部分において行われる。
A method according to claim 7, wherein
The bit stream contains codewords of different lengths derived from at least two code tables and has at least two groups of equidistantly arranged raster points (10,12,14 and 14,16,18). Having a raster and, for one part, including, as side information, the length of the longest codeword actually occurring in that spectral part, the apparatus further comprises the step of recognizing a code table associated with the spectral part. ,
In the distance detecting step, a distance between two raster points for a secret word associated with one spectral part is set to be equal to a length of the longest secret word occurring in the spectral part;
In decoding, the preferred codeword of one spectral part is decoded by its associated code table,
The detection and countermeasure sub-steps are performed in each part using the length of the longest code word occurring in each part included in the bitstream as side information.
JP2004099419A 1997-10-24 2004-03-30 Apparatus and method for decoding audio signals or bitstreams Expired - Lifetime JP3978194B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE19747119A DE19747119C2 (en) 1997-10-24 1997-10-24 Methods and devices for coding or decoding an audio signal or a bit stream
PCT/EP1998/008475 WO2000039933A1 (en) 1997-10-24 1998-12-28 Method and devices for coding or decoding an audio signal or bit stream
JP2004099419A JP3978194B2 (en) 1997-10-24 2004-03-30 Apparatus and method for decoding audio signals or bitstreams
JP2004099417A JP4168000B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams
JP2004099418A JP3902642B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
DE19747119A DE19747119C2 (en) 1997-10-24 1997-10-24 Methods and devices for coding or decoding an audio signal or a bit stream
DE19840853A DE19840853B4 (en) 1997-10-24 1998-09-07 Methods and devices for encoding an audio signal
PCT/EP1998/008475 WO2000039933A1 (en) 1997-10-24 1998-12-28 Method and devices for coding or decoding an audio signal or bit stream
JP2004099419A JP3978194B2 (en) 1997-10-24 2004-03-30 Apparatus and method for decoding audio signals or bitstreams
JP2004099417A JP4168000B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams
JP2004099418A JP3902642B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000591732A Division JP3580777B2 (en) 1998-12-28 1998-12-28 Method and apparatus for encoding or decoding an audio signal or bit stream

Publications (2)

Publication Number Publication Date
JP2004234021A true JP2004234021A (en) 2004-08-19
JP3978194B2 JP3978194B2 (en) 2007-09-19

Family

ID=36972705

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2004099417A Expired - Lifetime JP4168000B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams
JP2004099419A Expired - Lifetime JP3978194B2 (en) 1997-10-24 2004-03-30 Apparatus and method for decoding audio signals or bitstreams
JP2004099418A Expired - Lifetime JP3902642B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2004099417A Expired - Lifetime JP4168000B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2004099418A Expired - Lifetime JP3902642B2 (en) 1997-10-24 2004-03-30 Method and apparatus for encoding or decoding audio signals or bitstreams

Country Status (3)

Country Link
JP (3) JP4168000B2 (en)
DE (1) DE19747119C2 (en)
WO (1) WO2000039933A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19907728C2 (en) 1999-02-23 2001-03-01 Fraunhofer Ges Forschung Device and method for generating a data stream and device and method for reading a data stream
DE19907729C2 (en) 1999-02-23 2001-02-22 Fraunhofer Ges Forschung Method and device for generating a data stream from code words of variable length and method and device for reading a data stream from code words of variable length
US7610195B2 (en) 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3943879B4 (en) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digital coding method
JPH04221465A (en) * 1990-12-21 1992-08-11 Matsushita Electric Ind Co Ltd Recording device

Also Published As

Publication number Publication date
WO2000039933A1 (en) 2000-07-06
JP3902642B2 (en) 2007-04-11
JP2004264860A (en) 2004-09-24
JP4168000B2 (en) 2008-10-22
JP3978194B2 (en) 2007-09-19
DE19747119C2 (en) 2003-01-16
JP2004234020A (en) 2004-08-19
DE19747119A1 (en) 1999-04-29

Similar Documents

Publication Publication Date Title
JP3580777B2 (en) Method and apparatus for encoding or decoding an audio signal or bit stream
US6807528B1 (en) Adding data to a compressed data frame
US9460730B2 (en) Methods and apparatus to perform audio watermarking and watermark detection and extraction
KR100942860B1 (en) Apparatus and method for generating and interpreting a data stream with segments having specified entry points, and computer readable medium storing a program thereof
KR100595202B1 (en) Apparatus of inserting/detecting watermark in Digital Audio and Method of the same
US7526432B2 (en) Apparatus and method for producing a data stream and apparatus and method for reading a data stream
KR20030014752A (en) Audio coding
JP2002524960A (en) Apparatus and method for entropy coding of information words and apparatus and method for decoding of entropy coded information words
US20120308017A1 (en) Method, apparatus, and system for encoding and decoding multi-channel signals
JP3978194B2 (en) Apparatus and method for decoding audio signals or bitstreams
KR100685974B1 (en) Apparatus and method for watermark insertion/detection
AU754371B2 (en) Method and device for generating a data flow from variable-length code words and a method and device for reading a data flow from variable-length code words
ES2329466T3 (en) PROCEDURES AND DEVICES FOR CODING OR DECODING AN AUDIO SIGNAL OR A BIT FLOW.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060802

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070330

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070622

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110629

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120629

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130629

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term