JPH0918348A - Acoustic signal encoding device and acoustic signal decoding device - Google Patents

Acoustic signal encoding device and acoustic signal decoding device

Info

Publication number
JPH0918348A
JPH0918348A JP7161943A JP16194395A JPH0918348A JP H0918348 A JPH0918348 A JP H0918348A JP 7161943 A JP7161943 A JP 7161943A JP 16194395 A JP16194395 A JP 16194395A JP H0918348 A JPH0918348 A JP H0918348A
Authority
JP
Japan
Prior art keywords
information
sub
code
acoustic signal
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7161943A
Other languages
Japanese (ja)
Inventor
Itaru Kaneko
格 金子
Masaya Konishi
正也 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRAPHICS COMMUN LAB KK
Victor Company of Japan Ltd
Original Assignee
GRAPHICS COMMUN LAB KK
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRAPHICS COMMUN LAB KK, Victor Company of Japan Ltd filed Critical GRAPHICS COMMUN LAB KK
Priority to JP7161943A priority Critical patent/JPH0918348A/en
Publication of JPH0918348A publication Critical patent/JPH0918348A/en
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

PURPOSE: To improve a 'level' that the increase of sub information exceeds the compressibility of main information and to further improve the compressibility of the entire output signal string. CONSTITUTION: This acoustic signal encoding device for converting acoustic signals 1 to the digital code information of high quality and outputting it as encoded data is provided with a band divider 2 for dividing the acoustic signal 1 into plural frequency components, an adaptive sub information encoder 41 for encoding a scale factor obtained from the output of the band divider 2 and noise allocation information obtained from an auditory model 4, generating the sub information and generating a sub information code 45 from a sub information prediction signal, an abstract audition model 42 for generating the sub information prediction signal from the encoded sub information, a main information encoder 8 for encoding the frequency component 3 outputted from the band divider 2 based on the sub information 45 encoded in the adaptive sub information encoder 41 and generating a main information code 9 and a code synthesizer 10 for synthesizing the main information code 9 and the sub information code 45 and generating digital code information.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、広帯域のアナログ・オ
ーディオ情報を高品質のディジタル符号情報に変換する
ため、もしくは、高品質のディジタル符号情報を広帯域
のアナログ・オーディオ情報に逆変換するために用いら
れる音響信号符号化装置又は音響信号復号装置の改良技
術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is for converting wide band analog audio information into high quality digital code information, or for converting high quality digital code information back into wide band analog audio information. The present invention relates to an improved technique of an acoustic signal encoding device or an acoustic signal decoding device used.

【0002】近年、文字情報のみならず、画像情報やオ
ーディオ情報といったおよそ人間が認知し得る全ての情
報を一元的に取り扱うことのできる「マルチメディア技
術」への関心が高まっている。しかし、情報量の大幅な
増大に伴って、伝送コスト(典型的には電話回線を利用
した通信コスト)のアップや記憶メディアへの格納効率
といった点が普及への妨げとなっており、できる限り元
情報に近い内容で情報量を削減できる圧縮技術及び復元
技術が求められている。本発明は、かかるマルチメディ
ア技術の、特に、広帯域のアナログ・オーディオ情報の
圧縮技術及び復元技術に関するものである。なお、「オ
ーディオ」という用語は一般に音楽分野で使用される言
葉であるが、本明細書中では聴覚によって認識し得る
(ただし、その情報が可聴範囲にあるかどうかは問わな
い)全ての情報を指すものとする。
[0002] In recent years, there has been an increasing interest in "multimedia technology" capable of centrally handling not only textual information but also almost all human-recognizable information such as image information and audio information. However, as the amount of information has increased significantly, the transmission cost (typically the communication cost using a telephone line) and the efficiency of storage in storage media have hindered the spread of the information. A compression technique and a decompression technique that can reduce the amount of information with contents close to the original information are required. The present invention relates to such multimedia technology, in particular to compression and decompression technology for wideband analog audio information. The term “audio” is a word generally used in the field of music, but in the present specification, all information that can be recognized by hearing (however, whether or not the information is in the audible range) is used. Shall be pointed out.

【0003】[0003]

【従来の技術】広帯域のアナログ・オーディオ情報(以
下「音響信号」と言うこともある)の圧縮技術及び復元
技術として、従来から以下のものが知られている。 「第1の従来例」音響信号波形の既知の部分に続く波形
を予測することにより、符号化後の情報量を圧縮(削
減)するもの。たとえば、DPCMやADPCMが代表
例である。これらの代表例では、音響信号波形の注目点
の波高値とその直前の波高値との差分をとり、この差分
情報を伝送又は記憶することによって全体の情報量を削
減している。 「第2の従来例」聴覚が持つ周波数マスキング効果・・・・
・・・・周波数成分Aの近くに位置するAよりも低レベルの
周波数成分Bは人間の耳にはマスクされて聞こえないと
いう効果・・・・・・・・を利用するもの。第1従来例の処理を
複数の周波数帯域に分離して行う。たとえば、ITU
(国際通信連合)のG.722規格では、音響信号を4
つの周波数帯域に分割し、それぞれの帯域成分ごとにA
DPCMを使用している。 「第3の従来例」聴覚の性質を限界まで利用するため
に、周波数マスキング効果の精密なモデルを適用するも
の。たとえば、ISO/IEC 11172.3国際標
準(MPEG Audio)では周波数帯域の分割数を
32から384へと高め、それぞれの帯域について最適
な符号量を割り当てる。ACTS(米国通信委員会)規
格の音響伝送(Dolby AC3)や、MiniDi
sc方式なども同様な手法を採用する。
2. Description of the Related Art As compression and decompression techniques for wideband analog audio information (hereinafter sometimes referred to as "acoustic signal"), the following techniques have been known. "First conventional example" A method of compressing (reducing) the amount of information after encoding by predicting a waveform following a known portion of an acoustic signal waveform. For example, DPCM and ADPCM are typical examples. In these representative examples, the difference between the peak value of the point of interest of the acoustic signal waveform and the peak value immediately before it is calculated, and the difference information is transmitted or stored to reduce the total amount of information. "Second conventional example" Hearing frequency masking effect ...
............................, using using the effect that the frequency component B of a lower level than A, which is located near the frequency component A, is masked by the human ear and cannot be heard. The process of the first conventional example is separated into a plurality of frequency bands and performed. For example, ITU
G. (International Telecommunication Union) In the 722 standard, the acoustic signal is 4
It is divided into two frequency bands, and A for each band component
You are using DPCM. "Third conventional example" A precise model of the frequency masking effect is applied in order to use the auditory properties to the limit. For example, according to the ISO / IEC 11172.3 international standard (MPEG Audio), the number of divisions of the frequency band is increased from 32 to 384, and the optimum code amount is assigned to each band. ACTS (American Communications Commission) standard audio transmission (Dolby AC3) and MiniDi
A similar method is adopted for the sc method and the like.

【0004】これら三つの従来例の中で、第3の従来例
が最も高い圧縮効率を有する。図7は、第3の従来例に
係る符号化器のブロック図である。この図において、1
は入力された音響信号、2は入力音響信号1の情報を失
うことなく複数の周波数成分3に分割する帯域分割器、
4は入力音響信号1を分析してノイズ割り当て(聴覚特
性上劣化を感じさせないノイズの最大振幅を表す量)5
を発生する聴覚モデル、6は複数の周波数成分3とノイ
ズ割り当て5に基づいて副情報符号7を発生する副情報
符号化器、8は複数の周波数成分3と副情報符号7とに
基づいて主情報符号9を発生する主情報符号化器、10
は副情報符号7と主情報符号9を合成して伝送用又は記
憶用の出力符号11を生成する符号列生成器である。
Of these three conventional examples, the third conventional example has the highest compression efficiency. FIG. 7 is a block diagram of an encoder according to the third conventional example. In this figure, 1
Is an input acoustic signal, 2 is a band divider that divides the input acoustic signal 1 into a plurality of frequency components 3 without losing information,
4 is a noise allocation by analyzing the input acoustic signal 1 (amount representing the maximum amplitude of noise that does not cause deterioration in hearing characteristics) 5
, 6 is a sub-information encoder that generates sub-information code 7 based on the plurality of frequency components 3 and noise allocation 5, and 8 is a main information based on the plurality of frequency components 3 and sub-information code 7. Main information encoder for generating information code 9, 10
Is a code string generator that synthesizes the sub information code 7 and the main information code 9 to generate an output code 11 for transmission or storage.

【0005】図8は、第3の従来例に係る復号器のブロ
ック図である。この図において、21は入力符号(図7
の出力符号11に相当)、22は入力符号21を主情報
符号23と副情報符号24に分解する符号分解器、25
は副情報符号24から倍率や量子化精度等の副情報26
を復号する副情報復号器、27は副情報26に基づいて
主情報符号23を複数の周波数成分28に復号する主情
報復号器、29は複数の周波数成分28を合成して元の
音響信号30を再生する帯域合成器である。
FIG. 8 is a block diagram of a decoder according to the third conventional example. In this figure, 21 is an input code (see FIG.
Of the input code 21), 22 is a code decomposer that decomposes the input code 21 into main information code 23 and sub information code 24, and 25
Is from the sub information code 24 to the sub information 26 such as magnification and quantization accuracy.
, 27 is a main information decoder that decodes the main information code 23 into a plurality of frequency components 28 based on the sub information 26, and 29 is a combination of the plurality of frequency components 28 and an original acoustic signal 30. Is a band synthesizer for reproducing the.

【0006】図7の符号化器では、周波数及び時間ブロ
ックごとに分割された入力音響信号の倍率や量子化精度
等を可変的に求め、波形自体を、これらの倍率や量子化
精度等によって決まる最小のディジタル符号量に圧縮し
て出力する。出力符号列は「主情報」と「副情報」を含
み、主情報はその情報の主体成分であるが、副情報は、
主情報の復号に必要な倍率や量子化精度等の補助情報で
ある。副情報をより細かく与えることによって、主情報
の符号化効率(圧縮率)を高めることができる。
The encoder shown in FIG. 7 variably obtains the scaling factor and quantization precision of the input acoustic signal divided for each frequency and time block, and the waveform itself is determined by these scaling factor and quantization precision. It is compressed to the minimum digital code amount and output. The output code string includes “main information” and “sub information”, and the main information is the main component of the information, but the sub information is
It is auxiliary information necessary for decoding the main information, such as magnification and quantization accuracy. By giving the sub-information more finely, the coding efficiency (compression rate) of the main information can be increased.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、上記第
3の従来例にあっては、主情報の圧縮率を高めるため
に、副情報のきめ細かさを増して行くと、出力符号列中
の「副情報」それ自体の情報量が増加するという相反す
る作用があり、副情報の増加分が主情報の圧縮率を上回
らない“レベル”までしか副情報のきめ細かさを増すこ
とができず、出力信号列全体の圧縮率を高めることがで
きないという問題点があった。
However, in the third conventional example, if the fineness of the sub information is increased in order to increase the compression rate of the main information, the "sub" in the output code string is increased. The information itself has the contradictory effect of increasing the amount of information, and the sub-information can be increased in fineness only to the "level" at which the increase in the sub-information does not exceed the compression rate of the main information. There is a problem that the compression rate of the entire column cannot be increased.

【0008】そこで、本発明は、副情報の増加分が主情
報の圧縮率を上回る“レベル”を高め、以て出力信号列
全体の圧縮率をより一層向上することを目的とする。
Therefore, an object of the present invention is to increase the "level" at which the increase amount of the sub information exceeds the compression ratio of the main information, thereby further improving the compression ratio of the entire output signal sequence.

【0009】[0009]

【課題を解決するための手段】請求項1記載の発明は、
音響信号を高品質のディジタル符号情報に変換し、符号
化データとして出力する音響信号符号化装置であって、
前記音響信号を複数の周波数成分に分割する帯域分割器
と、該帯域分割器の出力から求められるスケールファク
タと聴覚モデルから求められるノイズ割当情報とを符号
化して副情報を生成するとともに、副情報予測信号から
副情報符号を生成する適応副情報符号化器と、符号化さ
れた副情報から副情報予測信号を生成する抽象聴覚モデ
ルと、該適応副情報符号化器で符号化された副情報に基
づいて該帯域分割器から出力された周波数成分を符号化
し主情報符号を生成する主情報符号化器と、主情報符号
と副情報符号とを合成してディジタル符号情報を生成す
る符号合成器と、を備えたことを特徴とする。
According to the first aspect of the present invention,
An acoustic signal encoding device for converting an acoustic signal into high-quality digital code information and outputting it as encoded data,
A band divider for dividing the acoustic signal into a plurality of frequency components, a scale factor obtained from the output of the band divider, and noise allocation information obtained from an auditory model are encoded to generate sub information, and sub information An adaptive sub-information encoder that generates a sub-information code from a prediction signal, an abstract auditory model that generates a sub-information prediction signal from encoded sub-information, and sub-information encoded by the adaptive sub-information encoder A main information encoder that encodes a frequency component output from the band divider based on the above to generate a main information code, and a code synthesizer that synthesizes the main information code and the sub information code to generate digital code information And are provided.

【0010】請求項2記載の発明は、請求項1記載の発
明において、入力音響信号を分析して人間の聴覚特性上
劣化を感じさせることなく符号化を行なえるようにノイ
ズ割り当て情報を発生させることのできる聴覚モデルを
備えたことを特徴とする。請求項3記載の発明は、請求
項1記載の発明において、適応副情報符号化器は、抽象
聴覚モデルなどの副情報予測モデルを利用して予測され
る、副情報の統計的性質を利用して適応的に副情報を符
号化することを特徴とする。
According to a second aspect of the present invention, in the first aspect of the present invention, noise allocation information is generated so that the input acoustic signal is analyzed and coding can be performed without causing deterioration in human auditory characteristics. It is characterized by having an auditory model that can be used. According to a third aspect of the present invention, in the first aspect of the invention, the adaptive side information encoder uses a statistical property of side information that is predicted using a side information prediction model such as an abstract auditory model. It is characterized by adaptively encoding the sub-information.

【0011】請求項4記載の発明は、ディジタル符号情
報を符号化データとして入力し、該符号化データを音響
信号に逆変換して出力する音響信号復号装置であって、
ディジタル符号情報中の副情報から副情報予測信号を生
成する抽象聴覚モデルと、該副情報予測信号を使って該
副情報符号を復号する適応副情報復号器と、復号された
副情報を基に、ディジタル符号情報中の主情報符号を復
号して周波数成分に戻す主情報復号器と、該周波数成分
を元の音響信号に戻す帯域合成器と、を備えたことを特
徴とする。
According to a fourth aspect of the present invention, there is provided an acoustic signal decoding device which inputs digital code information as encoded data, inversely converts the encoded data into an acoustic signal and outputs the acoustic signal.
An abstract auditory model that generates a sub information prediction signal from sub information in digital code information, an adaptive sub information decoder that decodes the sub information code using the sub information prediction signal, and based on the decoded sub information , A main information decoder for decoding the main information code in the digital code information to return it to a frequency component, and a band synthesizer for returning the frequency component to the original acoustic signal.

【0012】請求項5記載の発明は、請求項4記載の発
明において、適応副情報復号器は、抽象聴覚モデルなど
の副情報予測モデルを利用して予測される、副情報の統
計的性質を利用し、適応的に符号化された副情報を、適
応的に復号することを特徴とする。
According to a fifth aspect of the invention, in the invention according to the fourth aspect, the adaptive side information decoder determines the statistical property of the side information predicted by using a side information prediction model such as an abstract auditory model. It is characterized in that it utilizes and adaptively decodes the sub information that is adaptively encoded.

【0013】[0013]

【作用】本発明では、抽象聴覚モデルを用いて、副情報
よりも情報量の少ない副情報予測信号が作られ、この副
情報予測信号から生成された副情報符号と主情報とを合
成してディジタル符号情報が生成される。したがって、
ディジタル符号情報中の副情報の情報量が少なくなり、
副情報の増加分が主情報の圧縮率を上回る“レベル”が
高くなる結果、出力信号列全体の圧縮率のより一層の向
上が図られる。
In the present invention, a sub information prediction signal having a smaller amount of information than the sub information is created using the abstract auditory model, and the sub information code and the main information generated from this sub information prediction signal are combined. Digital code information is generated. Therefore,
The amount of sub information in the digital code information decreases,
As a result of the increase in the "level" at which the increase amount of the sub information exceeds the compression ratio of the main information, the compression ratio of the entire output signal sequence can be further improved.

【0014】[0014]

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1〜図6は、本発明に係る音響信号符号化装置
及び音響信号復号装置の一実施例を示す図である。な
お、各図において、従来例と共通する構成要素には同一
の符号を付してある。 「符号化器」まず、本実施例の符号化器の構成を説明す
る。図1において、入力音響信号1は、広帯域のアナロ
グ・オーディオ情報を一定のサンプリングレートで一様
PCM符号化したものであり、たとえば、16ビット
(bit)の線形PCM信号を用いることができる。言
うまでもなく、このビット数に限定されない、要求され
る精度に応じた最適なビット数を選択すればよい。な
お、以下では、1チャンネル(すなわちモノラル)の音
響信号を例にするが、これは説明の簡単化のためであ
り、多チャンネルの音響信号を除外するものではない。
入力音響信号1は以下のような信号である。
Embodiments of the present invention will be described below with reference to the drawings. 1 to 6 are diagrams showing an embodiment of an acoustic signal encoding device and an acoustic signal decoding device according to the present invention. In addition, in each drawing, the same components as those of the conventional example are denoted by the same reference numerals. [Encoder] First, the configuration of the encoder of the present embodiment will be described. In FIG. 1, an input acoustic signal 1 is obtained by uniformly PCM-encoding wideband analog audio information at a constant sampling rate, and for example, a 16-bit (bit) linear PCM signal can be used. Needless to say, the optimum bit number is not limited to this bit number and may be selected according to the required accuracy. It should be noted that in the following, a one-channel (that is, monaural) acoustic signal is taken as an example, but this is for simplification of description, and a multi-channel acoustic signal is not excluded.
The input acoustic signal 1 is the following signal.

【0015】x[t] : t = 0..∞ 入力音響信号1は、帯域分割器2及び聴覚モデル4に入
力される。帯域分割器2は、入力音響信号1の情報を失
うことなく、この入力音響信号1を複数の周波数成分3
に分割する機能を有している。かかる機能は、たとえ
ば、DFT(Discrete Fourior Transform)、DHT
(Discrete Hartley Transform)、DCT(Discrete C
osine Transform)又はMDCT(Modified Discrete C
osine Transform )などの様々な公知手法によって実現
できる。特に限定しないが、本実施例ではMDCTを用
いる。MDCTでは周波数成分を以下のように求める。
X [t]: t = 0..∞ The input acoustic signal 1 is input to the band divider 2 and the auditory model 4. The band divider 2 inputs the input acoustic signal 1 into a plurality of frequency components 3 without losing the information of the input acoustic signal 1.
It has a function of dividing into. Such a function is, for example, DFT (Discrete Fourior Transform), DHT.
(Discrete Hartley Transform), DCT (Discrete C
osine Transform) or MDCT (Modified Discrete C)
It can be realized by various known methods such as osine transform). Although not particularly limited, MDCT is used in this embodiment. In MDCT, frequency components are obtained as follows.

【0016】 入力: x[m][i] m = 0,1,...,∞ (セグメント番号) i = 0,..,L-1 (セグメント内サンプル番号) 出力: c[m][k] = Σ(x[m-1][i] × M[i,k] + x[m][i] × M[i+L,k]) for i = 0,...,L-1 MDCT 係数: M[i,k] = cos{(2k+1) × (2i+n0) × Pi/2/L} n0 = (L+1)/2 たとえば、入力がある周波数の正弦波であった場合に
は、この変換によって、次表1に示す成分に出力が集中
する。表1によれば、変換によって帯域をL等分する効
果が得られたことになる。
Input: x [m] [i] m = 0,1, ..., ∞ (segment number) i = 0, .., L-1 (sample number in segment) Output: c [m] [ k] = Σ (x [m-1] [i] × M [i, k] + x [m] [i] × M [i + L, k]) for i = 0, ..., L- 1 MDCT coefficient: M [i, k] = cos {(2k + 1) × (2i + n0) × Pi / 2 / L} n0 = (L + 1) / 2 For example, for a sine wave with a certain frequency If so, this conversion causes the output to concentrate on the components shown in Table 1 below. According to Table 1, the effect of dividing the band into L equal parts is obtained by the conversion.

【0017】 周波数成分3は、以下のような信号である。[0017] The frequency component 3 is the following signal.

【0018】c[m][k] : k = 0..L, m = 0..∞ 周波数成分3は、後で副情報を用いて効率的に符号化す
るために、セグメントに分割される。セグメンテーショ
ンは、時間方向と周波数方向の両方で行われることもあ
る。以下の説明では、セグメント (b,p) は、 m = m(b)..m(b+1)-1 k = k(p)..k(p+1)-1 の範囲を含むものとする。
C [m] [k]: k = 0..L, m = 0..∞ The frequency component 3 is divided into segments for later efficient coding with side information. . The segmentation may be performed in both the time direction and the frequency direction. In the following description, the segment (b, p) is assumed to include the range m = m (b) .. m (b + 1) -1 k = k (p) .. k (p + 1) -1. .

【0019】聴覚モデル4は、入力音響信号1を分析し
て、聴覚特性上劣化を感じさせることのないノイズの最
大の振幅を表すノイズ割り当て情報5を発生する。ノイ
ズ割当には、たとえば、ISO/IEC 11172.
3国際標準などで規定された効率の良い符号化原理・・・・
・・・・聴覚のマスキング特性(周波数マスキングあるいは
時間マスキング)を利用し、帯域ごとの許容量子化ノイ
ズを入力信号に応じて最適に割り当てる・・・・・・・・を利用
できる。ここで、ノイズ割り当ては、時間・周波数セグ
メントの量子化ノイズに許される最大振幅を表す量であ
り、たとえば、 n[b][p] : b = 0..∞, p = 0..M のような信号である。n[b][p] は、各ブロックごとに聴
覚特性上劣化を感じさせることのないノイズの最大の振
幅である。ノイズ割り当ての具体的手法としては、たと
えば、ISO/IEC 11172.3に記載された P
sycho Acoustic Model 2 を適用できる。周波数及び時
間の関数として、許容できるノイズを求めることがで
き、容易に上記 n[b][p] への換算が可能である。
The auditory model 4 analyzes the input acoustic signal 1 and generates noise allocation information 5 representing the maximum amplitude of noise that does not cause deterioration in auditory characteristics. For noise allocation, for example, ISO / IEC 11172.
3 Efficient coding principles defined by international standards, etc ...
········································································································· and ····························· From assigning permissible quantization noise for each band optimally according to an input signal. Here, the noise allocation is a quantity that represents the maximum amplitude allowed for the quantization noise in the time / frequency segment, for example, n [b] [p]: b = 0..∞, p = 0..M Signal. n [b] [p] is the maximum amplitude of noise in each block that does not cause deterioration in auditory characteristics. As a concrete method of noise allocation, for example, P described in ISO / IEC 11172.3 is used.
sycho Acoustic Model 2 can be applied. The allowable noise can be obtained as a function of frequency and time, and can be easily converted into the above n [b] [p].

【0020】周波数成分3は、主情報符号化器8に入力
されるとともに、副情報処理部40にも入力される。副
情報処理部40は、適応副情報符号化器41と抽象聴覚
モデル42からなり、適応副情報符号化器41は、ノイ
ズ割り当て情報5と周波数成分3から副情報7を生成し
た後、その副情報7を抽象聴覚モデル42の働きにより
適応的に効率よく符号化して副情報符号45を生成す
る。適応副情報符号化器41は、たとえば、入力となる
周波数成分 c[m][k] から、1セグメントの最大振幅で
あるスケールファクタ s[b][p] を求めることができ
る。
The frequency component 3 is input to the main information encoder 8 and also to the sub information processing section 40. The sub-information processing unit 40 includes an adaptive sub-information encoder 41 and an abstract auditory model 42. The adaptive sub-information encoder 41 generates the sub-information 7 from the noise allocation information 5 and the frequency component 3 and then outputs the sub-information. The information 7 is adaptively and efficiently coded by the function of the abstract auditory model 42 to generate the sub information code 45. The adaptive sub-information encoder 41 can obtain the scale factor s [b] [p], which is the maximum amplitude of one segment, from the input frequency component c [m] [k], for example.

【0021】s[b][p] =max(c[m][k], {m = m(b)..m
(b+1)-1, k = k(p)..k(p+1)-1}) また、ノイズ割り当てと上記スケールファクタから、必
要な量子化ステップ数Q[b][p]を求めることができる。 Q[b][p] = s[b][p] / n[b][p] これらの副情報を用いることによって、主情報を後述の
ように効率よく符号化できるが、これら副情報自体も符
号化する必要があるため、全体の符号量を削減するに
は、この副情報に対しても効率的な符号化技術を適用す
る必要がある。
S [b] [p] = max (c [m] [k], {m = m (b) .. m
(B + 1) -1, k = k (p) .. k (p + 1) -1}) In addition, the required number of quantization steps Q [b] [p] is calculated from the noise allocation and the above scale factor. You can ask. Q [b] [p] = s [b] [p] / n [b] [p] By using these side information, the main information can be efficiently coded as described later, but the side information itself Since it is also necessary to encode the sub information, it is necessary to apply an efficient encoding technique also to this sub information in order to reduce the overall code amount.

【0022】Q[b][p], s[b][p] について考えると、以
下のようなことが判る。 (1) Q[b][p] < 1 となるセグメントが多数ある。こ
れらのセグメントについては、主情報、副情報とも符号
化の必要がない(但し、Q[b][p] < 1であることを示す
情報が必要)。 (2) 近接した Q[b][p] は、完全に独立ではなく相
互に次の制約がある。 (2−1) 時間マスキング効果 ある周波数において、振幅の大きい成分の直前あるいは
直後に存在する、比較的振幅の小さい成分はマスクされ
て人間の耳には聴こえない。図3において、Q[b-1][p]
は点線で示すような略山形の時間マスキング効果を持
つ。したがって、Q[b-1][p]に隣接するQ[b][p]について
は、マスキング効果を越えた部分だけを符号化すればよ
い。 (2−2) 周波数マスキング効果 周波数軸上において、ある振幅の大きい周波数成分の近
傍に存在する比較的振幅の小さい成分はマスクされて聴
こえない。図4において、Q[b][p-1]は点線で示すよう
な略山形の周波数マスキング効果を持つ。したがって、
Q[b][p-1]に隣接するQ[b][p]については、マスキング効
果を越えた部分だけを符号化すればよい。
Considering Q [b] [p] and s [b] [p], the following can be understood. (1) There are many segments with Q [b] [p] <1. For these segments, neither main information nor sub-information needs to be encoded (however, information indicating that Q [b] [p] <1 is required). (2) Q [b] [p] that are close to each other are not completely independent, and have the following constraints on each other. (2-1) Time Masking Effect At a certain frequency, a relatively small amplitude component existing immediately before or after a large amplitude component is masked and cannot be heard by the human ear. In Figure 3, Q [b-1] [p]
Has a substantially mountain-shaped time masking effect as shown by the dotted line. Therefore, for Q [b] [p] adjacent to Q [b-1] [p], only the portion exceeding the masking effect needs to be encoded. (2-2) Frequency masking effect On the frequency axis, a relatively small amplitude component existing in the vicinity of a certain frequency component having a large amplitude is masked and cannot be heard. In FIG. 4, Q [b] [p-1] has a substantially mountain-shaped frequency masking effect as shown by the dotted line. Therefore,
Regarding Q [b] [p] adjacent to Q [b] [p-1], only the portion exceeding the masking effect may be encoded.

【0023】これらの性質(1)、(2)を利用する
と、あるQ[b][p] の値を符号化する際に、Q[b][p] の予
想分布を求めることができ、 Q[b][p] を効率よく符号
化することができる。以上のように、適応副情報符号化
器41は、副情報間の相関によって適応的に副情報の符
号化を行うが、そのための副情報の予測は抽象聴覚モデ
ル42によって行うことができる。
By using these properties (1) and (2), the expected distribution of Q [b] [p] can be obtained when encoding a certain value of Q [b] [p], It is possible to efficiently encode Q [b] [p]. As described above, the adaptive sub-information encoder 41 adaptively encodes the sub-information by the correlation between the sub-information, and the sub-information for that purpose can be predicted by the abstract auditory model 42.

【0024】適応副情報符号化器41は、概符号化副情
報43を抽象聴覚モデル42に入力し、抽象聴覚モデル
42から副情報予測44を得る。後述するように抽象聴
覚モデル42は、本発明の復号器にも含まれるが、その
入力は概符号化副情報43であるから、符号化側の抽象
聴覚モデルと復号側の抽象聴覚モデルを共通化すること
ができる。
The adaptive sub-information encoder 41 inputs the roughly encoded sub-information 43 to the abstract auditory model 42 and obtains the sub-information prediction 44 from the abstract auditory model 42. As will be described later, the abstract auditory model 42 is also included in the decoder of the present invention, but since the input is the roughly encoded side information 43, the abstract auditory model on the encoding side and the abstract auditory model on the decoding side are common. Can be converted.

【0025】抽象聴覚モデル42は、聴覚特性を等価的
に計算するモデルであるという点で聴覚モデル4と一致
するが、以下の点で相違する。 (ア) 聴覚モデル4は、音響信号1の全てを入力変数
とするが、抽象聴覚モデル42は概符号化副情報43だ
けを入力変数とする。 (イ) 聴覚モデル4は、一般に精度重視であり計算量
の増加はやむを得ないものとして扱われるが、抽象聴覚
モデル42はデコード時にも必要なので精度よりも計算
量重視(少ない計算量)になる。 (ウ) 聴覚モデル4の精度は、性能に直接影響する
が、抽象聴覚モデル42は聴覚特性に忠実でなくてもか
まわない。
The abstract auditory model 42 matches the auditory model 4 in that it is a model that equivalently calculates auditory characteristics, but is different in the following points. (A) The auditory model 4 takes all of the acoustic signal 1 as an input variable, but the abstract auditory model 42 takes only the roughly encoded sub-information 43 as an input variable. (B) Although the auditory model 4 is generally treated as having an emphasis on accuracy and an increase in the amount of calculation is unavoidable, since the abstract auditory model 42 is also required at the time of decoding, the amount of calculation is emphasized (small amount of calculation) rather than accuracy. (C) The accuracy of the auditory model 4 directly affects the performance, but the abstract auditory model 42 need not be faithful to the auditory characteristics.

【0026】すなわち、抽象聴覚モデル42は、正確な
ノイズ割当を目的としたものではないから、聴覚モデル
4ほど精密なものでなくてもよく、たとえば、以下のよ
うな簡略手法によって副情報を予測することができる。
なお、図5に同手法の概念的なフローを示す。 p_zero[b][p] = 0.5 s_max[b][p] = n1[b][p-1] + off1 s_min[b][p] = max(s1[b-1][p]+off21,s1[b][p-1]+off
22) + off23 n_max[b][p] = n1[b][p-1]+off3 n_min[b][p] = max(s1[b-1][p]+off41,s1[b][p-1]+off
42) ここで、 n1[b][p] = s1[b][p]/Q1[b][p] 予測値はそれぞれ以下の意味を持つ。
That is, since the abstract auditory model 42 is not intended for accurate noise allocation, it does not have to be as precise as the auditory model 4. For example, the sub information can be predicted by the following simplified method. can do.
Note that FIG. 5 shows a conceptual flow of the method. p_zero [b] [p] = 0.5 s_max [b] [p] = n1 [b] [p-1] + off1 s_min [b] [p] = max (s1 [b-1] [p] + off21, s1 [b] [p-1] + off
22) + off23 n_max [b] [p] = n1 [b] [p-1] + off3 n_min [b] [p] = max (s1 [b-1] [p] + off41, s1 [b] [ p-1] + off
42) Here, n1 [b] [p] = s1 [b] [p] / Q1 [b] [p] Predicted values have the following meanings.

【0027】 p_zero[b][p]: メイン情報割当が零となる確率 s_max[b][p] : スケールファクタの最大値 s_min[b][p] : スケールファクタの最小値 n_max[b][p] : ノイズの最大値 n_min[b][p] : ノイズの最小値 また、 n1[b][p] 副情報符号のノイズ割当 s1[b][p] 副情報符号のスケールファクタ(最大
振幅) off1,off21,off22,off3,off41,off42 定数 である。この簡略的予測手法は、以下の理由で妥当であ
る。
P_zero [b] [p]: Probability that main information allocation is zero s_max [b] [p]: Maximum value of scale factor s_min [b] [p]: Minimum value of scale factor n_max [b] [ p]: Maximum noise value n_min [b] [p]: Minimum noise value n1 [b] [p] Noise allocation for sub information code s1 [b] [p] Scale factor for sub information code (maximum amplitude ) Off1, off21, off22, off3, off41, off42 are constants. This simple prediction method is valid for the following reasons.

【0028】s_max[b][p] = n1[b][p-1] + off1 セグメント(b,p)の最大振幅によって、隣接したセグ
メント(b,p-1)はマスキングを受けているはずだか
ら、セグメント(b,p-1)のノイズ割り当てによりセグ
メント(b,p)のとり得る最大の振幅が推定できる。 s_min[b][p] = max(s1[b-1][p]+off21,s1[b][p-1]+off
22) セグメント(b-1,p)、(b,p-1)は、共にセグメント
(b,p)をマスクするので、ノイズ割当はこれらからそ
の下限が推定できる。したがって、セグメント(b,p)
がゼロ割当とならないためには、少なくともそのレベル
より最大振幅が大きい必要がある。
S_max [b] [p] = n1 [b] [p-1] + off1 Due to the maximum amplitude of the segment (b, p), the adjacent segment (b, p-1) should be masked. Therefore, the maximum amplitude that the segment (b, p) can take can be estimated by the noise allocation of the segment (b, p-1). s_min [b] [p] = max (s1 [b-1] [p] + off21, s1 [b] [p-1] + off
22) Segments (b-1, p) and (b, p-1) both mask segment (b, p), so the lower bound of noise allocation can be estimated from them. Therefore, segment (b, p)
Must have a maximum amplitude greater than at least that level in order to be zero-allocated.

【0029】n_max[b][p] = n1[b][p-1]+off3 セグメント(b,p)のノイズ割当は、隣接したセグメン
ト(b,p-1)との連続性があるから、それにより最大値
が推定できる。 n_min[b][p] = max(s1[b-1][p]+off41,s1[b][p-1]+off
42) セグメント(b,p)のノイズ割当の最小値は、隣接した
セグメントによるマスクによってその最小値が推定でき
る。
N_max [b] [p] = n1 [b] [p-1] + off3 The noise allocation of the segment (b, p) has continuity with the adjacent segment (b, p-1). , It is possible to estimate the maximum value. n_min [b] [p] = max (s1 [b-1] [p] + off41, s1 [b] [p-1] + off
42) The minimum value of noise allocation of segment (b, p) can be estimated by masking with adjacent segments.

【0030】これらの推定は多少の誤差を含むものであ
るが、各々オフセットによって余裕度をもたせているの
で、実際の副情報の値は必ずこれらの最大値、最小値内
に収められる。これらの最大値、最小値を用いて、以下
のように副情報符号を生成できる。 n1[b][p] = Quant2(n[b][p]/n_min[b][p]) s1[b][p] = Quant2(s[b][p]/s_min[b][p]) ここで、Quant2 はスケール及びノイズ割当を量子化す
るのに適した、以下のような対数圧縮型の量子化関数で
ある。
Although these estimations include some errors, since the margins are provided by the respective offsets, the actual value of the sub-information is always contained within these maximum and minimum values. By using these maximum and minimum values, the sub information code can be generated as follows. n1 [b] [p] = Quant2 (n [b] [p] / n_min [b] [p]) s1 [b] [p] = Quant2 (s [b] [p] / s_min [b] [p ]) Here, Quant2 is a logarithmic compression type quantization function suitable for quantizing scale and noise allocation as follows.

【0031】 Quant2(x) = rint(log(x)/log(2)×a1) a1 は定数(たとえば 3.0 を用いることができる) 副情報符号は直ちに逆量子化されて、それを副情報とす
る。 n2[b][p] = Requant2(n1[b][p]) × n_min[b][p] s2[b][p] = Requant2(s1[b][p]) × s_min[b][p] Requant2(x) は Quant2(x) により量子化された整
数を逆量子化する関数である。
Quant2 (x) = rint (log (x) / log (2) × a1) a1 is a constant (for example, 3.0 can be used) The side information code is immediately dequantized, and it is referred to as side information. To do. n2 [b] [p] = Requant2 (n1 [b] [p]) × n_min [b] [p] s2 [b] [p] = Requant2 (s1 [b] [p]) × s_min [b] [ p] Requant2 (x) is a function that dequantizes the integer quantized by Quant2 (x).

【0032】Requant2(x) = Exp(x × a1) a1 は定数であり、Quant2(x) と同じ値(たとえば 3.
0)を用いる。以上は抽象聴覚モデルの具体的手法の一
例であるが、このような抽象聴覚モデルによって推定さ
れた情報に基づいて符号化を行うには、たとえば、「算
術符号化」、「ハフマン符号化」、「ベクトル符号化」
又は「テーブル参照符号化」など様々な手法を適用でき
る。
Requant2 (x) = Exp (x × a1) a1 is a constant and has the same value as Quant2 (x) (for example, 3.
0) is used. The above is an example of a specific method of the abstract auditory model. To perform encoding based on the information estimated by such an abstract auditory model, for example, “arithmetic encoding”, “Huffman encoding”, "Vector coding"
Alternatively, various methods such as “table reference coding” can be applied.

【0033】主情報符号化器8は、副情報7と周波数成
分3を入力とし、主情報符号9を出力する。副情報7か
ら、各周波数帯域ごとに必要なS/N比(信号対雑音
比)及び最大振幅を得ることができる。一般に周波数帯
域と必要なS/N比が与えられていれば、様々な手法で
その信号を所定のビットレートで符号化することが可能
である。
The main information encoder 8 receives the sub information 7 and the frequency component 3, and outputs the main information code 9. From the sub-information 7, it is possible to obtain the required S / N ratio (signal-to-noise ratio) and maximum amplitude for each frequency band. Generally, if a frequency band and a necessary S / N ratio are given, the signal can be encoded at a predetermined bit rate by various methods.

【0034】たとえば、主情報符号化器8は、以下の手
法で符号化を行うことができる。まず、スケール s[b]
[p] とノイズ割当 n[b][p] より以下のようにして量子
化ステップ数 q[b][p] を求める。 q[b][p] = s[b][p] / n[b][p] 次に、量子化ステップ数 q[b][p] とスケール s[b][p]
を用いて、次のように量子化と逆量子化を定義する。
For example, the main information encoder 8 can perform encoding by the following method. First, the scale s [b]
From [p] and noise allocation n [b] [p], the number of quantization steps q [b] [p] is calculated as follows. q [b] [p] = s [b] [p] / n [b] [p] Next, the number of quantization steps q [b] [p] and scale s [b] [p]
Quantization and dequantization are defined as follows using.

【0035】 Quant(x) = rint(x / s[b][p] × q[b][p]) Requant(x) = x / q[b][p] × s[b][p] rint(x) は x に最も近い整数を値としてとる丸め関
数である。主情報符号化器8は、この量子化関数を使っ
て以下のように量子化を行い、符号列生成器10は、主
情報符号9と副情報符号15を入力とし、最終的に出力
符号11を出力する。
Quant (x) = rint (x / s [b] [p] × q [b] [p]) Requant (x) = x / q [b] [p] × s [b] [p] rint (x) is a rounding function whose value is the integer closest to x. The main information encoder 8 performs the following quantization using this quantization function, and the code string generator 10 receives the main information code 9 and the sub information code 15 as input and finally outputs the output code 11 Is output.

【0036】y[m][k] = Quant(c[m][k]) 「復号器」次に、本実施例の復号器の構成を説明する。
図2において、入力符号21は上記符号化器の出力(出
力符号11)である。符号分解器22は、入力符号21
を解析して、主情報符号23と副情報符号24に分解す
る。主情報符号23は、たとえば、以下のように量子化
され、スケーリングされた整数である。
Y [m] [k] = Quant (c [m] [k]) "Decoder" Next, the configuration of the decoder of this embodiment will be described.
In FIG. 2, the input code 21 is the output (output code 11) of the encoder. The code decomposer 22 uses the input code 21
Is decomposed into main information code 23 and sub information code 24. The main information code 23 is, for example, an integer quantized and scaled as follows.

【0037】q[m][k] m=0..∞, k=0..L 副情報符号24は、たとえば、以下のようにセグメント
ごとの副情報を再現するための整数列である。 s2[b][p] b=0..∞, p=0..M n2[b][p] b=0..∞, p=0..M 復号処理部50は、適応副情報復号器51及び抽象聴覚
モデル52を含み、適応情報復号器51は、符号化器と
同様の手法を用い、副情報符号24から副情報36を生
成する。
Q [m] [k] m = 0..∞, k = 0..L The sub information code 24 is, for example, an integer string for reproducing the sub information for each segment as follows. s2 [b] [p] b = 0..∞, p = 0..M n2 [b] [p] b = 0..∞, p = 0..M The decoding processing unit 50 performs adaptive side information decoding. The adaptive information decoder 51, which includes the device 51 and the abstract auditory model 52, uses the same technique as the encoder to generate the sub information 36 from the sub information code 24.

【0038】 n2[b][p] = Requant2(n1[b][p]) × n_min[b][p] s2[b][p] = Requant2(s1[b][p]) × s_min[b][p] したがって、符号化器の主情報符号化器8に送られたの
と全く同一の副情報36が復号器でも再生され、主情報
復号器27に送られる。副情報36は、以下のような信
号となる。
N2 [b] [p] = Requant2 (n1 [b] [p]) × n_min [b] [p] s2 [b] [p] = Requant2 (s1 [b] [p]) × s_min [ b] [p] Therefore, the sub information 36 that is exactly the same as that sent to the main information encoder 8 of the encoder is also reproduced by the decoder and sent to the main information decoder 27. The sub-information 36 has the following signals.

【0039】n2[b][p] b=0..∞ p=0..M s2[b][p] b=0..∞ p=0..M 抽象聴覚モデル52、概符号化副情報53及び副情報予
測54は、それぞれ符号化器の対応する部分とまったく
同一であり、また同じ信号を処理している時にはそれぞ
れの信号もまったく同一となる。したがって、これらに
関する説明は符号化器の同一部分を参照するものとす
る。
N2 [b] [p] b = 0..∞ p = 0..M s2 [b] [p] b = 0..∞ p = 0..M Abstract auditory model 52, approximate coding sub The information 53 and the side information prediction 54 are exactly the same as the corresponding portions of the encoder, respectively, and when processing the same signal, the respective signals are also identical. Therefore, the description relating to them shall refer to the same part of the encoder.

【0040】主情報復号器27は、副情報36と主情報
符号23を入力として、周波数成分28を出力する。こ
の動作は符号化器の主情報符号化器8と対をなすもので
あり、主情報符号化器8同様いろいろな手法を取り得る
し、またどのような手法を用いてもかまわない。たとえ
ば、符号化器の主情報符号化器8が前述のような一様量
子化によるならば、復号器の主情報復号器27は、以下
のような逆量子化によって周波数成分28を求めること
ができる。
The main information decoder 27 inputs the sub information 36 and the main information code 23, and outputs the frequency component 28. This operation forms a pair with the main information encoder 8 of the encoder, and various methods can be adopted like the main information encoder 8 and any method may be used. For example, if the main information encoder 8 of the encoder uses uniform quantization as described above, the main information decoder 27 of the decoder can obtain the frequency component 28 by inverse quantization as follows. it can.

【0041】c[m][k] = Requant(y[m][k]) m=0..∞, k=0..L-1 帯域合成器29は、周波数成分28を入力とし、元の時
系列サンプルの形の出力音響信号30に変換して出力す
る。この変換は符号化器における帯域分割器2の動作と
逆である。たとえば、入力にMDCT(Modified Discr
ete Cosine Transform)を使用したなら、帯域合成器2
9には、その逆のIMDCT(InverseModified Discre
te Cosine Transform)を使用する。IMDCTの変換
式を以下に示す。
C [m] [k] = Requant (y [m] [k]) m = 0..∞, k = 0..L-1 The band synthesizer 29 receives the frequency component 28 as an input, The output acoustic signal 30 in the form of a time series sample is converted and output. This conversion is the reverse of the operation of the band divider 2 in the encoder. For example, MDCT (Modified Discr
If you use ete cosine transform), band synthesizer 2
9 shows the reverse of IMDCT (Inverse Modified Discre
te Cosine Transform). The conversion formula of IMDCT is shown below.

【0042】 入力: c[m][k] m=0,1,..,∞ (セグメント番号) k=0,1,..,L (セグメント内係数番号) y[m][n]=2/N×h(n)×Σ(c[m][k]×cos((2k+1)(n+n0)Pi/2/N)) for n=0,1,2..,2N-1 n0 = N/2 + 1/2 出力: x[m][n]=y[m-1][n+N]+y[m][n] m=0,1,..,∞ (セグメント番号) n=0,1,..,N-1(セグメント内サンプル番号) 出力は時系列データである。Input: c [m] [k] m = 0,1, .., ∞ (segment number) k = 0,1, .., L (coefficient number in segment) y [m] [n] = 2 / N × h (n) × Σ (c [m] [k] × cos ((2k + 1) (n + n0) Pi / 2 / N)) for n = 0,1,2 .., 2N -1 n0 = N / 2 + 1/2 Output: x [m] [n] = y [m-1] [n + N] + y [m] [n] m = 0,1, .., ∞ (Segment number) n = 0,1, .., N-1 (Sample number in segment) Output is time series data.

【0043】以上述べたように、本発明における副情報
の符号化手法は、主情報の量子化手法や帯域分割手法な
どに影響されない。したがって、聴覚心理に基づくさま
ざまな符号化方式や周波数分割の方法の差にかかわらず
適用することが可能である。また、説明の都合上、簡単
な抽象聴覚モデルを例にしたが、抽象聴覚モデルの予測
する副情報が、実際の副情報に近ければ近いほど符号化
効率が上がることは明らかである。したがって、抽象聴
覚モデルには、符号化器で用いる聴覚モデルに近い構造
をとることも可能で、たとえば、抽象聴覚モデルと聴覚
モデルが同一であってもかまわない。 「抽象聴覚モデルの他の例」抽象聴覚モデルの例は、既
に述べたとおりであるが、この他にも、副情報の代表値
をまず正確に符号化し、そこから間の副情報を予測し
て、少ない符号量で符号化する手法を用いることもでき
る。
As described above, the sub information coding method in the present invention is not affected by the main information quantization method, band division method, or the like. Therefore, the present invention can be applied regardless of the difference between various encoding methods and frequency division methods based on auditory psychology. Although a simple abstract auditory model is taken as an example for convenience of explanation, it is clear that the closer the side information predicted by the abstract auditory model to the actual side information, the higher the encoding efficiency. Therefore, the abstract auditory model may have a structure close to that of the auditory model used in the encoder. For example, the abstract auditory model and the auditory model may be the same. "Another example of the abstract auditory model" Although the example of the abstract auditory model has already been described, in addition to this, the representative value of the side information is first accurately encoded and the side information between them is predicted. Therefore, a method of encoding with a small code amount can also be used.

【0044】たとえば、図6に示すように、まず、8セ
グメントおきにスケールファクタを非常に細かい精度
(8ビット)で符号化する。それぞれの中間(4セグメ
ントおき)のスケールファクタは先に符号化したスケー
ルファクタから、抽象聴覚モデルによって、そのとり得
る範囲がある程度推定できるので、先のスケールファク
タよりも少ない符号量(6ビット)で符号化できる。さ
らに、それらの中間(2セグメントおき)は、既に符号
化されたスケールファクタから周波数間隔が狭くなるこ
とにより正確に予測できるため、さらに少ない符号量
(4ビット)で符号化できる。さらに、その中間のスケ
ールファクタを前後からより正確に予測することによ
り、符号化されたスケールファクタの符号量を減らすこ
とができる。ノイズ割り当てについても同様である。な
お、セグメント数やビット数は一例である。
For example, as shown in FIG. 6, first, the scale factor is encoded every eight segments with very fine precision (8 bits). The intermediate range (every 4 segments) of the scale factor can be estimated to some extent by the abstract auditory model from the previously encoded scale factor, so the code amount (6 bits) is smaller than the previous scale factor. Can be encoded. Further, since the middle of them (every two segments) can be accurately predicted by narrowing the frequency interval from the already coded scale factor, it is possible to code with a smaller code amount (4 bits). Further, the code amount of the encoded scale factor can be reduced by more accurately predicting the intermediate scale factor from the front and the back. The same applies to noise allocation. Note that the number of segments and the number of bits are examples.

【0045】[0045]

【発明の効果】本発明によれば、ディジタル符号情報中
の副情報の情報量を少なくすることができる。したがっ
て、主情報の圧縮率を高めるために、副情報のきめ細か
さを増していっても、出力符号列中の「副情報」それ自
体の情報量が従来例に比べて増加しないから、副情報の
増加分が主情報の圧縮率を上回る“レベル”を高めるこ
とができ、出力信号列全体の圧縮率をより一層向上する
ことができる。
According to the present invention, the amount of sub information in the digital code information can be reduced. Therefore, in order to increase the compression rate of the main information, even if the fineness of the sub information is increased, the amount of information of the "sub information" itself in the output code string does not increase compared to the conventional example. It is possible to increase the "level" in which the increase amount of P exceeds the compression ratio of the main information, and it is possible to further improve the compression ratio of the entire output signal sequence.

【図面の簡単な説明】[Brief description of the drawings]

【図1】一実施例の符号化器のブロック図である。FIG. 1 is a block diagram of an encoder according to an embodiment.

【図2】一実施例の復号器のブロック図である。FIG. 2 is a block diagram of a decoder according to an embodiment.

【図3】時間マスキング効果のグラフである。FIG. 3 is a graph of time masking effect.

【図4】周波数マスキング効果のグラフである。FIG. 4 is a graph of frequency masking effect.

【図5】一実施例の要部アルゴリズムである。FIG. 5 is a main algorithm according to an embodiment.

【図6】一実施例の他の要部アルゴリズムである。FIG. 6 is another main part algorithm of the embodiment.

【図7】従来の符号化器のブロック図である。FIG. 7 is a block diagram of a conventional encoder.

【図8】従来の復号器のブロック図である。FIG. 8 is a block diagram of a conventional decoder.

【符号の説明】[Explanation of symbols]

1:入力音響信号 2:帯域分割器 3:周波数成分 4:聴覚モデル 5:ノイズ割当 6:副情報符号化器 7:副情報 8:主情報符号化器 9:主情報符号 10:符号列生成器 11:出力符号 21:入力符号 22:符号分解器 23:周波数成分 27:主情報復号器 28:主情報符号 29:帯域合成器 30:出力音響信号 36:副情報 41:適応副情報符号化器 42:抽象聴覚モデル 43:概符号化副情報 44:副情報予測 45:副情報符号 51:適応副情報復号器 52:抽象聴覚モデル 53:概符号化副情報 54:副情報予測 1: Input acoustic signal 2: Band divider 3: Frequency component 4: Auditory model 5: Noise allocation 6: Sub information encoder 7: Sub information 8: Main information encoder 9: Main information code 10: Code string generation Device 11: Output code 21: Input code 22: Code decomposer 23: Frequency component 27: Main information decoder 28: Main information code 29: Band synthesizer 30: Output acoustic signal 36: Sub information 41: Adaptive sub information encoding 42: Abstract auditory model 43: Approximately encoded side information 44: Side information prediction 45: Side information code 51: Adaptive side information decoder 52: Abstract hearing model 53: Approximately encoded side information 54: Side information prediction

───────────────────────────────────────────────────── フロントページの続き (72)発明者 小西 正也 神奈川県横浜市神奈川区守屋町3丁目12番 地 日本ビクター株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Masaya Konishi 3-12 Moriya-cho, Kanagawa-ku, Yokohama, Kanagawa Japan Victor Company of Japan, Ltd.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】音響信号を高品質のディジタル符号情報に
変換し、符号化データとして出力する音響信号符号化装
置であって、 前記音響信号を複数の周波数成分に分割する帯域分割器
と、該帯域分割器の出力から求められるスケールファク
タと聴覚モデルから求められるノイズ割当情報とを符号
化して副情報を生成するとともに、副情報予測信号から
副情報符号を生成する適応副情報符号化器と、符号化さ
れた副情報から副情報予測信号を生成する抽象聴覚モデ
ルと、該適応副情報符号化器で符号化された副情報に基
づいて該帯域分割器から出力された周波数成分を符号化
し主情報符号を生成する主情報符号化器と、主情報符号
と副情報符号とを合成してディジタル符号情報を生成す
る符号合成器と、を備えたことを特徴とする音響信号符
号化装置。
1. An audio signal encoding device for converting an audio signal into high-quality digital code information and outputting it as encoded data, comprising: a band divider for dividing the audio signal into a plurality of frequency components; An adaptive sub-information encoder that generates side information by encoding the scale factor obtained from the output of the band divider and the noise allocation information obtained from the auditory model and side information, and the sub information code from the side information prediction signal, An abstract auditory model for generating a sub information prediction signal from encoded sub information, and a frequency component output from the band divider based on the sub information encoded by the adaptive sub information encoder An audio signal encoding device comprising: a main information encoder that generates an information code; and a code synthesizer that synthesizes a main information code and a sub information code to generate digital code information. apparatus.
【請求項2】入力音響信号を分析して人間の聴覚特性上
劣化を感じさせることなく符号化を行なえるようにノイ
ズ割り当て情報を発生させることのできる聴覚モデルを
備えたことを特徴とする請求項1記載の音響信号符号化
装置。
2. An auditory model capable of generating noise allocation information so that an input acoustic signal can be analyzed and encoding can be performed without causing deterioration in human auditory characteristics. Item 1. The acoustic signal encoding device according to item 1.
【請求項3】適応副情報符号化器は、抽象聴覚モデルな
どの副情報予測モデルを利用して予測される、副情報の
統計的性質を利用して適応的に副情報を符号化すること
を特徴とする請求項1記載の音響信号符号化装置。
3. An adaptive sub-information encoder that adaptively encodes sub-information using the statistical property of sub-information predicted using a sub-information prediction model such as an abstract auditory model. The acoustic signal encoding device according to claim 1.
【請求項4】ディジタル符号情報を符号化データとして
入力し、該符号化データを音響信号に逆変換して出力す
る音響信号復号装置であって、 ディジタル符号情報中の副情報から副情報予測信号を生
成する抽象聴覚モデルと、該副情報予測信号を使って該
副情報符号を復号する適応副情報復号器と、復号された
副情報を基に、ディジタル符号情報中の主情報符号を復
号して周波数成分に戻す主情報復号器と、該周波数成分
を元の音響信号に戻す帯域合成器と、を備えたことを特
徴とする音響信号復号装置。
4. An acoustic signal decoding device for inputting digital code information as encoded data, inversely converting the encoded data into an acoustic signal and outputting the acoustic signal, wherein the sub information predictive signal is derived from sub information in the digital code information. , An adaptive sub-information decoder that decodes the sub-information code using the sub-information prediction signal, and decodes the main information code in the digital code information based on the decoded sub-information. An audio signal decoding apparatus, comprising: a main information decoder for returning the frequency component to a frequency component; and a band synthesizer for returning the frequency component to the original acoustic signal.
【請求項5】適応副情報復号器は、抽象聴覚モデルなど
の副情報予測モデルを利用して予測される、副情報の統
計的性質を利用し、適応的に符号化された副情報を、適
応的に復号することを特徴とする請求項4記載の音響信
号復号装置。
5. An adaptive sub-information decoder utilizes adaptive statistical information of the sub-information, which is predicted using a sub-information prediction model such as an abstract auditory model, to adaptively code the sub-information. The acoustic signal decoding device according to claim 4, wherein the acoustic signal decoding device performs adaptive decoding.
JP7161943A 1995-06-28 1995-06-28 Acoustic signal encoding device and acoustic signal decoding device Pending JPH0918348A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7161943A JPH0918348A (en) 1995-06-28 1995-06-28 Acoustic signal encoding device and acoustic signal decoding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7161943A JPH0918348A (en) 1995-06-28 1995-06-28 Acoustic signal encoding device and acoustic signal decoding device

Publications (1)

Publication Number Publication Date
JPH0918348A true JPH0918348A (en) 1997-01-17

Family

ID=15744996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7161943A Pending JPH0918348A (en) 1995-06-28 1995-06-28 Acoustic signal encoding device and acoustic signal decoding device

Country Status (1)

Country Link
JP (1) JPH0918348A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002372995A (en) * 2001-06-15 2002-12-26 Sony Corp Encoding device and method, decoding device and method, encoding program and decoding program
JP2005533280A (en) * 2002-07-16 2005-11-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Low bit rate audio coding
KR100707173B1 (en) * 2004-12-21 2007-04-13 삼성전자주식회사 Low bitrate encoding/decoding method and apparatus
JP2012103157A (en) * 2010-11-11 2012-05-31 A & D Co Ltd Method and device for determining knocking

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002372995A (en) * 2001-06-15 2002-12-26 Sony Corp Encoding device and method, decoding device and method, encoding program and decoding program
WO2002103685A1 (en) * 2001-06-15 2002-12-27 Sony Corporation Encoding apparatus and method, decoding apparatus and method, and program
US7212973B2 (en) 2001-06-15 2007-05-01 Sony Corporation Encoding method, encoding apparatus, decoding method, decoding apparatus and program
JP4506039B2 (en) * 2001-06-15 2010-07-21 ソニー株式会社 Encoding apparatus and method, decoding apparatus and method, and encoding program and decoding program
JP2005533280A (en) * 2002-07-16 2005-11-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Low bit rate audio coding
JP4786903B2 (en) * 2002-07-16 2011-10-05 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Low bit rate audio coding
KR100707173B1 (en) * 2004-12-21 2007-04-13 삼성전자주식회사 Low bitrate encoding/decoding method and apparatus
JP2012103157A (en) * 2010-11-11 2012-05-31 A & D Co Ltd Method and device for determining knocking

Similar Documents

Publication Publication Date Title
US10446162B2 (en) System, method, and non-transitory computer readable medium storing a program utilizing a postfilter for filtering a prefiltered audio signal in a decoder
KR100348368B1 (en) A digital acoustic signal coding apparatus, a method of coding a digital acoustic signal, and a recording medium for recording a program of coding the digital acoustic signal
US9390720B2 (en) Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes
JP5539203B2 (en) Improved transform coding of speech and audio signals
US7433824B2 (en) Entropy coding by adapting coding between level and run-length/level modes
KR101019678B1 (en) Low bit-rate audio coding
US10121480B2 (en) Method and apparatus for encoding audio data
JP5175028B2 (en) Digital signal encoding method and apparatus, and decoding method and apparatus
JP2000515266A (en) How to signal noise replacement during audio signal coding
JP2001500640A (en) Audio signal encoding method
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
JP2006003580A (en) Device and method for coding audio signal
JPH0918348A (en) Acoustic signal encoding device and acoustic signal decoding device
Raad et al. Scalable to lossless audio compression based on perceptual set partitioning in hierarchical trees (PSPIHT)
Teh et al. Subband coding of high-fidelity quality audio signals at 128 kbps
JP3146121B2 (en) Encoding / decoding device
JP2000137497A (en) Device and method for encoding digital audio signal, and medium storing digital audio signal encoding program
Mandal et al. Digital Audio Compression
JPH08137494A (en) Sound signal encoding device, decoding device, and processing device
JPH11177435A (en) Quantizer