JPH03121633A - 可聴音信号符号化方法 - Google Patents
可聴音信号符号化方法Info
- Publication number
- JPH03121633A JPH03121633A JP1329828A JP32982889A JPH03121633A JP H03121633 A JPH03121633 A JP H03121633A JP 1329828 A JP1329828 A JP 1329828A JP 32982889 A JP32982889 A JP 32982889A JP H03121633 A JPH03121633 A JP H03121633A
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- signals
- encoding
- noise
- bit rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 title claims description 79
- 238000001228 spectrum Methods 0.000 claims abstract description 59
- 230000000873 masking effect Effects 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 19
- 238000013139 quantization Methods 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 11
- 230000007480 spreading Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 33
- 238000004364 calculation method Methods 0.000 description 22
- 230000003595 spectral effect Effects 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 13
- 238000009792 diffusion process Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 229910001369 Brass Inorganic materials 0.000 description 2
- 238000004630 atomic force microscopy Methods 0.000 description 2
- 239000010951 brass Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M1/00—Analogue/digital conversion; Digital/analogue conversion
- H03M1/12—Analogue/digital converters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/42—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
め要約のデータは記録されません。
Description
のオーディオ信号の知覚符号化に関する。 [従来技術の説明コ オーディオ信号の再生における質の向上に対する商業市
場における要求により、原信号品質のより多くを保存す
る可能性を約束するデジタル技術の探求が再び脚光を浴
びてきている。従来技術に係るデジタル符号化を直接的
に応用すると過剰なデータレートが必要となる;よって
、データ圧縮に係る容認されうる技法が必要とされてい
る。 この種の技法の一例が、エム・アール争シュレーダー(
M、R,5chroeder)らによる、ジャーナル・
オブ・アコスティカル・ソサエティ・オブ・アメリカ(
Journal orAcOuStlcal 5oci
ety ofAmeriCa)誌の“人間の耳のマスキ
ング特性を利用するることによる、デジタル音声コーダ
の最適化”という記事(第66巻第1647−1852
頁(1972年12月))に提案されている;より最近
の技法は、イー・エフ・シュレーダー(E、F、5ch
roeder)らによる、アイ・トリプル・イー・トラ
ンザクションズ・オン・コンシューマ・エレクトロニク
ス(IEEE Transactions on Co
nsumer Electronics)誌の’MSC
:CDと同等の品質の258 kbit/seeのビッ
トレートによるステレオオーディオ符号化”という記事
(第CE33巻第4号(1987年11月))に記載さ
れている。この記事は、音響心理的プロセスを用いて冗
長性を低減し、量子化雑音を“信号に依存したマスキン
グスレッショルド”未満に保つための変換符号化を用い
ることを提案するものである。 後者の要求は、量子化プロセスがエンコードさるべき全
ての値を異なった精度で、すなわち“ビットアロケーシ
ョン”により量子化すべきである、ということを意味し
ている。この記事に係る技法。 によって達成される結果は、“音調マスキング雑音”音
響心理的スレッショルドの使用によって達成されるもの
と同様である。 (発明の概要) 本発明の特徴は、エンコードされる信号の性質は純粋な
音調ではないこと、及び、シュレーダーらによって手続
きを修正して、短期スペクトルに基づく調整尺度によっ
て決定された係数を用いた、音調マスキング雑音及び音
調をマスクする雑音の各々のスレッショルドの幾何学的
捕間を用いることによって、より良い音響心理的スレッ
ショルドが得られる、という認識に基づいている。本発
明のこの特徴は、発明者の一人である、ジエイ・デイ−
・ジョンストン(J、D、Jonston)による、ア
イ・トリプル・イー・ジャーナル・オン・セレクテッド
・エリアズ・イン・コミュニケーションズ(IEEE
Journal or 5elected Areas
In Communlcations)誌の“知覚雑
音基準を用いた、オーディオ信号の変換符号化“という
記事(1988年2月)において記述され、説明されて
いる。 本発明の別の特徴は、量子化されたデータの注意深く計
画された無雑音符号化は、符号化ベクトルの要素間に広
く拡散された糸剰な符号化ビットの解像度を向上させる
ことを可能にする、との認識に基づく。 本発明の他の特徴は、ステレオフォニック変換及び/あ
るいはレコーディングプロセスに起因するチャネル間冗
長性、アコースティックミキシング及び他の冗長性の低
減に関する。 (実施例の説明) 第1図の具体例において、左及び右信号源11は、ステ
レオデジタルオーディオで用いられる従来技術に係るも
のである。これらの信号は、具体的には、ローパスフィ
ルタ及びサンプリング回路の対応するチャネルに印加さ
れており、各信号は、同一の所定のレートでサンプリン
グされる。サンプリングレート及び対応する帯域の具体
例は、15kH2の設計帯域に対しては32kHzのサ
ンプリングレート、及び、20kHzの設計帯域に対し
ては44.1kH2のサンプリングレートであり、共に
高忠実度(ハイファイ)である。その結果生成される、
第1図の符号化より得られる前記帯域及びサンプリング
レートに対する総とットレートはそれぞれ128kb/
s及び192kb/sであり、各々、2B及び3Bレー
トによるl5DN伝送に対する要求を満たしている。第
1図及び第2図によって示された本発明に係る、別の代
表的なレートは第1表に示されている。 サンプリングされた信号は、通常、信号源ll内のA/
Dコンバータの対応するチャネルに印加され、各サンプ
リングされたデータに対してデジタル符号化した信号が
得られる。右及び左信号は、その後、算術回路15及び
1Bによって、和及び差信号に変換される。さらに処理
を行なわない場合は、各チャネルとも、オーディオエン
ジニアリング協会標準フォーマット(Audio En
gineering 5oclety 5tandar
d ForIIat)zレコーディングが用いられると
仮定して、高忠実度と見なされるのに充分な情報(1標
本当たり16ビツト)を保持するために、最大1411
kb/sのレートが必要となる。 以下の処理の第一義的な目標は、人間の耳の感度に応じ
た方法によって調整される符号化スレッショルドの利用
を実現することである。スレッショルドを規定する情報
は、“副”情報として、比較的ビットの使用を経済的に
行なう(すなわち、少ないビット数を用いて)伝達ある
いは記録されつる。この種の概念は、いくつかの型の符
号化器(コーダー)によって実現されうるが、以下によ
り明らかになるように、変換コーダーが最も直接的に行
うものである。この型のコーダーにおける副情報には、
量子化スレッショルドレベル及び量子化スペクトルピー
クレベルが含まれる。この情報は、レシーバあるいは再
生器がトランスミッタあるいは記録器によって元来用い
られていたビットアロケーションを回復することを可能
にし、ピットアローケーションに係る明確な副情報の伝
送を不要なものとしてマスクしている。コーダー内には
、オーバーラツプ加算(以下参照)以外のブロック対ブ
ロックメモリが存在しないので、高速トランジションの
処理に係る問題が容易にされている。 回路15及び16からの和及び差信号は、各々、装置1
7及び■8においてさらに処理されて、各分析期間内に
、2048の実データ点が同時に指定される。 この手続きは、 “ウィントーイング°と呼称される。 1/1Gのオーバーラツプレシオを用いるため、各ブロ
ックにおいて処理される新しいデータポイントの数は1
920である。残りの128ポイントは、直前のブロッ
クのものと重複している。このようなデータのまとまり
は、高速フーリエ変換されて周波数の関数として表わさ
れる。変換の結果は、複素スペクトル上の1024ポイ
ントとして表現される。その後、装置17及び18から
の和及び差信号のフーリエ変換されたものに対するスレ
ッショルドがスレッショルド計算器21内で計算される
。 これについてより詳細に考慮する前に、第2図に示され
た、上述のものと同様のモノラルコーダーにおけるスレ
ッショルド計算を考える。第2図において、第1図にお
けるものと同一に示されている構成要素は、以下に説明
されている部分を除いて同一である。スレッショルド計
算器41は、第3図に示されているように機能する。第
3図の上部左側の図は、音響心理学において公知の“バ
ークスペクトル(Bark Spectrum)”であ
り25の相異なった周波数バンドを含み、各々、人間の
耳のマスキング特性がほぼ一定な25のバンドへの周波
数の分割を表わしている。25の周波数バンドの総和は
32kHzのサンプリングレートに対して有効であり、
他の実施例においてサンプリングレートが変更された場
合には、与えられたサンプリングレートにおいて包含さ
れる最高クリティカルバンドに従って変化する。バーク
スペクトルの正確な形は、短期音声スペクトルから計算
される。パワースペクトル51は、金管楽器のものであ
り、対応するバークスペクトル52も示されている。バ
ークスペクトルは、各クリティカルバンド内で、フーリ
エスペクトル内に存在するエネルギーの総和をとること
により計算される。 以下に、本発明に係るスレッショルド計算機21及び4
1において、マスキングスレッショルドの計算に用いら
れる手順を示す: 信号のクリティカルバンド解析を行う;クリティカルバ
ンドスペクトル拡散関数を適用する; 短期スペクトルから音調基準を計算する;音EallJ
定及びそれに関する2つのスレッショルドを用いて拡散
マスキングスレッショルドを計算する; 絶対スレッショルドを計算する; 当該スレッショルドを各クリティカルバンドに対するス
ペクトルステップサイズに変換する; 第1ステツプは、クリティカルバンド解析である。 FFTによって、信号の複素スペクトルRe(i) 、
Im(i)が与えられる。複素スペクトルは、 P (i)=Re (i)+1m2 (i)によって
パワースペクトル51に変換される。その後、パワース
ペクトル51はクリティカルバンドに分割され、各クリ
ティカルバンド内のエネルギーの総和が計算される。 二こで、rtlnd(n、o)はクリティカルバンドn
の下側の境界、rclnd(n、l)はクリティカルバ
ンドnの上側の境界、及び、Bnはクリティカルバンド
n内のエネルギーであり、nは1からn までで+i
ax ある。n はサンプリングレートに依存していgaX る。第3図には、金管楽器によるパッセージの64ミリ
秒間に対応するパワースペクトル51及びクリティカル
バンドスペクトル52が示されている。 本来のクリティカルバンド解析においては、連続クリテ
ィカルバンドスペクトルを得るために、各1毎に、クリ
ティカルバンド帯域に亘る総和が計算されるべきである
。しかしながら、ここでの計算に対しては、離散クリテ
ィカルバンドが充分良い近似である。 次に、クリティカルバンドスペクトルに対して、拡散関
数が適用される。 シェリー・ヴイー・トービアス(Jerry V、To
blas) mの「現代音響学理論の基礎」 (アカデ
ミツクプレス) (Academic Press)
社、−ニーヨーク州ニューヨーク(1970年))にお
けるバードラム・シャルフ(Bertram 5cha
rf)による第5章、及び、「知覚及び心理物理学」第
241−248頁(1922年)のアールφピー争ヘル
マン(R,P、Hel Iman)による″雑音−音調
間のマスキングの非対称性“という記事によって得られ
るマスキングの推定値は、ある信号に対する同一クリテ
ィカルバンド内の信号によるマスキングに係る情報を与
える。エム・アール・シュレーダーらによるジャーナル
・オン・アコースティカル・ソサエティーオン・アメリ
カ誌の第66巻第1647−1657頁(1979年1
2月)における“人間の耳のマスキング特性を用いたデ
ジタル音声コーダーの最適イじという記事に記載されて
いる拡散関数が、クリティカルバンド全体に亘るマスキ
ング効果を推定するために用いられる。 この拡散関数は、abs(j−i)≦25の範囲で計算
される;ここでiはマスクされる信号のバーク(Bar
k)周波数、及び、jはマスクする側のバーク周波数で
あり、当該拡散関数は行列S1jの形に表現される。1
バークとは、1クリテイ力ルバンド分の周波数差を表わ
すものと定義されており、“バーク周波数”は、シャル
フ(Scharl’)による前掲の参照文献における“
クリティカル指数”に対応する。前記B と拡散関数と
のコンポリ、ニージョン(畳み込み演算)は、行列の積
すなわち、Cn=51j*Bnで表現される。coの値
は、拡散クリティカルバンドスペクトルを表わす。第3
図の曲線53は、バークスペクトル52に拡散関数演算
を施した結果を表わしている。 次のステップは、雑音マスキングスレッショルドの計算
である。前掲の参照文献は、2種類の雑音スレッショル
ドが詳述されている。その第1は、雑音をマスクする音
調に係るものであり、Cnより14.5+ n d B
下であると推定される。ここで、nはバーク周波数であ
り、この推定は、前掲のシュレーダー二よる参照文献に
よれば、前掲のシャルフによる参照文献に係るものであ
る。第2は、音調をマスクする雑音に係るものであり、
クリティカルバンドスペクトル全体に亘って一様にCn
より5.5dB下であると推定される。音調をマスクす
る雑音に対するスレッショルドの推定は、前掲のヘルマ
ンによる記事に基づいている。 信号の雑音的及び音調的性質を決定するために、スペク
トラルフラットネスメジャー(SFM)(スペクトルの
平坦さを表わす尺度)が用いられる。SFMは、パワー
スペクトルの幾何平均(Gm)の、パワースペクトルの
算術平均(Am)に対する比として定義される。この場
合には、SFMは によりdBに変換され、トーナリティ(音調)係数αを
生成するために用いられる: すなわち、αは、カッコの中の2つの引数の内の小さい
方を意味している。S F MdBMAx−−60dB
が、信号が完全に音調的である、ということを推定する
ために用いられ、SFMがOdBである、ということは
、信号が完全に雑音的であることを表わしている。言い
換えれば、SFMが一30dBである場合にはα−0,
5となり、SFMが一75dBの場合には、α−1゜0
00となる。 その後、各バンドnにおけるマスキングエネルギーに対
するオフセット(0)が、dB表示で、O−α (14
,5+n)+ (1−α)5,5に設定される。すなわ
ち、指数αが、2種のスレッショルドオフセット、つま
り、雑音をマスクする音調に対する14.5+ n d
B及び音調をマスクする雑音に対する5、5dB、を
幾何内挿するために用いられる。 その後、スレッショルドオフセットが拡散クリティカル
バンドスペクトルから差し引かれ、拡散スレッショルド
の推定値T が求められる:実際には、信号のトーナリ
ティを推定するためにSFXを用いることは便利である
。なぜなら、オルガン、サイン(正弦)波、フルート等
の多くの音調的信号はS FMd B に近いある
いはそ1lax れ以下のSFMを有し、パーカッション(打楽器群)等
の信号は、過渡的に、−5から一15dBの間のSFM
を有している。200−3200Hzの帯域の会話信号
は、−20から一30dBの範囲である。第3図の曲線
54は、第4a図及び第4b図のデータに対する拡散ス
レッショルドの推定値をプロットした曲線を示している
。 次に、拡散スレッショルドの推定値T をバークドメイ
ンに変換することが必要となる。 厳密に言えば、拡散関数とB とのコンボリュ−ション
が元に戻される、すなわちT として計算されたスレッ
ショルドがデコンボリューションされなければならない
。このプロセスは、拡散関数の形状ゆえに非常に不安定
であり、エネルギースレッショルドがしばしば負の値を
とったり、0となったりする。これらの異常なエラーは
、デコンボリューションプロセスが、状況に係る物理的
、音響学的実体を無視した数値解を厳密に探索するから
である。 デコンボリューションの代わりにリノーマリセーション
が用いられる。拡散関数は、その形状から、各バンドに
おけるエネルギーの推定値を拡散の効果によって増加さ
せる。リノーマリゼーションはこのことを考慮し、各T
に対して、各パンド内で1という−様なエネルギーを
仮定した場合のエネルギー利得の逆数を乗する。言い換
えれば、平坦なり が与えられて全ての01が等しい場
合には、平坦なT が返される。このようにしてりノー
マライズされたT はT−で示される。 n 続いて、絶対スレッショルドに係る利用可能な情報を考
慮する。バークドメインにおいて雑音エネルギーがリノ
ーマライズされた後、バークスレッショルドは、エイ・
フレッチャー(^、PIetcher)による、“聴覚
パターン″という題目のレビュー・オン・モダン・フィ
ジックス(Review or M。 dern Physics)誌の記事(第12巻第47
−65頁)に見出される絶対スレッショルド測定と比較
される。 これまでに計算されてきたマスキングスレッショルドは
絶対レベルを考慮することなくなされているため、それ
らが聴力の絶対限界以下の雑音レベルを要求しているか
否かがチエツクされなければならない。 システムの利得は、4 kHzの、適切にデイザインさ
れ、かつ、IBビット整数で表わした場合に最下位ビッ
ト(L S B)±1/2分のピーク強度を持つような
信号が聴力の絶対スレッショルドに位置するようにセッ
トされる。絶対スレッショルドより低い雑音スレッショ
ルド計算値を有する全てのクリティカルバンドは、絶対
スレッショルドを当該クリティカルバンドに対するスレ
ッショルドとして有するように変更される。高周波数側
及び低周波数側においては、絶対スレッショルドはクリ
ティカルバンド内で変化する。このような場合には、ク
リティカルバンドの両端での値の平均が用いられる。 第3図の曲線55は、リノーマリゼーション及び絶対ス
レッショルド条件を調節した後の最終的なスレッショル
ドを示している。このスレッショルドは、Th で示さ
れる。Th は、信号が知覚n 上悪化されない状態を保ちうるような、各クリティカル
バンド内に挿入されうる雑音強度の最大値を示している
。このスレッショルドは、対応するクリティカルバンド
内における信号成分に対して用いられる量子化のステッ
プサイズを計算するために用いられ、量子化誤差が−様
な確率密度関数を有する場合以外の最悪の場合の仮定を
行う。 短期知覚スレッショルドに従って計算されたステップサ
イズは、装置44内でビットレート調整手続きの一部と
して用いられる。ビットバッキング手続きに依存して、
短期スペクトルが、当該アルゴリズムにおけるこの時点
で、装置42内で量子化される必要が生じる。ビットレ
ート調整効果を含む、量子化された最終スレッショルド
は、Thr。と呼称される。 利用されるビットバッキングには2つの形態がある。よ
り簡潔な方においては、固定長(ここでは128ビツト
)の2進数を可変基数として生成する可変基数技法が用
いられる。当該基数は、トランスミッタ及びレシーバの
双方において副情報(サイドインフォメーション)から
決定されうる。 ビットバッキングによる当該方法により、量子化器をい
かなる大きさが必要な場合において正確に用いることが
可能となり、各量子化器が、nを整数とするとき、2n
のレベルを有さなければならないか、mを量子化器内の
レベル数とするとき、直接2進符号化により生ずるro
undup(log2m )log2 mビットを無駄
にしなければならない、という拘束がはずされる。 より複雑な方のビット圧縮アルゴリズムにおいては、第
2図のハフマン(Huf’ f’man)コーダー43
において修正ハフマンコードが用いられ、データに依存
した方式でビット圧縮が実行される。このビット圧縮法
が用いられる場合には、圧縮されビットレートは、量子
化されたデータ(Thr によって分割されたスペク
トルの実数及び虚数部の最近整数関数)及び各量子化器
内のレベル数から計算されなければならない。 この場合の無雑音符号化は、音楽信号のデータベースか
ら生成され、コードブックにストアされているハフマン
コードの組を用いて行われる。量子化された最大データ
に依存して、量子化器の出力は対(実数及び虚数の)と
して、あるいは個別のコード語として量子化される。別
の符号メモリが副情報の各々の対に対するコードブック
指数をハフマンコードブックの組に符号化するために用
いられ、この符号メモリも伝送される必要がある。 上述のハフマンコードブック構造に加えて、元の音楽の
統計の種類が変化することを許容するために、コードブ
ックに階層構造が与えられている。 この階層構造は、コードブックの完全な組を4柾育し、
その各々が、音楽データベースから、当該4種のコード
ブックが当該データベース全てを含み、かつそれを有利
な方法で分配するものとなるように自己選択的な方法で
生成される。符号化器(キンコーダ)においては、信号
の現時点でのブロックに最もよく適合しているコードブ
ックの組が計算され、それが適切なコード語と共に伝送
される。 データオーガゼーション 種々の圧縮及び/あるいはビットバッキングアルゴリズ
ムの動作を記述するために、ここで、装置37からの各
々のデータブロックに対するデータオーガゼーションを
定義する。 以下に説明されるように2つの方式によって分配される
。ここで、R及びlは量子化されたスペクトル線(ライ
ン)であり、iは1≦i≦2048を満足するFFT出
力の指数、n1ntは引数に最近接の整数を返す関数、
T h r *は、以下4.3節で記述されている量子
化されたスレッショルドに対応するレベル、及び、tl
nd(1)は以下に説明されているものである。 上記2種の分割方式はt−分割と呼称されるクリティカ
ル分割、及び、一般的により小さなに一分割と呼称され
る分割である。第5図は、与えられたサンプリング周波
数44.1kllzに対応した、スペクトルの低周波数
側に対するt−分割及びに−分割境界を示している。 [を−分割] ジョンストンによる前掲の記事においては、スレッショ
ルドThr はクリティカルバンドスケ−ルに関して
生成された。当該具体例においては、同一のスレッショ
ルド生成方式が用いられる。t−分割は、スレッショル
ド生成アルゴリズムに対して用いられるクリティカルバ
ンド分割である。 を−分割は、本明細書においては指数nを付加されてい
るが、スペクトルを各々1クリテイ力ルバンド分の幅を
有するn 個の部分に分割するnaX ようにするものである。最後のt−分割は完全なりリテ
ィ力ルバンドではなく、Fs/2で終わるものである。 44.1kllzのサンプリングレートに対してはr+
max−25であり、32kllzのサンプリングレー
トに対してはn −24である。クリティ力ax ルバンド端に関するリストは、シャルフによる前掲の参
考文献に見出される。 tlnd(1)と呼称される指数配列が、あらゆるiに
対して、tind(1)の値がt−分割の指数(n)を
持つように定義される。逆配列r tind(n、 I
)も定義され、“ビがFET指数を表わす場合に、与え
られたnに対して、1−0の場合はiの最低値、I−1
の場合は最高値を返す。 [k−分割] 高周波数側のクリティカルバント幅のために、コーダー
が厳密にクリティカルバンドに基づいてデータを処理し
た場合には、大量のスペクトル構造が曖昧になる。k−
分割はスペクトルの詳細を失うことによる、k−分割に
係る副情報とビットレートとの間のより良いトレードオ
フが得られるように経験的に決定された分割を表わす。 k−分割は、k及びnの大きな値に対しては、一般にt
−分割より小さい。 k−分割は、本明細書においてはkという指数を付与さ
れているが、量子化されたスペクトルを、各々が8本の
複素ラインを平均化している128の部分に分けている
分割の組である。k−分割の境界は、以下の条件を満た
している: ・k−分割は、2つ以上のt−分割に回ることはない。 ・k−分割は、各に一分割最大及び最小長を可能な限り
8に近接して保つようにされている。 を−分割の場合と同じように、klnd(1)と呼称さ
れるに一分割に対する指数配列が、与えられたiに対し
てkを返すように、さらに、与えられたkに対してl−
0の場合はiの最小値を、l−1の場合は最大値を返す
配列にr klnd(k、 I)が、それぞれ定義され
ている。 加えて、nをkと関連付けるような指数配列も定義され
る。配列n −n kind(k)は、与えられたに一
分割に関連したt−分割の指数を返し、k−klnd(
n)はその逆を行う。 以上が、圧縮あるいはビットバッキングアルゴリズムに
対して必要となるデータオーガゼーションである。次に
、ビットレート計算のための可変t=数バッキング法を
示す。 可変指数ビットレート計算法 ・まず、スペクトルの各々のに一分割に対して、各を一
分割に対する実部及び虚部の絶対値の最大値を計算する
。その後、 で定義される数Z、を計算する。ここで1はスペクトル
分割の指数、n1ntは最近接整数を返すオペレータ、
LAVkは分割kにおける実部及び虚部の絶対値の最大
値、及びThrはに一分割kに対するステップサイズ、
をそれぞれ表わす。 ・各々の量子化器の組におけるレベル数かにに−22に
+1を計算することにより決定される。 ここで、KKは各量子化器内のレベル数である。 ・指数バッキングアルゴリズムによって必要とされるビ
ット数が、総ビット数 を計算することにより計算される。副情報に対して必要
とされるビット数、すなわち、各Th「 毎に8ビツト
、128個の量子化されたKKの各々に対して6ビツト
、が加算されて、Thr の組に係るブロックの伝送に
必要とされるビット総数が得られる。 [スレッショルド調整の条件] 人間の耳の物理的限界のために、雑音検出及び絶対スレ
ッショルドの双方に対して、ある場合には、Thr
の組が制限されなければならず、そのような場合には、
スレッショルド調整係数が乗じられる。このような限界
は以下に記述されており、指数ビットバッキング法及び
エントロピー符号化法に対して等しく適用される。より
詳細に述べれば、量子化レベルがその型に関わらず、全
ての信号に対するクリティカルバンドに関してトランス
ペアレント(透過的)であると知られているレベルを超
過しているようなあらゆるクリティカルバンドに対して
、スレッショルド調整係数の効果により、当該クリティ
カルバンド内のTh r。 が、最大値において量子化レベルを維持するように持ち
上げられる。さらに、スレッショルド調整係数がThr
を絶対スレッショルド以下に低下させる場合には、
対応するThr か絶対スレッショルドまで再び持ち
上げられる。このことは、ある条件下におけるある信号
に対して、コーダーによって利用可能な最大ビットレー
トが存在し、必要とされないビットは、他の情報の伝送
に対して用いられるか、任意のパターンにセットされる
、ということを意味している。 ビットレート調整に関するスレッショルド調整ビットレ
ート調整プロセスは、擬C符号を用いて最も容易に記述
される。本質的には、当該プロセスは、ビットレート及
び検索長に係る制限に基づいた決定を用いる2進検索で
ある。ビットレート:A整プロセスは、スレッショルド
調整係数Fを返し、当該係数が新たなスレッショルドを
計算するためにTh rnに直接乗じられて、その後、
符号化に関して用いられる。ビットレート調整プロセス
の詳細は付録1に示される。 [エントロピー符号化を行なう場合のビットレート調整
] 以上で、指数バッキングを行なう場合に係るビットレー
トの旧算及び調整に係る記述は終了する。 以下、エントロピー符号化法が用いられる場合について
記述される。 [エントロピー符号化法が用いられる場合のビットレー
ト計算] エントロピー符号化に関しては、各々に一分割内で、圧
縮アルゴリズムは特定のコードブックを選択しなければ
ならない。コーダーが信号の絶対値を目に関して何ら情
報を有していない場合には、選択方法は、符号(正か負
か)及び位相に無関係でなければならない。さらに、ハ
フマンコードが、当該ハフマンコードが符号化する分布
に適合しているべきであるため、各々のに一分割に対し
て、データに関連した基準がコードブックを選択するた
めに用いられるべきである。k−分割内のコード語が絶
対値の平均は容易に計算され、データに関するコードブ
ックの良い第1近似となる。この全プロセスは、第4図
に図示されている。 各々のに一分割に対して、局所的KKが計算される。 このKKは、tin +5ha+ic変換によって整形
され、その後量子化される: ・まず、K −0の場合には、K −K ”” 0と
なる。 ・そうでない場合には、K −K−1nt(max(1
,m1n(32,5,6144561oge (KK+
7.759653)))である。 二こで、Intは引数の!l数化(引数を越えない整数
を返す)を行なう関数であり、対数における係数は、K
″、≦20となる確率をほぼ等しくするように選択され
ている。minは、より小さい引数を返す関数であり、
WaXは、より大きい方の引数を返す関数である。 [副情報計算] K″Kが計算されると、コードブック利用を表わすもの
以外の副情報が決定されうる。副情報は、・256のレ
ベルに量子化する量子化器でTnを量子化し、スペクト
ル量子化プロセスにおいて用いられるT″nのレベルを
与えるための8ビツト語よりなるn :但し、当該量
子化器はax 1807256 d Bというステップサイズを有して
いる。ここで、OdBは1という大きさ(フルスケール
は±32787 )のパルスの各スペクトル成分の大き
さに対応し、180は前記OdBの定義から得られる、
各スペクトル成分のとりつる最大エネルギーよりも僅か
に大きい値、及び、256は量子化器のレベル数である
。 この時点で、量子化されたスレッショルドTnがnの全
ての値に対する反復の結果変更されていないと決定され
た場合には、当該計算プロセスはアボートシ、直前の値
が用いられる。 ・以下に定義されるように、コードブック利用を示すた
めに、3つのコードブック選択に対して2ビツトずつ、
計6とット:この時点では必要とされているコードブッ
クは決定されていないが、必要とされているビット数は
既知である。 ・圧縮されたに゛ ユニ二でに″には各々、のように対
として圧縮されており、“encode”は、コード語
長を検索するプロセスを表わし、B RKは、当該特定
のコード語に対して必要とされるビット数である。KK
の値に対しては4種のコードブック(Kコードブック)
が存在するため、各コードブック毎にB RKの値が計
算され、最良の(最も短い)コードブックが用いられる
。 この副情報及びそのエンコードされた場合ビット長(通
常、サンプリングされた信号1つ当たり0.25から0
.5 ビット)が知られると、量子化されたスペクトル
が符号化される。 [量子化されたスペクトルの符号化コ 量子化されたスペクトルは、各々のkに対するに−Kに
依存してに一分割に基づいて、k−分割に係る3方式の
うちの1つによって量子化される。 ・K−に−0である場合には、量子化されたスペクトル
は符号化されず、当該に一分割に対しでは送出されるビ
ットはない。 ・0<K″に≦20である場合には、量子化されたスペ
クトルは、複素対によって符号化される、すなわち、各
々のRは対応する11と組合せられて、当該対が符号化
される。 ・K″K〉20である場合には、R及びIの各要素は個
別に符号化される。 以下、まず、K′≦20の場合が議論され、その後、よ
り大きなに″の場合について議論される。 [K″8が小さな値を有する場合の符号化]K′ の小
さな値に対しては、R及びIlのに1 値は、各次元の値が−20から20に亘っている2次元
コードブックにおいて符号化される。ijココ−ブック
と呼称されるこれらのコードブックの大きさは、大量の
符号化された信号の統計を観測し、Kの値が20未満か
つ20に近接したものに対するijコードからほぼ5%
の信号が落とされるようにコードブックの大きさの境界
を設定することによって決定される。 K′の値が20に近接している場合に生じうる、Rある
いは■の絶対値が19を越える場合には、そそれらは±
20に制限され、その制限された値に対するコード語が
選択される。正確なデータ値を伝送するために、制限さ
れた値の各々に対して“エスケープコードブックから取
り出された、当該特定の成分付加的大きさを符号化する
別のコード語が付加される。よって、絶対値20を有す
るエントリは、エスケープコードブックから取り出され
た別なコード語が直後に続くことを意味している。 2次元コードブックは4組存在する。フレーム全体に亘
って使用するビットが最小のコードブックが利用されう
るように選択され、この情報は、副情報の一部として含
有される。エスケーブコードブツクは4種必要となるわ
けではなく、k−分割に対するに′の値、及びレシーバ
においてに゛の値から決定されたフードブック選択に係
る情報に基づいて1つのコードブックが(4種のうちか
ら)選択される。 [より大きいに″、の値をとる場合の符号化]K′のよ
り大きな値に対しては、各R及びIは個別に符号化され
る。−1774から+1774に亘るコードブックかに
′の値に応じて選択されたに一分割における各複素スペ
クトル線の各々の部分が個別に符号化される。1774
という値は、知覚マスキング基準を満たすために必要と
される、量子化器の最大出力値の最悪の場合の推定値に
対応している。 この場合にも、4組のコードブックが用いられ、最良の
ものが選択される。このコードブックを表わす2ビツト
は、前述の副情報のうちの最後の2ビツトである。k
−Kの大きな値の場合に対して用いられるコードブック
の組は、ノ1イコードブツクと呼称される。このコード
ブックは第6図に例示されている。 [ビットレート調整プロセスコ ビットレート調整プロセスは、擬Cコードを用いて最も
容易に記述される。本質的には、当該プロセスは、ビッ
トレートに基づいた決定を行ない、検索長に制限のある
2進検索である。ビットレート調整プロセスは、スレッ
ショルド調整係数Fを返し、当該係数が直接Tnに乗ぜ
られて符号化のための実際のスレッショルドが計算され
る。ビットレート調整プロセスの詳細は、付録1に示さ
れている。 Thr に対する制限は、指数バッキングの場合と同
一である。Thr に関する制限は、指数バッキング
の場合と同様、ある場合にはビットレートの上限を設定
する。 [指数バッキングアルゴリズムの詳細コ可変(混合)指
数バッキング法は、ドナルド・イー・ナス(Donal
d E、Knuth)による、“コンピュータプログラ
ミングの技法°第2版第2巻(アディソン・ウニズリ−
(Addlson Wc5ley)社、マサチューセッ
ツ州リーディング(Reading HA)、1981
年)第274及び275頁に見出される。この方法は、
ベースとなる2数を表現するビットパターンが量子化器
内のレベルの種々の最大数の2を底とする対数をとった
ものの総和に関してバッキングにおける任意の低損失が
得られるように生成されうる、という事実を利用してい
る。この手続きは、前掲書第274頁の式(24)に従
っである数を生成する。 指数は、 ・ビットが全てバッキングされるまで、128ビット語
を段階をおって充填し、各段階において、当該語内に適
合する最大指数をエンコードするように可変指数が演算
を行なう。 ・このプロセスを、全データが拡張されるまで、128
のビット語に関して継続する。 ことにより選択される。 このビットバッキングアルゴリズムは、データに対して
割当てられたビットレートのうちの少量(通常1/12
8)を浪費する。この損失は1、初期ビットレート計算
において説明されうるちのであり、圧縮されたデータの
大きさの計算を不要にする。 [実際のエントロピー符号化手続き] 圧縮のためのエントロピー符号化手続きは、ビットレー
トに付加される、長さに係るパターンの代わりに適切な
ビットパターンが伝送される、ということを除いて、ビ
ットレート計算に係る手続きに正確に従う。各々の場合
とも、ビットパターンに対するビットレートが見出され
た場合には、当該パターンが伝送される。コードブック
の選択は、レート計算から知られる。 [モノフォニックデコーダ] 指数バッキングの場合及びエントロピー符号化の場合に
用いられるデコーダは、デコンブレッション(圧縮回復
)/アンバッキングアルゴリズムを除いて同一である。 指数バッキングアルゴリズムの場合には、アンバッキン
グの順序はトランスミッタが初めに(量子化された副情
報から)バッキングの順序を計算したように副情報から
曖昧さを残さずに計算される。アンバッキング手続きは
、混合指数生成手続きに直接従う。 エントロピー符号化の場合には、コードブック情報がま
ず受信されてストアされる。その後、副情報が適切なコ
ードブックを用いてデコードされ、ストアされる。この
情報がストアされると、各データ点に対する適切なコー
ドブックは既知となり、この適切なコードブックが、エ
ンコードされたデータの整数値を決定するために用いら
れる。量子化されたスペクトルのデコードされた整数値
及びスレッショルドがデコードされると、データは、指
数バッキングアルゴリズムから得られたデータと同様と
なり、実際の変換デコーダが適用される。 [変換デコーダ〕 第7図は、第2図のエンコーダに対応する、モノラル知
覚変換デコーダを示している。エンコードされたスレッ
ショルドと量子化されたスペクトル情報は、組合せ回路
71において組合せられる。 ここで、組合せ回路71は、量子化されたスペクトルが
、対応するスレッショルドに基づいた係数として符号化
されている場合には、マルチプライア(乗算器)である
。これらの信号は、スレッショルドの場合には、第2図
で用いられたものに依存して、装置75におけるビット
・アンバッキングああるいはハフマン型複合法により導
出され、量子化されたスペクトルの場合には、装置76
における同一プロセスによって導出される。組合せ回路
71の出力は、再構成された周波数スペクトルであり、
装置72における逆高速フーリエ変換がなされて再構成
された時間波形が得られる。エンコーダ(例えば第2図
)におけるウィンドー設定及び重なり加算手続きは、装
置73において反転されて、D/A変換あるいはPCλ
4形式のストアがなされる信号が生成される。 [ステレオフォニックコーダーに関する詳細1以上で、
第2図のモノラルコーダーに関しては完全に記述された
ので、以下、第1図に示されたステレオ信号の具体例に
ついて記述することにする。 2つのステレオチャネル、左(L)及び右(R)がコー
ダーに与えられ、L+R及びL−Rの信号が生成される
。2つの信号、L+R及びL−Rにはモノフォニックコ
ーダーの場合と同様、ウィンドーがかけられ、変換され
る。この2信号のスペクトルは量子化プロセス及びスレ
ッショルド生成プロセスに送られる。量子化プロセスは
、量子化さるべきスペクトルが2つ存在するという点を
除いてモノフォニックコーダーの場合と同一である。 [知覚スレッショルドの生成コ 知覚スレッショルドの生成は、スレッショルドの生成プ
ロセスが開始される以前に2つの信号のパワースペクト
ルが加算されるように修正されている。このことは、リ
スナーが、ステレオのスピーカーからあるクリティカル
な距離以上離れていることを表わしている。スペクトル
は前述されているように生成され、スレッショルド調整
プロセスへ送られる。イエット(Jetzt)によるジ
ャーナル・オン・アコースティカル・ソサエティ・オン
・アメリカ第65巻筒1204−1211頁(1979
年)の“音声エネルギースペクトル応答による、室内に
おけるクリティカル距離の測定“という記事に”クリテ
ィカル距離゛という語が説明されている。 リスナーがスピーカーから1クリテイ力ル距離以上離れ
ている、という仮定により知覚スレッショルド生成プロ
セスが単純化される。なぜなら、リスナーの耳における
パワーベクトルが、2つのチャネルのパワースペクトル
の和で良く近似されうるからである。以下に議論される
ように、このためにヘッドホンが用いられた場合に微妙
な効果が誘起される。知覚スレッショルドのより複雑な
対の計算は、現時点で利用可能な聴覚モデルに対しては
実行可能ではない。 [スレッショルド調整プロセス] スレッショルド調整プロセスは、以下に詳述されている
ビットレート計算/圧縮アルゴリズムにおける変更を除
いては、第2図のコーダーにおいて用いられるものと同
一である。 [ビットレート計算プロセスにおける変更]ビットレー
ト計算プロセスには、いくつか変更がある。最も重要な
ものは、スペクトル平均KKの種々の値がエンコードさ
れる、副情報の量子化に対するビットレートの計算に対
するものである。 モノフォニックコーダーにおいては、スペクトル平均の
2つの連続した値がエンコードされるが、ステレオコー
ダーにおいては、L+R及びL−Rに対応する信号に対
するスペクトル平均値が対としてエンコードされる。和
及び差信号のスペクトルは通常良い相関があるので、エ
ンコードされたスペクトル平均の組に係る総ビツトレー
トは実質的に低減される。 当該プロセスにおける他の変更点は、しばしばかなり相
異なった総計を有する2つの信号が存在し、それゆえ、
L+R及びL−R信号が各々、モノフォニックスペクト
ルが第2図のコーダーにおいてエンコードされたように
エンコードされる、という事実に関連している。言い換
えれば、当該和及び差信号に対して、個別のコードブッ
クが選択されるということである。このため、付加コー
ドブック信号に対して、各サンプリング毎に0.002
ビット余分に消費することになる。これは、独立したコ
ードブック選択に起因する節約分によるオフセット以上
である。 符号化効率における付加利得は、和及び差信号、及び、
左右信号ではなく和及び差信号を符号化することによる
2信号のスペクトル間には全く相関がなく、かつ、スペ
クトルの包路線にもI0関がない、という最悪の場合に
は、利得は存在しないが損失も存在しない。この条件は
、電子的に生成された非常に僅かな信号の場合に相当す
るが、極めて希である。99%以上のステレオ信号の場
合には、(最悪の場合と同様)信号には相関がないが、
スペクトルの包絡線は良く但ており、スレッショルドレ
ベルにおける3dBの利得、及び、その結果生じるビッ
トレート利得が見出される。元のし及びR信号の間に正
または負の大きな相関がある場合には、和あるいは差ス
ペクトルの一方が非常に小さく、よって当該スペクトル
がエンコードされるビットを極く任かしか、あるいは全
く必要とせず、実質的な利得が得られる。 第8図は、第1図のステレオフォニツクエンコーダに対
するデコーダを示している。第7図におけるものと同じ
ように示された部分は、同一の機能を実行する。和及び
差チャネルの分離を除いては、第8図の各々の半分は、
和及び差チャネルが各々和回路84及び差回路94にお
いて左及び右チャネルに変換される点を除いて、第7図
と同打である。 第8図のデコーダは、モノフォニックデコーダに類似し
たものである。ステレオコーダのより望ましい具体例に
おいては、エントロピー符号化が用いられるが、指数ビ
ットバッキング法の利用も、指数バッキングモノフォニ
ックコーダーに用いられた方法を直接拡張することによ
り可能である。 2チヤンネルに対するパワースペクトルの加算が真であ
る限りは一厳密に言えば、リスナーが残響のある部屋で
スピーカーを用いている場合のみに対しては一リスナー
がヘッドホンを用いる場合の音響心理的マスキングにお
ける損失は、最悪の場合においても非常に小さいという
ことが見出されている。これは、おそらく、音雷心理的
クロスマスキング、及び、通常Thr、を聴力の限界と
考えられているところよりも充分に低くしてしまうビッ
トレート調整手続きによるものである。 [エントロピーコーダーに対するコードブック設計コ エントロピーコーダーに対するコードブックを計算する
ために、適切なサンプリングレートでサンプリングされ
た、相異なった、相関を有さないオーディオ信号が集め
られる。その後、以下の段階が、実際のエンコーダ及び
デコーダで用いられるコードブックを作成するために用
いられる。 1、まず、調整されていないビットレートを用いて(ビ
ットレート調整の前に)、初期レートの各々25%に対
する完全なコードブックを計算する。 すなわち、最低部2596が1つのコードブックを生成
するために用いられ、次の25%が第2のコードブック
を生成するために用いられる、等々である。 2、現時点で設定されているコードブックの組を用いて
、オーディオ信号データベース全体に亘って以下の手続
きを実行する: a、4つのコードブックの各々に対して、完全なとット
レート調整手続きを用いてビットレートを計算する。 b、最良の(さらに、最小のThr。を可能にするコー
ドブックとして認識されうる)コードブックを選択する
。 C,オーディオデータベースの各短期セクションに対し
て、最良のコードブックに係るヒストリーを保存する。 これにより、各コードブックの選択に関する、各々に最
も良く適合するデータに対応するヒストグラムが得られ
る。 3、集められたヒストグラム4組を取り出し、各々のヒ
ストグラムに対する新たなコードブックを生成する。 4、反復によるピットレー1・利得が最小になるまで段
階2以降を繰返す。 この手続きは、リーズナブルなりラスタリング(分類)
が見出されることを保証する2つの方法を用いる。第1
は、各短期スペクトルに対する最良のコードブックの選
択であり、このことにより、同一のビットレート(直前
の反復において用いられたものと同一のコードブックが
選択された場合)あるいはより良いビットレート(全体
として利得を表わす他のコードブックが選択された場合
)のいずれかのみが得られ、第2は、゛同一の最良コー
ドブックを有するという理由で分類されたセクションに
対する、当該データベースの実際のデータヒストグラム
から次のコードブックを生成することであり、このこと
により、データに対して統計的に同一(直前の反復から
何ら変更されなかった場合)あるいはより良い適合をす
る新たなコードブックの組が得られ、よって、同一ある
いはより良い圧縮レートが得られる。 −1付録1 b7jQ
”maximumw<min五mu+nsethis1
m”/11111cnLhil1mg、l0IIQ:/
”lruamalva+(ablas”/flcsax
cwrer++br、1h■r=−j)、delu:/
”Iroamallllllilbles”/hlfi
mg−0: /” −I Lf jutbe wu h
igh ”/1o1’lags鴫);/”+swIif
laxtbrwulow傘1kntd; /” cou
nu numlxr o(Iw噛r+s ”/lhra
djm l; /” lr+1tLsJ chremo
ld adjusunent rwuyr ”/del
ta−5q11(2); /” Wtial nep
51ze for −hold c?mge・lcur
rentbrmbrcale(+hrsdj); /”
brcaJc is k 5hove bit ra
v calculation yocedure ”/
while ((c+uTa′+&(mbrr+uス)
&A((cunwtbrxbrmin) (icn+
>−16)))[ientw; /’ count 1
Ientions ”/if (cu+Tentbr
< hmlr+ ) (/” bit rate lo
w ”/U(Mffag−1)r/”I/itvagh
igh”/hll!ag−0;/”change菖ul
f−shr’u*5rpslza”/da1w鳴V(ム
油): 】 thndJ−−dj/deka: /” *hk* t
hreshold sm ”/1oflag−1: /
” eon&m tme ”/】 else (f bit rue is high・1
if(Iol’lagfll)(/”ift+wulo
w”/io11ag峨/” change sob、s
Mnk sq 5ize ”/delta−sqn(d
eハ1): 】 −d−−dj”delci; /” raise −5
hold 5lxe ’/hlflagml;/”co
narmsOば心”/ec+rnerubrwbrca
lc(−J): /” caleuLam adJut
+ad bit rm ”/1C■〕1111thra
dノ:
具体例を示すブロック図; 第2図は、第1図のステレオ符号化と同様の、モノラル
の場合の符号化を示すブロック図;第3図は、本発明を
説明するために用いられる曲線を示したグラフ; 第4図は、無雑音符号化を用いたビットレート計算プロ
セスを示す流れ図; 第5図及び第6図は、無雑音符号化の詳細を示す図;及
び、 第7図及び第8図は、第2図及び第1図の具体例に対応
する複合化を示すブロック図である。 出 願 人:アメリカン テレフォン アンドFIG、
7 FIG、5
Claims (9)
- (1)可聴音信号を受信する段階; 前記信号を、入間の聴力の知覚特性に対して決定されう
る成分に分析する段階; 前記成分の各々に対する雑音スレッショルドの表現を決
定する段階; 前記各成分中の対応する前記雑音スレッショルド表現を
越える部分を量子化する段階;及び、前記各成分の量子
化された部分及び前記スレッショルド表現の各々を符号
化する段階; ここで、当該符号化された成分及びスレッショルド表現
がその後に利用される; よりなる可聴音信号符号化方法において、 前記決定段階が、 各成分に含まれる混合された音調及び雑音の性質を考慮
して、前記スレッショルド表現が、そのレベル未満の付
加された雑音が丁度知覚され得ない、というレベルを正
確に表現するようにする段階を有し、及び、 前記量子化段階が、量子化された雑音が前記スレッショ
ルドより小さく、かつ適切な大きさとなるようにビット
レートを計算する段階を有することを特徴とする可聴音
信号符号化方法。 - (2)前記量子化段階が、さらに、 ビットレート及び当該ビットレートによって許可される
量子化レベルを選択的に調整して、ビットレートが所定
の範囲内に保持されるようにする段階を有することを特
徴とする請求項1記載の可聴音信号符号化方法。 - (3)前記分析段階が、さらに、 バーク(Bark)パワースペクトルに対して適切な周
波数帯を生成する、逆変換可能な周波数分析を実行する
段階を有し、及び、 前記決定段階が、 前記分析された信号からバークパワースペクトルを生成
する段階; 同一周波数帯内に属さない信号成分の相互マスキーング
特性を表現している拡散関数と前記バークパワースペク
トルとのコンボリューション(畳み込み)を計算する段
階; コンボリュートされたバークパワースペクトルを再正規
化する段階; 雑音をマスキングしている音調と音調をマスキングして
いる雑音とに対するスレッショルドオフセットの間を幾
何的に補間する段階;及び、前記スペクトルの各部分に
対するスレッショルド表現を得る為に、再正規化された
バークパワースペクトルの各部分とそれに対応する複合
スレッショルドオフセットとを組合わせる段階; を有することを特徴とする請求項2記載の可聴音信号符
号化方法。 - (4)前記選択的調整段階が、さらに、 最低のビットレートを、当該ビットレートに対する所定
の最高限界に少なくとも等しいビットレートに変更する
段階; を有することを特徴とする請求項3記載の可聴音信号符
号化方法。 - (5)前記符号化段階が、さらに、 圧縮を行なうエントロピータイプの符号化を行なうこと
を特徴とする請求項4記載の可聴音信号符号化方法。 - (6)前記受信及び分析段階が、さらに、 2つのステレオフォニックオーディオ信号を受信する段
階を有し、 前記分析段階が、 前記2信号内の冗長性を識別する段階を有し;及び、 前記決定及び量子化段階が、前記2信号に対して組合せ
られて、前記冗長な部分に対しては知覚されうる量子化
雑音なく、より低いビットレートを得るようになってい
ることを特徴とする請求項1、4あるいは5記載の可聴
音信号符号化方法。 - (7)前記受信及び分析段階が、さらに、 左及び右のステレオフォニックオーディオ信号を受信す
る段階及び当該左及び右信号の和及び差から得られた信
号を分析する段階を有し; 前記スレッショルド決定段階が分析された信号のパワー
スペクトルの和に基づいて機能することを特徴とする請
求項1、4あるいは5記載の可聴音信号符号化方法。 - (8)前記方法が、前記和及び差信号の分析された成分
の複数のグループの各々に係る統計的尺度を生成する段
階;及び、 各々の統計的尺度を量子化する段階;を有し、前記符号
化段階が、 前記量子化された統計的尺度の各々に応じて、前記和及
び差信号の量子化された成分の各グループを符号化(エ
ンコード)するのに適したエントロピー型コードの組を
選択する段階;及び、前記選択された組に対する識別を
符号化する段階; を有することを特徴とする請求項7記載の可聴音信号符
号化方法。 - (9)前記エントロピー型コードを選択する段階及び前
記識別を符号化する段階が、対応する和及び差信号の組
に係る識別の関連するものに対して対として実行され、
前記識別が、それが導かれた前記成分グループが関連し
ているという点に関係しており、それによって符号化さ
れるビットが節約されることを特徴とする請求項8記載
の可聴音信号符号化方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29259888A | 1988-12-30 | 1988-12-30 | |
US292598 | 1988-12-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03121633A true JPH03121633A (ja) | 1991-05-23 |
JPH0748698B2 JPH0748698B2 (ja) | 1995-05-24 |
Family
ID=23125368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1329828A Expired - Lifetime JPH0748698B2 (ja) | 1988-12-30 | 1989-12-21 | 可聴音信号符号化方法 |
Country Status (9)
Country | Link |
---|---|
EP (1) | EP0376553B1 (ja) |
JP (1) | JPH0748698B2 (ja) |
KR (1) | KR0137472B1 (ja) |
AU (1) | AU611067B2 (ja) |
CA (1) | CA2002015C (ja) |
DE (1) | DE68927927T2 (ja) |
ES (1) | ES2099695T3 (ja) |
GR (1) | GR3023926T3 (ja) |
HK (1) | HK107997A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE40280E1 (en) | 1988-12-30 | 2008-04-29 | Lucent Technologies Inc. | Rate loop processor for perceptual encoder/decoder |
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
DE4211945C1 (ja) * | 1992-04-09 | 1993-05-19 | Institut Fuer Rundfunktechnik Gmbh, 8000 Muenchen, De | |
CN1099777C (zh) * | 1993-06-30 | 2003-01-22 | 索尼公司 | 数字信号的编码装置、解码装置和编码方法 |
US5632003A (en) * | 1993-07-16 | 1997-05-20 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for coding method and apparatus |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
EP0643547B1 (en) * | 1993-09-10 | 2001-07-18 | Sony Corporation | Quantization apparatus |
BE1007616A3 (nl) * | 1993-10-11 | 1995-08-22 | Philips Electronics Nv | Transmissiesysteem met vereenvoudigde broncodering. |
KR0134318B1 (ko) * | 1994-01-28 | 1998-04-29 | 김광호 | 채널간의 마스킹특성을 고려한 비트할당장치 및 그 방법과 복호화장치 |
US5488365A (en) * | 1994-03-01 | 1996-01-30 | Hewlett-Packard Company | Method and apparatus for compressing and decompressing short blocks of data |
FR2723493B1 (fr) * | 1994-08-05 | 1997-01-10 | France Telecom | Procede et dispositif de codage et de decodage sonore par compression frequentielle, notamment pour application a une memoire de masse sonore. |
US8041042B2 (en) | 2006-11-30 | 2011-10-18 | Nokia Corporation | Method, system, apparatus and computer program product for stereo coding |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
WO2019091573A1 (en) * | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
CN113747236A (zh) * | 2021-10-19 | 2021-12-03 | 江下信息科技(惠州)有限公司 | 一种基于多线程的音频格式高速转换方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4646061A (en) * | 1985-03-13 | 1987-02-24 | Racal Data Communications Inc. | Data communication with modified Huffman coding |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
EP0314018B1 (en) * | 1987-10-30 | 1993-09-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for multiplexed vector quantization |
-
1989
- 1989-11-01 CA CA002002015A patent/CA2002015C/en not_active Expired - Lifetime
- 1989-12-08 AU AU46083/89A patent/AU611067B2/en not_active Expired
- 1989-12-14 ES ES89313099T patent/ES2099695T3/es not_active Expired - Lifetime
- 1989-12-14 EP EP89313099A patent/EP0376553B1/en not_active Expired - Lifetime
- 1989-12-14 DE DE68927927T patent/DE68927927T2/de not_active Expired - Lifetime
- 1989-12-21 JP JP1329828A patent/JPH0748698B2/ja not_active Expired - Lifetime
- 1989-12-29 KR KR1019890020041A patent/KR0137472B1/ko not_active IP Right Cessation
-
1997
- 1997-06-26 HK HK107997A patent/HK107997A/xx not_active IP Right Cessation
- 1997-06-27 GR GR970401574T patent/GR3023926T3/el unknown
Non-Patent Citations (1)
Title |
---|
IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS=1988 * |
Also Published As
Publication number | Publication date |
---|---|
AU4608389A (en) | 1990-07-05 |
EP0376553A2 (en) | 1990-07-04 |
DE68927927D1 (de) | 1997-05-07 |
KR900011162A (ko) | 1990-07-11 |
EP0376553B1 (en) | 1997-04-02 |
KR0137472B1 (ko) | 1998-06-15 |
DE68927927T2 (de) | 1997-07-17 |
CA2002015C (en) | 1994-12-27 |
HK107997A (en) | 1997-08-22 |
AU611067B2 (en) | 1991-05-30 |
EP0376553A3 (en) | 1992-05-20 |
CA2002015A1 (en) | 1990-06-30 |
JPH0748698B2 (ja) | 1995-05-24 |
GR3023926T3 (en) | 1997-09-30 |
ES2099695T3 (es) | 1997-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5341457A (en) | Perceptual coding of audio signals | |
JP3178026B2 (ja) | ディジタル信号符号化装置及び復号化装置 | |
JP4521032B2 (ja) | 空間音声パラメータの効率的符号化のためのエネルギー対応量子化 | |
US9390720B2 (en) | Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes | |
JP2756515B2 (ja) | 可聴信号の知覚符号化方法および音声信号伝送方法 | |
JP3278900B2 (ja) | データ符号化装置及び方法 | |
US20020049586A1 (en) | Audio encoder, audio decoder, and broadcasting system | |
JP3336618B2 (ja) | 高能率符号化方法及び高能率符号化信号の復号化方法 | |
US6952677B1 (en) | Fast frame optimization in an audio encoder | |
JPH03121633A (ja) | 可聴音信号符号化方法 | |
Johnston | Perceptual transform coding of wideband stereo signals | |
JP2000004163A (ja) | オーディオ符号化のための動的ビット割り当て方法及び装置 | |
JP3297240B2 (ja) | 適応的符号化システム | |
WO2010037427A1 (en) | Apparatus for binaural audio coding | |
JPH066236A (ja) | 高能率符号化及び/又は復号化装置 | |
WO1995013660A1 (fr) | Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite | |
GB2587196A (en) | Determination of spatial audio parameter encoding and associated decoding | |
JP2001343997A (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
JP2003140692A (ja) | 符号化装置及び復号化装置 | |
JP2000151413A (ja) | オーディオ符号化における適応ダイナミック可変ビット割り当て方法 | |
KR100528327B1 (ko) | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 | |
WO1999044291A1 (fr) | Dispositif et procede de codage, dispositif et procede de decodage, support d'enregistrement de programme et de donnees | |
JP3454394B2 (ja) | 音声の準可逆符号化装置 | |
JP4635400B2 (ja) | オーディオ信号符号化方法 | |
JP2000137497A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080524 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080524 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080524 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090524 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100524 Year of fee payment: 15 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100524 Year of fee payment: 15 |