JP2904472B2 - ディジタル・オーディオ信号を効率的に圧縮するための方法、データ処理システムおよび装置 - Google Patents
ディジタル・オーディオ信号を効率的に圧縮するための方法、データ処理システムおよび装置Info
- Publication number
- JP2904472B2 JP2904472B2 JP6292810A JP29281094A JP2904472B2 JP 2904472 B2 JP2904472 B2 JP 2904472B2 JP 6292810 A JP6292810 A JP 6292810A JP 29281094 A JP29281094 A JP 29281094A JP 2904472 B2 JP2904472 B2 JP 2904472B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- subband
- mask ratio
- processing system
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
置から受取装置へデータを効率的に伝送するための改良
された方法および装置に関する。具体的には、本発明
は、伝送のためデータを圧縮する方法および装置に関す
る。さらに具体的に言うと、本発明は、ディジタル・オ
ーディオ・データを圧縮する方法および装置に関する。
データ・バスが、中央処理装置、直接アクセス記憶装
置、通信入出力プロセッサ(IOP)、および他の周辺
装置の間でデータを伝送するのに利用される。通常、シ
ステム・データ・バスに接続された複数の装置のうちの
1つだけが、ある瞬間に送出を行うことができる。所与
の期間内にシステム・データ・バスが転送できる情報の
量またはシステム・データ・バスの容量を確立するパラ
メータの1つが、システム・データ・バスの帯域幅であ
る。データ・バスの帯域幅とは、バスに接続されたワー
クステーションまたは他の受取装置など、供給源から宛
先へデータを伝えることのできる、バイト毎秒単位で表
現される速度である。この帯域幅は、システム・データ
・バスに接続された送受装置の電気特性と、システム・
データ・バス自体の電気特性とによって制限される。
タ処理システム内で供給源プロセッサからワークステー
ションへデータを伝送することができる。このような通
信リンクも、その通信リンクを介して伝送できる情報の
量または容量を制限する有限の帯域幅を有する。
おいて、データ伝送能力は、このような通信チャネルに
接続された複数の機器の間で分割できる資源である。こ
のような通信チャネルに接続される装置の数が増え、そ
のような通信チャネル上の装置の間で通信されるデータ
の量が増えるにつれて、チャネル容量を節約し、チャネ
ル使用を最適化する必要がますます重要になってくる。
ィア・データを含むファイルの処理、提示および伝送に
利用されている。マルチメディア・データとは、ビデ
オ、音声およびアニメーションの提示に利用できる「時
間関連」または「時間ベース」のデータ・ファイルの集
まりである。このようなマルチメディア・データ・ファ
イルは、通常は非常に大きい。たとえば、11.8画素
/mm(300画素/インチ)かつ24ビット/画素の
A4カラー画像には、25MB以上のデータ記憶域が必
要である。
(CDオーディオ品質)のサンプリング・レートでステ
レオの16ビット・サンプルからなるマルチメディア・
プレゼンテーションのディジタル・オーディオ部分を
「再生」するためには、そのワークステーションは、毎
秒176KBの音響データを受け取らなければならな
い。640×480画素256色の解像度で毎秒15フ
レームの全画面ディジタル・ビデオでは、それを提示す
るワークステーションに毎秒36.9メガビットを送る
必要がある。色数、画素数、毎秒フレーム数を増やす
と、データ伝送の必要条件がさらに増大する。
の容量を増大させる方法の1つが、圧縮フォーマットで
データを伝送することによってデータ伝送効率を高める
ことである。データ圧縮とは、データ・ファイルの長さ
を短縮するために、ギャップ、空のフィールド、冗長性
および不要なデータを除去する処理である。
ードウェア設計者は、データ通信チャネルと記憶装置の
効率を高めるためにさまざまなデータ圧縮方式を使用し
てきた。そのようなデータ圧縮方式の1例が、Moving P
ictures Experts Group(MPEG)標準規格である。
MPEGは、国際標準化機構(ISO)と国際電気標準
会議(IEC)の合同技術委員会の一部である。オーデ
ィオに関するMPEG標準規格については、ISO-IEC/JT
C1 SC29/WG11, "Coding Of Moving Pictures And Assoc
iated Audio For Digital Storage Media At Up to Abo
ut l.5 Mbits/s- Part 3: Audio", DIS, 11172、199
2年4月を参照されたい。
を開示したものであり、オーディオやビデオなど、さま
ざまな信号に適用できる。一般に、1ページのテキス
ト、画像、音声または音楽の一部、ビデオ・シーケンス
などのデータ・オブジェクトの圧縮は、(1)「トーク
ン」の集まりにオブジェクトを分解するステップと、
(2)ある意味で最小の長さを有する2進文字列によっ
てそれらのトークンを表現するステップと、(3)明確
に定義された順序で文字列を連結するステップという一
連のステップであると考えることができる。オーディオ
・データに関しては、サブバンド・コーディング(帯域
分割符号化)を使用して、オーディオ・データを圧縮す
る。圧縮されたオーディオ・データの場合、オーディオ
・データのトークンは、サブバンドである。「サブバン
ド」とは、周波数領域内のある周波数帯域である。
オおよび関連オーディオに関するMPEG復号方法の普
及に伴って、比較的安価な符号化システムが不可欠にな
ってきた。MPEGなどの圧縮方式(「符号化」方式と
も称する)では、通常は、復号側もしくは受取側よりも
符号化側でより多くの計算能力を必要とする。ビデオに
関しては専用ハードウェアが開発されているが、オーデ
ィオ符号化は、主に既存のプログラム式ディジタル信号
プロセッサ(DSP)で実施されてきた。このような実
施態様は、通常は、実時間実施のためには複数の浮動小
数点DSPを必要とする。このような実施態様は、必要
な符号化機能を実行するのに必要なハードウェアのた
め、オーディオを符号化するためのハードウェアのコス
トが増大する。
ド・コーディングを使用するMPEG符号化処理または
他の符号化処理を提供すると同時に、その実施に必要な
ハードウェアの量が最小の方法および装置を有すると好
都合になるはずである。
目的は、供給源装置から受取側装置へ効率的にデータを
伝送するための改良された方法および装置を提供するこ
とである。
ータを圧縮する方法および装置を提供することである。
タル・オーディオ・データを効率的に圧縮する方法およ
び装置を提供することである。
に従って達成される。本発明は、ビット・アロケーショ
ン(割り当て)を決定するのに使用される装置を提供す
る。このビット・アロケーションによって、サブバンド
に分割されているディジタル・オーディオ・データの適
応量子化を可能にするのに必要な入力が提供される。
複数のサンプルを含むディジタル・オーディオ信号を効
率的に圧縮できるようになる。サンプルのそれぞれを、
サブバンドに分割する。サブバンドのそれぞれのエネル
ギー値と所定の聴覚心理モデルに基づく信号対マスク比
(SMR)の関係のモデルを利用して、各サブバンドの
SMRを予測する。予測されたSMRに応じて、ある数
のビットをアロケート(割り当て)する。その後、サブ
バンドのそれぞれを、アロケートされたビット数に基づ
いて量子化する。これによって、ディジタル・オーディ
オ信号を効率的に圧縮できる。
EGによって提案された方法は、サブバンド・コーディ
ング(SBC)に基づくものである。SBC方式では、
まず、入力信号を、その信号の全スペクトルを構成する
さまざまな帯域幅に対応する複数の信号に分割する。次
に、事前に指定されたビット・アロケーション方式また
は動的ビット・アロケーション方式のいずれかに従っ
て、信号を量子化する。できる限り原音質を保存しよう
とする圧縮アルゴリズムでは、通常は動的ビット・アロ
ケーション方式が使用される。MPEGオーディオ方式
では、ビット・アロケーションが、人間の耳の知覚モデ
ルに基づいている。この知覚モデルを、一般に聴覚心理
モデルと称し、このモデルでは、入力信号のスペクトル
情報内容を利用し、各サブバンドの信号対マスク比(S
MR)に対応する値のベクトルを出力する。次に、SM
R値を使用して、ビット・アロケーション・テーブルを
取得する。MPEGでは、このようなモデルに関して、
2つの異なるモデルすなわち聴覚心理モデル1(PM
1)と聴覚心理モデル2(PM2)が推奨されている。
MPEGおよびPM1ならびにPM2に関する情報に関
しては、ISO-IEC/JTC1SC29/WG11, "Coding Of Moving P
ictures And Associated Audio for DigitalStorage Me
dia At Up to About 1.5 Mbits/s - Part 3: Audio", D
IS, 11172、1992年4月を参照されたい。
るための既知の処理の高水準流れ図が示されている。こ
の処理は、MPEG標準規格または他の符号化方式にに
よって実施することができる。ブロック200で、パル
ス符号変調(PCM)サンプルを、スペクトル分析を使
用して処理して、ブロック202でそのサンプルに関す
る信号対マスク比(SMR)を計算するためのデータを
提供する。ブロック202からのSMR値と、ブロック
204からの所望のビット・レートを使用して、ブロッ
ク206でビット・アロケーションを決定する。ビット
・アロケーションを実行して、1サブバンド内のPCM
サンプルの記憶または伝送に使用できるビットを割り当
てる。割り当てられるビット数は、ブロック202で計
算されたSMR値に依存する。SMR値を、信号の量子
化からもたらされる信号対雑音比(SNR)と組み合わ
せて使用して、各サブバンドでの量子化に必要なビット
数を割り当てる。一般に、SMR値が高いと、より多く
のビットが割り当てられ、SMR値が低いと、符号化の
ために割り当てられるビット数が少なくなる。米国特許
第4899384号明細書に、可変レート・サブバンド
音声コーダでのテーブル制御式ビット・アロケーション
が教示され、米国特許第5185800号明細書に、聴
覚心理的判断基準に基づく適応量子化を用いる変換され
たディジタル・オーディオ信号用のビット・アロケーシ
ョン装置が開示されている。
れるように、サブバンド分析を利用した処理も受ける。
サブバンド分析には、符号化用のサブバンド作成が含ま
れる。これらのサブバンドは、ユーザが選択するか、M
PEGなどの符号化規格よって指定することができる。
サブバンドは、コサイン変調フィルタを用いてPCMサ
ンプルをフィルタリングして所望のサブバンドを作るこ
とによって、PCMサンプルから作成できる。各フィル
タは、PCMサンプルから1つのサブバンドを分離する
のに使用される。所望のまたは指定されたサブバンドに
応じて、複数の異なるフィルタを使用して、PCMサン
プルから所望のサブバンドを選択することができる。さ
まざまなフィルタ設計の例は、H. S. Malvar著、"Signa
l Processing With Lapped Transforms", Artech House
(1992)、Ziemer他著、"Signalsand Systems: Continuo
us and Discrete", Macmillian Publishing Co., Appen
dix D (2d ed. 1989)およびHorowitz and Hill著、"The
Art of Electronics", Cambridge University Press
(2d ed. 1989)に示されている。米国特許第48993
84号明細書に、並列フィルタ・バンクを使用したサブ
バンドの作成が教示されている。フィルタは、本発明の
好ましい実施例に従って、ハードウェアまたはソフトウ
ェアで実施することができる。
のそれぞれから分離されたサブバンドのそれぞれについ
て、スケール・ファクタを決定し、コーディングする。
オーディオPCMサンプルの「フレーム」のそれぞれに
ついて、サブバンドごとに事前に指定された個数のサブ
バンド・サンプルを取得する。レイヤIの場合、1フレ
ームは、384個のPCMサンプルからなり、この結
果、1サブバンドあたり384/32=12サブバンド
・サンプルがもたらされる。レイヤIIでは、PCMサ
ンプルは1152個、サブバンド・サンプルは36個で
ある。12サンプルのうちの絶対最大値を、スケール・
ファクタとして採用する。スケール・ファクタに関する
無限の選択肢を防ぐため、レイヤIおよびレイヤIIで
は、64個の値だけが使用される。したがって、この絶
対最大値より大きく、これに最も近いスケール・ファク
タ値が選択され、指標によってデコーダに示される。デ
コーダは、指標によって示された値を知っているものと
仮定する。スケール・ファクタをコーディングするため
のビットが必要であり、これは、ブロック206でビッ
ト・アロケーションを実行する時に考慮される。
ト・パッキングが実行される。サブバンド値のそれぞれ
は、そのサブバンドに対応するスケール・ファクタによ
って除算される。スケーリングされたサブバンド・サン
プルを量子化機構によって量子化する。量子化機構のス
テップ・サイズは、SMR値とSNR値によって決定さ
れる。その後、MPEGの場合にはMPEGオーディオ
・ビット・ストリームの定義に従い、他の規格を使用す
る場合にはそれに従って、量子化処理の結果のビットを
パックする。米国特許第5185800号明細書に、聴
覚心理的判断基準に基づく適応量子化を用いる変換され
たディジタル・オーディオ信号用のビット・アロケーシ
ョン装置が開示されている。量子化と符号化に関する詳
細については、Ziemer他著、"Signals and Systems: Co
ntinuous and Discrete", Macmillian Publishing Co.
(2d ed. 1989)を参照されたい。
ムである。この処理は、MPEGまたはデータ圧縮用の
他の符号化標準規格の下で実施できる。図1に示された
処理の詳細については、ISO-IEC/JTC1 SC29/WG11, "Cod
ing Of Moving Pictures AndAssociated Audio for Dig
ital Storage Media At Up to About 1.5 Mbits/s -Par
t 3: Audio", DIS, 11172、1992年4月を参照され
たい。
るレイヤが使用される。レイヤIおよびレイヤIIで
は、ISO-IEC/JTC1 SC29/WG11, "Coding Of Moving Pict
ures And Associated Audio for Digital Storage Medi
a At Up to About 1.5 Mbits/s- Part 3: Audio", DIS,
11172、1992年4月に指定されたコサイン変調フィ
ルタ・バンクを使用して32個の等間隔のサブバンドに
信号を分割する。レイヤIIIでも、初期段階では32個
のサブバンドを使用するが、より細かい周波数分割のサ
ブバンド・サンプルを得るため、サブバンド内でさらに
分割を実行する。レイヤIでは、384個のサンプルを
1フレームにグループ化し、これらのフレームのそれぞ
れについて新しいビット・アロケーション・テーブルを
計算する。MPEG標準規格の聴覚心理モデルでは、5
12点離散フーリエ変換(DFT)を使用して、スペク
トルを計算する。ここで、許容されるサンプリング周波
数である32kHz、44.1kHZおよび48kHz
に関して、ビット・アロケーション計算実行の必要条件
は、それぞれ12ミリ秒、8.7ミリ秒および8ミリ秒
になる。レイヤIIの場合、1152(3×384)サ
ンプルを1フレームにグループ化し、スペクトル分析に
1024点DFTを使用する。レイヤIIを使用してP
M2を計算するための計算必要条件を求めると、2チャ
ネル(ステレオ)・オーディオの場合、6ミリ秒ごとに
26314回の乗算、37341回の加算、1024回
の比較、1135回の対数、1201回のテーブル索引
動作、859回の除算、768回の平方根および512
回の逆タンジェント、または、これらを毎秒約170回
実行することである。この詳細に関しては、ISO-IEC/JT
C1 SC29/WG11, "Comments On Audio CD And Analysis O
f Audio Complexity"、1991年5月を参照された
い。
PM2より70倍、レイヤIのPM1より約60倍計算
効率のよいビット・アロケーションの処理を提供する。
本発明は、標準的なディジタル・プロセッサ・アーキテ
クチャに十分に適している。
析によるのではなく、サブバンド内のエネルギーに基づ
いてSMR値を予測する。サブバンド分析から得られた
サブバンドを利用して、ビット・アロケーションに利用
されるSMR値を予測する。具体的に言うと、サブバン
ド・エネルギーは、本発明の好ましい実施例によって利
用される。SMR値の予測は、サブバンドによってイン
デクス付けされる予測係数の行列を使用することによっ
て達成される。予測係数は、PM1やPM2などの実際
の聴覚心理モデルを利用することによって発見される。
本発明の好ましい実施例によって使用される方法論の詳
細を、次節以降で提示する。この手法を利用すると、す
べてのサブバンド・コードに対する動的ビット・アロケ
ーション方式を、本発明の好ましい実施例に従って開発
できる。
C1 SC29/WG11, "Coding Of Moving Pictures And Assoc
iated Audio for Digital Storage Media At Up to Abo
ut 1.5 Mbits/s - Part 3: Audio", DIS, 11172、19
92年4月にある。これらのモデルでは、SMRの計算
に長い処理が用いられる。たとえば、PM1では、まず
DFTを実行して、信号のパワー密度スペクトルを得
る。このパワー・スペクトルから、その信号の音声成分
と非音声成分が計算される。というのは、これらの成分
が異なるマスキング特性を有することが周知だからであ
る。これらのマスキング特性は、サブバンドの境界(ま
たはカットオフ周波数)をまたぐ可能性がある。次に、
さまざまな周波数点での大域マスキング閾値を計算す
る。各サブバンド内のこれらの値の最小値が、SMRを
表す。PM2では、DFTの値と位相の両方を使用する
さらに複雑な演算が必要であり、これは、ISO-IEC/JTC1
SC29/WG11, "Coding Of Moving Pictures And Associa
ted Audio for Digital Storage Media At Up to About
1.5 Mbits/s - Part 3: Audio", DIS, 11172、199
2年4月で詳細に説明されている。
帯域幅の中での経時情報を表す。各サブバンドが完全な
バンドパス特性をもたらすと仮定すると、A. V. Oppenh
eimand R. W. Schafer著、"Digital Processing of Sig
nals", Englewood Cliffs,NJ: Prentice Hall, 1979に
記載のパーセバルの定理を適用することによって、サブ
バンド内の各サブバンド値の二乗和が、その周波数帯域
のエネルギーを反映する。サブバンド分解を提供する分
析フィルタ・バンクは、拒絶帯で96dB超の減衰をも
たらすプロトタイプ・フィルタを使用して設計された。
詳細については、K. Brandenberg and G. Stoll著、"Th
e ISO/MPEG-Audio codec: A genericstandard for codi
ng of high quality digital audio," Proc. of the 92
nd Convention of the Audio Engineering Society, Vi
enna、1992年3月を参照されたい。
完全なバンドパス特性の仮定が有効である。SMRの計
算手順から、各サブバンド内のエネルギー値が、最終的
にそのサブバンドと隣接サブバンド内のSMR値に寄与
することが明白であるから、各サブバンド内のエネルギ
ーとSMR値の間の関係をモデル化することは正当であ
る。モデルが既知であれば、エネルギーはサブバンド領
域で計算されるので、周波数スペクトルの計算とそれに
関連する演算を省略できる。本発明の好ましい実施例で
は、線形モデリングを使用する。
ルギー値をSMR値の行列に写像する32×33次元の
行列を推定するという問題に置き換えられる。最初のス
テップは、もちろん、モデル化のためのデータを得るこ
とである。データが得られたならば、そのデータにあて
はまる最適モデルを見つけることが、この処理の次のス
テップである。まず、データを収集する機構を考察す
る。次に、適当な入力データ・セットと出力データ・セ
ットを選択する。次に、線形仮説を検定して、線形モデ
ルの引数をサポートする。最後に、本発明の好ましい実
施例に従って、行列の実際の推定を行う。
聴覚心理モデルを使用する必要がある。ソフトウェアを
使用して、ISO-IEC/JTC1 SC29/WG11, "CodingOf Moving
Pictures And Associated Audio for Digital Storage
Media At Upto About 1.5 Mbits/s - Part 3: Audio",
DIS, 11172、1992年4月に記載の2つの聴覚心理
モデルを介してSMR値を得た。実験にはPM1とPM
2の両方を使用した。推定問題に関するデータのセット
を得るためには、さまざまな音楽と音声の信号が必要で
ある。クラシックおよびポピュラー音楽からの多数のオ
ーディオ・サンプルと、20秒から30秒の間の持続時
間のいくつかの音声信号を、IBM社のオーディオ変換
アダプタ(ACPA)を使用して、サンプリング・レー
ト44.1kHz、毎サンプル16ビット分解能のモノ
ラル・モードで取り込んだ。
48kHzサンプル技法でのデータも取り込んだ。サン
プルがディジタル形式で入手できる場合、オーディオ取
込ハードウェアを使用する必要はない。オーディオの数
フレームに関して確立された聴覚心理モデルから、各サ
ブバンド内の時間領域エネルギー値とそれに対応するS
MR値のテーブルを、シミュレーション・プログラムを
使用して作成できる。異なる音楽サンプルのすべてから
のデータを集めなければならないとすると、データ・セ
ットが大きくなりすぎる。この問題を迂回するため、サ
ンプリング技法を使用した。均一な分布特性を有する擬
似乱数ジェネレータを、サンプリング目的に使用した。
0と215−1の間にある乱数を、wiと表すとする。そ
の場合、
≦X≦100であり、modは剰余演算を表し、
P(.)は確率測度を示す。上式を使用して、各フレー
ムに関してランダムにSMRと対応するエネルギー値と
を取得した。この結果、フレームの(100−x)%が
取り込まれた。
タは、PM1およびPM2を使用して取得した。エネル
ギー計算に関して、本発明の好ましい実施例によるサン
プルの二乗ではなく、サブバンド・サンプルの絶対値を
考慮した。これは、プログラム式DSPの計算必要条件
またはサイクル必要条件を最小にするためである。サブ
バンド・サンプルの絶対値を、本明細書では「擬似エネ
ルギー」値と称する。レイヤIのモデリング中に、各フ
レームの各サブバンドで、サンプルの12個の絶対値を
合算して、そのサブバンドのエネルギー値を得た。レイ
ヤIIを使用する時には、36個の絶対値を合算して、
擬似エネルギー値を得た。
常は小さく、その結果、決定しなければならない線形パ
ラメータが大きい値になることである。これには、固定
小数点DSPを使用する実施態様に好ましくない大きな
ダイナミック・レンジの数値を扱う必要がある。このた
め、このエネルギーの自然対数を取ることによって、修
正された値を使用した。これは、SMR値がdB単位で
与えられることを考慮に入れても適切である。擬似エネ
ルギー値計算と並行して、PM1またはPM2のいずれ
かを使用してSMR値を計算し、集めた。yk(j)
が、サンプル・フレームjでのサブバンドkのSMR値
を表し、xi(j)が、それに対応するサブバンドの擬
似エネルギー値を表すとする。
1,2,…,33)は、次式(1)に従ってN個のデー
タ・ポイントを使用して推定される。
いてx33(j)=1であり、εk(j)は、フレームj
のサブバンドkに関するモデリング誤差を表す。βk,33
(k=1,2,…,32)は、バイアス値を表し、β
k,iは、本発明の好ましい実施例による予測係数を表
す。この例では、1「フレーム」に複数の隣接するオー
ディオ・サンプルが含まれる。目的は、所与のデータに
関して誤差が最小になるβk,iの推定値を得ることであ
る。推定されるパラメータの数は、32×33であるこ
とに留意されたい。追加の32個のパラメータは、x33
(.)に対応するバイアス・ベクトルを推定するための
必要条件から与えられる。
い実施例による予測係数決定の処理が示されている。ブ
ロック300で、PM1またはPM2などの聴覚心理モ
デルを使用して、ランダムなオーディオ・サンプルに関
するSMR値を決定する。その後、ブロック302で、
サンプル内のサブバンドのエネルギー値を決定する。次
に、ブロック304で、サブバンドとデータ点のそれぞ
れについて、予測係数を決定する。予測係数は、式
(1)に示されたβk,iである。その後、ブロック30
6で、サンプルがまだ存在するかどうかを判定する。サ
ンプルが残っていない場合、処理を終了する。そうでな
い場合、ブロック300に戻って、本発明の好ましい実
施例に従って別のオーディオ・サンプルを処理する。
は、ある前提の下で、すなわち、εk(j)が独立であり、
正規分布であるという仮定の下で簡単に検査できる。仮
説検定の詳細は、J. Neter, W. Wasserman, M.H. Kutne
r著、"Applied Linear Statistical Models", Homewoo
d, IL: Richard Irwin Inc.、1985年など、標準的
な統計学の教科書にある。たとえば、サブバンドkに関
して、ナル仮説と代替仮説を、次のように定式化でき
る。
変数が有意に寄与することを暗示する。検定統計の計算
には、まず、bk=[βk,0,βk,1,…,βk,32]Tと以
降bハット k と表記する
k(2),…,yk(N)]T であり、XはN×33の行
列であって、Xの各行にxi(j),(i=1,2,
…,33)が含まれるものとする。同様に、ek は、誤
差ベクトルを表すものとする。ここで、式(1)を次の
ように表すことができる。
ことが周知である。
差ekに関する正規分布仮定の下では、式(2)によっ
て与えられる推定値が、bkの最尤推定値(MLE)で
もあることに留意されたい。
o]であり、このIは32×32の単位行列であり、o
はすべての要素が0の32次元列ベクトルであるとす
る。すると、検定統計F0 は、次式(3)に従って計算
される。
rman, M.H. Kutner著、"Applied Linear Statistical M
odels", Homewood, IL: Richard Irwin Inc.、1985
年などの標準的な統計学の参考文献の分散比分布テーブ
ル(またはFテーブル)にある。レイヤ1、PM1を使
用し、N=390でデータを収集した場合に遭遇した検
定統計F0の典型的な値のいくつかを、表1に示す。
て、すなわち、レイヤII、レイヤIとPM1およびP
M2のさまざまな組合せに関する、典型的な値である。
したがって、ナル仮説を棄却しなければならず、推定を
進めるべきであることが明白である。
値をもたらすことはかなりよく知られている。しかし、
アウトライアすなわち誤差がかなり大きいデータ点が存
在し、誤差の分布に関する知識がないので、異なるタイ
プの推定を使用しなければならない場合がある。サンプ
ル・フレームの誤差をプロットすることによるbkの最
小二乗推定を使用した結果の典型的な例を、図3に示
す。図3を検討すると、特定の点の除去が、bkのより
よい推定に非常に貢献することが実に明白である。ロバ
スト推定と称する技法が、アウトライアが存在する場合
の最小二乗技法に対する適切な代替技法であると考えら
れている。
れている。2つの使用可能な技法を使用した。その方法
の1つは、C.G. Boncelet and B.W. Dickinson著、"A v
ariant of Huber robust estimation," SIAM, Journal
on Scientific and Statistical Computing, vol. 5, n
o. 3, pp. 720-734、1984年に記載のBoncelet and
Dickinsonによるものであり、これは、P. Huber著、"Ro
bust statistics: A review," Annals of Mathematical
Statistics, vol. 43, pp.1042-1067、1972年に記
載のHuberの方法の変形である。推定は、次式(4)を
最小にすることによって得られる。
り、λに固定値を使用すると、計算負荷がかなり減る。
もう1つの代替技法が、その設計に関して許容されるア
ウトライアの比率(たとえばα)を指定することであ
る。C.G. Boncelet and B.W. Dickinson著、"A variant
of Huber robust estimation," SIAM, Journal on Sci
entific and Statistical Computing, vol. 5, no. 3,
pp. 720-734、1984年に記載のBoncelet and Dickin
sonによって提案された方式は、アウトライアの比率を
使用する場合でも、λに固定値を使用する場合でも使用
可能である。λを固定するためには、データに関する先
験的知識が必要である。下に、適切なλ値の選択に向け
て使用することのできるSMR値の特性を示す。 (1)SMR値には、各サブバンドの絶対閾値が含まれ
る。絶対閾値とは、聴取可能である必要がある最小の音
響エネルギー・レベルに対応する値である。 (2)これらの値は、高周波域(13kHzないし20
kHz)でより大きく、中低周波数(2kHzないし5
kHz)でより小さい。これは、人間の耳がこの周波数
域で最も敏感だからである。極低周波数(0Hzないし
300Hz)でも、絶対閾値は大きい(さまざまな周波
数の絶対閾値のリストに関しては、ISO-IEC/JTC1 SC29/
WG11, "Coding Of Moving Pictures And Associated Au
dio forDigital Storage Media At Up to About 1.5 Mb
its/s - Part 3: Audio", DIS,11172、1992年4月
を参照されたい)。 (3)SMR値(dB単位)は、各サブバンドで割り当
てられるビット数に直接関連する。1ビットを割り当て
るごとに、信号対雑音比(SNR)は約6dB高くな
る。 (4)サブバンド番号に対してプロットしたSMR値の
典型的なプロファイルを、図4に示す。この図には、S
MR値が全般的に周波数に伴って減少することが示され
ている。
から低い側の高周波(2kHzないし13kHz)でで
きる限り正確にSMR値を予測することが重要である。
λに関して低い(3dB未満の)値、αに関して低い値
を選択することができる。耳の感度は、超低周波では高
くないので、通常はSMR値が高い。したがって、λ
は、最初の3つのサブバンド(約2kHzまで)に関し
ては約6dBに保たれる。その代わりに、αを5%前後
に選択することもできる。20番目以降のサブバンドに
ついては、SMR値は一般に大きく、耳の感度は低い。
このため、より大きいλ値の使用が可能になる。通常
は、約10までの値を使用した。しかし、アウトライヤ
の比率αは、超低周波域でαを指定することによってこ
の方法を実行する場合には、より高いレベルに増加させ
る必要はない。
成されたデータの特性に感知可能な差がある、すなわ
ち、PM1とPM2の使用から生ずる差があると疑う者
もいるかもしれない。経験上、特定の種類の音楽に関し
ては実際にそうなる。しかし、λの選択に関する全体的
な注意はまだあてはまる。
t regression using iteratively reweighted least sq
uares," Comm. Statisi., vol. A6, pp. 813-827、19
77年でHollandおよびWelschによって提案された変更
を加えたHuberの技法を使用して、推定を実行した。こ
の手順は、回帰パラメータ・ベクトルの初期推定から始
まる反復最小二乗技法に基づくものであり、この初期推
定は、通常は最低絶対残差推定によって得られる。この
方式の実施例は、International Business Machines社
から販売されている製品であるAGSS(A Graphical
Statistical System)で使用可能である。この方法の長
所の1つが、λの自動計算である。この場合、λ=1.
345σ^であり、σ^は、残差の推定分散である。こ
のロバスト推定手順の技術的詳細は、P.W. Holland and
R.E. Welsch著、"Robust regression using iterative
ly reweighted least squares," Comm. Statisi., vol.
A6,pp. 813-827、1977年に記載されている。
は、主観的な検定と本発明の好ましい実施例による客観
的な検定という2つの検定に基づくものである。音楽の
品質は、PM1またはPM2のいずれかを使用して得ら
れた圧縮の後に伸長された音楽の一部と原音の両方に対
して主観的に評価される。客観的な測定のためには、P
M1またはPM2のいずれかを使用する対応するMPE
G実施態様からのビット・アロケーション偏差を使用す
る。偏差は、サンプリングされたフレームに関して計算
され、フレームごとの平均偏差を、推奨された聴覚心理
モデルを使用する実施態様からのずれの量の表示として
採用する。
ン、演説、ピアノ、交響楽団、カントリー・ウエスタン
および民俗音楽を含む複数の異なる種類の音楽の16ビ
ット分解能のパルス符号変調(PCM)サンプルを収集
した。1400フレームの情報を、レイヤIIおよびレ
イヤIのために、PM1およびPM2のそれぞれを用い
て取得した。j番目のフレームのi番目のサブバンドの
擬似エネルギー値を、そのフレーム内のサブバンド・サ
ンプル(レイヤIIでは36個、レイヤIでは12個)
の絶対値を加算することによって計算した。その値の自
然対数を取り、これをxi(j)とする。2つの異なる
推定を実行した。一方では、BonceletおよびDickinson
の技法を使用し、他方では、AGSSパッケージを使用
した。主観的評価によってAGSS推定が選択される場
合、それが最終的にbハットkの正しい値として決定さ
れる。もう1つの重要な点は、特定のサブバンドでは、
単純な線形最小二乗を使用する予測がよりよい結果をも
たらし、したがって、そのバンドに関して線形最小二乗
法を使用すると決定されたことである。次節に示す係数
には、これら3つの方法から混合された回帰パラメータ
が含まれる。
の比較を示す。
32に対してはビットが割り当てられなかった。列1に
サブバンド番号を示し、列2に、レイヤI PM2を適
用した時に検定シーケンス全体に割り当てられたビット
数を示す。列3に、レイヤI実施態様を有する本発明の
提案する方法の場合の、対応する割り振られたビット数
を示す。最後に、PM2と比較した時のこの方法の忠実
度の測定値を、PM2と提案方式の間の割り振られたビ
ット数の平均偏差を考慮することによって、列4に示
す。実際にコーディングされたサブバンドの数を調べる
ことによって、この方式は、PM2と比較して同様に良
好に入力データの周波数内容を保存している。多くの聴
取者は、本発明の結果のビット・ストリームと対応する
原音とを比較した時に、事実上区別不能であった。
い実施例に従う、PCMサンプルを圧縮する処理の高水
準流れ図が示されている。PCMサンプルに対してサブ
バンド分析を実行して、サンプルごとに所望のサブバン
ドを作る。各サブバンドは、本発明の好ましい実施例に
従って既知のフィルタリング・システムを使用してサン
プルをフィルタリングすることによって作成できる。そ
の後、ブロック402で、サブバンドのそれぞれのエネ
ルギー値と所定の聴覚心理モデルに基づくSMR値との
間の関係のモデルを使用して、サブバンドに関してSM
Rを予測する。
Rを使用して、そのサンプルのためのビット・アロケー
ションを決定する。ブロック406に示されるように、
ビット・アロケーションでは、所望のビット・レートも
考慮される。ブロック408で、PCMサンプルのサブ
バンドのそれぞれについて、スケール・ファクタのコー
ディングを実行する。ブロック410で、ブロック40
4からのビット・アロケーションとブロック408から
のスケール・ファクタを使用して、量子化とビット・パ
ッキングを実行する。本発明の好ましい実施例によれ
ば、圧縮されるPCMサンプルのスペクトル分析を行う
必要がなくなる。
い実施例による、図5のブロック402に示されたSM
R値を予測する処理の流れ図が示されている。ブロック
500で、本発明の好ましい実施例に従って、特定のフ
レームについて、最大限まで分割されたサブバンド・サ
ンプルsi,l、(i=1,2,…,32、l=1,2,
…,L)を計算する。ただし、iは、サブバンド番号を
表す。Lは、MPEG標準規格の下で、レイヤIの場合
は12、レイヤIIの場合は36である。
って擬似エネルギー値を計算する。
従ってSMR値を予測する。
レイヤIのβi,jは表3、レイヤIIのβi,jは表4に示
された値である。以下で表3および表4を開示する。
れていないが、これらの値は、本発明の好ましい実施例
に従って、上で示した方法論によって決定できる。32
kHzおよび48kHzの信号に対応するβi,jを所望
する場合にも、本発明の好ましい実施例に従って、上で
示した方法論を使用して値を決定することができる。
の処理を、特定の種類の音楽に合わせて「チューニン
グ」させることができる。たとえば、クラシック音楽の
オーディオ信号を送っているユーザが、クラシックのバ
イオリンだけの符号化を望む場合、βi,jを推定する際
にクラシック・バイオリン音源からのサンプルを集める
ことができる。この推定されたβi,jは、クラシック・
バイオリンにより適したものになる。さらに、ユーザ
は、異なる種類の音楽に対応する複数のβi,jの組を取
得し、適宜1組を選択することができる。
(6)の絶対値の代わりに、次式のようにサブバンド・
サンプルSi,lの二乗エネルギー値を使用することがで
きる。
ことができる。Xを正規化された音圧レベルと等しくし
ようとすることによって、Cを約82.53dBにセッ
トすることができる。式(1)の予測係数βi,jの決定
でも、本発明の好ましい実施例に従って、擬似エネルギ
ー値が二乗エネルギー値に置換される。
テム50に、システム装置52、ビデオ表示端末54、
キーボード56およびマウス58が含まれる。データ処
理システム50は、いずれも米国ニューヨーク州アーモ
ンク、International Business Machines Corporation
社の製品であるIBM PS/2やIBM RISCS
YSTEM/6000コンピュータなど、適当なコンピ
ュータを使用して実施できる。「PS/2」および「R
ISC SYSTEM/6000」は、International
Business Machines Corporation社の商標である。図示
の実施例はパーソナル・コンピュータであるが、本発明
の好ましい実施例は、たとえば知能ワークステーショ
ン、ミニコンピュータ、ローカル・エリア・ネットワー
ク、標準ディジタル信号プロセッサを使用するマルチメ
ディア専用装置など、他のタイプのデータ処理システム
で実施することができる。
い実施例に従う図7のデータ処理システム50のブロッ
ク図が示されている。システム・バス10は、データ処
理システム50内のさまざまな構成要素間の接続を提供
する。中央処理装置(CPU)12は、データ処理シス
テム50内での判断能力を提供する。CPU12には、
米国カリフォルニア州サンタ・クララのIntel Corporat
ion社から購入できる80486プロセッサやPent
ium(ペンティアム)プロセッサなど、1つまたは複
数のプロセッサを含めることができる。「Pentiu
m」は、IntelCorporation社の商標である。使用可能な
他のプロセッサには、IBM社またはMotorola社から購入
可能なPower PCや、Digital Equipment社から
購入可能なAlpha AXPプロセッサが含まれる。
記憶域を提供し、これには、読取専用メモリ(ROM)
とランダム・アクセス・メモリ(RAM)の両方を含め
ることができる。直接アクセス記憶装置(DASD)1
6は、データ処理システム50に追加記憶域を提供す
る。DASD16は、通常はデータ処理システム50に
長期間記憶を提供する。DASD16には、たとえばハ
ード・ディスク駆動装置やフロッピー・ディスク駆動装
置を含めることができる。
ウス24などのさまざまな周辺装置を使用して、データ
処理システム50と対話することができる。本発明の好
ましい実施例によれば、オーディオ変換アダプタ(AC
PA)25を使用して、オーディオ・サンプルを得るこ
とができる。具体的に言うと、International Business
Machines Corporation社から購入可能なIBMオーデ
ィオ変換アダプタを使用できる。普及しているサウンド
・ブラスタや他のサウンド・カードも使用できる。オー
ディオ・データをCDやDATから直接読み取れる場
合、これらの供給源も使用できる。
50と、別のパーソナル・コンピュータなどの他のデー
タ処理システムやネットワークとの間のインターフェー
スを提供する。
ーディオ信号は、DASD16に記憶されたデータから
得るか、通信ユニット26で受け取るか、ACPA25
など、データ処理システムに接続された他のデータの供
給源から得ることができる。
ーク州アーモンク、InternationalBusiness Machines C
orporation社の製品であるIBM RISC SYST
EM/6000コンピュータ内で実施できる。「RIS
C SYSTEM/6000」は、International Busi
ness Machines Corporation社の商標である。本発明の
処理は、図7および図8に示されたデータ処理システム
内でまたはハードウェアによって実施できる。
れた処理より単純な実施態様が可能になる。本発明は、
MPEGによって指定された聴覚心理モデル以外のモデ
ルと共に使用することもできる。
(MAC)演算は、ほとんどのDSPで簡単に実行でき
る。したがって、そのようなプロセッサでは、式(6)
のβiのそれぞれの計算に、33命令サイクルだけが必
要になる。
とするのではなく、この演算を、1命令サイクルで実行
できる。さらに、固定小数点DSPでは、すべての加算
の最後に累算器内の結果に対して丸めを行うことがで
き、したがって、累算のそれぞれの後の丸め誤差をなく
すことができる。
例に従って、標準DSP環境でPM1またはPM2を使
用する処理よりも必要な命令サイクル数がはるかに少な
いので、より高速である。本発明によってもたらされる
性能の利得は、より効率的なデータ符号化処理をもたら
す。また、本発明の好ましい実施例は、単一のDSPを
用いて実施できる。
象としているが、本発明は、ビデオなど、他のデータ信
号のサブバンド・コーディングをもたらすのに使用でき
る。ビデオの場合、視覚心理重み付けを用いるサブバン
ド・コーディングを、本発明の好ましい実施例に従って
実施できる。
する処理の高水準流れ図である。
ファイルのグラフである。
マスク比のグラフである。
化処理の高水準流れ図である。
する処理の流れ図である。
るデータ処理システムを示す図である。
たデータ処理システムのブロック図である。
Claims (19)
- 【請求項1】データ処理システム内で複数のサンプルを
含むディジタル・オーディオ信号を効率的に圧縮するた
めの方法であって、 前記複数のサンプルのそれぞれを複数のサブバンドに分
離するステップと、 前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測するステップと、 前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てるステップと、 前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化するステップとを
含む、前記方法。 - 【請求項2】yiはサブバンドiの信号対マスク比、j
はサンプル・フレーム、Nはサンプル・フレーム数、β
i,jは予測係数、βi,33はバイアス係数、xjはサブバン
ドiのエネルギー値であるとして、前記信号対マスク比
を予測するステップが、 【数1】 によって前記信号対マスク比を予測することを特徴とす
る、請求項1に記載の方法。 - 【請求項3】Yk(j)は同一のフレームjでのサブバンド
kの信号対マスク比、kはサブバンド番号、jはフレー
ム番号、Nはフレーム数、εk(j)はフレームjのサブバ
ンドkのモデリング誤差として、 【数2】 によって予測係数を確認するステップをさらに含む、請
求項2に記載の方法。 - 【請求項4】さらに、聴覚心理モデルから信号対マスク
比を獲得するステップを含む、請求項3に記載の方法。 - 【請求項5】複数のサンプルを含むディジタル・オーデ
ィオ信号を、効率的に圧縮するためのデータ処理システ
ムであって、 前記複数のサンプルのそれぞれを複数のサブバンドに分
離する分離手段と、 前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測する予測手段と、 前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てる割当手段と、 前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化する量子化手段と
を含む、前記データ処理システム。 - 【請求項6】y i はサブバンドiの信号対マスク比、j
はサンプル・フレーム、Nはサンプル・フレーム数、β
i,j は予測係数、β i,33 はバイアス係数、x j はサブバン
ドiのエネルギー値であるとして、前記予測手段が、 【数3】 によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、請求項5に記載のデータ処理システム。 - 【請求項7】Y k (j)は同一のフレームjでのサブバンド
kの信号対マスク比、kはサブバンド番号、jはフレー
ム番号、Nはフレーム数、ε k (j)はフレームjのサブバ
ンドkのモデリング誤差として、 【数4】 によって予測係数を確認する手段をさらに含む、請求項
6に記載のデータ処理システム。 - 【請求項8】さらに、聴覚心理モデルから信号対マスク
比を獲得する手段を含む、請求項7に記載のデータ処理
システム。 - 【請求項9】前記聴覚心理モデルが、MPEGによって
指定された聴覚心理モデルであることを特徴とする、請
求項8に記載のデータ処理システム。 - 【請求項10】前記聴覚心理モデルが、聴覚心理モデル
2であることを特徴とする、請求項9に記載のデータ処
理システム。 - 【請求項11】xjが、サブバンドiの擬似エネルギー
値であることを特徴とする、請求項6に記載のデータ処
理システム。 - 【請求項12】xjが、サブバンドiの二乗エネルギー
値であることを特徴とする、請求項6に記載のデータ処
理システム。 - 【請求項13】前記モデルが、複数の予測係数であるこ
とを特徴とする、請求項5に記載のデータ処理システ
ム。 - 【請求項14】複数のサンプルを含むディジタル・オー
ディオ信号を、効率的に圧縮するための装置であって、 前記複数のサンプルのそれぞれを複数のサブバンドに分
離する分離手段と、 前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測する予測手段と、 前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てる割当手段と、 前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化する量子化手段と
を含む、前記装置。 - 【請求項15】y i はサブバンドiの信号対マスク比、
jはサンプル・フレーム、Nはサンプル・フレーム数、
β i,j は予測係数、β i,33 はバイアス係数、x j はサブバ
ンドiのエネルギー値であるとして、前記予測手段が、 【数5】 によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、請求項14に記載の装置。 - 【請求項16】プロセッサと、 複数のサンプルを含むディジタル・オーディオ信号を供
給するディジタル・オーディオ供給源と、 前記複数のサンプルのそれぞれを複数のサブバンドに分
離する分離手段と、 前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測するためのプロセッサ手段
と、 前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てるためのプロセッサ手段と、 前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化するためのプロセ
ッサ手段とを含む、前記データ処理システム。 - 【請求項17】前記分離手段が、前記複数のサンプルの
それぞれを複数のサブバンドに分割するための命令手段
を含むプロセッサであることを特徴とする、請求項16
に記載のデータ処理システム。 - 【請求項18】y i はサブバンドiの信号対マスク比、
jはサンプル・フレーム、Nはサンプル・フレーム数、
β i,j は予測係数、β i,33 はバイアス係数、x j はサブバ
ンドiのエネルギー値であるとして、前記予測するため
のプロセッサ手段が、 【数6】 によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、請求項16に記載のデータ処理システ
ム。 - 【請求項19】Y k (j)は同一のフレームjでのサブバン
ドkの信号対マスク比、kはサブバンド番号、jはフレ
ーム番号、Nはフレーム数、ε k (j)はフレームjのサブ
バンドkのモデリング誤差として、 【数7】 によって予測係数を確認する手段をさらに含む、請求項
18に記載のデータ処理システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US175900 | 1988-03-31 | ||
US08/175,900 US5764698A (en) | 1993-12-30 | 1993-12-30 | Method and apparatus for efficient compression of high quality digital audio |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07210195A JPH07210195A (ja) | 1995-08-11 |
JP2904472B2 true JP2904472B2 (ja) | 1999-06-14 |
Family
ID=22642132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6292810A Expired - Lifetime JP2904472B2 (ja) | 1993-12-30 | 1994-11-28 | ディジタル・オーディオ信号を効率的に圧縮するための方法、データ処理システムおよび装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5764698A (ja) |
EP (1) | EP0661826A2 (ja) |
JP (1) | JP2904472B2 (ja) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9606680D0 (en) * | 1996-03-29 | 1996-06-05 | Philips Electronics Nv | Compressed audio signal processing |
US5941936A (en) * | 1996-10-31 | 1999-08-24 | Taylor Group Of Companies, Inc. | One-bit run-length encoding and playback system |
US5953506A (en) * | 1996-12-17 | 1999-09-14 | Adaptive Media Technologies | Method and apparatus that provides a scalable media delivery system |
US6278735B1 (en) * | 1998-03-19 | 2001-08-21 | International Business Machines Corporation | Real-time single pass variable bit rate control strategy and encoder |
US6161088A (en) * | 1998-06-26 | 2000-12-12 | Texas Instruments Incorporated | Method and system for encoding a digital audio signal |
US6421464B1 (en) * | 1998-12-16 | 2002-07-16 | Fastvdo Llc | Fast lapped image transforms using lifting steps |
US6240379B1 (en) * | 1998-12-24 | 2001-05-29 | Sony Corporation | System and method for preventing artifacts in an audio data encoder device |
EP1076297A1 (en) * | 1999-08-09 | 2001-02-14 | Deutsche Thomson-Brandt Gmbh | Method for fast Fourier transformation of audio signals |
US6567781B1 (en) | 1999-12-30 | 2003-05-20 | Quikcat.Com, Inc. | Method and apparatus for compressing audio data using a dynamical system having a multi-state dynamical rule set and associated transform basis function |
US6745162B1 (en) * | 2000-06-22 | 2004-06-01 | Sony Corporation | System and method for bit allocation in an audio encoder |
JP2002014700A (ja) * | 2000-06-30 | 2002-01-18 | Canon Inc | 音声信号処理方法、装置および記憶媒体 |
US6826546B1 (en) * | 2000-08-17 | 2004-11-30 | Ideaflood, Inc. | Method and system for licensing a copy of a copyright protected work |
JP2002196792A (ja) * | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
US6882976B1 (en) | 2001-02-28 | 2005-04-19 | Advanced Micro Devices, Inc. | Efficient finite length POW10 calculation for MPEG audio encoding |
US7602847B1 (en) | 2001-03-27 | 2009-10-13 | Vixs Systems, Inc. | Device and method for compression of a video stream |
US8107524B2 (en) | 2001-03-30 | 2012-01-31 | Vixs Systems, Inc. | Adaptive bandwidth footprint matching for multiple compressed video streams in a fixed bandwidth network |
US6959348B1 (en) | 2001-07-30 | 2005-10-25 | Vixs Systems, Inc. | Method and system for accessing data |
US7675972B1 (en) | 2001-07-30 | 2010-03-09 | Vixs Systems, Inc. | System and method for multiple channel video transcoding |
DE10150519B4 (de) * | 2001-10-12 | 2014-01-09 | Hewlett-Packard Development Co., L.P. | Verfahren und Anordnung zur Sprachverarbeitung |
US7596127B1 (en) | 2001-10-31 | 2009-09-29 | Vixs Systems, Inc. | System for allocating data in a communications system and method thereof |
US7139330B1 (en) | 2001-10-31 | 2006-11-21 | Vixs Systems, Inc. | System for signal mixing and method thereof |
US7106715B1 (en) | 2001-11-16 | 2006-09-12 | Vixs Systems, Inc. | System for providing data to multiple devices and method thereof |
US7403564B2 (en) | 2001-11-21 | 2008-07-22 | Vixs Systems, Inc. | System and method for multiple channel video transcoding |
US7356079B2 (en) | 2001-11-21 | 2008-04-08 | Vixs Systems Inc. | Method and system for rate control during video transcoding |
US7165180B1 (en) | 2001-11-27 | 2007-01-16 | Vixs Systems, Inc. | Monolithic semiconductor device for preventing external access to an encryption key |
US7085675B2 (en) * | 2002-02-06 | 2006-08-01 | The University Of Chicago | Subband domain signal validation |
US7313520B2 (en) * | 2002-03-20 | 2007-12-25 | The Directv Group, Inc. | Adaptive variable bit rate audio compression encoding |
US7310679B1 (en) | 2002-04-29 | 2007-12-18 | Vixs Systems Inc. | Method and system for transmitting video content while preventing other transmissions in a contention-based network |
US7120253B2 (en) | 2002-05-02 | 2006-10-10 | Vixs Systems, Inc. | Method and system for protecting video data |
US8090577B2 (en) * | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
US7408989B2 (en) | 2003-01-16 | 2008-08-05 | Vix5 Systems Inc | Method of video encoding using windows and system thereof |
US7327784B2 (en) | 2003-02-24 | 2008-02-05 | Vixs Systems, Inc. | Method and system for transcoding video data |
US7606305B1 (en) | 2003-02-24 | 2009-10-20 | Vixs Systems, Inc. | Method and system for transcoding video data |
US7133452B1 (en) | 2003-02-24 | 2006-11-07 | Vixs Systems, Inc. | Method and system for transcoding video data |
US7130350B1 (en) | 2003-02-28 | 2006-10-31 | Vixs Systems, Inc. | Method and system for encoding and decoding data in a video stream |
US7739105B2 (en) * | 2003-06-13 | 2010-06-15 | Vixs Systems, Inc. | System and method for processing audio frames |
US20080075377A1 (en) * | 2003-07-29 | 2008-03-27 | Topiwala Pankaj N | Fast lapped image transforms using lifting steps |
KR100554680B1 (ko) * | 2003-08-20 | 2006-02-24 | 한국전자통신연구원 | 크기 변화에 강인한 양자화 기반 오디오 워터마킹 장치 및방법 |
US7668396B2 (en) | 2003-09-29 | 2010-02-23 | Vixs Systems, Inc. | Method and system for noise reduction in an image |
US7277101B2 (en) | 2003-09-29 | 2007-10-02 | Vixs Systems Inc | Method and system for scaling images |
KR100571824B1 (ko) * | 2003-11-26 | 2006-04-17 | 삼성전자주식회사 | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 |
US7406598B2 (en) | 2004-02-17 | 2008-07-29 | Vixs Systems Inc. | Method and system for secure content distribution |
US7720145B2 (en) * | 2004-05-13 | 2010-05-18 | Ittiam Systems (P) Ltd. | Model based bit rate control for a macroblock encoder |
KR100695125B1 (ko) * | 2004-05-28 | 2007-03-14 | 삼성전자주식회사 | 디지털 신호 부호화/복호화 방법 및 장치 |
KR100634506B1 (ko) * | 2004-06-25 | 2006-10-16 | 삼성전자주식회사 | 저비트율 부호화/복호화 방법 및 장치 |
EP1801785A4 (en) * | 2004-10-13 | 2010-01-20 | Panasonic Corp | MODULAR ENCODER, MODULAR DECODER AND MODULATING CODING METHOD |
DE102004059979B4 (de) * | 2004-12-13 | 2007-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals |
US7421048B2 (en) | 2005-01-20 | 2008-09-02 | Vixs Systems, Inc. | System and method for multimedia delivery in a wireless environment |
US8958459B2 (en) | 2005-01-31 | 2015-02-17 | St-Ericsson Sa | Method and apparatus for despread data in wireless communication system |
US7609766B2 (en) | 2005-02-08 | 2009-10-27 | Vixs Systems, Inc. | System of intra-picture complexity preprocessing |
US8949920B2 (en) | 2005-03-17 | 2015-02-03 | Vixs Systems Inc. | System and method for storage device emulation in a multimedia processing system |
US7400869B2 (en) | 2005-03-22 | 2008-07-15 | Vixs Systems Inc. | System and method for adaptive DC offset compensation in wireless transmissions |
US7231974B2 (en) * | 2005-04-08 | 2007-06-19 | Chevron U.S.A. | Self-leaving in-situ device and method for passively removing oil from water wells |
US7707485B2 (en) | 2005-09-28 | 2010-04-27 | Vixs Systems, Inc. | System and method for dynamic transrating based on content |
JP4822507B2 (ja) * | 2005-10-27 | 2011-11-24 | 株式会社メガチップス | 画像処理装置および画像処理装置に接続される装置 |
US8131995B2 (en) | 2006-01-24 | 2012-03-06 | Vixs Systems, Inc. | Processing feature revocation and reinvocation |
US7720300B1 (en) * | 2006-12-05 | 2010-05-18 | Calister Technologies | System and method for effectively performing an adaptive quantization procedure |
US8385474B2 (en) * | 2007-09-21 | 2013-02-26 | Qualcomm Incorporated | Signal generator with adjustable frequency |
US7965805B2 (en) | 2007-09-21 | 2011-06-21 | Qualcomm Incorporated | Signal generator with signal tracking |
US8446976B2 (en) * | 2007-09-21 | 2013-05-21 | Qualcomm Incorporated | Signal generator with adjustable phase |
GB2454208A (en) * | 2007-10-31 | 2009-05-06 | Cambridge Silicon Radio Ltd | Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US9202456B2 (en) * | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
JP5539992B2 (ja) * | 2009-08-20 | 2014-07-02 | トムソン ライセンシング | レート制御装置、レート制御方法及びレート制御プログラム |
US8788277B2 (en) * | 2009-09-11 | 2014-07-22 | The Trustees Of Columbia University In The City Of New York | Apparatus and methods for processing a signal using a fixed-point operation |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US11545159B1 (en) * | 2021-06-10 | 2023-01-03 | Nice Ltd. | Computerized monitoring of digital audio signals |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4631746A (en) * | 1983-02-14 | 1986-12-23 | Wang Laboratories, Inc. | Compression and expansion of digitized voice signals |
US4688246A (en) * | 1985-12-20 | 1987-08-18 | Zenith Electronics Corporation | CATV scrambling system with compressed digital audio in synchronizing signal intervals |
US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
EP0400222A1 (en) * | 1989-06-02 | 1990-12-05 | ETAT FRANCAIS représenté par le Ministère des Postes, des Télécommunications et de l'Espace | Digital transmission system using subband coding of a digital signal |
US5185800A (en) * | 1989-10-13 | 1993-02-09 | Centre National D'etudes Des Telecommunications | Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion |
US5150387A (en) * | 1989-12-21 | 1992-09-22 | Kabushiki Kaisha Toshiba | Variable rate encoding and communicating apparatus |
JP2906646B2 (ja) * | 1990-11-09 | 1999-06-21 | 松下電器産業株式会社 | 音声帯域分割符号化装置 |
US5150401A (en) * | 1990-12-04 | 1992-09-22 | Chips International, Inc. | Retrofittable encryption/decryption apparatus using modified frequency modulation |
BR9204799A (pt) * | 1991-03-29 | 1993-07-13 | Sony Corp | Processo de codificacao para um sinal digital |
EP0506394A2 (en) * | 1991-03-29 | 1992-09-30 | Sony Corporation | Coding apparatus for digital signals |
US5231484A (en) * | 1991-11-08 | 1993-07-27 | International Business Machines Corporation | Motion video compression system with adaptive bit allocation and quantization |
US5315670A (en) * | 1991-11-12 | 1994-05-24 | General Electric Company | Digital data compression system including zerotree coefficient coding |
JP2976701B2 (ja) * | 1992-06-24 | 1999-11-10 | 日本電気株式会社 | 量子化ビット数割当方法 |
JP3508146B2 (ja) * | 1992-09-11 | 2004-03-22 | ソニー株式会社 | ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置 |
JPH0750589A (ja) * | 1993-08-04 | 1995-02-21 | Sanyo Electric Co Ltd | サブバンド符号化装置 |
-
1993
- 1993-12-30 US US08/175,900 patent/US5764698A/en not_active Expired - Lifetime
-
1994
- 1994-11-22 EP EP94308601A patent/EP0661826A2/en not_active Withdrawn
- 1994-11-28 JP JP6292810A patent/JP2904472B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
杉山ら「MPEG/Audio符号化アルゴリズム」テレビジョン学会技術報告(ICS92 67−75),pp49−54 |
Also Published As
Publication number | Publication date |
---|---|
JPH07210195A (ja) | 1995-08-11 |
US5764698A (en) | 1998-06-09 |
EP0661826A2 (en) | 1995-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2904472B2 (ja) | ディジタル・オーディオ信号を効率的に圧縮するための方法、データ処理システムおよび装置 | |
US8615391B2 (en) | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same | |
TWI515720B (zh) | 壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體 | |
US5845243A (en) | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of audio information | |
EP2479750B1 (en) | Method for hierarchically filtering an input audio signal and method for hierarchically reconstructing time samples of an input audio signal | |
KR100397690B1 (ko) | 데이터부호화장치및그방법 | |
US7333929B1 (en) | Modular scalable compressed audio data stream | |
Shlien | Guide to MPEG-1 audio standard | |
JP3153933B2 (ja) | データ符号化装置及び方法並びにデータ復号化装置及び方法 | |
JP2821713B2 (ja) | 高品質オーディオ用低ビット伝送速度変換コーダ、デコーダ、及びエンコーダ・デコーダ | |
EP1575032A2 (en) | Lossless audio coding/decoding method and apparatus | |
EP1596366A1 (en) | Digital signal encoding method and apparatus using plural lookup tables | |
JPH09134200A (ja) | ディジタル・オーディオ符号化方法及びその装置 | |
JP2003523662A (ja) | データ圧縮方法及びデータ圧縮装置 | |
JP2776300B2 (ja) | 音声信号処理回路 | |
JP3146121B2 (ja) | 符号化復号化装置 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
AU2011205144B2 (en) | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding | |
KR100241689B1 (ko) | Mpeg-2를 이용한 오디오 인코더 | |
EP0707761B1 (en) | Arrangement for determining a signal spectrum of a wideband digital signal and for deriving bit allocation information in response thereto | |
JP3134383B2 (ja) | ディジタルデータの高能率符号化方法及び装置 | |
KR100204471B1 (ko) | 디지탈 오디오 부호화기의 비트 할당 장치 | |
Teh et al. | A neural network based perceptual audio coder | |
CA2467466A1 (en) | System and method for compressing and reconstructing audio files | |
JPH08167247A (ja) | 高能率符号化方法及び装置、並びに伝送媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090326 Year of fee payment: 10 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090326 Year of fee payment: 10 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100326 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100326 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110326 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120326 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140326 Year of fee payment: 15 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |