JPH07210195A

JPH07210195A - 高品質ディジタル・オーディオの効率的な圧縮のための方法および装置

Info

Publication number: JPH07210195A
Application number: JP6292810A
Authority: JP
Inventors: Subramania Sudharsanan; スブラマニアースダルサナン; Selvarathinam Suthakaran; セルヴァラティナム・スタカラン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-12-30
Filing date: 1994-11-28
Publication date: 1995-08-11
Anticipated expiration: 2014-06-14
Also published as: EP0661826A2; US5764698A; JP2904472B2

Abstract

(57)【要約】【目的】本発明の目的は、複数のサンプルを含むディ
ジタル・オーディオ信号を効率的に圧縮するための方法
およびシステムを提供することである。【構成】サンプルのそれぞれを、複数のサブバンドに
分割する。サブバンドのそれぞれのエネルギ値と所定の
聴覚心理モデルに基づく信号対マスク比（ＳＭＲ）値の
関係のモデルを利用して、各サブバンドのＳＭＲを予測
する。予測されたＳＭＲと事前に選択されたビット・レ
ートに応じて、ある数のビットをアロケートする。その
後、サブバンドのそれぞれを、アロケートされたビット
数に基づいて量子化する。これによって、ディジタル・
オーディオ信号を効率的に圧縮できる。【効果】本発明の処理は、本発明の好ましい実施例に
従って、標準ＤＳＰ環境でＰＭ１またはＰＭ２を使用す
る処理よりも必要な命令サイクル数がはるかに少ないの
で、より高速である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、全般的には、供給源装
置から受取装置へデータを効率的に伝送するための改良
された方法および装置に関する。具体的には、本発明
は、伝送のためデータを圧縮する方法および装置に関す
る。さらに具体的に言うと、本発明は、ディジタル・オ
ーディオ・データを圧縮する方法および装置に関する。

【０００２】

【従来の技術】データ処理システム内では、システム・
データ・バスが、中央処理装置、直接アクセス記憶装
置、通信入出力プロセッサ（ＩＯＰ）、および他の周辺
装置の間でデータを伝送するのに利用される。通常、シ
ステム・データ・バスに接続された複数の装置のうちの
１つだけが、ある瞬間に送出を行うことができる。所与
の期間内にシステム・データ・バスが転送できる情報の
量またはシステム・データ・バスの容量を確立するパラ
メータの１つが、システム・データ・バスの帯域幅であ
る。データ・バスの帯域幅とは、バスに接続されたワー
クステーションまたは他の受取装置など、供給源から宛
先へデータを伝えることのできる、バイト毎秒単位で表
現される速度である。この帯域幅は、システム・データ
・バスに接続された送受装置の電気特性と、システム・
データ・バス自体の電気特性とによって制限される。

【０００３】同様に、通信リンクを使用して、分散デー
タ処理システム内で供給源プロセッサからワークステー
ションへデータを伝送することができる。このような通
信リンクも、その通信リンクを介して伝送できる情報の
量または容量を制限する有限の帯域幅を有する。

【０００４】データ・バス設計および通信リンク設計に
おいて、データ伝送能力は、このような通信チャネルに
接続された複数の機器の間で分割できる資源である。こ
のような通信チャネルに接続される装置の数が増え、そ
のような通信チャネル上の装置の間で通信されるデータ
の量が増えるにつれて、チャネル容量を節約し、チャネ
ル使用を最適化する必要がますます重要になってくる。

【０００５】最近、データ処理システムは、マルチメデ
ィア・データを含むファイルの処理、提示および伝送に
利用されている。マルチメディア・データとは、ビデ
オ、音声およびアニメーションの提示に利用できる「時
間関連」または「時間ベース」のデータ・ファイルの集
まりである。このようなマルチメディア・データ・ファ
イルは、通常は非常に大きい。たとえば、１１．８画素
／ｍｍ（３００画素／インチ）かつ２４ビット／画素の
Ａ４カラー画像には、２５ＭＢ以上のデータ記憶域が必
要である。

【０００６】ワークステーションが、４４．１ｋＨｚ
（ＣＤオーディオ品質）のサンプリング・レートでステ
レオの１６ビット・サンプルからなるマルチメディア・
プレゼンテーションのディジタル・オーディオ部分を
「再生」するためには、そのワークステーションは、毎
秒１７６ＫＢの音響データを受け取らなければならな
い。６４０×４８０画素２５６色の解像度で毎秒１５フ
レームの全画面ディジタル・ビデオでは、それを提示す
るワークステーションに毎秒３６．９メガビットを送る
必要がある。色数、画素数、毎秒フレーム数を増やす
と、データ伝送の必要条件がさらに増大する。

【０００７】システム・データ・バスまたは通信リンク
の容量を増大させる方法の１つが、圧縮フォーマットで
データを伝送することによってデータ伝送効率を高める
ことである。データ圧縮とは、データ・ファイルの長さ
を短縮するために、ギャップ、空のフィールド、冗長性
および不要なデータを除去する処理である。

【０００８】長年にわたって、ソフトウェア設計者とハ
ードウェア設計者は、データ通信チャネルと記憶装置の
効率を高めるためにさまざまなデータ圧縮方式を使用し
てきた。そのようなデータ圧縮方式の１例が、Moving P
ictures Experts Group（ＭＰＥＧ）標準規格である。
ＭＰＥＧは、国際標準化機構（ＩＳＯ）と国際電気標準
会議（ＩＥＣ）の合同技術委員会の一部である。オーデ
ィオに関するＭＰＥＧ標準規格については、ISO-IEC/JT
C1 SC29/WG11, "Coding Of Moving Pictures And Assoc
iated Audio For Digital Storage Media At Up to Abo
ut l.5 Mbits/s- Part 3: Audio", DIS, 11172、１９９
２年４月を参照されたい。

【０００９】基本的に、ＭＰＥＧは、データ圧縮の標準
を開示したものであり、オーディオやビデオなど、さま
ざまな信号に適用できる。一般に、１ページのテキス
ト、画像、音声または音楽の一部、ビデオ・シーケンス
などのデータ・オブジェクトの圧縮は、（１）「トーク
ン」の集まりにオブジェクトを分解するステップと、
（２）ある意味で最小の長さを有する２進文字列によっ
てそれらのトークンを表現するステップと、（３）明確
に定義された順序で文字列を連結するステップという一
連のステップであると考えることができる。オーディオ
・データに関しては、サブバンド・コーディング（帯域
分割符号化）を使用して、オーディオ・データを圧縮す
る。圧縮されたオーディオ・データの場合、オーディオ
・データのトークンは、サブバンドである。「サブバン
ド」とは、周波数領域内のある周波数帯域である。

【００１０】コンピュータ業界および家電業界でのビデ
オおよび関連オーディオに関するＭＰＥＧ復号方法の普
及に伴って、比較的安価な符号化システムが不可欠にな
ってきた。ＭＰＥＧなどの圧縮方式（「符号化」方式と
も称する）では、通常は、復号側もしくは受取側よりも
符号化側でより多くの計算能力を必要とする。ビデオに
関しては専用ハードウェアが開発されているが、オーデ
ィオ符号化は、主に既存のプログラム式ディジタル信号
プロセッサ（ＤＳＰ）で実施されてきた。このような実
施態様は、通常は、実時間実施のためには複数の浮動小
数点ＤＳＰを必要とする。このような実施態様は、必要
な符号化機能を実行するのに必要なハードウェアのた
め、オーディオを符号化するためのハードウェアのコス
トが増大する。

【００１１】したがって、高品質再生のためにサブバン
ド・コーディングを使用するＭＰＥＧ符号化処理または
他の符号化処理を提供すると同時に、その実施に必要な
ハードウェアの量が最小の方法および装置を有すると好
都合になるはずである。

【００１２】

【発明が解決しようとする課題】したがって、本発明の
目的は、供給源装置から受取側装置へ効率的にデータを
伝送するための改良された方法および装置を提供するこ
とである。

【００１３】本発明のもう１つの目的は、伝送のためデ
ータを圧縮する方法および装置を提供することである。

【００１４】本発明のもう１つの目的は、高品質ディジ
タル・オーディオ・データを効率的に圧縮する方法およ
び装置を提供することである。

【００１５】

【課題を解決するための手段】上記の目的は、下の説明
に従って達成される。本発明は、ビット・アロケーショ
ン（割り当て）を決定するのに使用される装置を提供す
る。このビット・アロケーションによって、サブバンド
に分割されているディジタル・オーディオ・データの適
応量子化を可能にするのに必要な入力が提供される。

【００１６】本発明の方法およびシステムを用いると、
複数のサンプルを含むディジタル・オーディオ信号を効
率的に圧縮できるようになる。サンプルのそれぞれを、
サブバンドに分割する。サブバンドのそれぞれのエネル
ギー値と所定の聴覚心理モデルに基づく信号対マスク比
（ＳＭＲ）の関係のモデルを利用して、各サブバンドの
ＳＭＲを予測する。予測されたＳＭＲに応じて、ある数
のビットをアロケート（割り当て）する。その後、サブ
バンドのそれぞれを、アロケートされたビット数に基づ
いて量子化する。これによって、ディジタル・オーディ
オ信号を効率的に圧縮できる。

【００１７】

【実施例】ディジタル・オーディオの圧縮に関してＭＰ
ＥＧによって提案された方法は、サブバンド・コーディ
ング（ＳＢＣ）に基づくものである。ＳＢＣ方式では、
まず、入力信号を、その信号の全スペクトルを構成する
さまざまな帯域幅に対応する複数の信号に分割する。次
に、事前に指定されたビット・アロケーション方式また
は動的ビット・アロケーション方式のいずれかに従っ
て、信号を量子化する。できる限り原音質を保存しよう
とする圧縮アルゴリズムでは、通常は動的ビット・アロ
ケーション方式が使用される。ＭＰＥＧオーディオ方式
では、ビット・アロケーションが、人間の耳の知覚モデ
ルに基づいている。この知覚モデルを、一般に聴覚心理
モデルと称し、このモデルでは、入力信号のスペクトル
情報内容を利用し、各サブバンドの信号対マスク比（Ｓ
ＭＲ）に対応する値のベクトルを出力する。次に、ＳＭ
Ｒ値を使用して、ビット・アロケーション・テーブルを
取得する。ＭＰＥＧでは、このようなモデルに関して、
２つの異なるモデルすなわち聴覚心理モデル１（ＰＭ
１）と聴覚心理モデル２（ＰＭ２）が推奨されている。
ＭＰＥＧおよびＰＭ１ならびにＰＭ２に関する情報に関
しては、ISO-IEC/JTC1SC29/WG11, "Coding Of Moving P
ictures And Associated Audio for DigitalStorage Me
dia At Up to About 1.5 Mbits/s - Part 3: Audio", D
IS, 11172、１９９２年４月を参照されたい。

【００１８】図１を参照すると、オーディオを符号化す
るための既知の処理の高水準流れ図が示されている。こ
の処理は、ＭＰＥＧ標準規格または他の符号化方式にに
よって実施することができる。ブロック２００で、パル
ス符号変調（ＰＣＭ）サンプルを、スペクトル分析を使
用して処理して、ブロック２０２でそのサンプルに関す
る信号対マスク比（ＳＭＲ）を計算するためのデータを
提供する。ブロック２０２からのＳＭＲ値と、ブロック
２０４からの所望のビット・レートを使用して、ブロッ
ク２０６でビット・アロケーションを決定する。ビット
・アロケーションを実行して、１サブバンド内のＰＣＭ
サンプルの記憶または伝送に使用できるビットを割り当
てる。割り当てられるビット数は、ブロック２０２で計
算されたＳＭＲ値に依存する。ＳＭＲ値を、信号の量子
化からもたらされる信号対雑音比（ＳＮＲ）と組み合わ
せて使用して、各サブバンドでの量子化に必要なビット
数を割り当てる。一般に、ＳＭＲ値が高いと、より多く
のビットが割り当てられ、ＳＭＲ値が低いと、符号化の
ために割り当てられるビット数が少なくなる。米国特許
第４８９９３８４号明細書に、可変レート・サブバンド
音声コーダでのテーブル制御式ビット・アロケーション
が教示され、米国特許第５１８５８００号明細書に、聴
覚心理的判断基準に基づく適応量子化を用いる変換され
たディジタル・オーディオ信号用のビット・アロケーシ
ョン装置が開示されている。

【００１９】ＰＣＭサンプルは、ブロック２０８に示さ
れるように、サブバンド分析を利用した処理も受ける。
サブバンド分析には、符号化用のサブバンド作成が含ま
れる。これらのサブバンドは、ユーザが選択するか、Ｍ
ＰＥＧなどの符号化規格よって指定することができる。
サブバンドは、コサイン変調フィルタを用いてＰＣＭサ
ンプルをフィルタリングして所望のサブバンドを作るこ
とによって、ＰＣＭサンプルから作成できる。各フィル
タは、ＰＣＭサンプルから１つのサブバンドを分離する
のに使用される。所望のまたは指定されたサブバンドに
応じて、複数の異なるフィルタを使用して、ＰＣＭサン
プルから所望のサブバンドを選択することができる。さ
まざまなフィルタ設計の例は、H. S. Malvar著、"Signa
l Processing With Lapped Transforms", Artech House
(1992)、Ziemer他著、"Signalsand Systems: Continuo
us and Discrete", Macmillian Publishing Co., Appen
dix D (2d ed. 1989)およびHorowitz and Hill著、"The
Art of Electronics", Cambridge University Press
(2d ed. 1989)に示されている。米国特許第４８９９３
８４号明細書に、並列フィルタ・バンクを使用したサブ
バンドの作成が教示されている。フィルタは、本発明の
好ましい実施例に従って、ハードウェアまたはソフトウ
ェアで実施することができる。

【００２０】次に、ブロック２１０で、ＰＣＭサンプル
のそれぞれから分離されたサブバンドのそれぞれについ
て、スケール・ファクタを決定し、コーディングする。
オーディオＰＣＭサンプルの「フレーム」のそれぞれに
ついて、サブバンドごとに事前に指定された個数のサブ
バンド・サンプルを取得する。レイヤＩの場合、１フレ
ームは、３８４個のＰＣＭサンプルからなり、この結
果、１サブバンドあたり３８４／３２＝１２サブバンド
・サンプルがもたらされる。レイヤＩＩでは、ＰＣＭサ
ンプルは１１５２個、サブバンド・サンプルは３６個で
ある。１２サンプルのうちの絶対最大値を、スケール・
ファクタとして採用する。スケール・ファクタに関する
無限の選択肢を防ぐため、レイヤＩおよびレイヤＩＩで
は、６４個の値だけが使用される。したがって、この絶
対最大値より大きく、これに最も近いスケール・ファク
タ値が選択され、指標によってデコーダに示される。デ
コーダは、指標によって示された値を知っているものと
仮定する。スケール・ファクタをコーディングするため
のビットが必要であり、これは、ブロック２０６でビッ
ト・アロケーションを実行する時に考慮される。

【００２１】その後、ブロック２１２で、量子化とビッ
ト・パッキングが実行される。サブバンド値のそれぞれ
は、そのサブバンドに対応するスケール・ファクタによ
って除算される。スケーリングされたサブバンド・サン
プルを量子化機構によって量子化する。量子化機構のス
テップ・サイズは、ＳＭＲ値とＳＮＲ値によって決定さ
れる。その後、ＭＰＥＧの場合にはＭＰＥＧオーディオ
・ビット・ストリームの定義に従い、他の規格を使用す
る場合にはそれに従って、量子化処理の結果のビットを
パックする。米国特許第５１８５８００号明細書に、聴
覚心理的判断基準に基づく適応量子化を用いる変換され
たディジタル・オーディオ信号用のビット・アロケーシ
ョン装置が開示されている。量子化と符号化に関する詳
細については、Ziemer他著、"Signals and Systems: Co
ntinuous and Discrete", Macmillian Publishing Co.
(2d ed. 1989)を参照されたい。

【００２２】その結果が、圧縮されたビット・ストリー
ムである。この処理は、ＭＰＥＧまたはデータ圧縮用の
他の符号化標準規格の下で実施できる。図１に示された
処理の詳細については、ISO-IEC/JTC1 SC29/WG11, "Cod
ing Of Moving Pictures AndAssociated Audio for Dig
ital Storage Media At Up to About 1.5 Mbits/s -Par
t 3: Audio", DIS, 11172、１９９２年４月を参照され
たい。

【００２３】ＭＰＥＧオーディオ規格では、３つの異な
るレイヤが使用される。レイヤＩおよびレイヤＩＩで
は、ISO-IEC/JTC1 SC29/WG11, "Coding Of Moving Pict
ures And Associated Audio for Digital Storage Medi
a At Up to About 1.5 Mbits/s- Part 3: Audio", DIS,
11172、１９９２年４月に指定されたコサイン変調フィ
ルタ・バンクを使用して３２個の等間隔のサブバンドに
信号を分割する。レイヤIIIでも、初期段階では３２個
のサブバンドを使用するが、より細かい周波数分割のサ
ブバンド・サンプルを得るため、サブバンド内でさらに
分割を実行する。レイヤＩでは、３８４個のサンプルを
１フレームにグループ化し、これらのフレームのそれぞ
れについて新しいビット・アロケーション・テーブルを
計算する。ＭＰＥＧ標準規格の聴覚心理モデルでは、５
１２点離散フーリエ変換（ＤＦＴ）を使用して、スペク
トルを計算する。ここで、許容されるサンプリング周波
数である３２ｋＨｚ、４４．１ｋＨＺおよび４８ｋＨｚ
に関して、ビット・アロケーション計算実行の必要条件
は、それぞれ１２ミリ秒、８．７ミリ秒および８ミリ秒
になる。レイヤＩＩの場合、１１５２（３×３８４）サ
ンプルを１フレームにグループ化し、スペクトル分析に
１０２４点ＤＦＴを使用する。レイヤＩＩを使用してＰ
Ｍ２を計算するための計算必要条件を求めると、２チャ
ネル（ステレオ）・オーディオの場合、６ミリ秒ごとに
２６３１４回の乗算、３７３４１回の加算、１０２４回
の比較、１１３５回の対数、１２０１回のテーブル索引
動作、８５９回の除算、７６８回の平方根および５１２
回の逆タンジェント、または、これらを毎秒約１７０回
実行することである。この詳細に関しては、ISO-IEC/JT
C1 SC29/WG11, "Comments On Audio CD And Analysis O
f Audio Complexity"、１９９１年５月を参照された
い。

【００２４】本発明の好ましい実施例は、レイヤＩＩの
ＰＭ２より７０倍、レイヤＩのＰＭ１より約６０倍計算
効率のよいビット・アロケーションの処理を提供する。
本発明は、標準的なディジタル・プロセッサ・アーキテ
クチャに十分に適している。

【００２５】本発明では、図１に示されたスペクトル分
析によるのではなく、サブバンド内のエネルギーに基づ
いてＳＭＲ値を予測する。サブバンド分析から得られた
サブバンドを利用して、ビット・アロケーションに利用
されるＳＭＲ値を予測する。具体的に言うと、サブバン
ド・エネルギーは、本発明の好ましい実施例によって利
用される。ＳＭＲ値の予測は、サブバンドによってイン
デクス付けされる予測係数の行列を使用することによっ
て達成される。予測係数は、ＰＭ１やＰＭ２などの実際
の聴覚心理モデルを利用することによって発見される。
本発明の好ましい実施例によって使用される方法論の詳
細を、次節以降で提示する。この手法を利用すると、す
べてのサブバンド・コードに対する動的ビット・アロケ
ーション方式を、本発明の好ましい実施例に従って開発
できる。

【００２６】ＳＭＲ計算の単純化されたモデリングモデルＰＭ１およびＰＭ２の詳細な説明は、ISO-IEC/JT
C1 SC29/WG11, "Coding Of Moving Pictures And Assoc
iated Audio for Digital Storage Media At Up to Abo
ut 1.5 Mbits/s - Part 3: Audio", DIS, 11172、１９
９２年４月にある。これらのモデルでは、ＳＭＲの計算
に長い処理が用いられる。たとえば、ＰＭ１では、まず
ＤＦＴを実行して、信号のパワー密度スペクトルを得
る。このパワー・スペクトルから、その信号の音声成分
と非音声成分が計算される。というのは、これらの成分
が異なるマスキング特性を有することが周知だからであ
る。これらのマスキング特性は、サブバンドの境界（ま
たはカットオフ周波数）をまたぐ可能性がある。次に、
さまざまな周波数点での大域マスキング閾値を計算す
る。各サブバンド内のこれらの値の最小値が、ＳＭＲを
表す。ＰＭ２では、ＤＦＴの値と位相の両方を使用する
さらに複雑な演算が必要であり、これは、ISO-IEC/JTC1
SC29/WG11, "Coding Of Moving Pictures And Associa
ted Audio for Digital Storage Media At Up to About
1.5 Mbits/s - Part 3: Audio", DIS, 11172、１９９
２年４月で詳細に説明されている。

【００２７】サブバンドのサンプルは、そのそれぞれの
帯域幅の中での経時情報を表す。各サブバンドが完全な
バンドパス特性をもたらすと仮定すると、A. V. Oppenh
eimand R. W. Schafer著、"Digital Processing of Sig
nals", Englewood Cliffs,NJ: Prentice Hall, 1979に
記載のパーセバルの定理を適用することによって、サブ
バンド内の各サブバンド値の二乗和が、その周波数帯域
のエネルギーを反映する。サブバンド分解を提供する分
析フィルタ・バンクは、拒絶帯で９６ｄＢ超の減衰をも
たらすプロトタイプ・フィルタを使用して設計された。
詳細については、K. Brandenberg and G. Stoll著、"Th
e ISO/MPEG-Audio codec: A genericstandard for codi
ng of high quality digital audio," Proc. of the 92
nd Convention of the Audio Engineering Society, Vi
enna、１９９２年３月を参照されたい。

【００２８】したがって、実用目的のすべてに関して、
完全なバンドパス特性の仮定が有効である。ＳＭＲの計
算手順から、各サブバンド内のエネルギー値が、最終的
にそのサブバンドと隣接サブバンド内のＳＭＲ値に寄与
することが明白であるから、各サブバンド内のエネルギ
ーとＳＭＲ値の間の関係をモデル化することは正当であ
る。モデルが既知であれば、エネルギーはサブバンド領
域で計算されるので、周波数スペクトルの計算とそれに
関連する演算を省略できる。本発明の好ましい実施例で
は、線形モデリングを使用する。

【００２９】線形モデルを見つけるという問題は、エネ
ルギー値をＳＭＲ値の行列に写像する３２×３３次元の
行列を推定するという問題に置き換えられる。最初のス
テップは、もちろん、モデル化のためのデータを得るこ
とである。データが得られたならば、そのデータにあて
はまる最適モデルを見つけることが、この処理の次のス
テップである。まず、データを収集する機構を考察す
る。次に、適当な入力データ・セットと出力データ・セ
ットを選択する。次に、線形仮説を検定して、線形モデ
ルの引数をサポートする。最後に、本発明の好ましい実
施例に従って、行列の実際の推定を行う。

【００３０】データ収集と仮説検定データ収集手順では、サンプルＳＭＲ値を得るのに良い
聴覚心理モデルを使用する必要がある。ソフトウェアを
使用して、ISO-IEC/JTC1 SC29/WG11, "CodingOf Moving
Pictures And Associated Audio for Digital Storage
Media At Upto About 1.5 Mbits/s - Part 3: Audio",
DIS, 11172、１９９２年４月に記載の２つの聴覚心理
モデルを介してＳＭＲ値を得た。実験にはＰＭ１とＰＭ
２の両方を使用した。推定問題に関するデータのセット
を得るためには、さまざまな音楽と音声の信号が必要で
ある。クラシックおよびポピュラー音楽からの多数のオ
ーディオ・サンプルと、２０秒から３０秒の間の持続時
間のいくつかの音声信号を、ＩＢＭ社のオーディオ変換
アダプタ（ＡＣＰＡ）を使用して、サンプリング・レー
ト４４．１ｋＨｚ、毎サンプル１６ビット分解能のモノ
ラル・モードで取り込んだ。

【００３１】同様の手法を採用して、３２ｋＨｚおよび
４８ｋＨｚサンプル技法でのデータも取り込んだ。サン
プルがディジタル形式で入手できる場合、オーディオ取
込ハードウェアを使用する必要はない。オーディオの数
フレームに関して確立された聴覚心理モデルから、各サ
ブバンド内の時間領域エネルギー値とそれに対応するＳ
ＭＲ値のテーブルを、シミュレーション・プログラムを
使用して作成できる。異なる音楽サンプルのすべてから
のデータを集めなければならないとすると、データ・セ
ットが大きくなりすぎる。この問題を迂回するため、サ
ンプリング技法を使用した。均一な分布特性を有する擬
似乱数ジェネレータを、サンプリング目的に使用した。
０と２¹⁵−１の間にある乱数を、ｗ_iと表すとする。そ
の場合、

【数８】Ｐ（（ｗ_iｍｏｄ１００）＞ｘ）＝（１００−ｘ）／１００

【００３２】が、整数ｘに関して成り立つ。ただし、０
≦Ｘ≦１００であり、ｍｏｄは剰余演算を表し、
Ｐ（．）は確率測度を示す。上式を使用して、各フレー
ムに関してランダムにＳＭＲと対応するエネルギー値と
を取得した。この結果、フレームの（１００−ｘ）％が
取り込まれた。

【００３３】レイヤＩおよびレイヤＩＩに対応するデー
タは、ＰＭ１およびＰＭ２を使用して取得した。エネル
ギー計算に関して、本発明の好ましい実施例によるサン
プルの二乗ではなく、サブバンド・サンプルの絶対値を
考慮した。これは、プログラム式ＤＳＰの計算必要条件
またはサイクル必要条件を最小にするためである。サブ
バンド・サンプルの絶対値を、本明細書では「擬似エネ
ルギー」値と称する。レイヤＩのモデリング中に、各フ
レームの各サブバンドで、サンプルの１２個の絶対値を
合算して、そのサブバンドのエネルギー値を得た。レイ
ヤＩＩを使用する時には、３６個の絶対値を合算して、
擬似エネルギー値を得た。

【００３４】問題の１つは、これらのエネルギー値が通
常は小さく、その結果、決定しなければならない線形パ
ラメータが大きい値になることである。これには、固定
小数点ＤＳＰを使用する実施態様に好ましくない大きな
ダイナミック・レンジの数値を扱う必要がある。このた
め、このエネルギーの自然対数を取ることによって、修
正された値を使用した。これは、ＳＭＲ値がｄＢ単位で
与えられることを考慮に入れても適切である。擬似エネ
ルギー値計算と並行して、ＰＭ１またはＰＭ２のいずれ
かを使用してＳＭＲ値を計算し、集めた。ｙ_k（ｊ）
が、サンプル・フレームｊでのサブバンドｋのＳＭＲ値
を表し、ｘ_i（ｊ）が、それに対応するサブバンドの擬
似エネルギー値を表すとする。

【００３５】β_k,i，ｋ＝１，２，…，３２およびｉ＝
１，２，…，３３は、次式に従ってＮ個のデータ・ポイ
ントを使用して推定される。

【数９】

【００３６】ただし、ｊ＝１，２，…，Ｎのすべてにつ
いてｘ₃₃（ｊ）＝１であり、ε_k（ｊ）は、フレームｊ
のサブバンドｋに関するモデリング誤差を表す。β_k,33
（ｋ＝１，２，…，３２）は、バイアス値を表し、β
_k,iは、本発明の好ましい実施例による予測係数を表
す。この例では、１「フレーム」に複数の隣接するオー
ディオ・サンプルが含まれる。目的は、所与のデータに
関して誤差が最小になるβ_k,iの推定値を得ることであ
る。推定されるパラメータの数は、３２×３３であるこ
とに留意されたい。追加の３２個のパラメータは、ｘ₃₃
（．）に対応するバイアス・ベクトルを推定するための
必要条件から与えられる。

【００３７】ここで図２を参照すると、本発明の好まし
い実施例による予測係数決定の処理が示されている。ブ
ロック３００で、ＰＭ１またはＰＭ２などの聴覚心理モ
デルを使用して、ランダムなオーディオ・サンプルに関
するＳＭＲ値を決定する。その後、ブロック３０２で、
サンプル内のサブバンドのエネルギー値を決定する。次
に、ブロック３０４で、サブバンドとデータ点のそれぞ
れについて、予測係数を決定する。予測係数は、式
（１）に示されたβ_k,iである。その後、ブロック３０
６で、サンプルがまだ存在するかどうかを判定する。サ
ンプルが残っていない場合、処理を終了する。そうでな
い場合、ブロック３００に戻って、本発明の好ましい実
施例に従って別のオーディオ・サンプルを処理する。

【００３８】線形写像式（１）が有意であるという仮説
は、ある前提の下で、すなわち、ε_k(j)が独立であり、
正規分布であるという仮定の下で簡単に検査できる。仮
説検定の詳細は、J. Neter, W. Wasserman, M.H. Kutne
r著、"Applied Linear Statistical Models", Homewoo
d, IL: Richard Irwin Inc.、１９８５年など、標準的
な統計学の教科書にある。たとえば、サブバンドｋに関
して、帰無仮説と代替仮説を、次のように定式化でき
る。

【数１０】Ｈ₀：β_k,1＝β_k,2＝…＝β_k,32＝０Ｈ₁：β_k，ｉ≠０少なくとも１つのｉについて

【００３９】Ｈ₀の棄却には、モデルの少なくとも１つ
の変数が有意に寄与することが含まれる。以下、明細書
本文では検定統計の計算には、まず、ｂ_k＝［β_k,0，β
_k,1，…，β_k,32］^Tと

【数１１】は以降ｂハット_kと記載する。の推定の計算が含まれ
る。ｙ_k＝［ｙ_k（１），ｙ_k（２），…，ｙ_k（Ｎ）］^T
であり、ＸはＮ×３３行列であって、Ｘの各行にｘ
_i（ｊ），（ｉ＝１，２，…，３３）が含まれるものと
する。同様に、ｅ_kは、誤差ベクトルを表すものとす
る。ここで、式（１）を次のように表すことができる。

【数１２】ｙ_k ＝Ｘｂ_k ＋ｅ_k また、ｂ_kの最小二乗推定は、次式によって与えられる
ことが周知である。

【数１３】ｂハット_k＝（Ｘ^TＸ）^-1Ｘ^Tｙ_k

【００４０】ただし、添え字^Tは、行列転置を表す。誤
差ｅ_kに関する正規分布仮定の下では、式（２）によっ
て与えられる推定値が、ｂ_kの最尤推定値（ＭＬＥ）で
もあることに留意されたい。

【００４１】Ｃが３２×３３の行列であって、Ｃ＝［Ｉ
ｏ］であり、このＩは３２×３２の単位行列であり、ｏ
はすべての要素が０の３２次元列ベクトルであるとす
る。すると、検定統計Ｆ₀は、次式に従って計算され
る。

【数１４】

【００４２】ただし

【数１５】すなわち、残差のベクトルである。Ｈ₀は

【数１６】であれば成り立つ。これらの値は、J. Neter, W. Wasse
rman, M.H. Kutner著、"Applied Linear Statistical M
odels", Homewood, IL: Richard Irwin Inc.、１９８５
年などの標準的な統計学の参考文献の分散比分布テーブ
ル（またはＦテーブル）にある。レイヤ１、ＰＭ１を使
用し、Ｎ＝３９０でデータを収集した場合に遭遇した検
定統計Ｆ₀の典型的な値のいくつかを、表１に示す。

【表１】

【００４３】表１の結果は、収集されたデータのすべ
て、すなわち、レイヤＩＩ、レイヤＩとＰＭ１およびＰ
Ｍ２のさまざまな組合せに関する、典型的な値である。
したがって、帰無仮説を棄却しなければならず、推定を
進めるべきであることが明白である。

【００４４】推定式（２）が、正規性仮定の下でｂ_kの最適線形不偏推定
値をもたらすことはかなりよく知られている。しかし、
アウトライアすなわち誤差がかなり大きいデータ点が存
在し、誤差の分布に関する知識がないので、異なるタイ
プの推定を使用しなければならない場合がある。サンプ
ル・フレームの誤差をプロットすることによるｂ_kの最
小二乗推定を使用した結果の典型的な例を、図３に示
す。図３を検討すると、特定の点の除去が、ｂ_kのより
よい推定に非常に貢献することが実に明白である。ロバ
スト推定と称する技法が、アウトライアが存在する場合
の最小二乗技法に対する適切な代替技法であると考えら
れている。

【００４５】多くのロバスト推定技法が、文献で提案さ
れている。２つの使用可能な技法を使用した。その方法
の１つは、C.G. Boncelet and B.W. Dickinson著、"A v
ariant of Huber robust estimation," SIAM, Journal
on Scientific and Statistical Computing, vol. 5, n
o. 3, pp. 720-734、１９８４年に記載のBoncelet and
Dickinsonによるものであり、これは、P. Huber著、"Ro
bust statistics: A review," Annals of Mathematical
Statistics, vol. 43, pp.1042-1067、１９７２年に記
載のHuberの方法の変形である。推定は、次式を最小に
することによって得られる。

【数１７】

【００４６】ただし、β_k,iに関して

【数１８】

【００４７】である。通常、λの値は事前には未知であ
り、λに固定値を使用すると、計算負荷がかなり減る。
もう１つの代替技法が、その設計に関して許容されるア
ウトライアの比率（たとえばα）を指定することであ
る。C.G. Boncelet and B.W. Dickinson著、"A variant
of Huber robust estimation," SIAM, Journal on Sci
entific and Statistical Computing, vol. 5, no. 3,
pp. 720-734、１９８４年に記載のBoncelet and Dickin
sonによって提案された方式は、アウトライアの比率を
使用する場合でも、λに固定値を使用する場合でも使用
可能である。λを固定するためには、データに関する先
験的知識が必要である。下に、適切なλ値の選択に向け
て使用することのできるＳＭＲ値の特性を示す。（１）ＳＭＲ値には、各サブバンドの絶対閾値が含まれ
る。絶対閾値とは、聴取可能である必要がある最小の音
響エネルギー・レベルに対応する値である。（２）これらの値は、高周波域（１３ｋＨｚないし２０
ｋＨｚ）でより大きく、中低周波数（２ｋＨｚないし５
ｋＨｚ）でより小さい。これは、人間の耳がこの周波数
域で最も敏感だからである。極低周波数（０Ｈｚないし
３００Ｈｚ）でも、絶対閾値は大きい（さまざまな周波
数の絶対閾値のリストに関しては、ISO-IEC/JTC1 SC29/
WG11, "Coding Of Moving Pictures And Associated Au
dio forDigital Storage Media At Up to About 1.5 Mb
its/s - Part 3: Audio", DIS,11172、１９９２年４月
を参照されたい）。（３）ＳＭＲ値（ｄＢ単位）は、各サブバンドで割り当
てられるビット数に直接関連する。１ビットを割り当て
るごとに、信号対雑音比（ＳＮＲ）は約６ｄＢ高くな
る。（４）サブバンド番号に対してプロットしたＳＭＲ値の
典型的なプロファイルを、図４に示す。この図には、Ｓ
ＭＲ値が全般的に周波数に伴って減少することが示され
ている。

【００４８】上にリストした特性を考慮すると、低周波
から低い側の高周波（２ｋＨｚないし１３ｋＨｚ）でで
きる限り正確にＳＭＲ値を予測することが重要である。
λに関して低い（３ｄＢ未満の）値、αに関して低い値
を選択することができる。耳の感度は、超低周波では高
くないので、通常はＳＭＲ値が高い。したがって、λ
は、最初の３つのサブバンド（約２ｋＨｚまで）に関し
ては約６ｄＢに保たれる。その代わりに、αを５％前後
に選択することもできる。２０番目以降のサブバンドに
ついては、ＳＭＲ値は一般に大きく、耳の感度は低い。
このため、より大きいλ値の使用が可能になる。通常
は、約１０までの値を使用した。しかし、アウトライヤ
の比率αは、超低周波域でαを指定することによってこ
の方法を実行する場合には、より高いレベルに増加させ
る必要はない。

【００４９】特定のレイヤに関して異なる条件の下で生
成されたデータの特性に感知可能な差がある、すなわ
ち、ＰＭ１とＰＭ２の使用から生ずる差があると疑う者
もいるかもしれない。経験上、特定の種類の音楽に関し
ては実際にそうなる。しかし、λの選択に関する全体的
な注意はまだあてはまる。

【００５０】P.W. Holland and R.E. Welsch著、"Robus
t regression using iteratively reweighted least sq
uares," Comm. Statisi., vol. A6, pp. 813-827、１９
７７年でHollandおよびWelschによって提案された変更
を加えたHuberの技法を使用して、推定を実行した。こ
の手順は、回帰パラメータ・ベクトルの初期推定から始
まる反復最小二乗技法に基づくものであり、この初期推
定は、通常は最低絶対残差推定によって得られる。この
方式の実施例は、International Business Machines社
から販売されている製品であるＡＧＳＳ（A Graphical
Statistical System）で使用可能である。この方法の長
所の１つが、λの自動計算である。この場合、λ＝１．
３４５σ＾であり、σ＾は、残差の推定分散である。こ
のロバスト推定手順の技術的詳細は、P.W. Holland and
R.E. Welsch著、"Robust regression using iterative
ly reweighted least squares," Comm. Statisi., vol.
A6,pp. 813-827、１９７７年に記載されている。

【００５１】上の推定からの適切なｂハット_kの選択
は、主観的な検定と本発明の好ましい実施例による客観
的な検定という２つの検定に基づくものである。音楽の
品質は、ＰＭ１またはＰＭ２のいずれかを使用して得ら
れた圧縮の後に伸長された音楽の一部と原音の両方に対
して主観的に評価される。客観的な測定のためには、Ｐ
Ｍ１またはＰＭ２のいずれかを使用する対応するＭＰＥ
Ｇ実施態様からのビット・アロケーション偏差を使用す
る。偏差は、サンプリングされたフレームに関して計算
され、フレームごとの平均偏差を、推奨された聴覚心理
モデルを使用する実施態様からのずれの量の表示として
採用する。

【００５２】ロックンロール、クラシックのバイオリ
ン、演説、ピアノ、交響楽団、カントリー・ウエスタン
および民俗音楽を含む複数の異なる種類の音楽の１６ビ
ット分解能のパルス符号変調（ＰＣＭ）サンプルを収集
した。１４００フレームの情報を、レイヤＩＩおよびレ
イヤＩのために、ＰＭ１およびＰＭ２のそれぞれを用い
て取得した。ｉ番目のフレームのｊ番目のサブバンドの
擬似エネルギー値を、そのフレーム内のサブバンド・サ
ンプル（レイヤＩＩでは３６個、レイヤＩでは１２個）
の絶対値を加算することによって計算した。その値の自
然対数を取り、これをｘ_i（ｊ）とする。２つの異なる
推定を実行した。一方では、BonceletおよびDickinson
の技法を使用し、他方では、ＡＧＳＳパッケージを使用
した。主観的評価によってＡＧＳＳ推定が選択される場
合、それが最終的にｂハット_kの正しい値として決定さ
れる。もう１つの重要な点は、特定のサブバンドでは、
単純な線形最小二乗を使用する予測がよりよい結果をも
たらし、したがって、そのバンドに関して線形最小二乗
法を使用すると決定されたことである。次節に示す係数
には、これら３つの方法から混合された回帰パラメータ
が含まれる。

【００５３】表２に、ＰＭ２と本発明の好ましい実施例
の比較を示す。

【表２】

【００５４】どちらの場合でも、サブバンド１９ないし
３２に対してはビットが割り当てられなかった。列１に
サブバンド番号を示し、列２に、レイヤＩＰＭ２を適
用した時に検定シーケンス全体に割り当てられたビット
数を示す。列３に、レイヤＩ実施態様を有する本発明の
提案する方法の場合の、対応する割り振られたビット数
を示す。最後に、ＰＭ２と比較した時のこの方法の忠実
度の測定値を、ＰＭ２と提案方式の間の割り振られたビ
ット数の平均偏差を考慮することによって、列４に示
す。実際にコーディングされたサブバンドの数を調べる
ことによって、この方式は、ＰＭ２と比較して同様に良
好に入力データの周波数内容を保存している。多くの聴
取者は、本発明の結果のビット・ストリームと対応する
原音とを比較した時に、事実上区別不能であった。

【００５５】次に、図５を参照すると、本発明の好まし
い実施例に従う、ＰＣＭサンプルを圧縮する処理の高水
準流れ図が示されている。ＰＣＭサンプルに対してサブ
バンド分析を実行して、サンプルごとに所望のサブバン
ドを作る。各サブバンドは、本発明の好ましい実施例に
従って既知のフィルタリング・システムを使用してサン
プルをフィルタリングすることによって作成できる。そ
の後、ブロック４０２で、サブバンドのそれぞれのエネ
ルギー値の間の関係のモデルを使用し、所定の聴覚心理
モデルに基づいてＳＭＲ値を使用して、サブバンドに関
してＳＭＲを予測する。

【００５６】次に、ブロック４０４で、予測されたＳＭ
Ｒを使用して、そのサンプルのためのビット・アロケー
ションを決定する。ブロック４０６に示されるように、
ビット・アロケーションでは、所望のビット・レートも
考慮される。ブロック４０８で、ＰＣＭサンプルのサブ
バンドのそれぞれについて、スケール・ファクタのコー
ディングを実行する。ブロック４１０で、ブロック４０
４からのビット・アロケーションとブロック４０８から
のスケール・ファクタを使用して、量子化とビット・パ
ッキングを実行する。本発明の好ましい実施例によれ
ば、圧縮されるＰＣＭサンプルのスペクトル分析を行う
必要がなくなる。

【００５７】ここで図６を参照すると、本発明の好まし
い実施例による、図５のブロック４０２に示されたＳＭ
Ｒ値を予測する処理の流れ図が示されている。ブロック
５００で、本発明の好ましい実施例に従って、特定のフ
レームについて、最大限まで分割されたサブバンド・サ
ンプルｓ_i,l、（ｉ＝１，２，…，３２、ｌ＝１，２，
…，Ｌ）を計算する。ただし、ｉは、サブバンド番号を
表す。Ｌは、ＭＰＥＧ標準規格の下で、レイヤＩの場合
は１２、レイヤＩＩの場合は３６である。

【００５８】次に、ブロック５０２で、次式に従って擬
似エネルギー値を計算する。

【数１９】

【００５９】その後、ブロック５０４で、次式に従って
ＳＭＲ値を予測する。

【数２０】

【００６０】ただし、４４．１ｋＨｚ入力信号の場合の
レイヤＩのβ_i,jは表３、レイヤＩＩのβ_i,jは表４に示
された値である。以下で表３および表４を開示する。

【表３】

【表４】

【表５】

【表６】

【表７】

【表８】

【００６１】

【表９】

【表１０】

【表１１】

【表１２】

【表１３】

【表１４】

【００６２】これらの表には、レイヤＩＩＩの値が示さ
れていないが、これらの値は、本発明の好ましい実施例
に従って、上で示した方法論によって決定できる。３２
ｋＨｚおよび４８ｋＨｚの信号に対応するβ_i,jを所望
する場合にも、本発明の好ましい実施例に従って、上で
示した方法論を使用して値を決定することができる。

【００６３】本発明の好ましい実施例に従って、本発明
の処理を、特定の種類の音楽に合わせて「チューニン
グ」させることができる。たとえば、クラシック音楽の
オーディオ信号を送っているユーザが、クラシックのバ
イオリンだけの符号化を望む場合、β_i,jを推定する際
にクラシック・バイオリン音源からのサンプルを集める
ことができる。この推定されたβ_i,jは、クラシック・
バイオリンにより適したものになる。さらに、ユーザ
は、異なる種類の音楽に対応する複数のβ_i,jの組を取
得し、適宜１組を選択することができる。

【００６４】本発明の好ましい実施例に従って、式
（６）の絶対値の代わりに、次式のようにサブバンド・
サンプルＳ_i,lの二乗エネルギー値を使用することがで
きる。

【数２１】

【００６５】定数Ｃは、経験的観察を使用して選択する
ことができる。Ｘを正規化された音圧レベルと等しくし
ようとすることによって、Ｃを約８２．５３ｄＢにセッ
トすることができる。式（１）の予測係数β_i,jの決定
でも、本発明の好ましい実施例に従って、擬似エネルギ
ー値が二乗エネルギー値に置換される。

【００６６】ここで図７を参照すると、データ処理シス
テム５０に、システム装置５２、ビデオ表示端末５４、
キーボード５６およびマウス５８が含まれる。データ処
理システム５０は、いずれも米国ニューヨーク州アーモ
ンク、International Business Machines Corporation
社の製品であるＩＢＭＰＳ／２やＩＢＭＲＩＳＣＳ
ＹＳＴＥＭ／６０００コンピュータなど、適当なコンピ
ュータを使用して実施できる。「ＰＳ／２」および「Ｒ
ＩＳＣＳＹＳＴＥＭ／６０００」は、International
Business Machines Corporation社の商標である。図示
の実施例はパーソナル・コンピュータであるが、本発明
の好ましい実施例は、たとえば知能ワークステーショ
ン、ミニコンピュータ、ローカル・エリア・ネットワー
ク、標準ディジタル信号プロセッサを使用するマルチメ
ディア専用装置など、他のタイプのデータ処理システム
で実施することができる。

【００６７】ここで図８を参照すると、本発明の好まし
い実施例に従う図７のデータ処理システム５０のブロッ
ク図が示されている。システム・バス１０は、データ処
理システム５０内のさまざまな構成要素間の接続を提供
する。中央処理装置（ＣＰＵ）１２は、データ処理シス
テム５０内での判断能力を提供する。ＣＰＵ１２には、
米国カリフォルニア州サンタ・クララのIntel Corporat
ion社から購入できる８０４８６プロセッサやＰｅｎｔ
ｉｕｍ（ペンティアム）プロセッサなど、１つまたは複
数のプロセッサを含めることができる。「Ｐｅｎｔｉｕ
ｍ」は、IntelCorporation社の商標である。使用可能な
他のプロセッサには、IBM社またはMotorola社から購入
可能なＰｏｗｅｒＰＣや、Digital Equipment社から
購入可能なＡｌｐｈａＡＸＰプロセッサが含まれる。

【００６８】メモリ１４は、データ処理システム５０に
記憶域を提供し、これには、読取専用メモリ（ＲＯＭ）
とランダム・アクセス・メモリ（ＲＡＭ）の両方を含め
ることができる。直接アクセス記憶装置（ＤＡＳＤ）１
６は、データ処理システム５０に追加記憶域を提供す
る。ＤＡＳＤ１６は、通常はデータ処理システム５０に
長期間記憶を提供する。ＤＡＳＤ１６には、たとえばハ
ード・ディスク駆動装置やフロッピー・ディスク駆動装
置を含めることができる。

【００６９】キーボード２０、ビデオ表示端末２２、マ
ウス２４などのさまざまな周辺装置を使用して、データ
処理システム５０と対話することができる。本発明の好
ましい実施例によれば、オーディオ変換アダプタ（ＡＣ
ＰＡ）２５を使用して、オーディオ・サンプルを得るこ
とができる。具体的に言うと、International Business
Machines Corporation社から購入可能なＩＢＭオーデ
ィオ変換アダプタを使用できる。普及しているサウンド
・ブラスタや他のサウンド・カードも使用できる。オー
ディオ・データをＣＤやＤＡＴから直接読み取れる場
合、これらの供給源も使用できる。

【００７０】通信ユニット２６は、データ処理システム
５０と、別のパーソナル・コンピュータなどの他のデー
タ処理システムやネットワークとの間のインターフェー
スを提供する。

【００７１】本発明によって処理されるディジタル・オ
ーディオ信号は、ＤＡＳＤ１６に記憶されたデータから
得るか、通信ユニット２６で受け取るか、ＡＣＰＡ２５
など、データ処理システムに接続された他のデータの供
給源から得ることができる。

【００７２】本発明の好ましい実施例は、米国ニューヨ
ーク州アーモンク、InternationalBusiness Machines C
orporation社の製品であるＩＢＭＲＩＳＣＳＹＳＴ
ＥＭ／６０００コンピュータ内で実施できる。「ＲＩＳ
ＣＳＹＳＴＥＭ／６０００」は、International Busi
ness Machines Corporation社の商標である。本発明の
処理は、図７および図８に示されたデータ処理システム
内でまたはハードウェアによって実施できる。

【００７３】したがって、本発明によって、図１に示さ
れた処理より単純な実施態様が可能になる。本発明は、
ＭＰＥＧによって指定された聴覚心理モデル以外のモデ
ルと共に使用することもできる。

【００７４】本発明に必要な単一サイクルの乗算累算
（ＭＡＣ）演算は、ほとんどのＤＳＰで簡単に実行でき
る。したがって、そのようなプロセッサでは、式（６）
のβ_iのそれぞれの計算に、３３命令サイクルだけが必
要になる。

【００７５】２つ以上のサイクル（乗算と加算）を必要
とするのではなく、この演算を、１命令サイクルで実行
できる。さらに、固定小数点ＤＳＰでは、すべての加算
の最後に累算器内の結果に対して丸めを行うことがで
き、したがって、累算のそれぞれの後の丸め誤差をなく
すことができる。

【００７６】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００７７】（１）データ処理システム内でディジタル
・オーディオ信号を効率的に圧縮するための方法であっ
て、前記ディジタル・オーディオ信号が複数のサンプル
を含むことを特徴とし、前記複数のサンプルのそれぞれ
を複数のサブバンドに分離するステップと、前記複数の
サブバンドのそれぞれのエネルギー値と所定の聴覚心理
モデルに基づく信号対マスク比値との間の関係のモデル
を使用して、前記複数のサブバンドのそれぞれの信号対
マスク比を予測するステップと、前記予測された信号対
マスク比および事前に選択されたビット・レートに応答
して、ある個数のビットを割り当てるステップと、前記
ディジタル・オーディオ信号が効率的に圧縮される形
で、前記個数の割り当てられたビットに基づいて前記複
数のサブバンドのそれぞれを量子化するステップとを含
む方法。（２）ｙ_iはサブバンドｉの信号対マスク比、ｊはサン
プルフレーム、Ｎはサンプル・フレーム数、β_i,jは予
測係数、β_i,33はバイアス係数、ｘ_jはサブバンドｊの
エネルギー値であるとして、前記信号対マスク比を予測
するステップが、

【数２２】によって前記信号対マスク比を予測するステップを含む
ことを特徴とする、上記（１）に記載の方法。（３）Ｙ_k(j)は同一のフレームｊでのサブバンドｋの信
号対マスク比、ｋはサブバンド番号、ｊはフレーム番
号、Ｎはフレーム数、ε_k(j)はフレームｊのサブバンド
ｋのモデリング誤差として、

【数２３】によって予測係数を確認するステップをさらに含む、上
記（２）に記載の方法。（４）さらに、聴覚心理モデルから信号対マスク比を獲
得するステップを含む、上記（３）に記載の方法。（５）複数のサンプルを含むディジタル・オーディオ信
号を、効率的に圧縮するためのデータ処理システムであ
って、前記ディジタル・オーディオ信号が、前記複数の
サンプルのそれぞれを複数のサブバンドに分離する分離
手段と、前記複数のサブバンドのそれぞれのエネルギー
値と所定の聴覚心理モデルに基づく信号対マスク比値と
の間の関係のモデルを使用して、前記複数のサブバンド
のそれぞれの信号対マスク比を予測する予測手段と、前
記予測された信号対マスク比および事前に選択されたビ
ット・レートに応答して、ある個数のビットを割り当て
る割当手段と、前記ディジタル・オーディオ信号が効率
的に圧縮される形で、前記個数の割り当てられたビット
に基づいて前記複数のサブバンドのそれぞれを量子化す
る量子化手段とを含む、データ処理システム。（６）サブバンドｉの信号対マスク比をｙ_i、サンプル
フレームをｊ、サンプル・フレーム数をＮ、予測係数を
β_i,j、バイアス係数をβ_i,33、サブバンドｊのエネル
ギー値をｘ_jとして、前記予測手段が、

【数２４】によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、上記（５）に記載のデータ処理システ
ム。（７）同一のフレームｊでのサブバンドｋの信号対マス
ク比をＹ_k(j)、サブバンド番号をｋ、フレーム番号を
ｊ、フレーム数をＮ、フレームｊのサブバンドｋのモデ
リング誤差をε_k(j)として、

【数２５】によって予測係数を確認する手段をさらに含む、上記
（６）に記載のデータ処理システム。（８）さらに、聴覚心理モデルから信号対マスク比を獲
得する手段を含む、上記（７）に記載のデータ処理シス
テム。（９）前記聴覚心理モデルが、ＭＰＥＧによって指定さ
れた聴覚心理モデルであることを特徴とする、上記
（８）に記載のデータ処理システム。（１０）前記聴覚心理モデルが、聴覚心理モデル２であ
ることを特徴とする、上記（９）に記載のデータ処理シ
ステム。（１１）ｘ_jが、サブバンドｊの擬似エネルギー値であ
ることを特徴とする、上記（６）に記載のデータ処理シ
ステム。（１２）ｘ_jが、サブバンドｊの二乗エネルギー値であ
ることを特徴とする、上記（６）に記載のデータ処理シ
ステム。（１３）前記モデルが、複数の予測係数であることを特
徴とする、上記（５）に記載のデータ処理システム。（１４）前記データ処理システムが、ＩＢＭＲＩＳＣ
ＳＹＳＴＥＭ／６０００コンピュータであることを特
徴とする、上記（６）に記載のデータ処理システム。（１５）複数のサンプルを含むディジタル・オーディオ
信号を、効率的に圧縮するためのコンピュータ・システ
ムであって、前記複数のサンプルのそれぞれを複数のサ
ブバンドに分離するための第１命令手段と、前記複数の
サブバンドのそれぞれのエネルギー値と所定の聴覚心理
モデルに基づく信号対マスク比値との間の関係のモデル
を使用して、前記複数のサブバンドのそれぞれの信号対
マスク比を予測するための第２命令手段と、前記予測さ
れた信号対マスク比および事前に選択されたビット・レ
ートに応答して、ある個数のビットを割り当てるための
第３命令手段と、前記ディジタル・オーディオ信号が効
率的に圧縮される形で、前記個数の割り当てられたビッ
トに基づいて前記複数のサブバンドのそれぞれを量子化
するための第４命令手段とを含む、コンピュータ・シス
テム。（１６）複数のサンプルを含むディジタル・オーディオ
信号を、効率的に圧縮するための装置であって、前記複
数のサンプルのそれぞれを複数のサブバンドに分離する
分離手段と、前記複数のサブバンドのそれぞれのエネル
ギー値と所定の聴覚心理モデルに基づく信号対マスク比
値との間の関係のモデルを使用して、前記複数のサブバ
ンドのそれぞれの信号対マスク比を予測する予測手段
と、前記予測された信号対マスク比および事前に選択さ
れたビット・レートに応答して、ある個数のビットを割
り当てる割当手段と、前記ディジタル・オーディオ信号
が効率的に圧縮される形で、前記個数の割り当てられた
ビットに基づいて前記複数のサブバンドのそれぞれを量
子化する量子化手段とを含む装置。（１７）サブバンドｉの信号対マスク比をｙ_i、サンプ
ルフレームをｊ、サンプル・フレーム数をＮ、予測係数
をβ_i,j、バイアス係数をβ_i,33、サブバンドｊのエネ
ルギー値をｘ_jとして、前記予測手段が、

【数２６】によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、上記（１６）に記載の装置。（１８）プロセッサと、複数のサンプルを含むディジタ
ル・オーディオ信号を供給するディジタル・オーディオ
供給源と、前記複数のサンプルのそれぞれを複数のサブ
バンドに分離する分離手段と、前記複数のサブバンドの
それぞれのエネルギー値と所定の聴覚心理モデルに基づ
く信号対マスク比値との間の関係のモデルを使用して、
前記複数のサブバンドのそれぞれの信号対マスク比を予
測するためのプロセッサ手段と、前記予測された信号対
マスク比および事前に選択されたビット・レートに応答
して、ある個数のビットを割り当てるためのプロセッサ
手段と、前記ディジタル・オーディオ信号が効率的に圧
縮される形で、前記個数の割り当てられたビットに基づ
いて前記複数のサブバンドのそれぞれを量子化するため
のプロセッサ手段とを含む、データ処理システム。（１９）前記分離手段が、前記複数のサンプルのそれぞ
れを複数のサブバンドに分割するための命令手段を含む
プロセッサであることを特徴とする、上記（１８）に記
載のデータ処理システム。（２０）サブバンドｉの信号対マスク比をｙ_i、サンプ
ルフレームをｊ、サンプル・フレーム数をＮ、予測係数
をβ_i,j、バイアス係数をβ_i,33、サブバンドｊのエネ
ルギー値をｘ_jとして、前記予測するためのプロセッサ
手段が、

【数２７】によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、上記（１８）に記載のデータ処理システ
ム。（２１）同一のフレームｊでのサブバンドｋの信号対マ
スク比をＹ_k(j)、サブバンド番号をｋ、フレーム番号を
ｊ、フレーム数をＮ、フレームｊのサブバンドｋのモデ
リング誤差をε_k(j)として、

【数２８】によって予測係数を確認する手段をさらに含む、上記
（２０）に記載のデータ処理システム。

【００７８】

【発明の効果】本発明の処理は、本発明の好ましい実施
例に従って、標準ＤＳＰ環境でＰＭ１またはＰＭ２を使
用する処理よりも必要な命令サイクル数がはるかに少な
いので、より高速である。本発明によってもたらされる
性能の利得は、より効率的なデータ符号化処理をもたら
す。また、本発明の好ましい実施例は、単一のＤＳＰを
用いて実施できる。

【００７９】図示の実施例は、オーディオ圧縮方式を対
象としているが、本発明は、ビデオなど、他のデータ信
号のサブバンド・コーディングをもたらすのに使用でき
る。ビデオの場合、視覚心理重み付けを用いるサブバン
ド・コーディングを、本発明の好ましい実施例に従って
実施できる。

【図面の簡単な説明】

【図１】既知の符号化処理の高水準流れ図である。

【図２】本発明の好ましい実施例による予測係数を決定
する処理の高水準流れ図である。

【図３】最小二乗推定を使用した時の典型的な誤差プロ
ファイルのグラフである。

【図４】多数のサブバンドにまたがって分布する信号対
マスク比のグラフである。

【図５】本発明の好ましい実施例によるオーディオ符号
化処理の高水準流れ図である。

【図６】本発明の好ましい実施例に従ってＳＭＲを予測
する処理の流れ図である。

【図７】本発明の好ましい実施例を実施することのでき
るデータ処理システムを示す図である。

【図８】本発明の好ましい実施例による、図７に示され
たデータ処理システムのブロック図である。

【符号の説明】

１０システム・バス１２中央処理装置（ＣＰＵ）１４メモリ１６直接アクセス記憶装置（ＤＡＳＤ）２０キーボード２２ビデオ表示端末２４マウス２５オーディオ変換アダプタ（ＡＣＰＡ）２６通信ユニット５０データ処理システム５２システム装置５４ビデオ表示端末５６キーボード５８マウス

フロントページの続き (72)発明者セルヴァラティナム・スタカランアメリカ合衆国33442 フロリダ州ティアフィールド・ビーチフォース・ストリートサウスウエスト3031

Claims

【特許請求の範囲】

【請求項１】データ処理システム内でディジタル・オー
ディオ信号を効率的に圧縮するための方法であって、前
記ディジタル・オーディオ信号が複数のサンプルを含む
ことを特徴とし、前記複数のサンプルのそれぞれを複数のサブバンドに分
離するステップと、前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測するステップと、前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てるステップと、前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化するステップとを
含む方法。
【請求項２】ｙ_iはサブバンドｉの信号対マスク比、ｊ
はサンプルフレーム、Ｎはサンプル・フレーム数、β
_i,jは予測係数、β_i,33はバイアス係数、ｘ_jはサブバン
ドｊのエネルギー値であるとして、前記信号対マスク比
を予測するステップが、【数１】によって前記信号対マスク比を予測するステップを含む
ことを特徴とする、請求項１に記載の方法。
【請求項３】Ｙ_k(j)は同一のフレームｊでのサブバンド
ｋの信号対マスク比、ｋはサブバンド番号、ｊはフレー
ム番号、Ｎはフレーム数、ε_k(j)はフレームｊのサブバ
ンドｋのモデリング誤差として、【数２】によって予測係数を確認するステップをさらに含む、請
求項２に記載の方法。
【請求項４】さらに、聴覚心理モデルから信号対マスク
比を獲得するステップを含む、請求項３に記載の方法。
【請求項５】複数のサンプルを含むディジタル・オーデ
ィオ信号を、効率的に圧縮するためのデータ処理システ
ムであって、前記ディジタル・オーディオ信号が、前記複数のサンプルのそれぞれを複数のサブバンドに分
離する分離手段と、前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測する予測手段と、前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てる割当手段と、前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化する量子化手段と
を含む、データ処理システム。
【請求項６】サブバンドｉの信号対マスク比をｙ_i、サ
ンプルフレームをｊ、サンプル・フレーム数をＮ、予測
係数をβ_i,j、バイアス係数をβ_i,33、サブバンドｊの
エネルギー値をｘ_jとして、前記予測手段が、【数３】によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、請求項５に記載のデータ処理システム。
【請求項７】同一のフレームｊでのサブバンドｋの信号
対マスク比をＹ_k(j)、サブバンド番号をｋ、フレーム番
号をｊ、フレーム数をＮ、フレームｊのサブバンドｋの
モデリング誤差をε_k(j)として、【数４】によって予測係数を確認する手段をさらに含む、請求項
６に記載のデータ処理システム。
【請求項８】さらに、聴覚心理モデルから信号対マスク
比を獲得する手段を含む、請求項７に記載のデータ処理
システム。
【請求項９】前記聴覚心理モデルが、ＭＰＥＧによって
指定された聴覚心理モデルであることを特徴とする、請
求項８に記載のデータ処理システム。
【請求項１０】前記聴覚心理モデルが、聴覚心理モデル
２であることを特徴とする、請求項９に記載のデータ処
理システム。
【請求項１１】ｘ_jが、サブバンドｊの擬似エネルギー
値であることを特徴とする、請求項６に記載のデータ処
理システム。
【請求項１２】ｘ_jが、サブバンドｊの二乗エネルギー
値であることを特徴とする、請求項６に記載のデータ処
理システム。
【請求項１３】前記モデルが、複数の予測係数であるこ
とを特徴とする、請求項５に記載のデータ処理システ
ム。
【請求項１４】前記データ処理システムが、ＩＢＭＲ
ＩＳＣＳＹＳＴＥＭ／６０００コンピュータであるこ
とを特徴とする、請求項６に記載のデータ処理システ
ム。
【請求項１５】複数のサンプルを含むディジタル・オー
ディオ信号を、効率的に圧縮するためのコンピュータ・
システムであって、前記複数のサンプルのそれぞれを複数のサブバンドに分
離するための第１命令手段と、前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測するための第２命令手段と、前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てるための第３命令手段と、前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化するための第４命
令手段とを含む、コンピュータ・システム。
【請求項１６】複数のサンプルを含むディジタル・オー
ディオ信号を、効率的に圧縮するための装置であって、前記複数のサンプルのそれぞれを複数のサブバンドに分
離する分離手段と、前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測する予測手段と、前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てる割当手段と、前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化する量子化手段と
を含む装置。
【請求項１７】サブバンドｉの信号対マスク比をｙ_i、
サンプルフレームをｊ、サンプル・フレーム数をＮ、予
測係数をβ_i,j、バイアス係数をβ_i,33、サブバンドｊ
のエネルギー値をｘ_jとして、前記予測手段が、【数５】によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、請求項１６に記載の装置。
【請求項１８】プロセッサと、複数のサンプルを含むディジタル・オーディオ信号を供
給するディジタル・オーディオ供給源と、前記複数のサンプルのそれぞれを複数のサブバンドに分
離する分離手段と、前記複数のサブバンドのそれぞれのエネルギー値と所定
の聴覚心理モデルに基づく信号対マスク比値との間の関
係のモデルを使用して、前記複数のサブバンドのそれぞ
れの信号対マスク比を予測するためのプロセッサ手段
と、前記予測された信号対マスク比および事前に選択された
ビット・レートに応答して、ある個数のビットを割り当
てるためのプロセッサ手段と、前記ディジタル・オーディオ信号が効率的に圧縮される
形で、前記個数の割り当てられたビットに基づいて前記
複数のサブバンドのそれぞれを量子化するためのプロセ
ッサ手段とを含む、データ処理システム。
【請求項１９】前記分離手段が、前記複数のサンプルの
それぞれを複数のサブバンドに分割するための命令手段
を含むプロセッサであることを特徴とする、請求項１８
に記載のデータ処理システム。
【請求項２０】サブバンドｉの信号対マスク比をｙ_i、
サンプルフレームをｊ、サンプル・フレーム数をＮ、予
測係数をβ_i,j、バイアス係数をβ_i,33、サブバンドｊ
のエネルギー値をｘ_jとして、前記予測するためのプロ
セッサ手段が、【数６】によって前記信号対マスク比を予測する手段を含むこと
を特徴とする、請求項１８に記載のデータ処理システ
ム。
【請求項２１】同一のフレームｊでのサブバンドｋの信
号対マスク比をＹ_k(j)、サブバンド番号をｋ、フレーム
番号をｊ、フレーム数をＮ、フレームｊのサブバンドｋ
のモデリング誤差をε_k(j)として、【数７】によって予測係数を確認する手段をさらに含む、請求項
２０に記載のデータ処理システム。