JP2002149197A

JP2002149197A - デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置

Info

Publication number: JP2002149197A
Application number: JP2001271142A
Authority: JP
Inventors: William J Casey Iii; ジェー．ケイシーザサードウィリアム; Nicholas G Karter; ジー．カーターニコラス; Deepen Sinha; シンハディープン
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2000-09-07
Filing date: 2001-09-07
Publication date: 2002-05-24
Anticipated expiration: 2021-09-07
Also published as: JP4944317B2; US6813600B1; DE60101984D1; EP1187101A3; EP1187101A2; EP1187101B1; DE60101984T2

Abstract

(57)【要約】【課題】符号化する特定タイプのオーディオ材料のオ
ーディオトラックまたは他の部分を分析して、特定タイ
プのオーディオ材料の最適な符号化に適した少なくとも
１つの符号化関連パラメータの値を決定する。【解決手段】特定タイプのオーディオ材料の所与の部
分を通信システムのパーセプチュアルオーディオコーダ
において伝送のために符号化する場合、符号化関連パラ
メータの値を識別してから、これを所与の部分の符号化
と併せて利用する。符号化関連パラメータの決定された
値は、パーセプチュアルオーディオコーダにおける特定
タイプのオーディオ材料の所与の部分の符号化に利用し
た音響心理学的モデルの少なくとも一部でありうる。別
の例として、符号化関連パラメータの値は、パーセプチ
ュアルオーディオコーダにおいて所与の部分を符号化す
る前に、特定タイプのオーディオ材料の所与の部分の処
理に利用されるオーディオプロセッサの設定でありう
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概してオーディオ
圧縮技術に関し、特に、音響心理学的モデルまたは他の
タイプのパーセプチュアルモデルを利用するオーディオ
圧縮技術に関する。

【０００２】

【従来の技術】多くのデジタル通信システム、例えば地
上波のＡＭまたはＦＭ、ＩＢＯＣＤＡＢ（In-Band On
-Channel，Digital Audio Broadcasting）システム、衛
星放送システム、およびインターネットオーディオスト
リーミングシステム等で用いるために、パーセプチュア
ルオーディオ符号化技術が提案されている。本明細書に
参照することにより援用するJ. D. Johnston、S. Dorwa
rd、およびS. R. Quackenbushによる「The Perceptual
Audio Coder」（Digital Audio, Section 42, pp. 42
1 to 42 18, CRC Press, 1998）に記載されているパー
セプチュアルオーディオコーダ（ＰＡＣ）等のパーセプ
チュアルオーディオ符号化装置は、ノイズ割り当て戦略
を用いてオーディオ符号化を行うことによって、各オー
ディオフレームごとに、音響心理学的モデルに基づいて
ビット要件を計算する。ＰＡＣおよび同様の圧縮技術を
組み込んだ他のオーディオ符号化装置は本来、パケット
志向である。すなわち、固定の時間間隔（フレーム）に
ついてのオーディオ情報が、可変ビット長のパケットで
表される。各パケットは、オーディオフレームの量子化
されたスペクトル／サブバンドの記述が後続する特定の
制御情報を含む。ステレオ信号の場合、パケットは、２
つ以上のオーディオチャネルのスペクトルの記述を、セ
ンターチャネルおよびサイドチャネル（例えば、左チャ
ネルおよび右チャネル）として別個に、すなわち差別化
して含むことができる。

【０００３】上記参照に記載されるＰＡＣ符号化は、知
覚的に導出される適応フィルタバンクまたは変換符号化
アルゴリズムとして見ることができる。これは、高レベ
ルの信号圧縮をなすために、高度な信号処理および音響
心理学的モデリング技術を組み込んでいる。より具体的
には、ＰＡＣ符号化は、変形離散コサイン変換（ＭＤＣ
Ｔ）とウェーブレット変換とを切り替える信号適応切り
替えフィルタバンクを用いて、オーディオ信号のコンパ
クトな記述を得る。フィルタバンクの出力は、不均一ベ
クトル量子化器を用いて量子化される。量子化する目的
のため、フィルタバンクの出力は、量子化器パラメー
タ、例えば量子化ステップサイズを各コーダバンドごと
に別個に選択することができるように、いわゆる「コー
ダバンド」にグループ化される。これらのステップサイ
ズは、音響心理学的モデルに従って生成される。量子化
係数は、適応ハフマン符号化技術を用いてさらに圧縮さ
れる。ＰＡＣは、例えば、総計１５の異なるコードブッ
クを採用し、各コードバンドごとに、最良のコードブッ
クを別個に選択することができる。ステレオおよび多重
チャネルオーディオ材料の場合、和／差または他の形態
の多重チャネル組み合わせを符号化しうる。

【０００４】ＰＡＣ符号化は、ブロックサンプリングア
ルゴリズムを用いて、圧縮されたオーディオ情報をパケ
ット化したビットストリームにフォーマット化する。４
４．１ｋＨｚのサンプリングレートにおいて、各パケッ
トは、チャネルの数に関係なく、各チャネルから１０２
４入力サンプルに対応する。１つの１０２４サンプルブ
ロックのハフマン符号化したフィルタバンク出力、コー
ドブック選択、量子化器、およびチャネル結合情報が、
単一パケットに編成される。各１０２４入力オーディオ
サンプルに対応するパケットのサイズは可変であるが、
長期一定平均パケット長は、後述するように維持するこ
とができる。

【０００５】用途に応じて、様々な追加情報を最初のフ
レームに、またはあらゆるフレームに付加しうる。ＤＡ
Ｂ用途等信頼性のない伝送チャネルの場合、ヘッダが各
フレームに付加される。このヘッダは、誤り回復に極め
て重要なＰＡＣパケット同期情報を含み、また、サンプ
ルレート、伝送ビットレート、オーディオ符号化モード
等の他の有用な情報も含みうる。極めて重要な制御情報
は、２つの連続したパケットで繰り返されることで、さ
らに保護される。

【０００６】上記説明から、ＰＡＣビットの需要は、主
に、音響心理学的モデルに従って決定される量子化器の
ステップサイズに依存することが明白である。しかし、
ハフマン符号化の使用により、予め、すなわち量子化お
よびハフマン符号化ステップに先だって、ビット要求を
正確に予測することは通常不可能であり、ビット要求は
フレームごとに変化する。従って、従来のＰＡＣエンコ
ーダは、バッファリング機構およびレートループを利用
して、長期ビットレート制約に合わせる。バッファリン
グ機構におけるバッファのサイズは、許容されるシステ
ム遅延により決定される。

【０００７】従来のＰＡＣビット割り当てでは、エンコ
ーダが、特定のオーディオフレームに特定の数のビット
を割り当てる要求をバッファ制御機構に発する。バッフ
ァおよび平均ビットレートの状態に応じて、バッファ制
御機構が、実際に現在のフレームに割り当てることので
きるビットの最大数を戻す。このビット割り当ては、初
期のビット割り当て要求よりもかなり低い可能性がある
ことに留意されたい。これは、現在のフレームを知覚的
にトランスペアレントな符号化、すなわち初期音響心理
学的モデルのステップサイズによって示唆されるような
正確なレベルで符号化することが不可能な場合もあるこ
とを示す。ステップサイズを変更したビット要求が、実
際のビット割り当て未満であり、かつこの割り当てに近
いように、ステップサイズを調整することがレートルー
プの機能である。

【０００８】ＰＡＣ符号化により提供される上記利点に
もかかわらず、ＤＡＢシステムおよび他のデジタルオー
ディオ圧縮用途において強化されたパフォーマンス性能
を提供するように、デジタルオーディオ圧縮に関する技
術をさらに改良する必要性がある。これらのすべての用
途では、一般的に、与えられた帯域幅制約で、最良のオ
ーディオ再生品質を伝達するように努力がなされる。Ｐ
ＡＣ等の従来のオーディオ符号化技術は、広範なオーデ
ィオ信号のオーディオ品質を最大化しようとする。非リ
アルタイム用途の場合、再生品質を最大化するように、
各オーディオトラックごとに別個にエンコーダを調整す
ることが可能である。このような調整により、再生品質
を著しく高めることができる。しかし、デジタル放送お
よび他のリアルタイム用途では、一般的に、エンコーダ
を「オンザフライ」で変更することは不可能である。そ
の結果、豊富で多様なオーディオ材料が利用可能な場
合、単一の音響心理学的モデルを利用可能な異なるタイ
プのオーディオ材料すべてに用いると、再生品質がいく
らか妥協される。より具体的には、ロック、ジャズ、ク
ラシック、音声等、異なるタイプのオーディオ材料はか
なり異なる特徴を有しうるため、単一の音響心理学的モ
デルをすべてのタイプのオーディオ材料に適用する典型
的な従来型の方法では、必然的に、１つまたは複数の特
定タイプのオーディオ材料について最適な符号化性能未
満になる。

【０００９】従来のＰＡＣ符号化に伴う別の問題は、通
常ＤＡＢシステムまたは他のタイプのシステムにおける
ＰＡＣオーディオエンコーダの前にあるオーディオプロ
セッサに関連するものである。オーディオプロセッサ
は、ダイナミックレンジ、ステレオ分離、または符号化
するオーディオ信号の帯域幅を低減しようとするなどの
処理機能を行う。ＰＡＣエンコーダ自体のように、オー
ディオプロセッサの設定または他のパラメータは、通
常、リアルタイム用途における特定タイプのオーディオ
材料には最適化されない。

【００１０】

【発明が解決しようとする課題】したがって、オーディ
オ材料を事前に分類して、適切な音響心理学的モデル、
オーディオプロセッサ設定、またはこのような材料のパ
ーセプチュアルオーディオ符号化において用いる他の符
号化関連パラメータの決定を容易にする技術が必要であ
る。

【００１１】

【課題を解決するための手段】本発明は、デジタルオー
ディオ圧縮用途においてオーディオ材料を事前に分類す
る方法および装置を提供する。有利なことに、本発明
は、適切な音響心理学的モデル、オーディオプロセッサ
設定、または他の符号化関連パラメータを特定タイプの
オーディオ材料に確実に用いることで、オーディオ圧縮
プロセスに関連する再生品質を改善する。

【００１２】本発明の一態様によれば、符号化する特定
タイプのオーディオ材料のオーディオトラックまたは他
の部分を分析して、所望レベルのオーディオ再生品質、
例えば、特定タイプのオーディオ材料の最適な符号化に
適した少なくとも１つの符号化関連パラメータの値を決
定する。特定タイプのオーディオ材料の所与の部分を通
信システムのパーセプチュアルオーディオコーダにおい
て伝送のために符号化する場合、符号化関連パラメータ
の値を識別してから、これを所与の部分の符号化と併せ
て利用する。特定タイプのオーディオ材料の所与の部分
を分析して、該所与の部分をパーセプチュアルオーディ
オコーダで符号化する前に、符号化関連パラメータの値
を決定してもよい。別の例として、パーセプチュアルオ
ーディオコーダで所与の部分を符号化している間に、少
なくとも部分的に、特定タイプのオーディオ材料の所与
の部分を分析して、符号化関連パラメータの値を決定し
てもよい。別の例として、特定タイプのオーディオ材料
の所与の部分を分析して、パーセプチュアルオーディオ
コーダにおいて所与の部分を符号化している間に、少な
くとも部分的に、符号化関連パラメータの値を決定して
もよい。

【００１３】例示的な実施形態における符号化関連パラ
メータは、少なくとも部分的に、トーンマスキングノイ
ズ比、ノイズマスキングトーン比、および周波数拡散関
数のうちの１つまたは複数の組み合わせとして特定され
る音響心理学的モデルを含む。この場合における符号化
関連パラメータの値は、少なくとも部分的に、平均スペ
クトル平坦度測度、平均エネルギエントロピ測度、およ
び符号化臨界測度のうちの少なくとも１つの決定を含む
分析に基づいて、決定することができる。

【００１４】本発明のさらなる態様によれば、符号化関
連パラメータの値は、特定タイプのオーディオ材料の所
与の部分を、該所与の部分をパーセプチュアルオーディ
オコーダで符号化する前に、処理するために利用するオ
ーディオプロセッサの設定を含みうる。この場合、符号
化関連パラメータの値は、特定タイプのオーディオ材料
の所与の部分を少なくとも部分的に分析することで生成
される未復号化測度に基づいて決定することができる。
ここでも、この分析は、オーディオ材料の符号化前に、
または符号化中に行うことができる。

【００１５】本発明は、例えば、ＡＭまたはＦＭインバ
ンドオンチャネル（ＩＢＯＣ）デジタルオーディオ放送
（ＤＡＢ）システム、衛星放送システム、インターネッ
トおオーディオストリーミング、オーディオおよびデー
タの同時伝送システム等を含む広範なデジタルオーディ
オ圧縮用途において利用可能である。

【００１６】

【発明の実施の形態】図１は、本発明によるオーディオ
材料事前分類機能を有する通信システム１００を示す。
システム１００は、記憶装置１０２、オーディオプロセ
ッサ１０４、ＰＡＣオーディオエンコーダ１０６、およ
び送信器１０８を含む。動作に当たり、システム１００
は、オーディオ信号を記憶装置１０２から検索し、該オ
ーディオ信号をオーディオプロセッサ１０４で処理し、
パーセプチュアルオーディオ符号化プロセスを用いて、
処理したオーディオ信号をＰＡＣオーディオエンコーダ
１０６で符号化する。送信器１０８は、符号化したオー
ディオ信号をチャネル１１０を介してシステム１００の
受信器１１２に送信する。受信器１１２の出力は、ＰＡ
Ｃオーディオデコーダ１１４に適用され、該ＰＡＣオー
ディオデコーダ１１４が元のオーディオ信号を再構築
し、これをスピーカまたはスピーカセットでありうるオ
ーディオ出力装置１１６に送る。

【００１７】本発明の一態様によれば、ＰＡＣオーディ
オエンコーダ１０６は、検索されたオーディオ信号を分
析して、パーセプチュアルオーディオ符号化プロセスで
の使用に適した音響心理学的モデルを決定するように構
成される。

【００１８】図２は、ＰＡＣオーディオエンコーダ１０
６の例示的な一実施形態をさらに詳細に示す。検索され
たオーディオ信号は、オーディオプロセッサ１０４で処
理された後、入力信号として、ＭＤＣＴとウェーブレッ
ト変換とを切り替える信号適応フィルタバンク２００に
適用される。フィルタバンクの出力は、いわゆる「コー
ダバンド」にグループ化されてから、各コードバンドご
とに別個に量子化ステップサイズを選択して、不均一ベ
クトル量子化器を用いて量子化要素２０２で量子化され
る。ステップサイズは、フィッティング要素２０６と併
せて動作するパーセプチュアルモデル２０４によって生
成される。量子化要素２０２によって生成される量子化
された係数は、この例では適応ハフマン符号化方式を実
施するノイズレス符号化要素２０８を用いてさらに圧縮
される。ＰＡＣ符号化の従来の態様に関するさらなる詳
細は、上記参照したD. Shinha、J. D. Johnston、S. Do
rward、およびS. R. Quackenbushによる「The Perceptu
al Audio Coder」（Digital Audio, Section 42, pp. 4
2 1 to 42 18, CRC Press, 1998）において見出すこ
とができる。

【００１９】図２に示すＰＡＣオーディオエンコーダ１
０６は、メモリ２２２と併せて動作するモデルセレクタ
２２０をさらに含む。モデルセレクタ２２０は、その特
定のオーディオ信号の符号化での使用に最適な音響心理
学的モデルを決定するために、入力オーディオ信号を受
信して処理する。モデルセレクタ２２０は、多くの異な
る音響心理学的モデルに関する情報をメモリ２２２に格
納することができるため、モデルセレクタ２２０が、モ
デルのうちから、特定の入力信号と共に用いる１つのモ
デルを選択し、対応する情報をメモリ２２２から検索
し、符号化プロセスに用いるために、パーセプチュアル
モデル要素２０４に送ることができる。

【００２０】したがって、本発明は、最も適切な音響心
理学的モデルを符号化中の特定のオーディオ信号に割り
当てることで、ＰＡＣオーディオエンコーダ１０６の性
能を動的に最適化する。上述したように、ロック、ジャ
ズ、クラシック、音声等、異なるタイプのオーディオ材
料にはそれぞれ、最適な符号化をなすために、異なる音
響心理学的モデルが必要な場合がある。したがって、単
一の音響心理学的モデルをすべてのタイプのオーディオ
材料に適用する従来の方法は、各タイプのオーディオ材
料について最適な符号化性能未満であることは避けられ
ない。本発明は、符号化する特定のオーディオ材料の特
徴に基づいて、特定の音響心理学的モデルを動的に選択
するようＰＡＣオーディオエンコーダ１０６を構成する
ことで、この不具合を克服する。

【００２１】図３は、図１のシステム１００において実
施しうるオーディオ材料事前分類プロセスの一例を示す
流れ図である。この例の場合、オーディオ材料は、コン
パクトディスク（ＣＤ）または他の記憶媒体上のオーデ
ィオトラック等、フルレングスのオーディオトラックを
含むものと前提するが、記載する技術は、他のタイプま
たはオーディオ材料の構成により広く適用可能なことを
理解されたい。例えば、本発明は、オーディオトラック
の一部、または複数のオーディオトラックのセットに適
用することが可能である。

【００２２】図３に示す処理は、本発明によるバッチモ
ード処理技術の一例である。ステップ３００において、
記憶装置１０２に格納すべきオーディオトラックを分析
して、ＰＡＣオーディオエンコーダ１０６で実施される
オーディオ符号化プロセスでの使用に最適な音響心理学
的モデル（ＰＭ）を決定する。最適なＰＭを所与のオー
ディオトラックについて決定する様式については、さら
に詳細に後述する。

【００２３】本明細書で用いる「最適」という語は、特
定の再生品質測度についての最大絶対値等、特定レベル
のパフォーマンスを要求するものと解釈すべきではな
く、所与の用途についての任意所望のレベルのパフォー
マンスを含むようにより広く解釈すべきであることに留
意されたい。

【００２４】ステップ３０２において、決定されたＰＭ
の識別子はオーディオトラックに関連付けられる。例え
ば、記憶装置１０２に格納されるオーディオトラックの
特定フィールドを、そのトラックの関連するＰＭを含む
ように設計することができる。オーディオトラックが続
けて伝送のために符号化される場合、ステップ３０４に
示すように、トラックに関連付けられたＰＭ識別子が、
モデルセレクタ２２０によって決定され、これを用い
て、適切なＰＭ情報をＰＭ要素２０４を提供する。ＰＭ
識別子は、既存の１つまたは複数の他のシステム要素の
相互接続、例えば既存の従来のＡＥＳ３相互接続等を通
して、ＰＡＣオーディオエンコーダ１０６に送ることが
できる。次に、ステップ３０６において、ＰＡＣオーデ
ィオエンコーダ１０６において、そのトラックに関連付
けられたＰＭを用いてオーディオトラックを符号化し、
ステップ３０８において、システム送信器１０８が符号
化されたオーディオトラックを送信する。

【００２５】図３のステップ３００におけるオーディオ
トラックの分析は、システム１００において、１つまた
は複数のオーディオアナライザソフトウェアプログラム
のセット、スタンドアロンハードウェアデバイス、また
はソフトウェアとハードウェアの組み合わせとして実施
されるオーディオアナライザを用いて行うことができ
る。このようなプログラムは、高速フーリエ変換（ＦＦ
Ｔｓ）または他の信号分析技術を用いて、特定のオーデ
ィオトラックに最良のＰＭを決定することができる。こ
れについては、さらに詳細に後述する。プログラムは、
自動的に適切なＰＭを選択するように構成可能である
か、または適切なＰＭを選択するために、ユーザとの対
話を提供することができる。例えば、本発明との併用に
適したオーディオアナライザは、ユーザが、強調したい
特定の楽器、サウンド、または他のパラメータを識別
し、識別されたパラメータに最適な符号化を提供するＰ
Ｍを選択できるように構成可能である。このようなオー
ディオアナライザは、ＰＡＣオーディオエンコーダ１０
６のモデルセレクタ２２０およびメモリ２２２を用いて
実施しうる。他の実施形態において、オーディオアナラ
イザは、別体のシステム要素または要素セットで実施し
てもよい。

【００２６】図４は、本発明によるオーディオ材料事前
分類プロセスの別の例の流れ図である。この例は、図３
に関連して上述したバッチモード技術を用いるのではな
く、トラックが伝送のために符号化中であるときに、所
与のオーディオトラックに対してリアルタイムに動作す
る。ステップ４００において、オーディオトラックの符
号化は、デフォルトＰＭを用いて開始される。デフォル
トＰＭは、様々な異なるタイプのオーディオ材料の符号
化に通常用いられる従来のＰＭでありうる。ステップ４
０２において、オーディオトラックは、トラックが符号
化中であるため、上記オーディオアナライザを用いてリ
アルタイムで分析される。このリアルタイム分析に基づ
き、ステップ４０４に示すように、特定のオーディオト
ラックに最適なＰＭが選択される。ステップ４０６にお
いて、選択された最適なＰＭを用いて、オーディオトラ
ックの符号化を完了する。ステップ４０８において、オ
ーディオトラックに最適なＰＭの識別子が、後続するオ
ーディオトラックの符号化に用いるために格納され、ス
テップ４１０において、符号化されたオーディオトラッ
クが送信される。

【００２７】記憶装置１０２に格納されるオーディオト
ラックの上記フィールドは、最適なＰＭの識別を含むよ
うに更新することができる。再送信のために同じトラッ
クが続けて検索される場合、システムは、その最適なＰ
Ｍがすべてにそのトラックに選択されていると決定する
ことができ、システムは、図３のステップ３０４〜３０
８を用いて、そのＰＭを用いての符号化に直接進むこと
が可能である。したがって、図３の分析ステップ３００
および３０２または図４のステップ４００、４０２、お
よび４０４は、最適なＰＭが未だ決定されていないオー
ディオトラックに対処する場合にのみ、適用する必要が
ある。このような状況は、上記ＰＭフィールドにおける
特定の識別子、かかる識別子がないこと、または他の適
した技術によって識別することができる。

【００２８】次に、特定のオーディオトラックの符号化
での使用に最適なＰＭを決定する方法について、さらに
詳細に説明する。説明のこの部分はまた、オーディオプ
ロセッサ１０４に使用する様々なパラメータの値を、特
定のオーディオトラックについて決定することのできる
方法についても説明する。以下説明する技術は、上記オ
ーディオアナライザの１つの考えられる実施の詳細な例
を提供するものである。

【００２９】例示的な実施形態における本発明の事前分
類プロセスは、フルレングスのオーディオトラックをい
くつかの分類のうちの１つに事前に分類する。これらの
分類それぞれには、２つのパラメータセット、すなわち
ＰＡＣオーディオエンコーダ１０６で使用するためのも
のと、オーディオプロセッサ１０４で使用するためのも
のに関連付けられる。この実施形態におけるオーディオ
プロセッサ１０４は、Orban(http://www.orban.com)か
らのOptimode 6200 DAB プロセッサと同様のタイプのも
のでありうる。

【００３０】第１のパラメータセットは、ＰＡＣ音響心
理学的モデル（ＰＭ）パラメータと呼ばれる。これらの
パラメータは、オーディオ信号の実際の符号化時に、Ｐ
ＡＣオーディオエンコーダ１０６のＰＭ要素２０４にお
いて用いられる。これらパラメータの性質および影響
と、この目的でのオーディオ信号の分類について、さら
に詳細に後述する。

【００３１】例示的な実施形態における第２のパラメー
タセットは、平均臨界測度と呼ばれる単一のパラメータ
を含む。おオーディオプロセッサ設定の選択におけるこ
のパラメータの生成および使用についても、さらに詳細
に後述する。

【００３２】上記参照したD. Shinha、J. D. Johnsto
n、S. Dorward、およびS. R. Quackenbushによる「The
Perceptual Audio Coder」（Digital Audio, Section 4
2, pp.42 1 to 42 18, CRC Press, 1998）に記載され
ているように、従来のＰＡＣオーディオエンコーダに用
いられるＰＭは、ステップサイズを生成する様々な概念
を採用する。信号にフーリエ分析を行い、各コーダバン
ドにおけるスペクトルパワーを計算する。音色測度が各
コードバンドについて計算され、信号エンベロープの相
対的な平滑性（the relative smoothness）をモデリン
グする。トーン測度に基づき、信号対マスク比（ＳＭ
Ｒ）と呼ばれる量子化ノイズのターゲットパワーが計算
される。純粋なトーン信号の場合、所望のＳＭＲはトー
ンマスキング雑音（ＴＭＮ）比として表され、純粋な雑
音の場合、ＳＭＲは雑音マスキングトーン（ＮＭＴ）と
表される。ＴＭＮの値が通常２４〜３５ｄＢで選択さ
れ、ＮＭＴは４〜９ｄＢの範囲で選択される。

【００３３】ステップサイズの計算に利用される別の概
念は、周波数拡散の同時マスキングの概念であり、これ
は、本質的に、１つの周波数における信号パワーがその
周波数における雑音パワーだけでなく、付近の周波数も
マスクすることを示す。これに基づき、１つのコーダバ
ンドのＳＭＲ要件は、付近の周波数帯の空間的形状を見
ることで、緩和することができる。周波数拡散関数（Ｓ
Ｆ）について、各種の可能な形状が当分野で知られてい
る。２つの例を図５Ａおよび図５Ｂに示す。

【００３４】従来のＰＡＣ符号化プロセスでのレートル
ープは、音響心理学の原理に基づいて動作して、過剰雑
音の知覚を最小化すると上述した。しかし、レートの制
約を満たすには、相当かつ可聴量の未復号化が必要なこ
とがある。未復号化は、特に、低ビットレートかつ特定
タイプの信号の場合に目立つ。したがって、符号化プロ
セス中の平均未復号化の測度もまた、ＰＡＣ符号化の目
的のためのオーディオ信号の臨界測度をもたらす。この
未復号化（ＵＣ）測度は、所与のオーディオトラック、
例えば上記オーディオアナライザで分析するオーディオ
トラックを、ＰＡＣオーディオエンコーダを通して走行
させることで計算することができる。エンコーダは、所
与のオーディオトラックについて走行中または平均のＵ
Ｃ測度を生成するよう構成することができ、該ＵＣ測度
を本発明による事前分類プロセスで用いることができ
る。

【００３５】以下は、所与のセットのオーディオ材料の
分類ごとに異なりうる３つのＰＡＣＰＭパラメータのセ
ットの一例である。１．ＴＭＮ。ＴＭＮが高いほど、一般的に、トーン音の
符号化がより正確になり、その結果十分なビットを利用
できる場合に、クリアなオーディオになる。しかし、高
いＴＭＮを要求すると、ビット枯渇状況において音むら
歪み（aliasing distortion）が増大することになりう
る。２．ＮＭＴ。ＮＭＴが低いほど、一般的に、音がクリア
になり、エコー歪みが低減する。しかし、臨界信号の場
合、ＮＭＴが高いほど、音むら歪み（aliasing distort
ion）が多くなる。３．拡散関数（ＳＦ）の形状。図５Ａに示す形状は、概
して、周波数領域および／または時間領域において、は
っきりと画定されたピークの優勢を示す信号に適してい
る。しかし、この形状は、ビット要件に関してより多く
を求める。シャープな時間／周波数ピークを持たない信
号の場合、図５Ｂに示す形状が、一般的に、特にビット
枯渇状況において好ましい。

【００３６】したがって、例示的な実施形態における上
記列挙したＰＡＣＰＭパラメータの特定の値のセット
は、特定の音響心理学的モデルを特定する。特定の値の
セット、ひいては所与のオーディオトラックに最も適し
た音響心理学的モデルを選択するために、オーディオト
ラックをまず、例えば上記オーディオアナライザを用い
て分析し、次の３つの測度を決定する。１．平均スペクトル平坦度測度（ＡＳＦＭ）。ＳＦＭ
は、参照することにより本明細書に援用するN. S. Jaya
nt およびP. Noll, "Digital Coding of Waveforms, Pr
inciples and Applications to Speech and Video"（En
glewood Cliffs, NJ, Prentice-Hall, 1984）に定義さ
れている。本発明によれば、所与のオーディオ信号を約
２０〜２５ミリ秒ごとに小さな連続セグメントに分割す
ることができ、各セグメントごとにＳＦＭを計算する。
次に、これらの値をオーディオトラック全体にわたって
平均してＡＳＦＭを計算する。２．平均エネルギエントロピ（ＡＥＮ）。エネルギエン
トロピ（ＥＮ）は、参照することで本明細書に援用する
D. Sinha、およびA. H. Tewfik、"Low Bit Rate Transp
arent Audio Compression using Adapted Wavelets"(IE
EE Transactions on Signal Processing, Vol. 41, No.
12, pp.3463 3479, Dec. 1993)において定義されてお
り、オーディオ信号の時間領域における「尖り具合（pe
akiness）」を測度する。本発明によれば、それぞれ約
２０〜２５ミリ秒の小さな連続セグメントにわたってＥ
Ｎを計算してから平均化して、オーディオトラックのＡ
ＥＮを計算する。３．符号化臨界測度。これは、上述したＵＣ測度であ
る。

【００３７】本発明の例示的な実施形態において、所与
のオーディオトラックについて生成される３つの測度、
ＡＳＦＭ、ＡＥＮ、およびＵＣを決定機構において組み
合わせて、そのオーディオトラックの３つのＰＡＣＰ
ＭパラメータＴＭＮ、ＮＭＴ、およびＳＦそれぞれに適
した値を選択する。上述したように、こうして、ＰＭパ
ラメータの値の所与のセットが、特定の音響心理学的モ
デルを表す。次に、特定の音響心理学的モデルが、図３
および図４の流れ図に関して説明した方法で、所与のオ
ーディオトラックに関連付けられる。質的に、ＡＳＦＭ
が所定の閾値未満であり、かつＵＣもまた所定の閾値未
満である場合、ＴＭＮが高いほど良好な符号化が提供さ
れる。同様に、ＡＥＮが所定の閾値未満であり、かつＵ
Ｃもまた閾値未満である場合、ＮＭＴが高いほど良好な
符号化が提供される。最後に、ＵＣが閾値未満である
か、またはＡＳＦＭおよびＡＥＮが双方とも閾値未満で
ある場合、図５Ａに示すＳＦ形状が全体的に良好なオー
ディオ品質が提供される。

【００３８】所与のオーディオトラックについて決定さ
れる上述した臨界測度ＵＣを用いても、オーディオプロ
セッサ１０４に１つまたは複数の設定を選択することが
できる。オーディオプロセッサの設定は、オペレータに
より、または１つまたは複数の制御機構を用いて自動的
に、ＵＣ測度を所定の閾値未満に維持するように調整す
ることが可能である。オーディオプロセッサ１０４での
事前設定を微調整するため、かつ／または所与のオーデ
ィオトラックと併用する新しい事前設定を決定するため
に、この基準を他の従来の基準と併せて用いることがで
きる。

【００３９】上述したように、本発明は、地上ＤＡＢシ
ステム、衛星放送システム、およびインターネットスト
リーミングシステムを含む広範な異なるデジタルオーデ
ィオ伝送用途において実施することができる。例示的な
実施形態と併せて上述した特定の事前分類技術は、例と
してのみ示されるものであり、決して本発明の範囲の制
限を意図するものではない。例えば、他の分析技術およ
び信号測度を用いて、オーディオ材料を分類し、本発明
により、特定の音響心理学的モデル、オーディオプロセ
ッサ設定、または他の符号化関連パラメータをそれに関
連付けてもよい。添付の特許請求の範囲内にあるこれら
および多くの他の代替の実施形態および実施は、当業者
には明白であろう。

【図面の簡単な説明】

【図１】本発明を実施しうる通信システムの例示的な一
実施形態のブロック図を示す。

【図２】本発明に従って構成されたパーセプチュアルオ
ーディオコーダ（ＰＡＣ）オーディオエンコーダの一例
のブロック図を示す。

【図３】本発明によるオーディオ事前分類プロセス例の
流れ図を示す。

【図４】本発明によるオーディオ事前分類プロセス例の
流れ図を示す。

【図５Ａ】本発明と併せて用いる周波数拡散関数の例を
示す。

【図５Ｂ】本発明と併せて用いる周波数拡散関数の例を
示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ニコラスジー．カーターアメリカ合衆国 07090 ニュージャーシィ，ウエストフィールド，ブウルヴァード 638 (72)発明者ディープンシンハアメリカ合衆国 07928 ニュージャーシィ，チャットハム，ノエアヴェニュー 169 Ｆターム(参考） 5D045 DA20 5J064 AA01 AA02 BA09 BA16 BC11 BC16 BC18 BD02 BD03

Claims

【特許請求の範囲】

【請求項１】符号化するオーディオ情報を処理する方
法であって、符号化する特定タイプのオーディオ材料の所与の部分に
関連する少なくとも１つの符号化関連パラメータの値を
識別するステップと、該識別された符号化関連パラメータの値を、パーセプチ
ュアルオーディオコーダにおける前記特定タイプのオー
ディオ材料の前記所与の部分の符号化と共に利用するス
テップと、を含む、方法。
【請求項２】前記少なくとも１つの符号化関連パラメ
ータの値は、前記パーセプチュアルオーディオコーダに
おける前記特定タイプのオーディオ材料の前記所与の部
分を符号化する際に利用される音響心理学的モデルの少
なくとも一部を含む、請求項１記載の方法。
【請求項３】前記少なくとも１つの符号化関連パラメ
ータの値は、前記パーセプチュアルオーディオコーダに
おいて前記所与の部分を符号化する前に、前記特定タイ
プのオーディオ材料の前記所与の部分を処理するために
利用されるオーディオプロセッサの設定を含む、請求項
１記載の方法。
【請求項４】前記特定タイプのオーディオ材料の前記
所与の部分を分析して、前記符号化する特定タイプのオ
ーディオ材料の前記所与の部分に関連する前記符号化関
連パラメータの値を決定するステップをさらに含む、請
求項１記載の方法。
【請求項５】前記特定タイプのオーディオ材料の前記
所与の部分を符号化する際に利用される前記符号化関連
パラメータの値の識別子は、前記特定タイプのオーディ
オ材料の所与の部分に関連付けて格納される、請求項１
記載の方法。
【請求項６】前記特定タイプのオーディオ材料の前記
所与の部分を符号化する際に利用される前記符号化関連
パラメータの値は、前記特定タイプのオーディオ材料の
所与の部分と共に格納される対応する識別子を処理する
ことで、記憶装置から前記特定タイプのオーディオ材料
の所与の部分を検索して識別される、請求項１記載の方
法。
【請求項７】前記符号化関連パラメータは、トーンマ
スキング雑音比、雑音マスキングトーン比、および周波
数拡散関数のうちの１つまたは複数を含む、請求項１記
載の方法。
【請求項８】前記符号化する特定タイプのオーディオ
材料の前記所与の部分に関連する前記符号化関連パラメ
ータの値は、少なくとも部分的に、前記特定タイプのオ
ーディオ材料の所与の部分の分析に基づいて決定され、
該分析は、平均スペクトル平坦度測度、平均エネルギエ
ントロピ測度、および符号化臨界測度のうちの少なくと
も１つの決定を含む、請求項１記載の方法。
【請求項９】前記符号化関連パラメータは、少なくと
も部分的に、前記特定タイプのオーディオ材料の前記所
与の部分の少なくとも一部を分析することで生成される
未復号化測度に基づいて決定される、請求項１記載の方
法。
【請求項１０】符号化するオーディオ情報を処理する
装置であって、特定タイプのオーディオ材料の所与の部分を符号化する
よう動作するパーセプチュアルオーディオコーダを備
え、前記特定タイプのオーディオ材料の前記所与の部分
に関連する少なくとも１つの符号化関連パラメータの値
が識別され、該識別された符号化関連パラメータの値
を、前記パーセプチュアルオーディオコーダにおける前
記特定タイプのオーディオ材料の前記所与の部分の符号
化と共に利用する、装置。