JP2002149197A - デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置 - Google Patents

デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置

Info

Publication number
JP2002149197A
JP2002149197A JP2001271142A JP2001271142A JP2002149197A JP 2002149197 A JP2002149197 A JP 2002149197A JP 2001271142 A JP2001271142 A JP 2001271142A JP 2001271142 A JP2001271142 A JP 2001271142A JP 2002149197 A JP2002149197 A JP 2002149197A
Authority
JP
Japan
Prior art keywords
audio
encoding
particular type
given portion
audio material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001271142A
Other languages
English (en)
Other versions
JP4944317B2 (ja
Inventor
William J Casey Iii
ジェー.ケイシー ザ サード ウィリアム
Nicholas G Karter
ジー.カーター ニコラス
Deepen Sinha
シンハ ディープン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JP2002149197A publication Critical patent/JP2002149197A/ja
Application granted granted Critical
Publication of JP4944317B2 publication Critical patent/JP4944317B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 符号化する特定タイプのオーディオ材料のオ
ーディオトラックまたは他の部分を分析して、特定タイ
プのオーディオ材料の最適な符号化に適した少なくとも
1つの符号化関連パラメータの値を決定する。 【解決手段】 特定タイプのオーディオ材料の所与の部
分を通信システムのパーセプチュアルオーディオコーダ
において伝送のために符号化する場合、符号化関連パラ
メータの値を識別してから、これを所与の部分の符号化
と併せて利用する。符号化関連パラメータの決定された
値は、パーセプチュアルオーディオコーダにおける特定
タイプのオーディオ材料の所与の部分の符号化に利用し
た音響心理学的モデルの少なくとも一部でありうる。別
の例として、符号化関連パラメータの値は、パーセプチ
ュアルオーディオコーダにおいて所与の部分を符号化す
る前に、特定タイプのオーディオ材料の所与の部分の処
理に利用されるオーディオプロセッサの設定でありう
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概してオーディオ
圧縮技術に関し、特に、音響心理学的モデルまたは他の
タイプのパーセプチュアルモデルを利用するオーディオ
圧縮技術に関する。
【0002】
【従来の技術】多くのデジタル通信システム、例えば地
上波のAMまたはFM、IBOC DAB(In-Band On
-Channel,Digital Audio Broadcasting)システム、衛
星放送システム、およびインターネットオーディオスト
リーミングシステム等で用いるために、パーセプチュア
ルオーディオ符号化技術が提案されている。本明細書に
参照することにより援用するJ. D. Johnston、S. Dorwa
rd、およびS. R. Quackenbushによる「The Perceptual
Audio Coder」(Digital Audio, Section 42, pp. 42
1 to 42 18, CRC Press, 1998)に記載されているパー
セプチュアルオーディオコーダ(PAC)等のパーセプ
チュアルオーディオ符号化装置は、ノイズ割り当て戦略
を用いてオーディオ符号化を行うことによって、各オー
ディオフレームごとに、音響心理学的モデルに基づいて
ビット要件を計算する。PACおよび同様の圧縮技術を
組み込んだ他のオーディオ符号化装置は本来、パケット
志向である。すなわち、固定の時間間隔(フレーム)に
ついてのオーディオ情報が、可変ビット長のパケットで
表される。各パケットは、オーディオフレームの量子化
されたスペクトル/サブバンドの記述が後続する特定の
制御情報を含む。ステレオ信号の場合、パケットは、2
つ以上のオーディオチャネルのスペクトルの記述を、セ
ンターチャネルおよびサイドチャネル(例えば、左チャ
ネルおよび右チャネル)として別個に、すなわち差別化
して含むことができる。
【0003】上記参照に記載されるPAC符号化は、知
覚的に導出される適応フィルタバンクまたは変換符号化
アルゴリズムとして見ることができる。これは、高レベ
ルの信号圧縮をなすために、高度な信号処理および音響
心理学的モデリング技術を組み込んでいる。より具体的
には、PAC符号化は、変形離散コサイン変換(MDC
T)とウェーブレット変換とを切り替える信号適応切り
替えフィルタバンクを用いて、オーディオ信号のコンパ
クトな記述を得る。フィルタバンクの出力は、不均一ベ
クトル量子化器を用いて量子化される。量子化する目的
のため、フィルタバンクの出力は、量子化器パラメー
タ、例えば量子化ステップサイズを各コーダバンドごと
に別個に選択することができるように、いわゆる「コー
ダバンド」にグループ化される。これらのステップサイ
ズは、音響心理学的モデルに従って生成される。量子化
係数は、適応ハフマン符号化技術を用いてさらに圧縮さ
れる。PACは、例えば、総計15の異なるコードブッ
クを採用し、各コードバンドごとに、最良のコードブッ
クを別個に選択することができる。ステレオおよび多重
チャネルオーディオ材料の場合、和/差または他の形態
の多重チャネル組み合わせを符号化しうる。
【0004】PAC符号化は、ブロックサンプリングア
ルゴリズムを用いて、圧縮されたオーディオ情報をパケ
ット化したビットストリームにフォーマット化する。4
4.1kHzのサンプリングレートにおいて、各パケッ
トは、チャネルの数に関係なく、各チャネルから102
4入力サンプルに対応する。1つの1024サンプルブ
ロックのハフマン符号化したフィルタバンク出力、コー
ドブック選択、量子化器、およびチャネル結合情報が、
単一パケットに編成される。各1024入力オーディオ
サンプルに対応するパケットのサイズは可変であるが、
長期一定平均パケット長は、後述するように維持するこ
とができる。
【0005】用途に応じて、様々な追加情報を最初のフ
レームに、またはあらゆるフレームに付加しうる。DA
B用途等信頼性のない伝送チャネルの場合、ヘッダが各
フレームに付加される。このヘッダは、誤り回復に極め
て重要なPACパケット同期情報を含み、また、サンプ
ルレート、伝送ビットレート、オーディオ符号化モード
等の他の有用な情報も含みうる。極めて重要な制御情報
は、2つの連続したパケットで繰り返されることで、さ
らに保護される。
【0006】上記説明から、PACビットの需要は、主
に、音響心理学的モデルに従って決定される量子化器の
ステップサイズに依存することが明白である。しかし、
ハフマン符号化の使用により、予め、すなわち量子化お
よびハフマン符号化ステップに先だって、ビット要求を
正確に予測することは通常不可能であり、ビット要求は
フレームごとに変化する。従って、従来のPACエンコ
ーダは、バッファリング機構およびレートループを利用
して、長期ビットレート制約に合わせる。バッファリン
グ機構におけるバッファのサイズは、許容されるシステ
ム遅延により決定される。
【0007】従来のPACビット割り当てでは、エンコ
ーダが、特定のオーディオフレームに特定の数のビット
を割り当てる要求をバッファ制御機構に発する。バッフ
ァおよび平均ビットレートの状態に応じて、バッファ制
御機構が、実際に現在のフレームに割り当てることので
きるビットの最大数を戻す。このビット割り当ては、初
期のビット割り当て要求よりもかなり低い可能性がある
ことに留意されたい。これは、現在のフレームを知覚的
にトランスペアレントな符号化、すなわち初期音響心理
学的モデルのステップサイズによって示唆されるような
正確なレベルで符号化することが不可能な場合もあるこ
とを示す。ステップサイズを変更したビット要求が、実
際のビット割り当て未満であり、かつこの割り当てに近
いように、ステップサイズを調整することがレートルー
プの機能である。
【0008】PAC符号化により提供される上記利点に
もかかわらず、DABシステムおよび他のデジタルオー
ディオ圧縮用途において強化されたパフォーマンス性能
を提供するように、デジタルオーディオ圧縮に関する技
術をさらに改良する必要性がある。これらのすべての用
途では、一般的に、与えられた帯域幅制約で、最良のオ
ーディオ再生品質を伝達するように努力がなされる。P
AC等の従来のオーディオ符号化技術は、広範なオーデ
ィオ信号のオーディオ品質を最大化しようとする。非リ
アルタイム用途の場合、再生品質を最大化するように、
各オーディオトラックごとに別個にエンコーダを調整す
ることが可能である。このような調整により、再生品質
を著しく高めることができる。しかし、デジタル放送お
よび他のリアルタイム用途では、一般的に、エンコーダ
を「オンザフライ」で変更することは不可能である。そ
の結果、豊富で多様なオーディオ材料が利用可能な場
合、単一の音響心理学的モデルを利用可能な異なるタイ
プのオーディオ材料すべてに用いると、再生品質がいく
らか妥協される。より具体的には、ロック、ジャズ、ク
ラシック、音声等、異なるタイプのオーディオ材料はか
なり異なる特徴を有しうるため、単一の音響心理学的モ
デルをすべてのタイプのオーディオ材料に適用する典型
的な従来型の方法では、必然的に、1つまたは複数の特
定タイプのオーディオ材料について最適な符号化性能未
満になる。
【0009】従来のPAC符号化に伴う別の問題は、通
常DABシステムまたは他のタイプのシステムにおける
PACオーディオエンコーダの前にあるオーディオプロ
セッサに関連するものである。オーディオプロセッサ
は、ダイナミックレンジ、ステレオ分離、または符号化
するオーディオ信号の帯域幅を低減しようとするなどの
処理機能を行う。PACエンコーダ自体のように、オー
ディオプロセッサの設定または他のパラメータは、通
常、リアルタイム用途における特定タイプのオーディオ
材料には最適化されない。
【0010】
【発明が解決しようとする課題】したがって、オーディ
オ材料を事前に分類して、適切な音響心理学的モデル、
オーディオプロセッサ設定、またはこのような材料のパ
ーセプチュアルオーディオ符号化において用いる他の符
号化関連パラメータの決定を容易にする技術が必要であ
る。
【0011】
【課題を解決するための手段】本発明は、デジタルオー
ディオ圧縮用途においてオーディオ材料を事前に分類す
る方法および装置を提供する。有利なことに、本発明
は、適切な音響心理学的モデル、オーディオプロセッサ
設定、または他の符号化関連パラメータを特定タイプの
オーディオ材料に確実に用いることで、オーディオ圧縮
プロセスに関連する再生品質を改善する。
【0012】本発明の一態様によれば、符号化する特定
タイプのオーディオ材料のオーディオトラックまたは他
の部分を分析して、所望レベルのオーディオ再生品質、
例えば、特定タイプのオーディオ材料の最適な符号化に
適した少なくとも1つの符号化関連パラメータの値を決
定する。特定タイプのオーディオ材料の所与の部分を通
信システムのパーセプチュアルオーディオコーダにおい
て伝送のために符号化する場合、符号化関連パラメータ
の値を識別してから、これを所与の部分の符号化と併せ
て利用する。特定タイプのオーディオ材料の所与の部分
を分析して、該所与の部分をパーセプチュアルオーディ
オコーダで符号化する前に、符号化関連パラメータの値
を決定してもよい。別の例として、パーセプチュアルオ
ーディオコーダで所与の部分を符号化している間に、少
なくとも部分的に、特定タイプのオーディオ材料の所与
の部分を分析して、符号化関連パラメータの値を決定し
てもよい。別の例として、特定タイプのオーディオ材料
の所与の部分を分析して、パーセプチュアルオーディオ
コーダにおいて所与の部分を符号化している間に、少な
くとも部分的に、符号化関連パラメータの値を決定して
もよい。
【0013】例示的な実施形態における符号化関連パラ
メータは、少なくとも部分的に、トーンマスキングノイ
ズ比、ノイズマスキングトーン比、および周波数拡散関
数のうちの1つまたは複数の組み合わせとして特定され
る音響心理学的モデルを含む。この場合における符号化
関連パラメータの値は、少なくとも部分的に、平均スペ
クトル平坦度測度、平均エネルギエントロピ測度、およ
び符号化臨界測度のうちの少なくとも1つの決定を含む
分析に基づいて、決定することができる。
【0014】本発明のさらなる態様によれば、符号化関
連パラメータの値は、特定タイプのオーディオ材料の所
与の部分を、該所与の部分をパーセプチュアルオーディ
オコーダで符号化する前に、処理するために利用するオ
ーディオプロセッサの設定を含みうる。この場合、符号
化関連パラメータの値は、特定タイプのオーディオ材料
の所与の部分を少なくとも部分的に分析することで生成
される未復号化測度に基づいて決定することができる。
ここでも、この分析は、オーディオ材料の符号化前に、
または符号化中に行うことができる。
【0015】本発明は、例えば、AMまたはFMインバ
ンドオンチャネル(IBOC)デジタルオーディオ放送
(DAB)システム、衛星放送システム、インターネッ
トおオーディオストリーミング、オーディオおよびデー
タの同時伝送システム等を含む広範なデジタルオーディ
オ圧縮用途において利用可能である。
【0016】
【発明の実施の形態】図1は、本発明によるオーディオ
材料事前分類機能を有する通信システム100を示す。
システム100は、記憶装置102、オーディオプロセ
ッサ104、PACオーディオエンコーダ106、およ
び送信器108を含む。動作に当たり、システム100
は、オーディオ信号を記憶装置102から検索し、該オ
ーディオ信号をオーディオプロセッサ104で処理し、
パーセプチュアルオーディオ符号化プロセスを用いて、
処理したオーディオ信号をPACオーディオエンコーダ
106で符号化する。送信器108は、符号化したオー
ディオ信号をチャネル110を介してシステム100の
受信器112に送信する。受信器112の出力は、PA
Cオーディオデコーダ114に適用され、該PACオー
ディオデコーダ114が元のオーディオ信号を再構築
し、これをスピーカまたはスピーカセットでありうるオ
ーディオ出力装置116に送る。
【0017】本発明の一態様によれば、PACオーディ
オエンコーダ106は、検索されたオーディオ信号を分
析して、パーセプチュアルオーディオ符号化プロセスで
の使用に適した音響心理学的モデルを決定するように構
成される。
【0018】図2は、PACオーディオエンコーダ10
6の例示的な一実施形態をさらに詳細に示す。検索され
たオーディオ信号は、オーディオプロセッサ104で処
理された後、入力信号として、MDCTとウェーブレッ
ト変換とを切り替える信号適応フィルタバンク200に
適用される。フィルタバンクの出力は、いわゆる「コー
ダバンド」にグループ化されてから、各コードバンドご
とに別個に量子化ステップサイズを選択して、不均一ベ
クトル量子化器を用いて量子化要素202で量子化され
る。ステップサイズは、フィッティング要素206と併
せて動作するパーセプチュアルモデル204によって生
成される。量子化要素202によって生成される量子化
された係数は、この例では適応ハフマン符号化方式を実
施するノイズレス符号化要素208を用いてさらに圧縮
される。PAC符号化の従来の態様に関するさらなる詳
細は、上記参照したD. Shinha、J. D. Johnston、S. Do
rward、およびS. R. Quackenbushによる「The Perceptu
al Audio Coder」(Digital Audio, Section 42, pp. 4
2 1 to 42 18, CRC Press, 1998)において見出すこ
とができる。
【0019】図2に示すPACオーディオエンコーダ1
06は、メモリ222と併せて動作するモデルセレクタ
220をさらに含む。モデルセレクタ220は、その特
定のオーディオ信号の符号化での使用に最適な音響心理
学的モデルを決定するために、入力オーディオ信号を受
信して処理する。モデルセレクタ220は、多くの異な
る音響心理学的モデルに関する情報をメモリ222に格
納することができるため、モデルセレクタ220が、モ
デルのうちから、特定の入力信号と共に用いる1つのモ
デルを選択し、対応する情報をメモリ222から検索
し、符号化プロセスに用いるために、パーセプチュアル
モデル要素204に送ることができる。
【0020】したがって、本発明は、最も適切な音響心
理学的モデルを符号化中の特定のオーディオ信号に割り
当てることで、PACオーディオエンコーダ106の性
能を動的に最適化する。上述したように、ロック、ジャ
ズ、クラシック、音声等、異なるタイプのオーディオ材
料にはそれぞれ、最適な符号化をなすために、異なる音
響心理学的モデルが必要な場合がある。したがって、単
一の音響心理学的モデルをすべてのタイプのオーディオ
材料に適用する従来の方法は、各タイプのオーディオ材
料について最適な符号化性能未満であることは避けられ
ない。本発明は、符号化する特定のオーディオ材料の特
徴に基づいて、特定の音響心理学的モデルを動的に選択
するようPACオーディオエンコーダ106を構成する
ことで、この不具合を克服する。
【0021】図3は、図1のシステム100において実
施しうるオーディオ材料事前分類プロセスの一例を示す
流れ図である。この例の場合、オーディオ材料は、コン
パクトディスク(CD)または他の記憶媒体上のオーデ
ィオトラック等、フルレングスのオーディオトラックを
含むものと前提するが、記載する技術は、他のタイプま
たはオーディオ材料の構成により広く適用可能なことを
理解されたい。例えば、本発明は、オーディオトラック
の一部、または複数のオーディオトラックのセットに適
用することが可能である。
【0022】図3に示す処理は、本発明によるバッチモ
ード処理技術の一例である。ステップ300において、
記憶装置102に格納すべきオーディオトラックを分析
して、PACオーディオエンコーダ106で実施される
オーディオ符号化プロセスでの使用に最適な音響心理学
的モデル(PM)を決定する。最適なPMを所与のオー
ディオトラックについて決定する様式については、さら
に詳細に後述する。
【0023】本明細書で用いる「最適」という語は、特
定の再生品質測度についての最大絶対値等、特定レベル
のパフォーマンスを要求するものと解釈すべきではな
く、所与の用途についての任意所望のレベルのパフォー
マンスを含むようにより広く解釈すべきであることに留
意されたい。
【0024】ステップ302において、決定されたPM
の識別子はオーディオトラックに関連付けられる。例え
ば、記憶装置102に格納されるオーディオトラックの
特定フィールドを、そのトラックの関連するPMを含む
ように設計することができる。オーディオトラックが続
けて伝送のために符号化される場合、ステップ304に
示すように、トラックに関連付けられたPM識別子が、
モデルセレクタ220によって決定され、これを用い
て、適切なPM情報をPM要素204を提供する。PM
識別子は、既存の1つまたは複数の他のシステム要素の
相互接続、例えば既存の従来のAES3相互接続等を通
して、PACオーディオエンコーダ106に送ることが
できる。次に、ステップ306において、PACオーデ
ィオエンコーダ106において、そのトラックに関連付
けられたPMを用いてオーディオトラックを符号化し、
ステップ308において、システム送信器108が符号
化されたオーディオトラックを送信する。
【0025】図3のステップ300におけるオーディオ
トラックの分析は、システム100において、1つまた
は複数のオーディオアナライザソフトウェアプログラム
のセット、スタンドアロンハードウェアデバイス、また
はソフトウェアとハードウェアの組み合わせとして実施
されるオーディオアナライザを用いて行うことができ
る。このようなプログラムは、高速フーリエ変換(FF
Ts)または他の信号分析技術を用いて、特定のオーデ
ィオトラックに最良のPMを決定することができる。こ
れについては、さらに詳細に後述する。プログラムは、
自動的に適切なPMを選択するように構成可能である
か、または適切なPMを選択するために、ユーザとの対
話を提供することができる。例えば、本発明との併用に
適したオーディオアナライザは、ユーザが、強調したい
特定の楽器、サウンド、または他のパラメータを識別
し、識別されたパラメータに最適な符号化を提供するP
Mを選択できるように構成可能である。このようなオー
ディオアナライザは、PACオーディオエンコーダ10
6のモデルセレクタ220およびメモリ222を用いて
実施しうる。他の実施形態において、オーディオアナラ
イザは、別体のシステム要素または要素セットで実施し
てもよい。
【0026】図4は、本発明によるオーディオ材料事前
分類プロセスの別の例の流れ図である。この例は、図3
に関連して上述したバッチモード技術を用いるのではな
く、トラックが伝送のために符号化中であるときに、所
与のオーディオトラックに対してリアルタイムに動作す
る。ステップ400において、オーディオトラックの符
号化は、デフォルトPMを用いて開始される。デフォル
トPMは、様々な異なるタイプのオーディオ材料の符号
化に通常用いられる従来のPMでありうる。ステップ4
02において、オーディオトラックは、トラックが符号
化中であるため、上記オーディオアナライザを用いてリ
アルタイムで分析される。このリアルタイム分析に基づ
き、ステップ404に示すように、特定のオーディオト
ラックに最適なPMが選択される。ステップ406にお
いて、選択された最適なPMを用いて、オーディオトラ
ックの符号化を完了する。ステップ408において、オ
ーディオトラックに最適なPMの識別子が、後続するオ
ーディオトラックの符号化に用いるために格納され、ス
テップ410において、符号化されたオーディオトラッ
クが送信される。
【0027】記憶装置102に格納されるオーディオト
ラックの上記フィールドは、最適なPMの識別を含むよ
うに更新することができる。再送信のために同じトラッ
クが続けて検索される場合、システムは、その最適なP
Mがすべてにそのトラックに選択されていると決定する
ことができ、システムは、図3のステップ304〜30
8を用いて、そのPMを用いての符号化に直接進むこと
が可能である。したがって、図3の分析ステップ300
および302または図4のステップ400、402、お
よび404は、最適なPMが未だ決定されていないオー
ディオトラックに対処する場合にのみ、適用する必要が
ある。このような状況は、上記PMフィールドにおける
特定の識別子、かかる識別子がないこと、または他の適
した技術によって識別することができる。
【0028】次に、特定のオーディオトラックの符号化
での使用に最適なPMを決定する方法について、さらに
詳細に説明する。説明のこの部分はまた、オーディオプ
ロセッサ104に使用する様々なパラメータの値を、特
定のオーディオトラックについて決定することのできる
方法についても説明する。以下説明する技術は、上記オ
ーディオアナライザの1つの考えられる実施の詳細な例
を提供するものである。
【0029】例示的な実施形態における本発明の事前分
類プロセスは、フルレングスのオーディオトラックをい
くつかの分類のうちの1つに事前に分類する。これらの
分類それぞれには、2つのパラメータセット、すなわち
PACオーディオエンコーダ106で使用するためのも
のと、オーディオプロセッサ104で使用するためのも
のに関連付けられる。この実施形態におけるオーディオ
プロセッサ104は、Orban(http://www.orban.com)か
らのOptimode 6200 DAB プロセッサと同様のタイプのも
のでありうる。
【0030】第1のパラメータセットは、PAC音響心
理学的モデル(PM)パラメータと呼ばれる。これらの
パラメータは、オーディオ信号の実際の符号化時に、P
ACオーディオエンコーダ106のPM要素204にお
いて用いられる。これらパラメータの性質および影響
と、この目的でのオーディオ信号の分類について、さら
に詳細に後述する。
【0031】例示的な実施形態における第2のパラメー
タセットは、平均臨界測度と呼ばれる単一のパラメータ
を含む。おオーディオプロセッサ設定の選択におけるこ
のパラメータの生成および使用についても、さらに詳細
に後述する。
【0032】上記参照したD. Shinha、J. D. Johnsto
n、S. Dorward、およびS. R. Quackenbushによる「The
Perceptual Audio Coder」(Digital Audio, Section 4
2, pp.42 1 to 42 18, CRC Press, 1998)に記載され
ているように、従来のPACオーディオエンコーダに用
いられるPMは、ステップサイズを生成する様々な概念
を採用する。信号にフーリエ分析を行い、各コーダバン
ドにおけるスペクトルパワーを計算する。音色測度が各
コードバンドについて計算され、信号エンベロープの相
対的な平滑性(the relative smoothness)をモデリン
グする。トーン測度に基づき、信号対マスク比(SM
R)と呼ばれる量子化ノイズのターゲットパワーが計算
される。純粋なトーン信号の場合、所望のSMRはトー
ンマスキング雑音(TMN)比として表され、純粋な雑
音の場合、SMRは雑音マスキングトーン(NMT)と
表される。TMNの値が通常24〜35dBで選択さ
れ、NMTは4〜9dBの範囲で選択される。
【0033】ステップサイズの計算に利用される別の概
念は、周波数拡散の同時マスキングの概念であり、これ
は、本質的に、1つの周波数における信号パワーがその
周波数における雑音パワーだけでなく、付近の周波数も
マスクすることを示す。これに基づき、1つのコーダバ
ンドのSMR要件は、付近の周波数帯の空間的形状を見
ることで、緩和することができる。周波数拡散関数(S
F)について、各種の可能な形状が当分野で知られてい
る。2つの例を図5Aおよび図5Bに示す。
【0034】従来のPAC符号化プロセスでのレートル
ープは、音響心理学の原理に基づいて動作して、過剰雑
音の知覚を最小化すると上述した。しかし、レートの制
約を満たすには、相当かつ可聴量の未復号化が必要なこ
とがある。未復号化は、特に、低ビットレートかつ特定
タイプの信号の場合に目立つ。したがって、符号化プロ
セス中の平均未復号化の測度もまた、PAC符号化の目
的のためのオーディオ信号の臨界測度をもたらす。この
未復号化(UC)測度は、所与のオーディオトラック、
例えば上記オーディオアナライザで分析するオーディオ
トラックを、PACオーディオエンコーダを通して走行
させることで計算することができる。エンコーダは、所
与のオーディオトラックについて走行中または平均のU
C測度を生成するよう構成することができ、該UC測度
を本発明による事前分類プロセスで用いることができ
る。
【0035】以下は、所与のセットのオーディオ材料の
分類ごとに異なりうる3つのPACPMパラメータのセ
ットの一例である。 1.TMN。TMNが高いほど、一般的に、トーン音の
符号化がより正確になり、その結果十分なビットを利用
できる場合に、クリアなオーディオになる。しかし、高
いTMNを要求すると、ビット枯渇状況において音むら
歪み(aliasing distortion)が増大することになりう
る。 2.NMT。NMTが低いほど、一般的に、音がクリア
になり、エコー歪みが低減する。しかし、臨界信号の場
合、NMTが高いほど、音むら歪み(aliasing distort
ion)が多くなる。 3.拡散関数(SF)の形状。図5Aに示す形状は、概
して、周波数領域および/または時間領域において、は
っきりと画定されたピークの優勢を示す信号に適してい
る。しかし、この形状は、ビット要件に関してより多く
を求める。シャープな時間/周波数ピークを持たない信
号の場合、図5Bに示す形状が、一般的に、特にビット
枯渇状況において好ましい。
【0036】したがって、例示的な実施形態における上
記列挙したPAC PMパラメータの特定の値のセット
は、特定の音響心理学的モデルを特定する。特定の値の
セット、ひいては所与のオーディオトラックに最も適し
た音響心理学的モデルを選択するために、オーディオト
ラックをまず、例えば上記オーディオアナライザを用い
て分析し、次の3つの測度を決定する。 1.平均スペクトル平坦度測度(ASFM)。SFM
は、参照することにより本明細書に援用するN. S. Jaya
nt およびP. Noll, "Digital Coding of Waveforms, Pr
inciples and Applications to Speech and Video"(En
glewood Cliffs, NJ, Prentice-Hall, 1984)に定義さ
れている。本発明によれば、所与のオーディオ信号を約
20〜25ミリ秒ごとに小さな連続セグメントに分割す
ることができ、各セグメントごとにSFMを計算する。
次に、これらの値をオーディオトラック全体にわたって
平均してASFMを計算する。 2.平均エネルギエントロピ(AEN)。エネルギエン
トロピ(EN)は、参照することで本明細書に援用する
D. Sinha、およびA. H. Tewfik、"Low Bit Rate Transp
arent Audio Compression using Adapted Wavelets"(IE
EE Transactions on Signal Processing, Vol. 41, No.
12, pp.3463 3479, Dec. 1993)において定義されてお
り、オーディオ信号の時間領域における「尖り具合(pe
akiness)」を測度する。本発明によれば、それぞれ約
20〜25ミリ秒の小さな連続セグメントにわたってE
Nを計算してから平均化して、オーディオトラックのA
ENを計算する。 3.符号化臨界測度。これは、上述したUC測度であ
る。
【0037】本発明の例示的な実施形態において、所与
のオーディオトラックについて生成される3つの測度、
ASFM、AEN、およびUCを決定機構において組み
合わせて、そのオーディオトラックの3つのPAC P
MパラメータTMN、NMT、およびSFそれぞれに適
した値を選択する。上述したように、こうして、PMパ
ラメータの値の所与のセットが、特定の音響心理学的モ
デルを表す。次に、特定の音響心理学的モデルが、図3
および図4の流れ図に関して説明した方法で、所与のオ
ーディオトラックに関連付けられる。質的に、ASFM
が所定の閾値未満であり、かつUCもまた所定の閾値未
満である場合、TMNが高いほど良好な符号化が提供さ
れる。同様に、AENが所定の閾値未満であり、かつU
Cもまた閾値未満である場合、NMTが高いほど良好な
符号化が提供される。最後に、UCが閾値未満である
か、またはASFMおよびAENが双方とも閾値未満で
ある場合、図5Aに示すSF形状が全体的に良好なオー
ディオ品質が提供される。
【0038】所与のオーディオトラックについて決定さ
れる上述した臨界測度UCを用いても、オーディオプロ
セッサ104に1つまたは複数の設定を選択することが
できる。オーディオプロセッサの設定は、オペレータに
より、または1つまたは複数の制御機構を用いて自動的
に、UC測度を所定の閾値未満に維持するように調整す
ることが可能である。オーディオプロセッサ104での
事前設定を微調整するため、かつ/または所与のオーデ
ィオトラックと併用する新しい事前設定を決定するため
に、この基準を他の従来の基準と併せて用いることがで
きる。
【0039】上述したように、本発明は、地上DABシ
ステム、衛星放送システム、およびインターネットスト
リーミングシステムを含む広範な異なるデジタルオーデ
ィオ伝送用途において実施することができる。例示的な
実施形態と併せて上述した特定の事前分類技術は、例と
してのみ示されるものであり、決して本発明の範囲の制
限を意図するものではない。例えば、他の分析技術およ
び信号測度を用いて、オーディオ材料を分類し、本発明
により、特定の音響心理学的モデル、オーディオプロセ
ッサ設定、または他の符号化関連パラメータをそれに関
連付けてもよい。添付の特許請求の範囲内にあるこれら
および多くの他の代替の実施形態および実施は、当業者
には明白であろう。
【図面の簡単な説明】
【図1】本発明を実施しうる通信システムの例示的な一
実施形態のブロック図を示す。
【図2】本発明に従って構成されたパーセプチュアルオ
ーディオコーダ(PAC)オーディオエンコーダの一例
のブロック図を示す。
【図3】本発明によるオーディオ事前分類プロセス例の
流れ図を示す。
【図4】本発明によるオーディオ事前分類プロセス例の
流れ図を示す。
【図5A】本発明と併せて用いる周波数拡散関数の例を
示す。
【図5B】本発明と併せて用いる周波数拡散関数の例を
示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ニコラス ジー.カーター アメリカ合衆国 07090 ニュージャーシ ィ,ウエストフィールド,ブウルヴァード 638 (72)発明者 ディープン シンハ アメリカ合衆国 07928 ニュージャーシ ィ,チャットハム,ノエ アヴェニュー 169 Fターム(参考) 5D045 DA20 5J064 AA01 AA02 BA09 BA16 BC11 BC16 BC18 BD02 BD03

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 符号化するオーディオ情報を処理する方
    法であって、 符号化する特定タイプのオーディオ材料の所与の部分に
    関連する少なくとも1つの符号化関連パラメータの値を
    識別するステップと、 該識別された符号化関連パラメータの値を、パーセプチ
    ュアルオーディオコーダにおける前記特定タイプのオー
    ディオ材料の前記所与の部分の符号化と共に利用するス
    テップと、を含む、方法。
  2. 【請求項2】 前記少なくとも1つの符号化関連パラメ
    ータの値は、前記パーセプチュアルオーディオコーダに
    おける前記特定タイプのオーディオ材料の前記所与の部
    分を符号化する際に利用される音響心理学的モデルの少
    なくとも一部を含む、請求項1記載の方法。
  3. 【請求項3】 前記少なくとも1つの符号化関連パラメ
    ータの値は、前記パーセプチュアルオーディオコーダに
    おいて前記所与の部分を符号化する前に、前記特定タイ
    プのオーディオ材料の前記所与の部分を処理するために
    利用されるオーディオプロセッサの設定を含む、請求項
    1記載の方法。
  4. 【請求項4】 前記特定タイプのオーディオ材料の前記
    所与の部分を分析して、前記符号化する特定タイプのオ
    ーディオ材料の前記所与の部分に関連する前記符号化関
    連パラメータの値を決定するステップをさらに含む、請
    求項1記載の方法。
  5. 【請求項5】 前記特定タイプのオーディオ材料の前記
    所与の部分を符号化する際に利用される前記符号化関連
    パラメータの値の識別子は、前記特定タイプのオーディ
    オ材料の所与の部分に関連付けて格納される、請求項1
    記載の方法。
  6. 【請求項6】 前記特定タイプのオーディオ材料の前記
    所与の部分を符号化する際に利用される前記符号化関連
    パラメータの値は、前記特定タイプのオーディオ材料の
    所与の部分と共に格納される対応する識別子を処理する
    ことで、記憶装置から前記特定タイプのオーディオ材料
    の所与の部分を検索して識別される、請求項1記載の方
    法。
  7. 【請求項7】 前記符号化関連パラメータは、トーンマ
    スキング雑音比、雑音マスキングトーン比、および周波
    数拡散関数のうちの1つまたは複数を含む、請求項1記
    載の方法。
  8. 【請求項8】 前記符号化する特定タイプのオーディオ
    材料の前記所与の部分に関連する前記符号化関連パラメ
    ータの値は、少なくとも部分的に、前記特定タイプのオ
    ーディオ材料の所与の部分の分析に基づいて決定され、
    該分析は、平均スペクトル平坦度測度、平均エネルギエ
    ントロピ測度、および符号化臨界測度のうちの少なくと
    も1つの決定を含む、請求項1記載の方法。
  9. 【請求項9】 前記符号化関連パラメータは、少なくと
    も部分的に、前記特定タイプのオーディオ材料の前記所
    与の部分の少なくとも一部を分析することで生成される
    未復号化測度に基づいて決定される、請求項1記載の方
    法。
  10. 【請求項10】 符号化するオーディオ情報を処理する
    装置であって、 特定タイプのオーディオ材料の所与の部分を符号化する
    よう動作するパーセプチュアルオーディオコーダを備
    え、前記特定タイプのオーディオ材料の前記所与の部分
    に関連する少なくとも1つの符号化関連パラメータの値
    が識別され、該識別された符号化関連パラメータの値
    を、前記パーセプチュアルオーディオコーダにおける前
    記特定タイプのオーディオ材料の前記所与の部分の符号
    化と共に利用する、装置。
JP2001271142A 2000-09-07 2001-09-07 デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置 Expired - Fee Related JP4944317B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/656743 2000-09-07
US09/656,743 US6813600B1 (en) 2000-09-07 2000-09-07 Preclassification of audio material in digital audio compression applications

Publications (2)

Publication Number Publication Date
JP2002149197A true JP2002149197A (ja) 2002-05-24
JP4944317B2 JP4944317B2 (ja) 2012-05-30

Family

ID=24634369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001271142A Expired - Fee Related JP4944317B2 (ja) 2000-09-07 2001-09-07 デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置

Country Status (4)

Country Link
US (1) US6813600B1 (ja)
EP (1) EP1187101B1 (ja)
JP (1) JP4944317B2 (ja)
DE (1) DE60101984T2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003036621A1 (en) * 2001-10-22 2003-05-01 Motorola, Inc., A Corporation Of The State Of Delaware Method and apparatus for enhancing loudness of an audio signal
US8073684B2 (en) * 2003-04-25 2011-12-06 Texas Instruments Incorporated Apparatus and method for automatic classification/identification of similar compressed audio files
US7739105B2 (en) * 2003-06-13 2010-06-15 Vixs Systems, Inc. System and method for processing audio frames
KR20050028193A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 오디오 신호에 적응적으로 부가 정보를 삽입하기 위한방법, 오디오 신호에 삽입된 부가 정보의 재생 방법, 및그 장치와 이를 구현하기 위한 프로그램이 기록된 기록 매체
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
US8238560B2 (en) * 2006-09-14 2012-08-07 Lg Electronics Inc. Dialogue enhancements techniques
CN101518098B (zh) * 2006-09-14 2013-10-23 Lg电子株式会社 用于对话增强技术的控制器和用户界面
CN103325373A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61254999A (ja) * 1985-05-07 1986-11-12 日本電気株式会社 ピッチおよび有声/無声判別信号の符号化方法
JP2000047693A (ja) * 1998-07-30 2000-02-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号符号化制御装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632003A (en) 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
TW327223B (en) 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
EP0803989B1 (en) 1996-04-26 1999-06-16 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding of a digitalized audio signal
US5959944A (en) * 1996-11-07 1999-09-28 The Music Connection Corporation System and method for production of customized compact discs on demand
US6310652B1 (en) * 1997-05-02 2001-10-30 Texas Instruments Incorporated Fine-grained synchronization of a decompressed audio stream by skipping or repeating a variable number of samples from a frame
EP0966109B1 (en) 1998-06-15 2005-04-27 Matsushita Electric Industrial Co., Ltd. Audio coding method and audio coding apparatus
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61254999A (ja) * 1985-05-07 1986-11-12 日本電気株式会社 ピッチおよび有声/無声判別信号の符号化方法
JP2000047693A (ja) * 1998-07-30 2000-02-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号符号化制御装置

Also Published As

Publication number Publication date
US6813600B1 (en) 2004-11-02
DE60101984T2 (de) 2004-12-16
JP4944317B2 (ja) 2012-05-30
EP1187101A2 (en) 2002-03-13
EP1187101A3 (en) 2002-07-17
DE60101984D1 (de) 2004-03-18
EP1187101B1 (en) 2004-02-11

Similar Documents

Publication Publication Date Title
US11170791B2 (en) Systems and methods for implementing efficient cross-fading between compressed audio streams
CN100559465C (zh) 保真度优化的可变帧长编码
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
US7383180B2 (en) Constant bitrate media encoding techniques
KR101942913B1 (ko) 메타데이터 구동된 동적 범위 제어
EP1483759B1 (en) Scalable audio coding
EP1334484B1 (en) Enhancing the performance of coding systems that use high frequency reconstruction methods
US8645127B2 (en) Efficient coding of digital media spectral data using wide-sense perceptual similarity
US20020049586A1 (en) Audio encoder, audio decoder, and broadcasting system
WO2003017254A1 (en) An encoder programmed to add a data payload to a compressed digital audio frame
JP4944317B2 (ja) デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置
US7835915B2 (en) Scalable stereo audio coding/decoding method and apparatus
JP2004094223A (ja) 多数のサブバンド及び重なり合うウィンドウ関数を用いて処理される音声信号を符号化及び復号化する方法及び装置
US11961538B2 (en) Systems and methods for implementing efficient cross-fading between compressed audio streams
JP2025536102A (ja) オブジェクトベースオーディオコーデックにおける不連続送信のための方法およびデバイス
HK1091585B (en) Fidelity-optimised variable frame length encoding
HK1058096B (en) Enhancing the performance of coding systems that use high frequency reconstruction methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110622

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110922

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120302

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4944317

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees