JP2002534039A - オーディオエンコード装置において固定マスキング閾値を効果的に実現する装置及び方法 - Google Patents

オーディオエンコード装置において固定マスキング閾値を効果的に実現する装置及び方法

Info

Publication number
JP2002534039A
JP2002534039A JP2000591609A JP2000591609A JP2002534039A JP 2002534039 A JP2002534039 A JP 2002534039A JP 2000591609 A JP2000591609 A JP 2000591609A JP 2000591609 A JP2000591609 A JP 2000591609A JP 2002534039 A JP2002534039 A JP 2002534039A
Authority
JP
Japan
Prior art keywords
data
audio data
masking threshold
information processing
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000591609A
Other languages
English (en)
Inventor
イン、リン
Original Assignee
ソニー エレクトロニクス インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー エレクトロニクス インク filed Critical ソニー エレクトロニクス インク
Publication of JP2002534039A publication Critical patent/JP2002534039A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 オーディオエンコード装置(312)において、固定マスキング閾値を効率的に実現する装置及び方法を提供する。オーディオエンコード装置(312)は、ソースオーディオデータ(316)をフィルタリングし、周波数サブバンドを生成するフィルタバンク(318)と、周波数サブバンドに対応するマスキング閾値が格納されたルックアップテーブル(326)と、マスキング閾値を用いて、マスキングされるオーディオデータを識別及び削除して、処理すべきオーディオデータのデータ量を削減するビットアロケータ(322)と備える。

Description

【発明の詳細な説明】
【0001】 相互に参照される関連出願 本発明は、1998年8月4日に出願され、係属中の米国特許出願番号09/
128,924号「精密心理音響モデラを実現する装置及び方法(System And M
ethod For Implementing A Refined Psycho-Acoustic Modeler)」、1998年
9月9日に出願され、係属中の米国特許出願番号09/150,117号「心理
音響モデラにおけるマスキング機能を効率的に実現する装置及び方法(System A
nd Method For Efficiently Implementing A Masking Function In A Psycho-Ac
oustic Modeler)」、及び 出願の米国特許出願番号 「オーディオデ
コード装置におけるアーチファクトを防止する装置及び方法(System and Metho
d For Preventing Artifacts In An Audio Decoder Device)」に関連し、これ
ら出願は、参照することにより本願に組み込まれるものとする。上述の関連出願
は共通の譲受人に譲渡されている。
【0002】 発明の背景 1.発明の技術分野 本発明は、信号処理装置(signal processing system)に関し、特に、オーデ
ィオデータエンコード装置において、固定のマスキング閾値を効果的に実現する
装置及び方法に関する。 2.発明の背景技術 近年の電子機器の設計者、製造業者、ユーザにとって、オーディオデータをエ
ンコードするための効果的且つ効率的な手法を実現することは、重要な課題であ
る。今日のデジタルオーディオ技術の発展に伴い、洗練された高性能なオーディ
オエンコード技術が必要とされている。例えば、録音可能なコンパクトディスク
装置の登場により、オーディオデータを受信して所定のフォーマット(例えばM
PEG)にエンコードし、コンパクトディスク装置を用いて所定の媒体に記録す
ることを可能にするエンコーダ−デコーダ(コーデック)装置が必要とされてい
る。
【0003】 Fig.1は、エンコーダ−デコーダ(コーデック)装置110の具体的な構
成を示すブロック図である。Fig.1に示す具体例では、コーデック装置11
0は、エンコーダ112と、デコーダ114とを備え、エンコーダ112は、心
理−音響モデラ(psycho-acoustic modeler:以下、PAMという。)126を
含んでいる。エンコード処理において、エンコーダ112には、互換性を有する
任意のオーディオソースから信号経路116を介して、ソースオーディオデータ
が供給され、エンコーダ112は、ソースオーディオデータを複数の周波数サブ
バンドにフィルタリングし、エンコードされたオーディオデータを生成し、この
エンコードされたオーディオデータを信号経路138を介して、(例えば、記録
可能なコンパクトディスク装置又はコンピュータ装置等の)オーディオ装置に供
給する。PAM126の機能については、Fig.2を用いて説明する。
【0004】 Fig.2は、Fig.1に示すコーデック装置110用のマスキング閾値の
具体例であるグラフ210を示す図である。グラフ210において、縦軸212
は、オーディオデータの信号エネルギを示し、横軸214は、一連の周波数サブ
バンドを示す。実際の動作において、PAM126には、ソースオーディオデー
タが供給され、PAM126は、人間の聴覚特性を用いてマスキング閾値228
を生成する。エネルギの低い音の周波数と、エネルギの高い音の周波数が近接し
ている場合、人間の聴覚は、このエネルギの低い音を認識できないことが経験的
に知られている。
【0005】 例えば、第3のサブバンド220は、60dBの音232と、30dBの音2
34を含み、この第3のサブバンド220におけるマスキング閾値230は36
dBに設定されている。30dBの音234は、マスキング閾値230以下の音
圧を有し、60dBの音232によるマスキング効果により、人間の聴覚には認
識されないものである。実際の動作では、エンコーダ112は、マスキング閾値
228以下の音を全て削除して、オーディオデータのデータ量を効果的に削減し
、エンコード処理の負担を軽減するようにしている。
【0006】 このように、PAM126は、エンコーダ112によりエンコードされるべき
オーディオデータのデータ量を低減するための有用な情報を提供する。しかしな
がら、エンコーダ112内にPAM126を設けることにより、エンコーダ11
2の構成が複雑になり、さらにエンコーダ112を駆動するために必要な電力が
およそ2倍になってしまう。Fig.1に示すコーデック装置110にPAM1
26を設けると、そのコストと実現の難しさが非常に問題となる。したがって、
エンコードされたオーディオデータの品質を十分に確保しつつ、エンコード装置
を単純化することにより、装置の製造業者及びユーザに大きな利益をもたらす。
そこで、本発明は、上述の実情に鑑みてなされたものであり、オーディオエンコ
ード装置において、固定のマスキング閾値を効率的に実現する装置及び方法を提
供することを目的とする。
【0007】 発明の開示 本発明に基づき、オーディオデコード−エンコード装置において、固定マスキ
ング閾値を効率的に実現する装置及び方法を開示する。本発明の一具体例におい
て、エンコード装置の設計者は、マスキング閾値ルックアップテーブルを初めに
生成する。マスキング閾値ルックアップテーブルには、マスキング閾値が格納さ
れており、マスキング閾値は、人間の絶対聴覚閾値に基づいて経験的に決定され
る。変形した具体例において、マスキング閾値は、絶対聴覚閾値を選択的に調整
して決定される。
【0008】 次に、エンコード装置内のフィルタバンクは、供給されるソースオーディオデ
ータを周波数サブバンドにフィルタリングし、フィルタリングされたオーディオ
データを生成してビットアロケータに供給する。ビットアロケータは、ルックア
ップテーブルに格納されたマスキング閾値を用いて、フィルタリングされたオー
ディオデータを分析する。具体的には、ビットアロケータは、ルックアップテー
ブルにおける固定マスキング閾値以下の全てのフィルタリングされたオーディオ
データをマスキングされるオーディオデータであると判定する。一方、ビットア
ロケータは、ルックアップテーブルにおける固定マスキング閾値以上の全てのフ
ィルタリングされたオーディオデータをマスキングされないオーディオデータで
あると判定する。
【0009】 ビットアロケータは、マスキングされるオーディオデータと判定したフィルタ
リングされたオーディオデータを削除し、これにより、エンコード装置により処
理されるフィルタリングされたオーディオデータのデータ量を効果的に削減する
。次に,ビットアロケータは、以前にマスキングされないオーディオデータであ
ると判定したフィルタリングされたオーディオデータに対して、使用可能な割当
ビットを割り当て、割当処理されたオーディオデータを生成して量子化器に供給
する。
【0010】 そして、量子化器は、割当処理されたオーディオデータを量子化し、この量子
化されたオーディオデータをビットストリームパッカに供給する。最後に、ビッ
トストリームパッカは、量子化されたオーディオデータをパックして、エンコー
ドされたオーディオデータを生成し、このエンコードされたオーディオデータを
適切な互換性を有する記録媒体に保存する。このように、本発明は、オーディオ
エンコード装置において、固定マスキング閾値を効果的及び効率的に実現する装
置及び方法を提供する。
【0011】 発明を実施するための最良の形態 本発明は、信号処理装置(signal processing system)の改良に関する。以下
の説明により、当該分野の技術者は、本発明を実現し、使用することができ、ま
た、以下の説明は、特許出願及びその要件を満たすものである。当該分野の技術
者は、以下の好ましい実施の形態を容易に変更することができ、ここに説明する
包括的な原理は、他の実施の形態にも適用することができる。すなわち、本発明
は、以下の実施の形態に限定されるものではなく、ここに示す原理及び特徴に対
応する最も広い範囲を有するものである。
【0012】 本発明を適用したエンコード装置は、ソースオーディオデータをフィルタリン
グして周波数サブバンドを生成するフィルタバンクと、周波数サブバンドに対応
するマスキング閾値を格納したルックアップテーブルと、マスキング閾値を用い
て、マスキングされるオーディオデータを識別及び削除することにより、エンコ
ード装置により処理する必要があるオーディオデータのデータ量を削減するビッ
トアロケータとを備える。
【0013】 Fig.3は、本発明を適用したエンコーダ−デコーダ(コーデック)310
の具体的な構成を示すブロック図である。Fig.3に示す具体例においては、
コーデック310は、エンコーダ312と、デコーダ314とを備える。エンコ
ーダ312は、例えば、フィルタバンク318と、マスキング閾値のルックアッ
プテーブル326と、ビットアロケータ322と、量子化器332と、ビットス
トリームパッカ336とを備える。デコーダ314は、例えば、ビットストリー
ムアンパッカ344と、逆量子化器348と、フィルタバンク352とを備える
【0014】 Fig.3に示す具体例において、エンコーダ312とデコーダ314は、オ
ーディオマネージャと呼ばれるプログラムインストラクションの組に応答して動
作し、例えばプロセッサ(processor device、図示せず)によって実行される。
変形例として、エンコーダ312とデコーダ314を適切なハードウェアで実現
し、制御されるようにしてもよい。Fig.3に示す具体例では、特にデジタル
オーディオデータのエンコード処理及びデコード処理について説明するが、本発
明は、他の種類の電子情報の処理及び操作に対しても有効に利用できる。
【0015】 エンコード処理においては、エンコーダ312には、信号経路316を介して
、互換性を有する任意のオーディオソースからソースオーディオデータが供給さ
れる。Fig.3に示す具体例においては、信号経路316上のソースオーディ
データは、例えば線形パルスコード変調(linear pulse code modulation:以下
、LPCMという。)フォーマットのデジタルオーディオデータである。エンコ
ーダ312は、例えば「フレーム」と呼ばれる単位で、ソースオーディオデータ
の16ビットのデジタルサンプルを処理する。好ましい実施の形態においては、
各フレームは、1152個のサンプルから構成される。
【0016】 実際の動作において、フィルタバンク318は、ソースオーディオデータが供
給され、ソースオーディオデータを離散的な周波数サブバンドの組に分割し、フ
ィルタリングされたオーディオデータを生成する。Fig.3に示す具体例にお
いては、フィルタバンク318によりフィルタリングされたオーディオデータは
、例えば32個の固有の又は分離された周波数サブバンドを含んでいる。そして
、フィルタバンク318は、フィルタリングされたオーディオデータ(サブバン
ド)を、信号経路320を介してビットアロケータ322に供給する。
【0017】 ビットアロケータ322は、信号経路328を介して、ルックアップテーブル
326における関連する情報にアクセスし、この情報に基づいて割当処理された
オーディオデータを生成し、信号経路330を介して、量子化器332に割当処
理されたオーディオデータを供給する。ビットアロケータ322は、フィルタバ
ンク318から供給される各サブバンドに含まれる信号を表すバイナリデジット
(ビット)を割り当てることによって、割当処理されたオーディオデータを生成
する。ルックアップテーブル326とビットアロケータ322の機能については
、Fig.5〜Fig.8を用いて後で詳細に説明する。
【0018】 つぎに、量子化器332は、割当処理されたオーディオデータを圧縮及びコー
ド化して量子化されたオーディオデータを生成し、この量子化されたオーディオ
データを、信号経路334を介してビットストリームパッカ336に供給する。
ビットストリームパッカ336は、量子化されたオーディオデータをパックして
、エンコードされたオーディオデータを生成し、このエンコードされたオーディ
オデータを、信号経路338を介してオーディオ装置(例えば、記録可能コンパ
クトディスク装置又はコンピュータ装置)に供給する。
【0019】 デコード処理においては、オーディオ装置から信号経路340を介して、エン
コードされたオーディオデータがビットストリームアンパッカ344に供給され
る。ビットストリームアンパッカ344は、このエンコードされたオーディオデ
ータをアンパックして量子化されたオーディオデータを生成し、この量子化され
たオーディオデータを、信号経路346を介して逆量子化器348に供給する。
逆量子化器348は、量子化されたオーディオデータを逆量子化し、逆量子化さ
れたオーディオデータを生成し、この逆量子化されたオーディオデータを、信号
経路350を介してフィルタバンク352に供給する。フィルタバンク352は
、逆量子化されたオーディオデータをフィルタリングし、デコードされたオーデ
ィオデータを生成し、このデコードされたオーディオデータを、信号経路354
を介してオーディオ再生装置(図示せず)に供給する。
【0020】 Fig.4は、本発明を適用したFig.3に示すエンコーダ内のフィルタバ
ンク318の具体的な構成を示す図である。Fig.4に示す具体例において、
フィルタバンク318には、互換性を有するオーディオソースからソースオーデ
ィオデータが、信号経路316を介して供給される。フィルタバンク318は、
供給されるオーディオデータを一連の周波数サブバンドに分割し、各サブバンド
をビットアロケータ322に供給する。Fig.4に示す具体例において、フィ
ルタバンク318は、例えば32個のサブバンド320(a)〜320(h)を
生成する。なお、他の実施例としては、サブバンドの数は、32より大きくても
小さくてもよい。
【0021】 Fig.5は、本発明に基づく、Fig.3に示すマスキング閾値のルックア
ップテーブル326の具体例を示す図である。この他の具体例として、ルックア
ップテーブル326は、他の適切で互換性を有するいかなるデータ構造を有して
いてもよい。Fig.5に示す具体例では、ルックアップテーブル326は、第
1の周波数512〜第Nの周波数518と、第1のマスキング閾値520〜第N
のマスキング閾値526とを格納している。Fig.5に示す具体例において、
第1〜第Nの周波数512〜518のそれぞれは、第1〜第Nのマスキング閾値
520〜526のそれぞれに対応している。例えば、第1の周波数512は、第
1のマスキング閾値520に対応し、第Nの周波数518は、第Nのマスキング
閾値526に対応している。
【0022】 Fig.5に示す具体例においては、周波数512〜518は、フィルタバン
ク318により生成された周波数サブバンドのそれぞれを表し、あるいはフィル
タバンク318により生成されたフィルタリングされたオーディオデータのそれ
ぞれの周波数を表すものである。実際の動作では、ビットアロケータ322は、
フィルタバンク318から供給されるフィルタリングされたオーディオデータに
含まれる特定の周波数又は周波数サブバンド512〜518を識別する。そして
、ビットアロケータ322は、ルックアップテーブル326を参照して、この特
定の周波数又は周波数サブバンドに対応するマスキング閾値520〜526にア
クセスする。
【0023】 そして、ビットアロケータ322は、マスキング閾値520〜526より小さ
いマスキングされるオーディオデータを(フィルタリングされたオーディオデー
タから)効果的に識別して、削除する。このように、マスキング閾値のルックア
ップテーブル326をエンコーダ312に設けることにより、マスキング閾値を
用いる利点を確保しながら、エンコーダ312全体を簡素化することができる。
【0024】 Fig.6は、本発明に基づく、絶対聴覚閾値(absolute hearing threshold
)616を示すグラフ610を示す図である。Fig.6において、グラフ61
0の縦軸612は、オーディオデータの信号エネルギをデシベルで表すものであ
る。また、グラフ610の横軸614は、(フィルタバンク318により生成さ
れた)周波数サブバンドを表している。
【0025】 グラフ610において、絶対聴覚閾値616は、経験的に決定された人間の聴
覚の限界を表している。換言すれば、人間の聴覚は、絶対聴覚閾値616より低
いエネルギの音を感知することができない。本発明の選択された具体例において
は、ルックアップテーブル326(Fig.5)のマスキング閾値520〜52
6は、絶対聴覚閾値616に基づいて規定されている。例えば、マスキング閾値
520〜526を絶対聴覚閾値616に略等しくなるようにしてもよい。
【0026】 また、本発明の他の具体例としては、絶対聴覚閾値616において選択された
セグメントを効果的に変更又は「チューニング」することにより、エンコーダ3
12の性能を向上させることができる。例えば、選択されたより周波数の高いサ
ブバンドに対して、ルックアップテーブル326において、マスキング閾値の値
を絶対聴覚閾値616に示される閾値に対応する値より高い値に設定してもよい
。このような(選択されたより周波数の高いサブバンドに対する)ルックアップ
テーブル326のチューニングにより、エンコードされたオーディオデータの高
い音質を維持しながら、ビットアロケータ322による使用可能なビットの割当
処理を最適化することができる。
【0027】 Fig.7は、本発明に基づく、固定マスキング閾値の具体例であるグラフ7
10を示す図である。グラフ710において、縦軸712は、オーディオデータ
の信号エネルギを表し、横軸714は、一連の周波数サブバンドを表している。
グラフ710は、本発明の原理を説明するものであり、グラフ710に示す各値
は、例示的なものである。本発明は、Fig.7に示すグラフ710における各
値とは異なる閾値でも機能し得ることは明らかである。
【0028】 Fig.7に示すグラフ710は、第1のサブバンド716〜第6のサブバン
ド726と、マスキング閾値728が示されており、マスキング閾値728は、
対応するサブバンド毎に変化している。実際の動作において、ビットアロケータ
322は、最初に、フィルタバンク318から第1のサブバンド716を受け取
り、次にルックアップテーブル326を参照して、対応するマスキング閾値73
0にアクセスする。続いて、ビットアロケータ322は、第1のサブバンド71
6においてマスキングされるオーディオデータ、すなわちマスキング閾値730
を下回るオーディオデータを識別し、第1のサブバンド716から削除する。
【0029】 次に、ビットアロケータ322は、第2のサブバンド718について、同様に
マスキング閾値732にアクセスし、これを利用してマスキングされるオーディ
オデータを識別及び削除する。ビットアロケータ322は、このようにして、現
在のフレームに関する処理が完了するまで、各サブバンドに関するマスキング閾
値にアクセスし、これに基づく処理を繰り返し実行する。以上の処理は、全ての
フレームに関する処理が完了するまで、エンコーダ312により、各フレーム毎
に繰り返される。
【0030】 Fig.8は、本発明に基づいて、マスキング閾値を効率的に実現するための
処理を示すフローチャートである。まず、ステップ812において、エンコーダ
312内のフィルタバンク318は、入力されたソースオーディオデータを周波
数サブバンドにフィルタリングし、フィルタリングされたオーディオデータをビ
ットアロケータ322に供給する。
【0031】 次に、ステップ814において、エンコーダ312の設計者は、マスキング閾
値のルックアップテーブル326を作成する。ルックアップテーブル326の内
容及び機能については、Fig.3及びFig.5〜Fig.7を用いて説明し
たとおりである。続いて、ステップ816において、ビットアロケータ322は
、Fig.3及びFig.5〜Fig.7を用いて説明したように、ルックアッ
プテーブル326に格納されている固定マスキング閾値を用いて、フィルタリン
グされたオーディオデータを分析する。具体的には、ビットアロケータ322は
、ルックアップテーブル326における固定マスキング閾値を下回る全てのフィ
ルタリングされたオーディオデータをマスキングされるオーディオデータである
と判定する。一方、ビットアロケータ322は、ルックアップテーブル326に
おける固定マスキング閾値以上の全てのフィルタリングされたオーディオデータ
をマスキングされないオーディオデータであると判定する。
【0032】 ステップ818において、ビットアロケータ322は、ステップ816におい
てマスキングされるオーディオデータであると判定したフィルタリングされたオ
ーディオデータを無視又は削除する。ステップ820において、ビットアロケー
タ322は、(以前のステップ816において)マスキングされないオーディオ
データでないと判定されているフィルタリングされたオーディオデータに対して
使用可能な全ての割当ビットを割り当て、割当処理されたオーディオデータを生
成して、量子化器332に供給する。本発明の一具体例において、ステップ82
0におけるビットの割り当ては、 出願の米国特許出願番号 「オーデ
ィオデコード装置におけるアーチファクトを防止する装置及び方法(System and
Method For Preventing Artifacts In An Audio Decoder Device)」に開示さ
れている技術と同様の手法により実現してもよい。この出願は、参照することに
より本願に組み込まれるものとする。
【0033】 ステップ822において、量子化器332は、割当処理されたオーディオデー
タを量子化し、量子化されたオーディオデータを生成して、ビットストリームパ
ッカ336に供給する。最後に、ステップ824において、ビットストリームパ
ッカ336は、量子化されたオーディオデータをパックして、エンコードされた
オーディオデータを生成し、エンコードされたオーディオデータを適切な、互換
性がある記録媒体に保存する。
【0034】 本発明を最良の実施の形態を用いて説明した。以上の開示から、他の実施の形
態を想到することは、当該分野の技術者にとって容易である。例えば、本発明は
、上述の最良の実施の形態において述べた構成及び技術以外の構成及び技術を用
いても容易に実現することができる。さらに、本発明は、最良の実施の形態にお
いて述べた装置とは異なる装置に対しても効果的に適用することができる。した
がって、上述の最良の実施の形態及び変形例は、本発明の範囲の一部をなすもの
であり、本発明の範囲は、特許請求の範囲によってのみ制限されるものである。
【図面の簡単な説明】
【図1】 Fig.1は、オーディオエンコード−デコード装置の具体的構成を示すブロ
ック図である。
【図2】 Fig.2は、Fig.1に示すエンコード−デコード装置に用いられるマス
キング閾値の具体例を示す図である。
【図3】 Fig.3は、本発明を適用したエンコード−デコード装置の構成を示すブロ
ック図である。
【図4】 Fig.4は、Fig.3に示すエンコード−デコード装置のフィルタバング
の具体例を示す図である。
【図5】 Fig.5は、Fig.3に示すマスキング閾値のルックアップテーブルの具
体例を示す図である。
【図6】 Fig.6は、本発明に基づく、絶対聴覚閾値を示す図である。
【図7】 Fig.7は、本発明に基づく、固定マスキング閾値の具体例を示す図である
【図8】 Fig.8は、本発明に基づく、固定マスキング閾値を効率的に実現する処理
手順を示すフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 ソースデータに対応するマスキング閾値を生成するデータ構造
    体(326)と、 上記マスキング閾値を参照して上記ソースデータをマスキングされないデータ
    に変換するビット割当手段(322)とを備える情報処理装置。
  2. 【請求項2】 上記データ構造体(326)及びビット割当手段(322)は
    、上記ソースオーディオデータ(316)をエンコードされたオーディオデータ
    (338)にエンコードするエンコーダ装置の一部であることを特徴とする請求
    項1記載の情報処理装置。
  3. 【請求項3】 上記ソースオーディオデータ(316)は、線形パルスコード
    変調フォーマットで入力され、上記エンコード装置(312)によりMPEGフ
    ォーマットのエンコードされたオーディオデータ(338)にエンコードされる
    ことを特徴とする請求項2記載の情報処理装置。
  4. 【請求項4】 上記エンコード装置(312)は、データサンプルからなる上
    記オーディオデータ(316)の各フレームを連続的に処理することを特徴とす
    る請求項2記載の情報処理装置。
  5. 【請求項5】 上記各フレームが供給され、該各フレームについてサブバンド
    を生成するフィルタバンク(318)を備えることを特徴とする請求項4記載の
    情報処理装置。
  6. 【請求項6】 上記サブバンドは、32個の周波数サブバンドであることを特
    徴とする請求項5記載の情報処理装置。
  7. 【請求項7】 上記データ構造体(326)は、上記周波数サブバンドのそれ
    ぞれに対応するマスキング閾値を格納するルックアップテーブルであることを特
    徴とする請求項5記載の情報処理装置。
  8. 【請求項8】 上記マスキング閾値は、信号エネルギを表し、該信号エネルギ
    以下の上記フィルタリングされたオーディオデータ(320)は、上記ビット割
    当手段(322)により処理されないことを特徴とする請求項7記載の情報処理
    装置。
  9. 【請求項9】 上記ルックアップテーブルに格納された上記マスキング閾値は
    、人間の絶対聴覚閾値に基づいて調整できることを特徴とする請求項7記載の情
    報処理装置。
  10. 【請求項10】 上記ビット割当手段(322)は、上記割り当てられたデー
    タを量子化手段(332)に供給し、該量子化手段(332)は、該割り当てら
    れたデータを量子化して、量子化されたデータ(334)をビットストリームパ
    ック手段(336)に供給し、該ビットストリームパック手段(336)は、上
    記エンコードされたオーディオデータ(338)を生成することを特徴とする請
    求項2記載の情報処理装置。
  11. 【請求項11】 ソースデータに対応するマスキング閾値をデータ構造体(3
    26)から生成するステップと、 ビット割当手段(322)により、上記ソースデータをマスキングされないデ
    ータに変換するステップとを有する情報処理方法。
  12. 【請求項12】 上記データ構造体(326)及びビット割当手段(322)
    は、上記ソースオーディオデータ(316)をエンコードされたオーディオデー
    タ(338)にエンコードするエンコーダ装置の一部であることを特徴とする請
    求項11記載の情報処理方法。
  13. 【請求項13】 上記ソースオーディオデータ(316)は、線形パルスコー
    ド変調フォーマットで入力され、上記エンコード装置(312)によりMPEG
    フォーマットのエンコードされたオーディオデータ(338)にエンコードされ
    ることを特徴とする請求項12記載の情報処理方法。
  14. 【請求項14】 上記エンコード装置(312)は、データサンプルからなる
    上記オーディオデータ(316)の各フレームを連続的に処理することを特徴と
    する請求項12記載の情報処理方法。
  15. 【請求項15】 上記各フレームが供給され、該各フレームについてサブバン
    ドを生成するフィルタバンク(318)を備えることを特徴とする請求項14記
    載の情報処理方法。
  16. 【請求項16】 上記サブバンドは、32個の周波数サブバンドであることを
    特徴とする請求項15記載の情報処理方法。
  17. 【請求項17】 上記データ構造体(326)は、上記周波数サブバンドのそ
    れぞれに対応するマスキング閾値を格納するルックアップテーブルであることを
    特徴とする請求項15記載の情報処理方法。
  18. 【請求項18】 上記マスキング閾値は、信号エネルギを表し、該信号エネル
    ギ以下の上記フィルタリングされたオーディオデータ(320)は、上記ビット
    割当手段(322)により処理されないことを特徴とする請求項17記載の情報
    処理方法。
  19. 【請求項19】 上記ルックアップテーブルに格納された上記マスキング閾値
    は、人間の絶対聴覚閾値に基づいて調整できることを特徴とする請求項17記載
    の情報処理方法。
  20. 【請求項20】 上記ビット割当手段(322)は、上記割り当てられたデー
    タを量子化手段(332)に供給し、該量子化手段(332)は、該割り当てら
    れたデータを量子化して、量子化されたデータ(334)をビットストリームパ
    ック手段(336)に供給し、該ビットストリームパック手段(336)は、上
    記エンコードされたオーディオデータ(338)を生成することを特徴とする請
    求項12記載の情報処理方法。
  21. 【請求項21】 ソースデータに対応するマスキング閾値を生成するマスキン
    グ閾値生成手段と、 上記マスキング閾値を参照して上記ソースデータをマスキングされないデータ
    に変換する変換手段とを備える情報処理装置。
  22. 【請求項22】 ソースデータに対応するマスキング閾値をデータ構造体(3
    26)から生成するステップと、ビット割当手段(322)により、上記ソース
    データをマスキングされないデータに変換するステップとを実行して情報を処理
    するプログラムインストラクションが格納されたコンピュータにより読取可能な
    記録媒体。
  23. 【請求項23】 上記データ構造体からの上記マスキング閾値は、人間の聴覚
    では感知できない音のエネルギ以下の絶対聴覚閾値に基づいて決定されることを
    特徴とする請求項22記載のコンピュータにより読取可能な記録媒体。
  24. 【請求項24】 上記マスキング閾値は、上記絶対聴覚閾値に対して選択的に
    調整されることを特徴とする請求項23記載のコンピュータにより読取可能な記
    録媒体。
  25. 【請求項25】 上記マスキング閾値は、より高い周波数セグメントにおいて
    、上記絶対聴覚閾値より高く調整されることを特徴とする請求項24記載のコン
    ピュータにより読取可能な記録媒体。
  26. 【請求項26】 上記ビット割当手段(322)は、上記データ構造体(32
    6)にアクセスして、上記ソースオーディオデータにおけるマスキング閾値を決
    定し、該マスキング閾値より信号レベルが低いマスキングされるデータを削除す
    ることを特徴とする請求項22記載のコンピュータにより読取可能な記録媒体。
  27. 【請求項27】 上記データ構造体(326)及び上記ビット割当手段(32
    2)は、記録可能なコンパクトディスク装置内のエンコード装置の一部であるこ
    とを特徴とする請求項22記載のコンピュータにより読取可能な記録媒体。
  28. 【請求項28】 上記データ構造体(326)及び上記ビット割当手段(32
    2)は、オーディオ管理プログラムにより制御されることを特徴とする請求項2
    2記載のコンピュータにより読取可能な記録媒体。
  29. 【請求項29】 上記オーディオ管理プログラムは、処理装置により処理され
    ることを特徴とする請求項28記載のコンピュータにより読取可能な記録媒体。
JP2000591609A 1998-12-28 1999-12-15 オーディオエンコード装置において固定マスキング閾値を効果的に実現する装置及び方法 Withdrawn JP2002534039A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/221,394 US6418404B1 (en) 1998-12-28 1998-12-28 System and method for effectively implementing fixed masking thresholds in an audio encoder device
US09/221,394 1998-12-28
PCT/US1999/030193 WO2000039787A2 (en) 1998-12-28 1999-12-15 System and method for effectively implementing fixed masking thresholds in an audio encoder device

Publications (1)

Publication Number Publication Date
JP2002534039A true JP2002534039A (ja) 2002-10-08

Family

ID=22827639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000591609A Withdrawn JP2002534039A (ja) 1998-12-28 1999-12-15 オーディオエンコード装置において固定マスキング閾値を効果的に実現する装置及び方法

Country Status (8)

Country Link
US (1) US6418404B1 (ja)
EP (1) EP1145223A3 (ja)
JP (1) JP2002534039A (ja)
KR (1) KR20010040705A (ja)
AU (1) AU3125800A (ja)
CA (1) CA2320169A1 (ja)
TW (1) TW451059B (ja)
WO (1) WO2000039787A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963649B2 (en) * 2000-10-24 2005-11-08 Adaptive Technologies, Inc. Noise cancelling microphone
ES2260426T3 (es) * 2001-05-08 2006-11-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
KR100476103B1 (ko) * 2002-08-09 2005-03-10 한국과학기술원 특징벡터의 필터링을 이용한 음성인식방법
KR100713452B1 (ko) 2003-12-06 2007-05-02 삼성전자주식회사 오디오 신호를 부호화하는 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866777A (en) * 1984-11-09 1989-09-12 Alcatel Usa Corporation Apparatus for extracting features from a speech signal
DE3805946A1 (de) 1988-02-25 1989-09-07 Fraunhofer Ges Forschung Vorrichtung zur ermittlung von charakteristischen parametern aus den eingangs- und ausgangssignalen eines systems fuer die audiosignalverarbeitung
US5040217A (en) 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP3446216B2 (ja) 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
JP3173218B2 (ja) 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
JP3277679B2 (ja) 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
JP3328532B2 (ja) 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法

Also Published As

Publication number Publication date
CA2320169A1 (en) 2000-07-06
US20020029143A1 (en) 2002-03-07
US6418404B1 (en) 2002-07-09
TW451059B (en) 2001-08-21
EP1145223A3 (en) 2002-09-11
WO2000039787A2 (en) 2000-07-06
EP1145223A2 (en) 2001-10-17
WO2000039787A3 (en) 2001-08-16
AU3125800A (en) 2000-07-31
KR20010040705A (ko) 2001-05-15

Similar Documents

Publication Publication Date Title
JP5162588B2 (ja) 音声符号化システム
JP3283200B2 (ja) 符号化音声データの符号化レート変換方法および装置
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
JPH10285042A (ja) ビット率の調節可能なオーディオデータ符号化/復号化方法及び装置
US6240379B1 (en) System and method for preventing artifacts in an audio data encoder device
KR100472442B1 (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
WO1996035269A1 (en) Non-linearly quantizing an information signal
US20020169601A1 (en) Encoding device, decoding device, and broadcast system
JPH0846518A (ja) 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JPH0846516A (ja) 情報符号化方法及び装置、情報復号化方法及び装置、並びに記録媒体
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2002534039A (ja) オーディオエンコード装置において固定マスキング閾値を効果的に実現する装置及び方法
JPH11145842A (ja) 音声帯域分割復号装置
JP3371462B2 (ja) オーディオ信号記録・再生装置
JPH08307281A (ja) 非線形量子化方法及び非線形逆量子化方法
JPH0537395A (ja) 帯域分割符号化方法
US6745162B1 (en) System and method for bit allocation in an audio encoder
JP2000078018A (ja) 音声符号化方式、音声符号化装置、及びデ―タ記録媒体
JP3297238B2 (ja) 適応的符号化システム及びビット割当方法
JP2000293199A (ja) 音声符号化方法および記録再生装置
JP2002351500A (ja) ディジタルデータの符号化方法
JPH06289900A (ja) オーディオ符号化装置
KR0152016B1 (ko) 가변 비트할당을 이용한 부호화 및 복호화시스템
JP2003280695A (ja) 音声圧縮方法および音声圧縮装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306