JP2005531014A - ハーモニック成分を利用したオーディオコーディング方法及び装置 - Google Patents

ハーモニック成分を利用したオーディオコーディング方法及び装置 Download PDF

Info

Publication number
JP2005531014A
JP2005531014A JP2003562916A JP2003562916A JP2005531014A JP 2005531014 A JP2005531014 A JP 2005531014A JP 2003562916 A JP2003562916 A JP 2003562916A JP 2003562916 A JP2003562916 A JP 2003562916A JP 2005531014 A JP2005531014 A JP 2005531014A
Authority
JP
Japan
Prior art keywords
audio data
harmonic component
pcm audio
mdct
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003562916A
Other languages
English (en)
Other versions
JP2005531014A5 (ja
Inventor
ホ−ジン・ハ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2005531014A publication Critical patent/JP2005531014A/ja
Publication of JP2005531014A5 publication Critical patent/JP2005531014A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

本発明は、オーディオ信号の圧縮方法に係り、具体的には、オーディオ信号を低速のビット率のMPEG1レイヤ3オーディオ信号に効率的に圧縮する方法及び装置に関する。本発明のオーディオ信号の圧縮方法は、入力されたPCMオーディオデータに心理音響モデル2を適用して得られるFFT結果情報を利用してハーモニック成分を抽出し、該抽出されたハーモニック成分を元来入力されたPCMオーディオデータから除去した後、MDCT及び量子化を行うことによって少ないビット割当てでも効率的な圧縮を可能にした方法である。本発明で提示する方法を使用すれば、低速のMPEG1レイヤ3オーディオから発生する量子化ビット数の限界を克服でき、入力されたオーディオ信号からハーモニック成分を除去し、過渡部分のみをMDCTを使用して圧縮することによって、低速のビット率で圧縮する場合に、オーディオ信号を効果的に処理して圧縮率を高めうる。

Description

本発明はオーディオ信号の圧縮方法に係り、具体的にはオーディオ信号を低速のビット率のMPEG1レイヤ3オーディオ信号に効率的に圧縮する方法及び装置に関する。
MPEG1(Moving Picture Expert Group 1)は、デジタルビデオ及びデジタルオーディオの圧縮に関する標準を制定する動画専門家グループを称し、この機構は、世界標準化機構でありISO(International Standardization Organization)の後援を受けている。MPEG1オーディオは、基本的に60分や72分ほどのCDに保存された44.1Khzサンプリングレートの16ビットオーディオを圧縮する時に使われるが、圧縮方法とコーデックの複雑度とによって3個のレイヤ(レイヤ1、2、3)に分れる。
そのうち、レイヤ3は、最も複雑な方法が使われる。レイヤ2に比べてはるかに多くのフィルタを使用し、ハフマンコーディングを使用する。112Kbpsでエンコーディングすれば、優秀な音質を聞け、128Kbpsの場合には、原本とほぼ同じであり、160Kbpsや192Kbpsの場合には、耳では原音との差を区別できないほどに性能が優秀である。一般的に、MPEK1レイヤ3オーディオをMP3オーディオと呼ぶ。
MP3オーディオは、フィルタバンクよりなるDCT(Discrete Cosine Transform)と心理音響モデル2とを利用したビット割当て及び量子化によって作られる。圧縮されたオーディオデータの表現に使われるビット数を最小にしつつ、聴覚心理音響モデル2を利用してフィルタバンクの結果より生成されたデータをMDCT(Modified Discrete Cosine Transform)を使用して圧縮する。
オーディオ圧縮技術において、最も基本となるものは人間の耳である。人間の耳は、声の震源地で発生する音響の強度があるレベル以下になれば聞けない。事務室で誰かが大声で話せば、誰が話しているか容易に把握できる。しかし、その瞬間、飛行機が通れば、全く聞こえなくなる。また、飛行機が通った後にも、その余音が残ってよく聞こえない。このように、人間の耳で聞ける周波数を一定間隔で分けて静かな時の最小可聴限界以上の範囲及び最大振幅から感知可能な限界であるマスキング臨界値以下のデータをサンプリングする方式で量子化することを聴覚心理音響モデル2という。
しかし、64Kbps以下の低速のビット率で音響信号を圧縮する場合には、前記のような方法は、効果的に音響信号を圧縮するのに適していない。その理由は、プリエコーのような信号を量子化するのに使われるビット数に限界があるためである。したがって、本発明は、低速のMP3オーディオから発生するこのような短所を克服するために、心理音響モデル2で使用する高速フーリエ変換(Fast Fourier Transform:FFT)を使用して、元来信号からハーモニック成分を除去し、過渡成分のみをMDCTを利用して圧縮することによって、低速でオーディオ信号を効果的に処理する方法を提供する。
従来の心理音響モデルで使われるFFTは、単に信号を分析する機能のみを行い、信号の圧縮にはFFTの結果が使われない。これは、資源の浪費といえる。
そして、特許文献1では、心理音響モデルを利用したビット割当て方法が開示されている。しかし、本発明と同様に、心理音響モデルでのFFT結果を利用してハーモニック成分を除去して圧縮効率を高めることとは差がある。言い換えれば、心理音響モデルを使用したという点で類似しているのみで、オーディオの補助データ領域を仮想で設置して最適のビット割当てを行うことであり、本発明のようにレジデュハーモニックの結果を利用することではないという点で差がある。
また、特許文献2では、オーディオ信号を圧縮する過程で計算上の過負荷を減らしつつ計算量を顕著に減少させうるように心理音響での信号処理方法と装置とが開示されている。すなわち、高速FFT結果を通じて個別マスキング境界値を求める段階、グローバルマスキング境界値を選択する段階及び次の周波数位置に移す段階を備えるが、これはFFT結果値を利用するという点で類似しているのみで、その結果を利用した量子化方法では本発明と差がある。
そして、特許文献3でも、低周波信号のレジデュハーモニックを利用して音響信号の質を向上させる方法が開示されている。しかし、作り出したレジデュハーモニックの結果を利用する方法では差がある。
韓国特許公開1995−022322号公報 韓国特許公開1998−072457号公報 米国特許第5,930,373号明細書
前記問題を解決するために本発明では、心理音響モデル2で使用するFFT結果情報を利用して、元来オーディオ信号からハーモニック成分を除去し、除去した過渡成分のみをMDCTを利用して圧縮することによって、低速でオーディオ信号を効果的に処理する方法を提供することを目的とする。
前記目的を解決するために本発明では、PCM(Pulse Code Modulation)オーディオデータを入力されて心理音響モデル2を適用してハーモニック成分を抽出する段階と、前記入力されたPCMオーディオデータから前記抽出されたハーモニック成分を除去してMDCTを行う段階と、前記行われたMDCT結果値を量子化し、前記抽出されたハーモニック成分と共にオーディオパケットに作る段階と、を含むハーモニック成分を利用したオーディオコーディング方法を提供する。
前記目的を解決するために本発明では、PCMオーディオデータを入力されて保存し、保存された前記データに人間の可聴限界特性を利用した心理音響モデル2を適用してFFT結果情報、入力されたデータに対する知覚エネルギー情報及び量子化に使われるビット割当て情報を出力する段階と、前記FFT結果情報を利用して前記入力されたPCMオーディオデータからハーモニック成分を抽出する段階と、前記抽出したハーモニック成分をエンコーディングして出力し、エンコーディングされたハーモニック成分をデコーディングする段階と、前記段階で保存されたPCMオーディオデータから前記段階でデコーディングされたハーモニック成分を除去して前記知覚エネルギー情報によってMDCTを行う段階と、前記行われたMDCT結果値を前記ビット割当て情報によってビットを割当てて量子化する段階と、前記エンコーディングされて出力されたハーモニック成分と前記量子化されたMDCT結果値とをオーディオパケットに作る段階と、を含むハーモニック成分を利用したオーディオコーディング方法を提供する。
前記目的を解決するために本発明では、PCMオーディオデータを入力されて保存するPCMオーディオデータ保存部と、前記保存されたPCMオーディオを入力されて心理音響モデル2を行ってFFT結果情報、入力されたデータに対する知覚エネルギー情報及び量子化に使われるビット割当て情報を出力する心理音響モデル2実行部と、前記FFT結果情報を利用して前記入力されたPCMオーディオデータからハーモニック成分を抽出するハーモニック成分抽出部と、前記抽出されたハーモニック成分をエンコーディングして出力するハーモニック成分エンコーディング部と、前記保存されたPCMオーディオデータから前記ハーモニック成分抽出部で抽出されたハーモニック成分を除去して前記知覚エネルギー情報によってMDCTを行うMDCT実行部と、前記MDCT実行された結果値を前記ビット割当て情報によって量子化する量子化部と、前記ハーモニック成分エンコーディング部から出力されたハーモニック成分データと前記量子化部から出力された量子化結果とをMPEGオーディオレイヤ3フォーマットに変換してパケット化するMPEGレイヤ3ビットストリーム生成部と、を含むハーモニック成分を利用したオーディオコーディング装置を提供する。
前記目的を解決するために本発明では、前記方法をコンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体を提供する。
以下、添付された図面を参照して本発明による望ましい一実施例を詳細に説明する。
図1は、MPEG1レイヤ3オーディオストリームのフォーマットである。
MPEG1レイヤ3オーディオストリームは、オーディオ復号単位(AAU:Audio Access Unit)100で構成されているので、AAU 100は、それぞれ単独に復号化されうる最小単位であって、常に一定のサンプル数のデータを圧縮して保存している。AAU 100は、ヘッダ110と誤りチェック(CRC:Cyclic Redundancy Check)120、オーディオデータ130及び補助データ140より構成される。
ヘッダ110には、同期ワード、ID情報、階層情報、保護ビットの有無情報、ビット率インデックス情報、サンプリング周波数情報、パッディングビットの有無情報、個別用途ビット、モード情報、モード拡張情報、著作権情報、原本か複写本かの情報及びエンファシス特性情報が入っている。
CRC 120は選択事項であって、その有無は、ヘッダ110で定義され、長さは16ビットである。
オーディオデータ130は、圧縮された音声データが入る部分である。
補助データ140は、オーディオデータ130の端部が一つのAAUの端部に達していない場合、残りの部分に保存されるデータを称すものであって、MPEGオーディオ以外の任意のデータが挿入されうる。
図2は、MPEG1レイヤ3オーディオストリームの生成装置のブロック図である。
PCMオーディオ信号入力部210は、PCMオーディオデータをバッファに入力される。この時、576サンプル単位で構成されたグラニュールを入力される。
心理音響モデル2実行部220は、前記PCMオーディオ信号入力部210のバッファに保存されているPCMオーディオデータを入力されて心理音響モデル2を実行する。DCT実行部230は、心理音響モデル2の実行と共に576サンプルのグラニュール単位でPCMオーディオデータを入力されてDCT演算を行う。
DCT実行部230がDCTを行った後、MDCT実行部240は、心理音響モデル2を適用した結果(例えば、知覚エネルギー情報)と前記DCT実行部230で実行されたDCT結果とをもってMDCT演算を行う。この時、知覚エネルギーが所定の臨界値より大きければ、短いウィンドウを使用してMDCT演算を行い、知覚エネルギーが所定の臨界値より小さければ、長いウィンドウを使用してMDCT演算を行う。
オーディオ信号の圧縮方法の一つである知覚符号化では、原信号と再生信号とが変わるが、人間の耳の特性を利用して人間が認知できない範囲の細部情報を省略できる。知覚エネルギーは、人間が認知できるエネルギーを表す。
量子化部250は、前記心理音響モデル2を適用した結果で発生するビット割当て情報とMDCT演算結果とをもって量子化を行う。そして、MPEG1レイヤ3ビットストリーム生成部260は、ハフマンコーディングを使用して前記量子化されたデータをMPEG1ビットストリームのオーディオデータ領域に入るデータに作る。
図3は、心理音響モデルでの演算過程を表す図面である。
PCMデータ576サンプルで構成されたグラニュールを入力され(310)、入力されたPCMオーディオデータに対して1024サンプル単位の長いウィンドウまたは256サンプル単位の短いウィンドウを構成する(320)。すなわち、多くのサンプルを集めて一つのパケットを構成する。
前記段階(320)で構成したウィンドウ単位でFFTを行う(330)。
そして、心理音響モデル2を適用する(340)。
心理音響モデル2を適用すれば、知覚エネルギー値が出るが、この結果をMDCT実行部に提供して適用されるウィンドウを選択するようにし、各臨界帯域に対するSMR(Signal to Masking Ratio)結果も出力して量子化部に提供して割当てられるビット数を決定するようにする(350)。
そして、前記知覚エネルギー情報値とSMR情報とをもってMDCT及び量子化を行う(360)。
図4は、本発明の低速MPEG1レイヤ3オーディオストリームの生成装置のブロック図である。
PCMオーディオ信号入力部410は、PCMオーディオデータをバッファに入力される。心理音響モデル2実行部420は、心理音響モデル2を行うが、この時、1024サンプル単位または256サンプル単位でFFTを行って知覚エネルギー及びビット割当て情報などを出力する。
心理音響モデル2を適用すれば、図3で説明したように、知覚エネルギー値とSMR結果とによるビット割当て情報が出る。そして、FFTも行うので、本発明では、このFFT結果を利用してハーモニック成分を抽出する。ハーモニック成分抽出部430は、前述したようにハーモニック成分を抽出する。詳細な過程は、図6で後述する。
ハーモニック成分エンコーディング部440は、前記抽出されたハーモニック成分をエンコーディングしてMPEG1レイヤ3ビットストリーム生成部に伝達する。これにより、量子化されたオーディオデータと共にMPEG1オーディオに作られる。ハーモニック成分をエンコーディングする詳細な過程は後述する。
ハーモニック成分デコーディング部450は、前記エンコーディングされたハーモニック成分をデコーディングする。それにより、時間ドメインでのPCMデータとなる。そして、MDCT実行部460は、前記デコーディングされたハーモニック成分を元来入力されたPCM信号から取り出し、その取り出した結果を入力さえてMDCTを行う。そして、心理音響モデル2から出力された前記知覚エネルギー情報値が所定の臨界値より大きければ、18サンプル単位でMDCTを行い、所定の臨界値より小さければ、36サンプル単位でMDCTを行う。
ハーモニック成分抽出は、周波数ドメインで羅列されたデータを入力されて心理音響モデル2の順音及び非順音の決定条件と聴覚限界特性とを利用して実行される。詳細な過程は後述する。
量子化部470は、前記心理音響モデル2実行部420でのビット割当て情報を使用して量子化を行う。MPEG1レイヤ3ビットストリーム生成部480は、前記ハーモニック成分エンコーディング部440で作られたハーモニック成分データと量子化されたオーディオデータとを共にハフマンコーディングを使用してパケット化して圧縮されたオーディオデータに作る。
図5は、心理音響モデル2でのハーモニック成分の抽出過程(510)とエンコーディング(520)及びデコーディング(530)過程を表す図面である。
心理音響モデル2で行う段階は、図3の心理音響モデル2と同じである。この過程でFFTを行うが、FFT結果をハーモニック成分の抽出に使用する。そして、ハーモニック成分をエンコーディングしてMPEG1ビットストリームに作る(520)。ハーモニック成分抽出過程(510)を、図6Aないし図6Dで例として説明する。
図6A、図6B、図6C及び図6Dは、心理音響モデル2でFFT結果を利用してハーモニック成分を抽出する時、各段階別サンプルが抽出される例を表す図面である。
図6Aのようなデータが入力されたと仮定した時、FFTを先に行って音圧を決定する。そして、前記音圧が求められた複数の入力されたPCMオーディオデータのうち何れか一つを選択して、そのデータの左右に存在するPCMオーディオデータ値が前記選択したPCMオーディオデータ値より小さな場合、前記選択したPCMオーディオデータのみを抽出する。そして、この過程を入力された全てのPCMオーディオデータに対して行う。
音圧は、周波数ドメインでのサンプルのエネルギー値であって、本発明では、ある程度以上の音圧を有するサンプルのみをハーモニック成分と判断する。それにより、図6Bのようなサンプルが抽出される。次いで、FFTの実行結果による音圧が所定のレベルより大きいもののみを抽出する。例えば、この所定のレベルを7.0dBと設定した場合に、この値より小さな値のサンプルは捨てられ、図6Cのようなサンプルのみが残る。残りのサンプルが何れもハーモニック成分と考慮されるものではなく、図7でのテーブルによって再び幾つかのサンプルのみが残る。したがって、最終的に図6Dのようなサンプルが残る。
図7は、K値による制限された周波数範囲を表す図表である。
Kを、周波数ドメインでサンプルの位置を表す値という時、K値が3より小さいか、または500より大きい場合、図7で提案された周波数範囲のレンジ値の範囲にあるサンプルの値は0となってしまう。同様に、K値が3より大きいか、または同じであり、63より小さな場合、K値が63より大きいか、または同じであり、127より小さな場合、K値が127より大きいか、または同じであり、255より小さな場合、K値が255より大きいか、または同じであり、500より小さな場合によって、図7と同じレンジ値が与えられる。
500を限界としたのは、人間の可聴周波数の限界を考慮したことであって、それ以上の周波数に該当するサンプル値は考慮せずとも結果に差がないということを仮定したものである。
結果的に、図6Dのサンプル値のみが残り、このサンプルをハーモニック成分と判断する。
ハーモニック成分のエンコーディング(520)は、振幅のエンコーディングと周波数のエンコーディング、そして位相のエンコーディングより構成される。
振幅のエンコーディングと周波数のエンコーディング、そして位相のエンコーディングに使われる数式は、次の通りである。
Figure 2005531014
Figure 2005531014
ここで、AmpMaxは、最大振幅を表し、Enc_peak_AmpMaxは、この値をエンコーディングした結果値である。そして、Ampは、最大振幅ではないそれ以外の振幅を表す。
振幅成分のエンコーディングは、まず、最大振幅を8ビットのログスケールでエンコーディングしてAmpMax値を最大振幅値に設定すれば、Enc_peak_AmpMaxは、前記数式1のように与えられ、それ以外の振幅は、5ビットのログスケールでエンコーディングされて前記数式2のように与えられる。
周波数位置のエンコーディングは、聴覚特性を考慮して、K値が最小58(2498Hz)から最大372(16KHz)までのみエンコーディングする。そして、372から58を減算すれば、314となるので、9ビットを使用してエンコーディングする。
位相のエンコーディングは、3ビットを使用してエンコーディングする。
前述したように、ハーモニック成分を抽出してエンコーディングした後、これをデコーディングしてMDCTを行う。
図8は、本発明のハーモニック成分を除去してオーディオストリームを作る過程を表す図面である。
まず、PCMオーディオデータを入力されて保存し(810)、保存された前記データに人間の可聴限界特性を利用した心理音響モデル2を適用して、FFT結果情報、入力されたデータに対する知覚エネルギー情報及び量子化に使われるビット割当て情報を出力する(820)。そして、前記FFT結果情報を利用して、前記入力されたPCMオーディオデータからハーモニック成分を抽出する(830)。
ハーモニック成分の抽出は、次の過程を経てなされる。前記FFT結果情報を利用して入力された複数のPCMオーディオデータそれぞれの音圧を求める。そして、前記音圧が求められた複数の入力されたPCMオーディオデータのうち何れか一つを選択して、そのデータの左右に存在するPCMオーディオデータ値が前記選択したPCMオーディオデータ値より小さな場合、前記選択したPCMオーディオデータのみを抽出する。そして、この過程を、入力された全てのPCMオーディオデータに対して行う。
そして、前記抽出したPCMオーディオデータのうち前記音圧が7.0dBより大きい値を有するPCMオーディオデータのみを抽出し、この抽出したオーディオデータで、図7の表を参照して、所定の範囲にあるPCMオーディオデータは捨てることによってハーモニック成分を抽出する。
次の段階で、前記抽出したハーモニック成分をエンコーディングして出力し(840)、エンコーディングされたハーモニック成分をデコーディングする(850)。
前記入力されたPCMオーディオデータから前記デコーディングされたハーモニック成分を取り出して前記知覚エネルギー情報によってMDCTを行う(860)。すなわち、知覚エネルギーが所定の臨界値より大きければ、短いウィンドウを使用してMDCTを行い、知覚エネルギーが所定の臨界値より小さければ、長いウィンドウを使用してMDCTを行う。例えば、前記知覚エネルギー情報値が所定の臨界値より大きければ、18サンプル単位でMDCTを行い、所定の臨界値より小さければ、36サンプル単位でMDCTを行う。
そして、前記実行されたMDCT結果値を前記ビット割当て情報によってビットを割当てて量子化する(870)。
これにより、量子化されたオーディオデータと前記エンコーディングされて出力されたハーモニック成分を入力されてハフマンコーディングしてオーディオパケットに作る(880)。
一方、前述した本発明の実施例は、コンピュータで実行されうるプログラムとして作成可能であり、コンピュータ可読記録媒体を利用して前記プログラムを動作させる汎用ディジタルコンピュータで具現されうる。
前記コンピュータ可読記録媒体は、マグネチック保存媒体(例えば、ROM、フロッピー(登録商標)ディスク、ハードディスクなど)、光学的判読媒体(例えば、CD ROM、DVDなど)及びキャリアウェーブ(例えば、インターネットを通じた伝送)のような保存媒体を含む。
以上、本発明についてその望ましい実施例を中心に説明した。当業者は、本発明が、本発明の本質的な特性から離脱しない範囲内で変形された形態で具現されうることが理解できる。したがって、開示された実施例は、限定的な観点ではなく、説明的な観点で考慮されなければならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に現れており、それと同等な範囲内にある全ての差異点は、本発明に含まれていると解釈されなければならない。
前述したように本発明は、低速のMPEG1レイヤ3オーディオストリームの生成時に発生する量子化ビット数の限界を克服し、複雑な計算過程を多く付加せずに心理音響モデル2で使用するFFT結果を利用して、入力オーディオ信号からハーモニック成分を除去し、過渡部分のみをMDCTを使用して圧縮することによって、低速のビット率で効率的にオーディオ信号を圧縮しうる。
MPEG1レイヤ3オーディオストリームのフォーマットである。 MPEG1レイヤ3オーディオストリームの生成装置のブロック図である。 心理音響モデルでの演算過程を表す図面である。 本発明の低速MPEG1レイヤ3オーディオストリームの生成装置のブロック図である。 心理音響モデル2でのハーモニック成分の抽出過程とエンコーディング及びデコーディング過程を表す図面である。 心理音響モデル2でFFT結果を利用してハーモニック成分を抽出する時、各段階別のサンプルが抽出される例を表す図面である。 心理音響モデル2でFFT結果を利用してハーモニック成分を抽出する時、各段階別のサンプルが抽出される例を表す図面である。 心理音響モデル2でFFT結果を利用してハーモニック成分を抽出する時、各段階別のサンプルが抽出される例を表す図面である。 心理音響モデル2でFFT結果を利用してハーモニック成分を抽出する時、各段階別のサンプルが抽出される例を表す図面である。 K値による制限された周波数範囲を表す図表である。 本発明のハーモニック成分を除去してオーディオストリームを作る過程を表す図面である。
符号の説明
100 オーディオ復号単位
110 ヘッダ
120 誤りチェック
130 オーディオデータ
140 補助データ

Claims (13)

  1. (a)PCMオーディオデータを入力されて心理音響モデル2を適用してハーモニック成分を抽出する段階と、
    (b)前記入力されたPCMオーディオデータから前記抽出されたハーモニック成分を除去してMDCTを行う段階と、
    (c)前記実行されたMDCT結果値を量子化し、前記抽出されたハーモニック成分と共にオーディオパケットに作る段階と、を含むハーモニック成分を利用したオーディオコーディング方法。
  2. (a)PCMオーディオデータを入力されて保存し、保存された前記データに人間の可聴限界特性を利用した心理音響モデル2を適用してFFT結果情報、入力されたデータに対する知覚エネルギー情報及び量子化に使われるビット割当て情報を出力する段階と、
    (b)前記FFT結果情報を利用して前記入力されたPCMオーディオデータからハーモニック成分を抽出する段階と、
    (c)前記抽出したハーモニック成分をエンコーディングして出力し、エンコーディングされたハーモニック成分をデコーディングする段階と、
    (d)前記(a)段階で保存されたPCMオーディオデータから前記(c)段階でデコーディングされたハーモニック成分を取り出して前記知覚エネルギー情報によってMDCTを行う段階と、
    (e)前記実行されたMDCT結果値を前記ビット割当て情報によってビットを割当てて量子化する段階と、
    (f)前記エンコーディングされて出力されたハーモニック成分と前記量子化されたMDCT結果値とをオーディオパケットに作る段階と、を含むハーモニック成分を利用したオーディオコーディング方法。
  3. 前記(b)段階は、
    (b1)前記FFT結果情報を利用して入力された複数のPCMオーディオデータそれぞれの音圧を求める段階と、
    (b2)前記音圧が求められた複数のPCMオーディオデータのうち何れか一つを選択して、そのデータの左右に存在するPCMオーディオデータ値が前記選択したPCMオーディオデータ値より小さな場合、前記選択したPCMオーディオデータのみを1次抽出する段階と、
    (b3)前記(b2)段階を入力された全てのPCMオーディオデータに対して行う段階と、
    (b4)前記抽出したPCMオーディオデータのうち前記音圧が所定の音圧より大きい値を有するPCMオーディオデータのみを2次抽出する段階と、
    (b5)前記(b4)段階で2次抽出したPCMオーディオデータのうち、周波数位置によって所定の範囲にあるPCMオーディオデータは捨てる段階と、を含んでハーモニック成分を抽出することを特徴とする請求項2に記載のハーモニック成分を利用したオーディオコーディング方法。
  4. 前記(b4)段階において、
    所定の音圧は、7.0dBであることを特徴とする請求項3に記載のハーモニック成分を利用したオーディオコーディング方法。
  5. 前記(d)段階において、
    前記知覚エネルギー情報値が所定の臨界値より大きければ、18サンプル単位でMDCTを行い、所定の臨界値より小さければ、36サンプル単位でMDCTを行うことを特徴とする請求項2に記載のハーモニック成分を利用したオーディオコーディング方法。
  6. PCMオーディオデータを入力されて保存するPCMオーディオデータ保存部と、
    前記保存されたPCMオーディオを入力されて心理音響モデル2を行ってFFT結果情報、入力されたデータについての知覚エネルギー情報及び量子化に使われるビット割当て情報を出力する心理音響モデル2実行部と、
    前記FFT結果情報を利用して前記入力されたPCMオーディオデータからハーモニック成分を抽出するハーモニック成分抽出部と、
    前記抽出されたハーモニック成分をエンコーディングして出力するハーモニック成分エンコーディング部と、
    前記保存されたPCMオーディオデータから前記ハーモニック成分抽出部から抽出されたハーモニック成分を除去して前記知覚エネルギー情報によってMDCTを行うMDCT実行部と、
    前記MDCT実行された結果値を前記ビット割当て情報によって量子化する量子化部と、
    前記ハーモニック成分エンコーディング部から出力されたハーモニック成分データと前記量子化部から出力された量子化結果とをMPEGオーディオレイヤ3フォーマットに変換してパケット化するMPEGレイヤ3ビットストリーム生成部と、を含むハーモニック成分を利用したオーディオコーディング装置。
  7. 前記ハーモニック成分抽出部は、
    前記FFT結果情報を利用して入力された複数のPCMオーディオデータそれぞれの音圧を求め、前記音圧が求められた複数のPCMオーディオデータのうち何れか一つを選択して左右に存在するPCMオーディオデータ値が前記選択したPCMオーディオデータ値より小さな場合、前記選択したPCMオーディオデータのみを1次抽出し、
    この抽出する過程を全てのPCMオーディオデータに対して行った後、前記PCMオーディオデータの音圧が所定の音圧より大きい値を有するPCMオーディオデータのみを2次抽出し、
    前記抽出したオーディオデータのうち周波数位置によって所定の範囲にあるPCMオーディオデータは捨てることによってハーモニック成分を抽出することを特徴とする請求項6に記載のハーモニック成分を利用したオーディオコーディング装置。
  8. 前記MDCT実行部は、
    前記知覚エネルギー情報値が所定の臨界値より大きければ、18サンプル単位でMDCTを行い、所定の臨界値より小さければ、36サンプル単位でMDCTを行うことを特徴とする請求項6に記載のハーモニック成分を利用したオーディオコーディング装置。
  9. (a)PCMオーディオデータを入力されて心理音響モデル2を適用してハーモニック成分を抽出する段階と、
    (b)前記入力されたPCMオーディオデータから前記抽出されたハーモニック成分を除去してMDCTを行う段階と、
    (c)前記行われたMDCT結果値を量子化し、前記抽出されたハーモニック成分と共にオーディオパケットに作る段階と、を含むハーモニック成分を利用したオーディーコーディング方法をコンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体。
  10. (a)PCMオーディオデータを入力されて保存し、保存された前記データに人間の可聴限界特性を利用した心理音響モデル2を適用してFFT結果情報、入力されたデータに対する知覚エネルギー情報及び量子化に使われるビット割当て情報を出力する段階と、
    (b)前記FFT結果情報を利用して前記入力されたPCMオーディオデータからハーモニック成分を抽出する段階と、
    (c)前記抽出したハーモニック成分をエンコーディングして出力し、エンコーディングされたハーモニック成分をデコーディングする段階と、
    (d)前記(a)段階で保存されたPCMオーディオデータから前記(c)段階でデコーディングされたハーモニック成分を取り出して前記知覚エネルギー情報によってMDCTを行う段階と、
    (e)前記実行されたMDCT結果値を前記ビット割当て情報によってビットを割当てて量子化する段階と、
    (f)前記エンコーディングされて出力されたハーモニック成分と前記量子化されたMDCT結果値とをオーディオパケットに作る段階と、を含むハーモニック成分を利用したオーディオコーディング方法をコンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体。
  11. 前記(b)段階は、
    (b1)前記FFT結果情報を利用して入力された複数のPCMオーディオデータそれぞれの音圧を求める段階と、
    (b2)前記音圧が求められた複数のPCMオーディオデータのうち何れか一つを選択して、そのデータの左右に存在するPCMオーディオデータ値が前記選択したPCMオーディオデータ値より小さな場合、前記選択したPCMオーディオデータのみを1次抽出する段階と、
    (b3)前記(b2)段階を入力された全てのPCMオーディオデータに対して行う段階と、
    (b4)前記抽出したPCMオーディオデータのうち前記音圧が所定の音圧より大きい値を有するPCMオーディオデータのみを2次抽出する段階と、
    (b5)前記(b4)段階で2次抽出したPCMオーディオデータのうち、周波数位置によって所定の範囲にあるPCMオーディオデータは捨てる段階と、を含んでハーモニック成分を抽出することを特徴とする請求項10に記載のハーモニック成分を利用したオーディオコーディング方法をコンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体。
  12. 前記(b4)段階において、
    所定の音圧は、7.0dBであることを特徴とする請求項11に記載のハーモニック成分を利用したオーディオコーディング方法をコンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体。
  13. 前記(d)段階において、
    前記知覚エネルギー情報値が所定の臨界値より大きければ、18サンプル単位でMDCTを行い、所定の臨界値より小さければ、36サンプル単位でMDCTを行うことを特徴とする請求項11に記載のハーモニック成分を利用したオーディオコーディング方法をコンピュータで実行させるためのプログラムを記録したコンピュータ可読記録媒体。
JP2003562916A 2002-06-27 2002-12-12 ハーモニック成分を利用したオーディオコーディング方法及び装置 Pending JP2005531014A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2002-0036310A KR100462611B1 (ko) 2002-06-27 2002-06-27 하모닉 성분을 이용한 오디오 코딩방법 및 장치
PCT/KR2002/002348 WO2003063135A1 (en) 2002-06-27 2002-12-12 Audio coding method and apparatus using harmonic extraction

Publications (2)

Publication Number Publication Date
JP2005531014A true JP2005531014A (ja) 2005-10-13
JP2005531014A5 JP2005531014A5 (ja) 2006-07-13

Family

ID=27607091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003562916A Pending JP2005531014A (ja) 2002-06-27 2002-12-12 ハーモニック成分を利用したオーディオコーディング方法及び装置

Country Status (9)

Country Link
US (1) US20040002854A1 (ja)
JP (1) JP2005531014A (ja)
KR (1) KR100462611B1 (ja)
CN (1) CN1262990C (ja)
CA (1) CA2490064A1 (ja)
DE (1) DE10297751B4 (ja)
GB (1) GB2408184B (ja)
RU (1) RU2289858C2 (ja)
WO (1) WO2003063135A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120097A1 (en) * 2004-03-30 2008-05-22 Guy Fleishman Apparatus and Method for Digital Coding of Sound
WO2007075098A1 (en) 2005-12-26 2007-07-05 Intel Corporation Generalized multi-threshold decoder for low-density parity check codes
WO2005096509A1 (en) 2004-03-31 2005-10-13 Intel Corporation Multi-threshold message passing decoding of low-density parity check codes
KR20070083856A (ko) * 2004-10-28 2007-08-24 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법
CN101091321A (zh) 2004-12-29 2007-12-19 英特尔公司 用于低密度奇偶校验码的多门限解码的固定门限和信道估计
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
JP4720302B2 (ja) * 2005-06-07 2011-07-13 トヨタ自動車株式会社 自動変速機のクラッチ装置
KR100684029B1 (ko) * 2005-09-13 2007-02-20 엘지전자 주식회사 푸리에 변환을 이용한 배음 생성 방법 및 이를 위한 장치,다운 샘플링에 의한 배음 생성 방법 및 이를 위한 장치와소리 보정 방법 및 이를 위한 장치
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
CA2691993C (en) 2007-06-11 2015-01-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US8631060B2 (en) 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
RU2464540C2 (ru) * 2007-12-13 2012-10-20 Квэлкомм Инкорпорейтед Быстрые алгоритмы для вычисления 5-точечного dct-ii, dct-iv и dst-iv, и архитектуры
CN101552005A (zh) * 2008-04-03 2009-10-07 华为技术有限公司 编码方法、解码方法、系统及装置
PT2301019T (pt) 2008-07-11 2017-12-26 Fraunhofer Ges Forschung Codificador de áudio e descodificador de áudio
EP4372744A1 (en) 2008-07-11 2024-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
CN101751928B (zh) * 2008-12-08 2012-06-13 扬智科技股份有限公司 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
ES2610163T3 (es) * 2009-10-20 2017-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, método para codificar información de audio, método para decodificar información de audio y programa de computación que utiliza una reducción de tamaño de intervalo interactiva
CN103493129B (zh) * 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
EP2707875A4 (en) * 2011-05-13 2015-03-25 Samsung Electronics Co Ltd NOISE REDUCTION AND AUDIO CODING
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
CN103516440B (zh) 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02204800A (ja) * 1988-04-08 1990-08-14 American Teleph & Telegr Co <Att> スピーチ処理と合成方法及びその装置
JPH0364800A (ja) * 1989-08-03 1991-03-20 Ricoh Co Ltd 音声符号化及び復号化方式
JPH09181611A (ja) * 1995-12-23 1997-07-11 Nec Corp 信号符号化装置及び方法
JPH10178349A (ja) * 1996-12-19 1998-06-30 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法および復号方法
WO2000051243A1 (en) * 1999-02-24 2000-08-31 Soo Geun You A backward decoding method of digital audio data
JP2000267700A (ja) * 1999-03-17 2000-09-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266920B2 (ja) * 1991-09-25 2002-03-18 三菱電機株式会社 音声符号化装置及び音声復号化装置並びに音声符号化復号化装置
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
KR100395190B1 (ko) * 1993-05-31 2003-08-21 소니 가부시끼 가이샤 신호 부호화 또는 복호화 장치, 및 신호 부호화 또는복호화 방법
PL174314B1 (pl) * 1993-06-30 1998-07-31 Sony Corp Sposób i urządzenie do dekodowania sygnałów cyfrowych
JPH0736486A (ja) * 1993-07-22 1995-02-07 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
JPH09246983A (ja) * 1996-03-08 1997-09-19 Nec Eng Ltd ディジタル信号処理装置
KR19980072457A (ko) * 1997-03-05 1998-11-05 이준우 오디오 신호의 압축시 심리음향에서의 신호처리방법 및 그 장치
US5930373A (en) * 1997-04-04 1999-07-27 K.S. Waves Ltd. Method and system for enhancing quality of sound signal
DE19742201C1 (de) * 1997-09-24 1999-02-04 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
JP2000276194A (ja) * 1999-03-25 2000-10-06 Yamaha Corp 波形圧縮方法及び波形生成方法
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
JP4055336B2 (ja) * 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
KR100348899B1 (ko) * 2000-09-19 2002-08-14 한국전자통신연구원 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
KR100378796B1 (ko) * 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
KR100472442B1 (ko) * 2002-02-16 2005-03-08 삼성전자주식회사 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02204800A (ja) * 1988-04-08 1990-08-14 American Teleph & Telegr Co <Att> スピーチ処理と合成方法及びその装置
JPH0364800A (ja) * 1989-08-03 1991-03-20 Ricoh Co Ltd 音声符号化及び復号化方式
JPH09181611A (ja) * 1995-12-23 1997-07-11 Nec Corp 信号符号化装置及び方法
JPH10178349A (ja) * 1996-12-19 1998-06-30 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法および復号方法
WO2000051243A1 (en) * 1999-02-24 2000-08-31 Soo Geun You A backward decoding method of digital audio data
JP2002538503A (ja) * 1999-02-24 2002-11-12 スグン ユー ディジタルオーディオデータの逆方向デコーディング方法
JP2000267700A (ja) * 1999-03-17 2000-09-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置

Also Published As

Publication number Publication date
CN1262990C (zh) 2006-07-05
CA2490064A1 (en) 2003-07-31
GB2408184A (en) 2005-05-18
CN1639769A (zh) 2005-07-13
DE10297751B4 (de) 2005-12-22
RU2289858C2 (ru) 2006-12-20
RU2004138088A (ru) 2005-06-27
GB2408184B (en) 2006-01-04
US20040002854A1 (en) 2004-01-01
WO2003063135A1 (en) 2003-07-31
KR100462611B1 (ko) 2004-12-20
GB0427660D0 (en) 2005-01-19
DE10297751T5 (de) 2005-07-07
KR20040001184A (ko) 2004-01-07

Similar Documents

Publication Publication Date Title
KR100462611B1 (ko) 하모닉 성분을 이용한 오디오 코딩방법 및 장치
KR100868763B1 (ko) 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP5266341B2 (ja) オーディオ信号処理方法及び装置
KR100634506B1 (ko) 저비트율 부호화/복호화 방법 및 장치
JP5048680B2 (ja) オーディオ信号の符号化及び復号化方法、オーディオ信号の符号化及び復号化装置
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
JP2005157390A (ja) 付加情報の挿入されたmpeg−4bsacオーディオビットストリームの符号化方法および復号化方法ならびに符号化装置および復号化装置
US20060100885A1 (en) Method and apparatus to encode and decode an audio signal
JP5390690B2 (ja) 音声コーデックの品質向上装置およびその方法
JP2005531014A5 (ja)
JP5587599B2 (ja) 量子化方法、符号化方法、量子化装置、符号化装置、逆量子化方法、復号化方法、逆量子化装置、復号化装置、処理装置
JP4657570B2 (ja) 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
KR100707173B1 (ko) 저비트율 부호화/복호화방법 및 장치
JP3353868B2 (ja) 音響信号変換符号化方法および復号化方法
JP2004184975A (ja) 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置
KR101261524B1 (ko) 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR100668299B1 (ko) 구간별 선형양자화를 이용한 디지털 신호 부호화/복호화방법 및 장치
KR100754389B1 (ko) 음성 및 오디오 신호 부호화 장치 및 방법
KR100928966B1 (ko) 저비트율 부호화/복호화방법 및 장치
KR100433984B1 (ko) 디지털 오디오 부호화/복호화 장치 및 방법
KR20080112000A (ko) 음색 유사성을 활용한 부호화/복호화 방법
KR100940532B1 (ko) 저비트율 복호화방법 및 장치
JP2001324996A (ja) Mp3音楽データ再生方法及び装置
JP2003195896A (ja) オーディオ復号装置及びその復号方法並びに記憶媒体
Arensman MP3 Audio Compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090518

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100609

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803