JP2001500640A - オーディオ信号の符号化方法 - Google Patents

オーディオ信号の符号化方法

Info

Publication number
JP2001500640A
JP2001500640A JP11506194A JP50619499A JP2001500640A JP 2001500640 A JP2001500640 A JP 2001500640A JP 11506194 A JP11506194 A JP 11506194A JP 50619499 A JP50619499 A JP 50619499A JP 2001500640 A JP2001500640 A JP 2001500640A
Authority
JP
Japan
Prior art keywords
noise
spectral
audio signal
signal
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11506194A
Other languages
English (en)
Other versions
JP3577324B2 (ja
Inventor
ヘッレ,ユルゲン
グブル,ウヴェ
エーレット,アンドレアス
ディーツ,マルティン
テイクマン,ボド
クンツ,オリベール
ブランデンバーグ,カールヘインツ
ゲルヘウザー,ヘインツ
Original Assignee
フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=7835664&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2001500640(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. filed Critical フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー.
Publication of JP2001500640A publication Critical patent/JP2001500640A/ja
Application granted granted Critical
Publication of JP3577324B2 publication Critical patent/JP3577324B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】 オーディオ信号を符号化し解号化する方法であって、TNS処理とノイズ置換との利点を組み合わせている。時間不連続オーディオ信号がまず周波数領域に移送されて、時間オーディオ信号のスペクトル値が得られる。爾後周波数に関連してのスペクトル値の予測が実施されて、スペクトル残留値を得る。該スペクトル残留値中において、ノイズ性を具えたスペクトル残留値を囲繞する領域が検出される。ノイズ領域中のスペクトル残留値はノイズ置換される。その際にノイズ領域とノイズ置換に関する情報が符号化されたオーディオ信号に属する副情報中に導入される。

Description

【発明の詳細な説明】 オーディオ信号の符号化方法 この発明はオーディオ信号の符号化方法に関するものであり、特に現在開発中 の標準MPEG−2AACのためのオーディオ信号の符号化方法に関するもので ある。 標準化組織ISO/IEC JTCI/SC29/WGII(またの名を映画 専門家グループ(MPEG)という)は1988年に創立されたものであり、低 データ速度のためのデジタル・ビデオおよびオーディオ符号化方式を特定するた めのものである。最初の特定化は標準MPEG−1により1992年11月に完 成された。MPEG−1(ISO 11172−3に特定化されている)による オーディオ符号化システムはサンプリング周波数32kHz、44.1kHzお よび48kHzで1または2−チャンネルステレオ・モードで動作するものであ る。 標準MPEG―1は、国際通信ユニオンに特定されているように、チャンネル 当り128kb/sのデータ速度で放送品質を与える。 開発の第2の局面においては、MPEGの目的はMPEG−1−オーディオの ためにマルチ・チャンネル拡大の特定化にあり、現存のMPEG−1システムに 対して後退両立可能(backward−compatible)であるものと 想定される。またMPEG−1におけるよりも低いサンプリング周波数(16k Hz、22.5kHz、24kHz)におけるオーディオ符号化標準の特定化に もるものと考えられる。後退両立可能標準(MPEG−2 BC)および低サン プリング周波数標準(MPEG−2 LSF)は1994年11月に完成された のである。 全帯域幅の5チャンネルのために640〜896kb/sのデータ速度でMPE G−2 BCは良好なオーディオ品質を与えるものである。さらにMPEG−2 オーディオ標準化委員会の努力は、MPEG−1への後退両立可能性が要求され たときに得られるものより高品質のマルチ・チャンネル標準の特定化、に向け られた。このMPEG−2による非両立可能性オーディオ標準はMPEG−2N BCと命名された。この開発の目的は、各チャンネルが全帯域幅を有する5チャ ンネルオーディオ信号のための384kb/s以下のデータ速度でのITU−R 要求に応じた放送品質を得ること、にある。オーディオ符号化標準MPEG−2 NBCは1997年4月に完成された。 方式MPEG−2 NBCおよびMPEG−4はすでに計画されたより高いデ ータ速度(データチャンネル当り40kb/sを越える)を有するであろうオー ディオ標準の核心をなすものである。NBCまたは非両立可能性オーディオ標準 は高解像度フィルター・バンク、予測技術および剰余低減ホフマン符号化を組み 合わせたもので、非常に低いデータ速度で放送品質のオーディオ符号化を得よう とするものである。標準MPEG−2 NBCはまたMPEG−2 NBC A AC(AAC=上級オーディオ符号化)とも呼ばれている。MPEG−2 AA Cの技術的詳細は、M.Bosi、K.Brandenburg、S.Quac kenbush、L.Fielder、K.Akagiri、H.Fuchs、 M.Dietz、J.Herre、G.Davidson、Yoshiaki Oikawa:「ISO/IEC MPEG−2 高級オーディオ符号化」、1 01番、AES Convention、Los Angels 1996、予 原稿4382に記載されている。 効率的なオーディオ符号化方法はオーディオ信号から冗長性(redunda ncies)と無関係性(irrelevancies)とをともに除くもので ある。オーディオ・サンプリング値とサンプル値表示確率との相関関係は冗長性 を除くべく開発されている。人間聴取システムの周波数範囲および時間範囲マス キング性能(masking properties)が、受容し難い信号成分 (無関係性)を除くために、開発されている。オーディオ信号の周波数含有内容 はフィルター・バンクにより部分的な帯域に分割されている。データ速度の低減 は、心理−音響モデルに応じた時間信号の量子化、により達成される。かつこの 低減は非損失符号化方法を含んでいる。 一般的に言うと、時間連続オーディオ信号をサンプリングするのは時間不連続 オーディオ信号を得るためである。時間不連続オーディオ信号はウインドウ機能 によりウインドウに掛けられ、特定数(例えば1024個)のウインドウされた 時間不連続サンプリング値の連続ブロックまたはフレームを得る。各ウインドウ された時間不連続サンプリング値のブロックは周波数範囲に連続的に変換され、 このためには例えば変形コサイン変換(MDCT)が用いられる。かくして得ら れたスペクトル値はまだ量子化されておらず、したがって量子化の必要がある。 そのようにする主たる目的はスペクトル値を、量子化された信号それ自身により 量子化ノイズがマスクまたは覆われるように、量子化することにある。 そのためにはMPEG AACに記載された心理音響モデルが使用される。こ れは人間の耳の特殊な性質を考慮して、存在するオーディオ信号に基づいてマス キングしきい値を算出するものである。ついでスペクトル値が量子化されるが、 この際に導入された量子化ノイズが隠されて非可聴となるように量子化を行うの である。したがって量子化は可聴ノイズを齎すことはないのである。 NBC標準は所謂非均一量子化器を利用する。これに加えて、量子化ノイズを 成形するべくある方法が用いられる。先行する諸標準と同じように、NBC標準 もスケール・ファクター帯域として知られているスペクトル係数群の個別増幅を 使用する。可能な限り効率よく作業すべく、量子化ノイズはユニットに成形する のが望ましく、該ユニットはできる限り人間の聴取システムの周波数群に合致す るように構成されている。 かくして周波数群の帯域をなるべく近く反映するようにスペクトル値を群にす ることが可能である。個々のスケール・ファクター帯域は1.5dBのステップ のスケール・ファクターにより増幅できる。増幅された係数がより高い振幅を有 するようにノイズ成形は行われる。したがって、量子化後はより高い信号−ノイ ズ比を示す。他方、高い増幅は符号化のためにより多くのビットを必要とする。 すなわちスケール・ファクター帯域間のビット分布は暗黙のうちに変更される。 スケール・ファクターによる増幅は勿論デコーダー中で修正する必要がある。こ の理由からして、1.5dBユニット中のスケール・ファクター中に記憶されて いる増幅情報は副情報としてデコーターに伝達されなければならない。 スケール・ファクター帯域中のスペクトル値の量子化の後(ときにはスケール ・ファクターにより増幅された)、スペクトル値は符号化される。非ノイズ符号 化 モジュールへの入力信号は例えば1024量子化スペクトル係数のセットである 。非ノイズ符号化モジュールにより、1024の量子化スペクトル係数のセット はセクションに分割される。この差異には各セクションを符号化するのに単一ホ フマン符号化テーブル(コードブック)が採用される。符号化効率のために、セ クションの限界はただ1個のスケール・ファクター帯域限界を与えられ、スペク トルの各セクションに、スケール・ファクター帯域中のセクションの長さとホフ マン符号化テーブルとが副情報として伝達されなければならない。 セクションの形成は動的であって、量子化されたスペクトル計数の全セットを 表示するのに必要なビット数が最小になるように、ブロックからブロックへと変 動する。n−タプルの量子化係数の表示にはホフマン符号化が使われるが、ホフ マン・コードは12個の符号化テーブルのひとつから引き出される。各ホフマン 符号化テーブルにより表示されることのできる量子化係数の最大絶対値と各符号 化テーブルのための各n−タプルにおける係数の個数とは最初から特定化される ものである。 セクションを形成する理由は、単一のホフマン符号化テーブルによってセクシ ョンのためのできる限り高い符号化ゲインを得るために、同じ信号確率を有した 群領域にある。この符号化ゲインは一般に符号化前後のビットの商により特定さ れる。NBC方式に用いられるビット・フロー中の符号化テーブル数(コードブ ック数)により、12個のホフマン符号化テーブルのひとつに照合が行われて、 これにより特定のセクションのための最高の符号化ゲインが可能となる。 この明細書における「符号化テーブル数」とは符号化テーブル数のために確保 されたビット・フロー構造中の場所を指している。二進数の11個の異なる符号 化テーブル数を符号化するためにに、4個のビットが必要とされる。これらの4 ビットは各セクション(つまりスペクトル値の各群)に副情報として伝達されな ければならず、これによりデコーダーは解号のために対応する正しい符号化テー ブルを選択できる。 図2に示すのは上記した原理によって動作するコーダーとデコーダーの概要を 示すものである。好ましくはすでに時間不連続な態様で存在するオーディオ信号 がオーディオ入力端200を介して入力される。ついで時間不連続オーディオ信 号はブロック202(分析フィルター・バンクでありウインドウ機能を具えてい る)において、やはり「フレーム」と呼ばれる時間不連続なウインドウ処理され たオーディオ信号のブロックを得るべく、ウインドウ処理される。 分析フィルター・バンク202において、ウインドウ処理された値は周波数範 囲に変換される。かくして分析フィルター・バンク202の出力端にはスペクト ル値が現れるが、これはまず量子化符号化ブロック204において量子化され、 ついで例えばホフマン符号化により冗長符号化される。さらにオーディオ入力端 200における時間不連続オーディオ入力信号から量子化に用いられるマスキン グ情報が算出され、それによりスペクトル値を量子化するために導入された量子 化ノイズが心理音響的にマスキングまたは被覆される。 量子化されかつ符号化されたスペクトル値は、コーダーの場合には、ビット・ フロー・マルチプレクサー208に供給されて量子化されてかつ冗長符号化され たスペクトル値をビット・フローに形成する。このビット・フローは公知のよう に解号に必要な副情報を含んでいる。完成された符号化ビット・フローは出力端 210に現われ、入力端200におけるオーディオ信号の符号化バージヨン(v ersion)を構成している。このビット・フローはデコーダーに伝達されて そのビット・フロー入力端212に入る。ビット・フロー・デマルチプレクサー 214においてビット・フローは副情報と量子化符号化スペクトル値とに分解さ れる。これらは逆量子化ブロック216において冗長符号化されかつ再量子化さ れる。ついで合成フィルター・バンク218に供給されて、その入力端に存在す るスペクトル値は時間範囲に戻り変換される。このとき符号化および解号オーデ ィオ信号はデコーダーの出力端220に存在する。この出力端220の符号化お よび解号オーディオ信号は、、符号化エラーは別として、入力端200における 当初の時間不連続オーディオ信号に相当する。 所謂「時間的ノイズ成形」技術についてもすでに公知文献がある(J.Her re、J.D.Johnston「時間的ノイズ成形(TNS)による知覚可聴 コーダーの挙動向上」101番、AES Convention、Los An geles、1996、予原稿4384)。一般的に言うとTNS(時間的ノイ ズ成形)技術はスペクトル値の予測的符号化により量子化ノイズの微細構造を時 間的に成形するものである。 TNS技術は時間と周波数範囲との間の二元性(dualism)の結果的な 採用に基礎を置いている。周波数範囲に変換されたときの時間信号の自動相関機 能は正確にこの時間信号のスペクトル力密度を示している。信号のスペクトルの 自動相関機能が形成されて時間範囲に変換されたとき、それに関して二元性が起 きてくるのである。時間範囲に変換された自動相関機能またはそれから戻り変換 された自動相関機能は時間信号のヒルベルト包絡曲線の二乗(square o f the Hilbert envelope curve)とも呼ばれてい る。したがって信号のヒルベルト包絡曲線はそのスペクトルの自動相関機能に関 連している。 信号の二乗ヒルベルト包絡曲線およびスペクトル力密度は時間範囲および周波 数範囲で二元性を呈することになる。信号のヒルベルト包絡曲線が各部分的帯域 信号について一定の周波数範囲に亙って定常であるときには、隣接するスペクト ル値間の自動相関は同様に定常である。すなわち周波数に関連して一連のスペク トル係数は静的であり、これがなぜ、予測係数の共通のセットを利用して信号を 表現するために、予測的符号化技術が効率よく使用されるかの理由である。 上記の事実を図5a、5bにより説明する。図5aに示すのは期間が約40m sの「カスタネット型」の信号の短期セクションであって、時間的に高度に一過 性のものである。この信号は数個の部分的な帯域信号に分割され、各部分的帯域 信号の帯域幅は500Hzである。図5は中心周波数が1500〜4000Hz の範囲にあるこれらの帯域信号のヒルベルト包絡曲線を示すものである。明確に するために全ての包絡曲線はその最大振幅に正規化されている。全ての部分的包 絡曲線の形状は明らかに互いに関連を有しており、したがってこの周波数範囲内 で共通の予測器を用いて信号を効率的に符号化するもとができる。同じような観 察が音声信号についてもなし得るのであり、そこでは、人間の会話形成メカニズ ムの性質の故に、声門の刺激パルスが全周波数範囲に存在するのである。 図5は隣接する値の相関を示すもので、例えば周波数2000Hzにおけるも のは周波数3000Hzまたは1000Hzにおけるそれとそれぞれ同じである 。 これに代えて一過性信号のスペクトル予測可能性の性質は図4からも理解する ことができる。表中の上左には、正弦波経路を有した時間連続信号u(t)が示 されている。その反対側には、この信号のスペクトルU(f)が示されており、 これは単一のディラック・パルスから構成されている。この信号の最適な符号化 は全ての時間信号についてスペクトルデータまたはスペクトル値を符号化すれば よい。なぜならフーリエ関数の量および位相を伝達して時間信号を完全に再構築 する必要があるからである。同時にスペクトル値の符号化は時間範囲における予 測に相当する。かくして、時間範囲中で予測的符号化を行う必要がある。正弦波 時間信号は平らな時間的な包絡曲線を有し、これが最大値において平らではない 周波数範囲中の包絡曲線に対応するのである。 以下に上記とは逆の場合を考察する。すなわち時間信号u(t)が時間範囲中 のディラック・パルスの形である最大一過性信号である場合である。時間範囲内 でのディラック・パルスは「平らな」パワー・スペクトルに相当する。一方位相 スペクトルはパルスの一時的な位置に応じて回転している。上記した従来の手法 (例えば伝達符号化またはスペクトルデータの符号化または時間範囲データの線 形予測符号化)の場合にはこの信号は明らかに問題となる。この信号は時間範囲 において最もよくかつ最も効率的に符号化することができる。なぜならば、ディ ラック・パルスの時間的な位置とパワーのみが伝達必要であって、これは二元性 の結果的な適用により、時間範囲における予測的な符号化が効率的な符号化に適 合した手法を与える結果になる。 ここで、周波数に関連してスペクトル係数を予測的に符号化することを、ブロ ックからブロックへとスペクトル係数を予測する二元的概念と、混同しないこと が重要である。なお後者の手法は前記したM.Bosi、K.Brandenb urg、S.Quackerbush、L.Fielder、K.Akagir i、H.Fuchs、M.Diets、J.Herre、G.Davidson 、Yoshiaki Oikawa:「ISO MPEG−2 高級オーディオ 符号化」、101番、AES Convention、Los Angels、 1996、予原稿4382に記載されている。ブロックからブロックへとスペク トル係数を予測する際には(これは時間に関連しての予測に相当する)、スペク トル解像度は増加される。ところが周波数に関連してスペクトル値を予測する際 に は、時間的な解像度は向上する。例えば1000Hzにおけるスペクトル係数は 、例えば同じブロックまたはフレーム中の900Hzにおけるスペクトル係数に より決定することができる。 このような考察により一過性の信号のための効率的な符号化方法が得られるの である。時間と周波数範囲との間の二元性を考慮しての予測定符号化技術は、公 知のあるスペクトル係数から同じ周波数のつぎのブロック中のスペクトル係数の 予測と、実質的に同じに扱うことができる。スペクトルパワー密度と信号の二乗 ヒルベルト包絡曲線とは互いに二元性を有しており、従来の予測方法の場合のス ペクトル平坦度とは対照的に、信号の二乗ヒルベルト包絡曲線に応じて残留信号 エネルギーまたは予測ゲインの低減が得られるのである。潜在的な符号化ゲイン は増加的に一過性の信号については増加する。 可能な予測方式としてはクローズド・ループ予測方式(後前方向予測とも呼ば れる)とオープン・ループ予測方式(前方向予測とも呼ばれる)とがある。クロ ーズド・ループによるスペクトル予測方式(後前方向予測)の場合には、エラー の包絡曲線が平らである。換言すると、エラー信号エネルギーが時間に関して均 一に分布されている。 しかし前方向予測の場合には図6に示すように、量子化によりもたらされたノ イズの時間的な成形が起きる。予測されるべきスペクトル係数x(f)が加算点 600に供給される。したがって同じスペクトル係数が予測器610に供給され て、負号を伴ったその出力信号が同様に加算点600に供給される。かくして量 子化器520への入力信号はスペクトル値x(f)と予測により算出されたスペ クトル値xP(f)との差を示している。 前方向予測にあっては、解号されたスペクトル係数中の全エラー・エネルギー が同じままで残る。量子化エラ一信号の時間的な形状はデコーダーの出力端に一 時的に現れる。なぜならスペクトル係数に関しての予測が採用されたからである 。ここで量子化ノイズは実際の信号の下側に一時的に置かれてマスクされる。こ の方法により例えば一過性信号または音声信号における時間マスクの問題が回避 される。 このようなスペクトル値の予測符号化はTNSまたは一時的ノイズ成形技術と 呼ばれる。これを図7に示す。図7a中の上左側には高度に一過性の時間信号の 時間曲線が示されている。図中上右側にはこれに対してDCTスペクトルの部分 が示されている。図7中の下左側にはLPC作業(LPC=線形予測符号化)に より算出された結果のTNS合成フィルターの周波数応答が示されている。ここ でこの図表中の(標準)周波数座標は時間範囲と周波数範囲との二元性による時 間座標に相当する。 LPC算出は明らかに入力信号の「ソースモデル」に至るものである。なぜな らLPC算出合成フィルターの周波数応答は高度に一過性の時間信号の包絡曲線 と同じだからである。図7a中下右側には図6中の量子化器620の入力信号の スペクトル残留値が周波数に関連して示されている。予測後のスペクトル残留値 と直接時間−周波数変換のスペクトル値とを比較すると、スペクトル残留値が最 初のスペクトル値よりかなりエネルギーが低いことが分かる。図示の実施例では スペクトル残留値のエネルギー減少は約12dBの全予測ゲインに相当する。 以下の記載に関しては図7a中の下左側を参照されたい。時間範囲信号の予測 の従来の応用にあっては、合成フィルターの周波数応答は入力信号のスペクトル 値の近似である。合成フィルターは(再)生成してほぼ「白色」スペクトルを有 する残留信号から信号のスペクトル形状を引き出すのである。TNS技術の場合 のようにスペクトル信号に予測を適用する際には、合成フィルターの周波数応答 は入力フィルターの包絡曲線の近似である。合成フィルターの周波数応答はパル ス応答のフーリエ変換であり、従来の手法と共通するが、逆フーリエ変換である 。 TNS合成フィルターはほぼ「白色(すなわち平らな)」包絡曲線を有した残 留信号か信号の包絡曲線形状を(再)生成する。図7a下左側の表示はTNS合 成フィルターにより形成された入力信号の包絡曲線である。これは現在の場合、 上に示されたカスタネット型信号の包絡曲線近似の対数表示である。 その後符号化ノイズがスペクトル残留値に導入される。すなわち例えば0.5 Barkの幅を有した各符号化帯域において、13dBの信号−ノイズ比が得ら れる。量子化ノイズの導入により生じる時間範囲中のエラー信号を図7bに示す 。図中左側の表示はTNS技術が使用された場合における量子化ノイズに起因す るエラー信号である。一方図中右側の表示においては、比較の理由からTNS技 術 は使われていない。予想されるように、左側の表示中のエラー信号はブロック全 体に亙って均一には分布されてなく、この量子化ノイズを最適な方法で覆う高い 信号成分がある部分に集中している。 右側に示した表示では、導入された符号化ノイズはブロック中で(すなわち時 間に関連して)均一に分布されている。この結果、信号がないか全んどない前方 部分中では可聴ノイズが存在する。一方高い信号成分を含んだ領域中では、比較 的ノイズが少なく、信号のマスク可能性が完全には利用されてないのである。 コーダー中へのTNSフィルター804の搭載を図8aに示す。これは分析フ ィルター・バンク802と符号化器806との間に配置されている。図8aに示 すコーダーの場合の時間不連続入力信号はオーディオ入力端800に供給され、 量子化されたオーディオ信号および量子化されたスペクトル値または量子化され たスペクトル残留値は出力端808に出力され、該出力端はその下流側に余分の コーダーを具えていることもある。かくして入力信号はスペクトル値に変換され る。 算出されたスペクトル値に基づいて、通常の線形予測計算が行われ、これには 例えばスペクトル値の自動修正マトリックスを形成し、かつレビンソン−ダービ ン反復(Levinson−Durbin recursion)が用いられる 。図8bはTNSフィルター804を詳しく示したものである。フィルター入力 端810にはスペクトル値x(1)・・・x(i)・・・x(n)が入力される 。ある特定の周波数範囲のみが一過性の信号を有し、他の周波数範囲がどちらか というと静的な性質を有している場合があるかもしれない。このことを考慮して TNSフィルター804には入力スイッチ812と出力スイッチ814とが設け られている。しかしこれらのスイッチはまず処理されるデータの並列/直列およ び直列/並列変換をそれぞれ扱っている。 ある特定の周波数範囲が非静的であってTNS技術による特定の符号化ゲイン を保証しているか否かにより、この特定のスペクトル範囲がTNS処理されるだ ろう。すなわち入力スイッチ812が例えばスペクトル値x(i)でスタートし て、スペクトル値x(i+2)に至るまで作用する。フィルター・ゲインの内部 は再び前向き予測構造(すなわち予測器610と合計点600)となる。 TNSフィルターのフィルター係数と予測係数とを決定する計算はそれぞれ以 下のように行われる。自動相関マトリックスの形成とレビンソン−ダーバン反復 の使用とはノイズ形成フィルター20の最高許容オーダー(order)桁につ いて行われる。算出された予測ゲインが特定のしきい値を越えると、TNS処理 が達成される。 ついで現在のブロックに用いられるノイズ形成フィルターのオーダーが、係数 列の最終から充分に小さな絶対値で全ての係数を除く、により決定される。かく して通常TNSフィルターのオーダーは音声信号について4〜12の強さである 。 スペクトル値x(i)のある範囲について例えば充分に高い符号化ゲインが確 実な場合には、後者が処理され、スペクトル値x(i)ではなくスペクトル残値 xR(i)がTNSフィルターの出力端に出される。図7aから分かるように、 この後者の値は通常のスペクトル値x(i)よりは非常に低い振幅を有している 。かくしてデコーダーに送られた副情報は、通常の副情報に加えて、フラッグを 有している。このフラッグはTNSの使用と、必要ならば、目的とする周波数範 囲についての情報と符号化に用いられたTNSフィルターについての情報とを含 んでいる。フィルター・データは量子化されたフィルター係数として表現され得 る。 図9aに示すデコーダーにおいて、各チャンネルについてTNS符号化が反転 される。スペクトル残値xR(i)は逆量子化器216において再量子化されて 、図9bにその構造を示す逆TNSフィルター900に供給される。逆TNSフ ィルター900は出力信号としてスペクトル値を再び送出し、これが合成フィル ター・バンク218中の時間範囲に変換される。ここでもTNSフィルター90 0は入力スイッチ902と出力スイッチ908とを有しており、まず処理される べきデータの並列/直列および直列/並列変換を行う。 入力スイッチ902はさらに採用されているであろう目的周波数も考えに入れ て、スペクトル残値のみをTNS符号化に供給する。TNS符号化されてないス ペクトル値は変化されることなく出力端910を通過する。逆予測フィルターは ここでも予測器906と合計点904とを具えている。しかしTNSフィルター とは違って、これらは以下のように接続されている。スペクトル残留値が入力ス イッチ902を経て合計点904に供給されて、そこで予測器906の出力信号 と合計される。予測器は出力信号として予測スペクトル値xP(i)を出す。こ のスペクトル値xp(i)は出力スイッチを経て逆TNSフィルターに出力され る。かくしてTNS副情報がデコーダーにおいて解号される。この副情報はTN Sの使用を示すフラッグと、必要なら、的とする周波数範囲に関する情報を含ん でいる。これに加えて副情報はブロックを符号化するのに使用される予測フィル ターのフィルター係数をも含んでいる。 かくしてTNS方法は以下のように要約される。入力信号が高解像度分析フィ ルター・バンクによりスペクトル表示に移送される。爾後周波数範囲内での線形 予測が実施される。すなわち周波数−隣接スペクトル値間で行われる。この線形 予測はスペクトル値をフィルターする処理と考えてよく、そのスペクトル範囲に おいて実施される。当初のスペクトル値は予測エラー(すなわちスペクトル残留 値)により置き換えられる。これらのスペクトル残留値は、通常のスペクトル値 と同様に、量子化され符号化された形でデコーダーに移送される。ここで値は再 び解号されて逆符号化される。逆フィルター・バンク(合成フィルター・バンク )の適用前に、コーダーにより行われた予測と逆の予測が伝達されたエラー信号 (すなわち再量子化されたスペクトル残留値)について逆予測フィルターを用い て行われる。 この方法の適用により量子化ノイズの一時的な包絡曲線を入力信号のそれにマ ッチさせることができる。これにより、時間的な微細構造を有した信号の場合に 、エラー信号のマスキングの利用が改善される。一時的な信号の場合には、TN S方法はいわゆる「プレエコー」を除き、そこでは信号の衝撃(strikin g)前に量子化ノイズがすでに現れる。 心理音響学の分野から知られていることだが、ノイズ信号の知覚印象は主とし てそのスペクトル組成から決定されるもので、実際の信号形状からではない。こ れによりオーディオ信号のデータ還元におけるいわゆるノイズ置換方法を使用で きる。 「ノイズ置換」はDonald Schulzの「ノイズ置換によるオーディ オ・コードの改善」(Journal of the Audio Eng.S oc.、第44巻、7/8号、593〜598頁、7/8月、1996)に記載 されている。上記したように、従来のオーディオ符号化アルゴリズムは人間の耳 のマスキング効果を利用しており、データ速度を大きく低減したり伝達されるビ ット数を低減している。このマスキングとはスペクトル値としての1以上の周波 数成分がより低いレベルの成分を非可聴とすることを意味している。この効果は 2通りに利用できる。第1に他の成分によりマスクされたオーディオ信号成分は 符号化する必要がない。第2に、ノイズが当初の信号の成分によりマスクされた とき、ノイズの導入が上記した符号化により可能となる。 ノイズ状の信号の場合には、人間の可聴システムは正確な経路を確認すること はできない。従来のアルゴリズムでは、人間の耳にはほとんど関係のない白色ノ イズの波形さえも符号化される。かくしてノイズ含有信号の可聴補償符号化は予 告がないと可聴できない情報のために高いビット程度を必要とする。しかしもし 信号のノイズ含有成分が検出されてノイズレベル上または周波数範囲上またはそ の延長上の情報とともに符号化されると、そのような余分な符号化が低減できる 。これにより極度にビットを節減できることになる。この事実は心理音響学によ り支持されており、ノイズ信号の知覚の印象は主としてそのスペクトル成分によ り決定されが、実際の波形によってではない。これによりオーディオ信号のデー タ低減のためにノイズ置換方法を使用できることになる。 かくしてコーダーはオーディオ信号の全てのスペクトル中のノイズまたはノイ ズ性のスペクトル値を発見または認識する作業に直面する。ノイズ状のスペクト ル値の定義はつぎの通りである。信号成分がそのレベルと周波数範囲と時間にお ける延長とにより、人間の聴覚に可聴差異なしにノイズ置換により再構築され得 るように、特性付けられる場合には、信号成分はノイズであると分類されるので ある。 前記の刊行物に記載のように、この特性の検出は周波数範囲でも時間範囲でも 実施できる。例えば一番簡単な方法では、音成分(すなわち非ノイズ状)成分を マスキングし、これには時間−周波数変換を使用し、時間において相互に続くス ペクトル中の静的ピークに従う。このピークは音状と呼ばれ、他のものはノイズ 状と呼ばれる。しかしこれはかなり粗いノイズ検出システムである。ノイズ状と 音状スペクトル成分を識別する他の手法としては、連続するブロック中のスペク トル値について予測器を利用するものである。 あるスペクトルからつぎのスペクトルへと予測が実施される。すなわちつぎの 時間的なブロックを伴なうスペクトルである。予測されたスペクトル値と次のブ ロックのスペクトル値(変換により実際に確認されている)との間の差異がない か極く小さい場合には、スペクトル値は音スペクトル成分であると推定される。 これから調性の測定が行われ、音状とノイズ状スペクトル値の識別決定の基礎と なる。 しかしこの手法は厳密に静的な信号についてのみ適切である。時間に関連して 若干変動する周波数のサインカーブ状の信号が存在する場合には検出ができない のである。そのような信号はしばしばオーディオ信号中に現われて(例えばビブ ラート)、これらをノイズ状成分で置き換えることはできないのである。 その他にもノイズ状信号を検出するには、時間範囲内で予測を行う方法がある 。このため整合フィルターを使用でき、線形予測を繰り返して実施する。通過し たオーディオ信号は入力され、出力信号は実際のオーディオ信号値と比較される 。小さな予測エラーの場合には、調性があると推定される。異なる周波数範囲の 特性を決定すべく、すなわちスペクトル範囲を検出すべく、スペクトル値の群が ノイズ状群であるか否かを決定すべく、当初の信号と予測された信号の時間−周 波数変換を実施する必要がある。 調性の測定かつ周波数群について、当初と予測された値を比較すること、によ り算出される。ここで主たる問題は、予測器の動的な範囲が限られている点であ る。結果される高度のエラーの故に予測器が高レベルのノイズ状周波数群により 占められるのである。音成分を有した他の周波数範囲はノイズ状と解釈される。 この問題は、相互干渉アルゴリズムを用いることにより、低減される。そこでは エラー信号は通常当初の信号より低レベルであり、追加の予測器に入力されて、 両予測信号が加算される。以上はSchulzの文献に記載されている。 ノイズ状と分類されたスペクトル値の群は、通常のように量子化されてかつエ ントロピーまたは冗長性符号化された形(例えばホフマン・テーブルにより)で 受信器に伝達される、ことはない。ノイズ置換を表示する識別とスペクトル値の ノイズ状群の尺度とのみが副情報として伝達されるのである。受信器においては 置換された係数は伝達されたエネルギーとともにランダムな値(ノイズ)と置換 される。ノイズスペクトル値は対応する量のエネルギーとともにランダムなスペ クトル値により置換される。 量子化されたスペクトル係数について一群のコードの代わりに単一のエネルギ ー情報を伝達することにより、すなわち数個の量子化されて符号化されたスペク トル値を伝達することにより、データをかなり節減することができる。どの程度 節減できるかは信号による。例えばノイズ成分が非常に低い信号、すなわちノイ ズ状群が非常に少ないかまたは一過性の性質がある場合には、ノイズの多い信号 よりもデータの節減程度が低くなる。 前記した標準MPEG−2オーディオ符号化(AAC)はノイズ置換の可能性 を支持するものではない。今迄のところ現存の標準では顕著なデータ程度節減は 不可能である。 図3に示すのは図2のものと同じコーダーとデコーダであるが、ノイズ置換を 含んでいる点で異なる。前記したように図3に示すようなノイズ置換のインプリ メンテーションは従来技術の部分ではない。同じ参照番号は同じ機能ブロックを 示している。図3のコーダーは図2のものに比べて1個の新たなブロック「ノイ ズ検出」310を有しているだけである。ノイズ検出は分析フィルター・バンク 202の出力信号(スペクトル値)により行われる。 しかしノイズ検出に分析フィルター・バンクの時間入力信号を用いることもで きる。これをオーディオ入力200とノイズ検出310をつなぐ矢印で示す。ノ イズ置換には2個のカテゴリーの情報が必要である。これをノイズ検出ブロック ット・フロー・マルチプレクサーブロック208の2本の矢印で示す。ノイズ置 換符号化信号を再び解号するために、ノイズ置換表示を副情報として伝達する必 要があり、これがどの周波数範囲においてまたはどのスケール・ファクター帯域 でノイズ置換がされたかを示すのである。 さらにノイズ状群またはノイズ状スケール・ファクター帯域中のスペクトル値 のエネルギーの測定値も副情報として伝達する必要がある。ノイズ置換スペクト ル値は量子化や符号化されない、すなわちブロック「量子化/符号化」204は ノイズ置換がスケール・ファクター帯域中に存在することを報告される。ビット フロー・マルチプレクサーもまたノイズ置換表示とノイズ状群中のスペクトル値 のエネルギーの測定値を副情報として受ける。 またデコーダーは図2について記載したデコーダーと同じであり、新たなブロ ック「ノイズ置換」312が加わった点のみが異なる。このブロック312はビ ットフロー・デマルチプレクサー204から入力信号としてノイズ置換表示と置 換信号のエネルギー(つまりノイズ状中およびノイズ状スケール・ファクター帯 域中のスペクトル値の測定値)を含んだ副情報を受ける。 ブロック「ノイズ置換」は、ノイズ状群およびノイズ状スケール・ファクター 帯域のために、ランダムまたは「ノイズ」スペクトル値を発生し、これは合成フ ィルター・バンク218に供給され、符号化および解号化時間不連続オーディオ 信号を得る。該フィルター・バンク218にとっては、ノイズスペクトル値を時 問範囲に変換するかまたは「正常な」再オーディオ信号スペクトル値を時間範囲 に変換するか、は無関係である。 公知の置換方法は、入力信号が均一なノイズ構造を呈する(つまり面上または 平坦状のスペクトル)ときには、入力信号の位置部がノイズにより置換されつい で非可聴品質損失を伴なって再び解号される、という問題を含んでいる。これは 一過性信号または音声信号の場合にはなく、ノイズ置換の使用を完全に必要なく するかまたは、それでもノイズ置換が用いられた場合には、信号の邪魔な歪みが 発生する。 以下添付の図面よりこの発明を詳細に説明する。 図1はこの発明のコーダーとデコーダーのブロック線図であり、 図2は公知のコーダーとデコーダーの基礎概念を示すブロック線図であり、 図3はノイズ置換を増設した図2のコーダーのブロック線図であり、 図4は時間領域と周波数領域間の二元性を示す表であり、 図5aは一過性信号の一例を示し、 図5bは図5aの一過性時間信号に基づいた部分帯域パス信号のヒルベルト包絡 曲線を示し、 図6は周波数領域における予測を示す説明図であり、 図7aはTNS法の一例を示し、 図7bは導入されたTNS技術による/よらない量子化ノイズの時間的パターン の比較を示し、 図8aはTNSフィルターを具えたコーダーのブロック線図であり、 図8bはその詳細構成図であり、 図9aは逆TNSフィルターを具えたデコーダーのブロック線図であり、 図9bはその逆TNSフィルターの詳細構成図である。 図1にこの発明のコーダーとデコーダーとを示す。図3に示したコーダーに比 べて図1のそれはTNSフィルター処理とノイズ置換との組合せを含んでいる。 スペクトル値のノイズ置換を行う公知のコーダーとは対照的に、この図のコーダ ーはTNSフィルター804の出力端においてスペクトル残留値のノイズ置換を 行う。スペクトル残留値の群またはスペクトル残留値を伴なったスケール・ファ クター帯域においてはノイズ置換により、それらの中のスペクトル残留値のエネ ルギーの測定値を確認する。量子化器とコーダー204およびマルチフレクサー 208へのノイズ置換表示は当初のスペクトル値のためのノイズ置換とともにア ナログ的に実施される。 デコーダーにいおいては反対のアナログ処理が起きる。ビット・ロフロー・ジ マルチフレクサー214はTNS副情報を逆TNSフィルターに供給する。この TNS副情報は、TNS処理が周波数選択的手法により行われたときには、TN Sフィルターの予測係数とフィルター係数とを含んでおり、TNSがどこで励起 されどこで励起されなかったを示すフラッグも含んでいる。 さらにノイズ置換表示および置換されたスペクトル値または対応するスケール ・ファクター帯域中のスペクトル残留値はビットフロ・マルチフレクサーからノ イズ発生ブロック312へと供給される。該ブロック312は、ノイズ置換スペ クトル値またはノイズ置換スペクトル残留値が改善されようとされまいと、ノイ ズスペクトル値を発生し、これがTNSフィルター900に入力される。該フィ ルターは、TNS処理されなかったスペクトル値が調性であってもノイズスペク トル値であっても、それらを不変状態で通過させる。これに対してスペクトル残 留値はTNS再処理されて、合成フィルター・バンク218が符号化され解号 された時間不連続出力信号をオーディオ出力端に出力できる。 以下においてスペクトルとスペクトル残留値との間の比較でノイズ検出を論じ る。Schulzによる文献ではスペクトル中のノイズ領域を検出するいくつか の手法が紹介されている。これらの手法はスペクトルのみに基づいたもの、時間 不連続オーディオ信号のみに基づいたもの、および両者に基づいたものなどがあ る。これらを図1〜3中にオーディオ入力端200を「ノイズ検出」ブロックに つなぐ矢印で示してある。 この発明の方法はつぎのように要約できる。コーダーにおいては信号の時間的 な微細構造がTNSフィルターにより「取り出さ」れる。残留スペクトルまたは スペクトル残留値はコーダーの入力端における時間不連続オーディオ信号に対応 する。オーディオ信号は振幅について「量子化」されており、スペクトル残留値 を含む残留スペクトルとほぼ同じ定常な包絡線を有している。当初の包絡曲線経 路についてのこの情報は、線形予測により得られるTNSフィルターのフィルタ ー係数中に含まれている。この情報は副情報としてデコーダーに伝送される。 スペクトル残留値を含みかつほぼ時間において定常な残留スペクトルは、TN S処理されてないスペクトル値のためのノイズ置換と同様に、ノイズ置換に掛け ることができる。対応する副情報(置換された周波数帯域および帯域エネルギー の表示)は副情報としてデコーダーに伝達される。デコーダーにおいては、ノイ ズ置換された周波数帯域およびノイズ置換されない周波数帯域について、公知の 解号処理が行われる。ノイズ置換により導入されたノイズは時間的な微細構造を 有してなく、その包絡曲線はほぼ平坦である。爾後の逆TNSフィルターの間、 伝達されたTNS副情報に応じて、合成フィルター・バンクによりスペクトル値 が再び時間範囲に変換される前に、当初の微細構造が信号に再び導入される。 ノイズ置換と「時間的ノイズ成形」との組合せによりノイズ置換が改善され、 これが時間的微細構造を有した信号にも効率的に用いられ、TNS手法により導 入された量子化ノイズが成形されて時間信号の「下」にパックされる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 エーレット,アンドレアス ドイツ国 デー―90429 ニュルンベルク ホッホシュトラーセ 27 (72)発明者 ディーツ,マルティン ドイツ国 デー―90408 ニュルンベルク クレインレウサー ヴェグ 47 (72)発明者 テイクマン,ボド ドイツ国 デー―90427 ニュルンベルク エーベルマンステットテル シュトラー セ 2 (72)発明者 クンツ,オリベール ドイツ国 デー―96145 ゼッシュラッハ レーテンヴェグ 1 (72)発明者 ブランデンバーグ,カールヘインツ ドイツ国 デー―91054 エルランゲン ハークシュトラーセ 32 (72)発明者 ゲルヘウザー,ヘインツ ドイツ国 デー―91344 ヴァイシェンフ ェルド サウゲンドルフ 17

Claims (1)

  1. 【特許請求の範囲】 1.オーディオ信号を周波数領域に変換して(202)時間的オーディオ信号の スペクトル値(x(1)、・・・、x(n))を得て、 周波数(804)と関連してスペクトル値の予測を実施し、スペクトル残留値(xR (1)、・・・、xR(N))を得て、 スペクトル残留値中のノイズ領域を検出し(310)、 ノイズ領域中のスペクトル残留値をノイズ置換し(310)、かつ 符号化されたオーディオ信号の副情報中にノイズ領域とノイズ置換とに関する情 報を導入する(208) ことを含んでなるオーディオ信号の符号化方法。 2.オーディオ信号を受けて(212)、 副情報中のノイズ置換とスペクトル残留値のノイズ領域に関する情報を検出し( 214)、 ノイズ領域中に検出された情報に基づいてスペクトルノイズ残留値を発生し(3 12)、 周波数に関連して逆予測(900)を実施して、ノイズ置換スペクトルノイズ残 留値からスペクトル値を得て、 該スペクトルを時間領域に変換して(218)、解号化オーディオ信号を得ること を含んでなるオーディオ信号の符号化方法。 3.予測(804)または逆予測(900)がスペクトル値(x(1)、・・・、 x(n))の特定の範囲についてのみ実施される ことを特徴とする請求項1または2に記載の方法。 4.符号化されたオーディオ信号の副情報が、予測が使用されたというヒントと 予測係数と選択的に予測(804)の周波数範囲情報と、を含んでいる ことを特徴とする請求項1〜3のいずれかひとつに記載の方法。 5.予測(804)により発生されたフィルター係数が符号化されたオーディオ 信号(208)の副情報に導入される ことを特徴とする請求項1〜4のいずれかひとつに記載の方法。 6.ノイズ置換(310)がスケールファクター帯域の形で実施される ことを特徴とする請求項1〜5のいずれかひとつに記載の方法。 7.ノイズ置換(310)に際してスケールファクターを有した検出ノイズ領域 中のスペクトル残留値(xR(1)、・・・、xR(n))エネルギーを算出し、副情 報中に含まれてノイズ置換に関する情報はスケールファクターのためのビットフ ロー中の位置に含まれており、対応するノイズ領域中にエラー残留値のエネルギ ーを含んでいる ことを特徴とする請求項1〜6のいずれかひとつに記載の方法。 8.符号化中はノイズ領域中に存在しないスペクトル残留値が心理音響学を考慮 して量子化され、解号化中はノイズ領域中に存在しないスペクトル残留値が再量 子化され、ついで逆予測に掛けられて、スペクトル値(x1)、・・・、x(n)) を得る ことを特徴とする請求項1〜7のいずれかひとつに記載の方法。
JP50619499A 1997-07-14 1998-03-13 オーディオ信号の符号化方法 Expired - Lifetime JP3577324B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19730130.4 1997-07-14
DE19730130A DE19730130C2 (de) 1997-07-14 1997-07-14 Verfahren zum Codieren eines Audiosignals
PCT/EP1998/001481 WO1999004506A1 (de) 1997-07-14 1998-03-13 Verfahren zum codieren eines audiosignals

Publications (2)

Publication Number Publication Date
JP2001500640A true JP2001500640A (ja) 2001-01-16
JP3577324B2 JP3577324B2 (ja) 2004-10-13

Family

ID=7835664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50619499A Expired - Lifetime JP3577324B2 (ja) 1997-07-14 1998-03-13 オーディオ信号の符号化方法

Country Status (11)

Country Link
US (1) US6424939B1 (ja)
EP (1) EP0954909B1 (ja)
JP (1) JP3577324B2 (ja)
KR (1) KR100346066B1 (ja)
AT (1) ATE205030T1 (ja)
AU (1) AU723582B2 (ja)
CA (1) CA2286068C (ja)
DE (2) DE19730130C2 (ja)
DK (1) DK0954909T3 (ja)
ES (1) ES2161052T3 (ja)
WO (1) WO1999004506A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002532765A (ja) * 1998-12-14 2002-10-02 マイクロソフト コーポレイション 周波数領域オーディオ符号化のためのエントロピー符号モード切替え
JP2007501441A (ja) * 2003-05-08 2007-01-25 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトル成分結合およびスペクトル成分再生を用いた改良オーディオコード化システム
JP2009518694A (ja) * 2005-12-05 2009-05-07 クゥアルコム・インコーポレイテッド トーンコンポーネントの検出のためのシステム、方法および装置
JP2013507648A (ja) * 2009-10-08 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
US9172965B2 (en) 2008-05-02 2015-10-27 Microsoft Technology Licensing, Llc Multi-level representation of reordered transform coefficients
JP2017517016A (ja) * 2014-02-10 2017-06-22 アウディマックス・エルエルシー 耐雑音性を改良した通信システム、方法および装置

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931372B1 (en) * 1999-01-27 2005-08-16 Agere Systems Inc. Joint multiple program coding for digital audio broadcasting and other applications
US6871180B1 (en) 1999-05-25 2005-03-22 Arbitron Inc. Decoding of information in audio signals
US6687663B1 (en) * 1999-06-25 2004-02-03 Lake Technology Limited Audio processing method and apparatus
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
EP1168734A1 (en) * 2000-06-26 2002-01-02 BRITISH TELECOMMUNICATIONS public limited company Method to reduce the distortion in a voice transmission over data networks
US20020049586A1 (en) * 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
CN1232951C (zh) 2001-03-02 2005-12-21 松下电器产业株式会社 编码装置和译码装置
AUPR433901A0 (en) 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
ATE334556T1 (de) * 2001-04-18 2006-08-15 Koninkl Philips Electronics Nv Audiokodierung mit partieller enkryption
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
DK1400954T3 (da) 2002-09-04 2008-03-31 Microsoft Corp Entropi-kodning ved tilpasning af kodning mellem niveau- og runlængde/niveau-moduser
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
JP4657570B2 (ja) 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
US6845360B2 (en) * 2002-11-22 2005-01-18 Arbitron Inc. Encoding multiple messages in audio data and detecting same
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7610553B1 (en) * 2003-04-05 2009-10-27 Apple Inc. Method and apparatus for reducing data events that represent a user's interaction with a control interface
US20040208169A1 (en) * 2003-04-18 2004-10-21 Reznik Yuriy A. Digital audio signal compression method and apparatus
US7742926B2 (en) * 2003-04-18 2010-06-22 Realnetworks, Inc. Digital audio signal compression method and apparatus
EP1631954B1 (en) * 2003-05-27 2007-02-14 Koninklijke Philips Electronics N.V. Audio coding
US7283968B2 (en) 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
KR20060131798A (ko) * 2004-01-20 2006-12-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 블록 그룹화에 기반한 오디오 코딩
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
DE602005017302D1 (de) * 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US20080071550A1 (en) * 2006-09-18 2008-03-20 Samsung Electronics Co., Ltd. Method and apparatus to encode and decode audio signal by using bandwidth extension technique
WO2008035949A1 (en) * 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
US20080147385A1 (en) * 2006-12-15 2008-06-19 Nokia Corporation Memory-efficient method for high-quality codebook based voice conversion
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
EP2133872B1 (en) * 2007-03-30 2012-02-29 Panasonic Corporation Encoding device and encoding method
US20080255688A1 (en) * 2007-04-13 2008-10-16 Nathalie Castel Changing a display based on transients in audio data
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
CA2729751C (en) * 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
US8233629B2 (en) * 2008-09-04 2012-07-31 Dts, Inc. Interaural time delay restoration system and method
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
CN102667923B (zh) 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
TWI430263B (zh) * 2009-10-20 2014-03-11 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法
CA2786944C (en) 2010-01-12 2016-03-15 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
PL3584791T3 (pl) * 2012-11-05 2024-03-18 Panasonic Holdings Corporation Urządzenie do kodowania mowy/dźwięku oraz sposób kodowania mowy/dźwięku
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9747909B2 (en) * 2013-07-29 2017-08-29 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805193A (en) * 1987-06-04 1989-02-14 Motorola, Inc. Protection of energy information in sub-band coding
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
ATE211869T1 (de) * 1994-10-28 2002-01-15 Rai Radiotelevisione Italiana Teilbandkodierung mit auf tonhöhen basierter prädiktionskodierung in jedem einzelnen teilband
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002532765A (ja) * 1998-12-14 2002-10-02 マイクロソフト コーポレイション 周波数領域オーディオ符号化のためのエントロピー符号モード切替え
JP4786796B2 (ja) * 1998-12-14 2011-10-05 マイクロソフト コーポレーション 周波数領域オーディオ符号化のためのエントロピー符号モード切替え
JP2007501441A (ja) * 2003-05-08 2007-01-25 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトル成分結合およびスペクトル成分再生を用いた改良オーディオコード化システム
JP4782685B2 (ja) * 2003-05-08 2011-09-28 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトル成分結合およびスペクトル成分再生を用いた改良オーディオコード化システム
JP2009518694A (ja) * 2005-12-05 2009-05-07 クゥアルコム・インコーポレイテッド トーンコンポーネントの検出のためのシステム、方法および装置
US8219392B2 (en) 2005-12-05 2012-07-10 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function
US9172965B2 (en) 2008-05-02 2015-10-27 Microsoft Technology Licensing, Llc Multi-level representation of reordered transform coefficients
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
JP2013507648A (ja) * 2009-10-08 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
JP2017517016A (ja) * 2014-02-10 2017-06-22 アウディマックス・エルエルシー 耐雑音性を改良した通信システム、方法および装置

Also Published As

Publication number Publication date
KR20000076297A (ko) 2000-12-26
EP0954909A1 (de) 1999-11-10
AU723582B2 (en) 2000-08-31
US6424939B1 (en) 2002-07-23
JP3577324B2 (ja) 2004-10-13
KR100346066B1 (ko) 2002-07-24
ATE205030T1 (de) 2001-09-15
AU7520798A (en) 1999-02-10
DE19730130C2 (de) 2002-02-28
ES2161052T3 (es) 2001-11-16
EP0954909B1 (de) 2001-08-29
CA2286068C (en) 2004-04-27
DK0954909T3 (da) 2001-10-08
DE59801307D1 (de) 2001-10-04
CA2286068A1 (en) 1999-01-28
WO1999004506A1 (de) 1999-01-28
DE19730130A1 (de) 1999-01-21

Similar Documents

Publication Publication Date Title
JP3577324B2 (ja) オーディオ信号の符号化方法
US6766293B1 (en) Method for signalling a noise substitution during audio signal coding
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
US6064954A (en) Digital audio signal coding
CA2301663C (en) A method and a device for coding audio signals and a method and a device for decoding a bit stream
US6104996A (en) Audio coding with low-order adaptive prediction of transients
CA2185746C (en) Perceptual noise masking measure based on synthesis filter frequency response
JP3391686B2 (ja) 符号化されたオーディオ信号を復号する方法及び装置
EP2186087B1 (en) Improved transform coding of speech and audio signals
CA2185731C (en) Speech signal quantization using human auditory models in predictive coding systems
JP2009515212A (ja) オーディオ圧縮
Brandenburg et al. MPEG-4 natural audio coding
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
JP2012518194A (ja) 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
Johnston et al. Review of MPEG-4 general audio coding
Rongshan et al. High quality audio coding using a novel hybrid WLP-subband coding algorithm
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
Noll et al. Digital audio: from lossless to transparent coding
Bosi et al. Dolby AC-3
Ning et al. Wideband audio compression using a combined wavelet and WLPC representation

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040405

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080716

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090716

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100716

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110716

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120716

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term