JP5551694B2 - 多くのスペクトルエンベロープを計算するための装置および方法 - Google Patents

多くのスペクトルエンベロープを計算するための装置および方法 Download PDF

Info

Publication number
JP5551694B2
JP5551694B2 JP2011516988A JP2011516988A JP5551694B2 JP 5551694 B2 JP5551694 B2 JP 5551694B2 JP 2011516988 A JP2011516988 A JP 2011516988A JP 2011516988 A JP2011516988 A JP 2011516988A JP 5551694 B2 JP5551694 B2 JP 5551694B2
Authority
JP
Japan
Prior art keywords
envelope
time
boundary
spectral
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011516988A
Other languages
English (en)
Other versions
JP2011527450A (ja
Inventor
マクス ノイエンドルフ
ベルンハルト グリル
ウルリヒ クレマー
マルクス マルトラス
ハラルド ポップ
ニコラウス レッテルバッハ
フレドリック ナーゲル
マルクス ローバッサー
マルク ゲイヤー
マーヌエル ヤンダー
ヴィルジリオ バチガルーポ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011527450A publication Critical patent/JP2011527450A/ja
Application granted granted Critical
Publication of JP5551694B2 publication Critical patent/JP5551694B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Dental Tools And Instruments Or Auxiliary Dental Instruments (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、多くのスペクトルエンベロープを計算するための装置および方法、オーディオエンコーダおよびオーディオ信号を符号化するための方法に関する。
自然音符号化および音声符号化は、オーディオ信号の符号化のための2つの主要なタスクである。自然音符号化は、一般に音楽または任意の信号のために中間のビットレートで用いられ、通常、広い音声帯域幅を提供する。その一方で、オーディオコーダは、基本的に音声再生に限られているが、非常に低いビットレートで使用することができる。広帯域音声は、狭帯域音声上の主要な主観的品質の改善を提供する。帯域幅を増加させると、音声の理解度と自然らしさだけではなく、話す人の認識も、向上させる。広帯域音声符号化は、このように、電話システムの次世代の重要な問題である。さらに、マルチメディア分野の驚異的な成長により、電話システム上の高品質の音楽および他の非音声信号の伝送は、価値のある機能である。
ビットレートを大幅に低下させるために、分割帯域知覚的オーディオコーデックを用いることで、音源音符号化を実行することができる。これらのナチュラルオーディオコーデックは、信号の知覚的無関係や統計に基づく冗長度を利用する。また、サンプルレートひいては音声帯域幅を減らすことは、一般的である。構成レベルの数を減少させること、時々聞き取れる量子化歪を考慮に入れることおよび強度の符号化を介してステレオ領域の分解を用いることも一般的である。この種の方法の過剰な使用は、面倒な知覚の低下をもたらす。コーディング性能を高めるために、スペクトル帯域複製は、符号化をベースにした高周波再構成(HFR)の高周波信号を生成するために効率的な方法として用いられる。
スペクトル帯域複製(SBR)は、MP3およびアドバンスト・オーディオ・コーディング(AAC)のような普及しているアドオン知覚的オーディオコーダとして人気を得た技術を包含する。SBRは、スペクトルのローバンド(ベースバンドまたはコアバンド)が最先端のコーデックを使用することで符号化される帯域幅拡張の方法を包括しますが、上側の帯域(または、ハイバンド)は、わずかなパラメータしか使用しないことで粗くパ
ラメータ化される。SBRは、抽出されたハイバンドの特徴を使用することでより低い帯域からより広い帯域の信号を予測することによって、ローバンドおよびハイバンド間の相関を利用する。これは、大抵、人間の耳がより低い帯域と比較してより高い帯域の歪に影響を受けないので、十分である。したがって、より高い帯域はSBRを用いて符号化されるのに対して、新規なオーディオコーダは、例えば、MP3またはAACを用いてより低
いスペクトルを符号化する。SBRアルゴリズムのキーは、信号の高周波化部分について説明するのに用いられる情報である。このアルゴリズムの第一の設計目標は、いかなるアーチファクトも取り込むことのないより高いバンドスペクトルを再建し、望ましいスペクトルおよび時間的解像度を提供することである。例えば、64バンドの複合数値多相フィルターバンクは、分析部分およびエンコーダで用いられる。このフィルターバンクは、例えば、オリジナルの入力信号のハイバンドのエネルギーサンプルを得るために用いられる。その結果、これらのエネルギーサンプルは、デコーダで使用するエンベロープ調整方式のための基準値として用いることができる。
スペクトルエンベロープは、一般的な意味では信号の粗いスペクトル分布を言及し、例えば線形予測的ベースの符号化器の係数またはサブバンド符号化器のサブバンドのサンプルの一連の時間周波数の平均値を包含する。エンベロープデータは、次々に、量子化されて符号化されたスペクトルエンベロープを言及する。特に、低い周波数帯が低いビットレートで符号化されるなら、エンベロープデータは、ビット列のより大きな部分を構成する。したがって、特に、より低いビットレートを用いるときには、コンパクトにスペクトルエンベロープを表すのが重要である。
スペクトル帯域複製は、例えば、エンコーディングの間、切り捨てられる高調波のシーケンスの複製に基づいているツールを使用する。また、それは生成されたハイバンドのスペクトルエンベロープを調整し、逆フィルタを使用して、オリジナル信号のスペクトル特性を再現するために、ノイズおよび高調波成分を加える。したがって、SBRのツールの入力は、例えば量子化されたエンベロープデータ、種々雑多な制御データ、コアコーダ(例えばAACまたはMP3)からの時間ドメイン信号を含む。SBRツールの出力は、MPEG周辺ツールが使われる場合に備えて、例えば、時間ドメイン信号か信号の表現としてのQMF―ドメイン(QMF = Quadrature Mirror Filter)のいずれかである。SBRペイロードのためのビット列の要素の記述は、標準規格ISO/IECの14496−3 2005 サブ節4.5.2.8で見つけることができ、そして、他のデータに混じってSBR拡大データ、SBRヘッダーを包括して、SBRフレームの中にSBRエンベロープの数を含む。
エンコーダ側におけるSBRの実現のために、分析は、入力信号に関して実行される。この分析から得られた情報は、現在のSBRフレームの最適な時期/周波数分解能を選ぶのに用いられる。アルゴリズムは、それらの周波数分解能と同様にSBRの数、現在のSBRフレームにおけるSBRエンベロープの開始および停止時間の境界について計算する。異なる周波数分解能は、標準規格ISO/IEC 14496 3下位条項4.6.18.3にて、例として説明されように計算される。アルゴリズムは、また、所与のSBRフレームのために、ノイズフロアの数について計算し、そして、同じくらいの開始よび停止時間の境界について計算する。ノイズフロアの開始及び停止時間の境界は、サブセットのスペクトルエンベロープの開始および停止時間の境界でなければならない。アルゴリズムは、現在のSBRフレームを4つのクラスに分割する。
FIXFIX−先行の時間と次の時間の境界の両方は、名目上のSBRフレームの境界に等しい。フレームのすべてのSBRエンベロープの時間境界は、時間内に、一様に分配される。エンベロープの数は、2(1,2,4,8、・・・)のべき乗の整数値である。
FIXVAR−先行の時間の境界は主な名目上のフレーム境界と等しい。次の時間の境界は、可変的で、ビットストリームの要素によって定義することができる。先行の時間と次の時間の境界間のすべてのSBRエンベロープの時間境界は、次の時間の境界から始めて、前の境界までタイムスロットの相対距離として特定することができる。
VARFIX−先行の時間の境界は、可変的であり、ビットストリームの要素によって定義される。次の時間の境界は、後追いの名目上のフレーム境界に等しい。先行の時間および次の時間の境界間のすべてのSBRエンベロープの時間境界は、次の時間境界から始めて、前の境界に対するタイムスロットの相対距離としてビットストリームに定められている。
VARVAR−Both、先行の時間および次の時間の境界は、可変的であり、ビットストリームにおいて定義することができる。先行の時間および次の時間の境界間のすべてのSBRエンベロープの時間境界も、特定される。先行の時間の境界から始まっている相対的時間の境界は、前の時間境界に対する相対距離として特定される。次の時間の境界から始まっている相対的時間の境界は、前の時間境界に対する相対距離として特定される。
SBRフレームクラス変換の制限が全くない。すなわち、クラスのいかなる系列も標準規格に許容されている。しかしながら、この標準規格によれば、SBRフレームにつきSBRエンベロープの最大限度の数は、クラスFIXFIXのための4とクラスVARVARのための5に制限されている。クラスFIXVARおよびVARFIXは、構文的には4つのSBRエンベロープに限られている。SBRフレームのスペクトルエンベロープは、時間/周波数グリッドによって与えられる周波数分解能とともに時間セグメントの上で推定される。SBRエンベロープは、特定の時間/周波数の上で二乗された合成サブバンドのサンプルを平均することによって、推定される。
一般に、トランジェントは、SBRで可変長の特定のエンベロープを用いることによって、特定の処理を受ける。トランジェントは、従来の信号の範囲内で部分によって定義することができる。そこにおいて、特定の周波数領域に制約されるか制約されない短い期間以内でエネルギーの強い増加が現れる。トランジェントについての例はカスタネットや打楽器の打撃であるが、また、人間の特定の音として、例えば、手紙で声に出されるP、T、K、…なども同様である。この種のトランジェントの検出は、今までのところ、常に同じ方式で、または、信号が話し言葉に分類されるか、音楽に分類されるかに関係なく、信号に左右されない同じアルゴリズム(一時的な閾値を使用する)によって実施される。加えて、有声音および無声音の間のスピーチのあり得る識別は、従来続けられているまたは古典的なトランジェントの検出機構に影響しない。
したがって、トランジェントが検出される場合に備えて、デコーダが適切に検出したトランジェントを複製できるために、SBRデータは調整されなければならない。WO 01/26095には、オーディオ信号において検出されたトランジェントを考慮するスペクトルエンベロープのための装置および方法が開示される(例えば、特許文献1参照。)。この従来の方法において、固定サイズのフィルタバンクからのサブバンドサンプルを「周波数バンド」および「時間セグメント」に適応的にグループ分けすることによって、スペクトルエンベロープの一様でない時間および周波数サンプリングが達成される。そして、それは1つのエンベロープサンプルをそれぞれ生成する。対応するシステムは長時間セグメントおよび高周波数分解能にデフォルトするが、トランジェントの近くでは、より短い時間セグメントを使用し、それによってデータサイズを限度内に維持するように、より大きい周波数ステップを使用できる。トランジェントが検出される場合に備えて、エンベロープ境界が検出したトランジェントの直前に修正されるように、システムはFIXFIXフレームからVARFIXフレームが続くFIXVARフレームへ切り替える。この手続きは、トランジェントが検出されるときはいつでも繰り返す。
国際公開第 WO 01/26095号
エネルギーの変動がゆっくり変化するだけの場合に備えて、トランジェント検出器は、変化を検出しない。しかしながら、適切に処理されない場合、これらの変化は、知覚できるアーチファクトを生成するのに足りるほど強くてもよい。単純な解決法は、トランジェント検出器の閾値を低下させることである。これは、しかしながら、異なるフレーム(FIXVAR+VARFIXに対するFIXFIX)との間に、結果として頻繁な変更となる。結果として、粗い符号化、特に、緩増加がより長い時間(例えば複数のフレームを通じて)持続する場合、かなり多くの追加データは、粗い符号化を含意しながら、伝送されなければならない。これは信号が複雑性を含まないので、許容できない。そしてそのことは、より高いデータ信号速度を正当化し、それ故に、これは、問題を解決する選択肢ではない。
したがって、本発明の目的は、特に、トランジェント検出器によって検出されるにはあまりに低いゆっくり変化するエネルギーを含む信号のために、知覚できるアーチファクトのない効率的な符号化を許容する装置を提供することである。
この目的は、請求項1に記載の装置、請求項11に記載のエンコーダ、請求項13にしたがってスペクトルエンベロープの数を計算する方法または請求項14にしたがってデータストリームを生成する方法によって達成される。
本発明は、SBRフレームの範囲内でスペクトルエンベロープの数が柔軟な方法の調整によって増加することができる伝送されたオーディオ信号の知覚的な品質を発見したことに基づいている。
これは、SBRフレームの中で隣接した時間部分のオーディオ信号を比較することによって、達成される。比較は、時間部分の中でオーディオ信号のためのエネルギー分布を決定することによって、実行されます。そして、決定値は2つの隣接した時間部分のエネルギー分布の偏差度を測定する。決定値が閾値を破るかどうかに依存して、エンベロープ境界は、隣接した時間部分の間に位置する。エンベロープの他の境界は、SBRフレームの始まりかそれとも終わりに存在するか、あるいは、SBRフレームの中の2つのさらに隣接した時間部分の間に存在することもできる。
結果として、SBRフレームは、例えば、FIXFIXフレームから、FIXVARフレームまたはVARFIXフレームへの変化がトランジェントを処理するために実行される従来の装置において適合させられないか、または変えられない。その代わりに、実施形態は、なお一層ゆっくりと変化する信号によってエンベロープの数の変更をもたらすことができ、それとともに、より優れたオーディオ音質がデコーダのSBRツールによって生成することを可能にするように、例えばFIXFIX―フレームの中で変動するオーディオ信号のばらつきを考慮するために、変化するエンベロープの数を利用する。決定されたエンベロープは、例えば、SBRフレームの中で等しい時間長さの部分をカバーすることができる。例えば、SBRフレームは、時間部分(それは、例えば、4、8または他の2の累乗の整数値を含む)の所定数に分けることができる。
各時間部分のスペクトルエネルギー分布は、SBRによって複製される上側の周波数帯域だけをカバーすることができる。一方では、スペクトルエネルギー分布は、全部の周波数帯域(上側および下側の)に関連があってもよい。そこでは、上側の周波数帯域が低い周波数帯域よりもさらに重みを付けられているかもしれない。この手順によって、すでに、閾値の1つの違反は、エンベロープの数を増加させるかまたはSBRフレームの中でエンベロープの最大限度の数を使用するのに十分である。
さらなる実施形態は、オリジナル入力信号を分析して、そこから制御情報を生成する信号分類器のツールを含み得る。そして、それは異なる符号化モードの選抜をトリガする。異なる符号化モードは、例えば、音声コーダおよび一般のオーディオコーダを含むことができる。入力信号の分析は、所与の入力信号フレームのための最適中心的な符号化モードを選択することを目的とする処理系依存である。最適条件は、符号化のために低いビットレートだけを用いると共に、知覚的な高品質のバランスを保つことに関連している。信号分類器のツールへの入力は、変更されていないオリジナルの入力信号および/または付加的な処理系依存のパラメータでよい。信号分類器のツールの出力は、例えば、コア・コーデックの選抜を制御する制御信号でもよい。
例えば、信号が確認されているかまたは話し言葉として分類される場合、タイムライク・エネルギーの変動(ゆっくりまたは強く変動すること)がよりよく考慮されるように、帯域幅拡張(BWE)のタイムライク分解能は、増加することができる(例えばより多くのエンベロープによって)。
このアプローチは、異なる時間/周波数特性を有する異なる信号が帯域幅拡張に関して特性上の異なる要望を持っているのを考慮に入れる。例えば、トランジェント信号(例えば、音声信号に現れる)は、BWEの細かい時間分解能を必要し、交差周波数(それは、コアコーダの上の周波数境界を意味する)は、できるだけ高くしなくてはならない。特に、有声音声で、歪められた時間的構造は、知覚品質を減少させることができる。一方では、音色の信号はしばしばスペクトル成分の安定した再生と再生している高周波部分の適合している高調波のパターンを必要とする。トーンパーツ(音色部分)の安定再生は、コアコーダの帯域幅を制限する。それは細かい時間的なBMEを必要としない。しかし、その代わりにより細かいスペクトル分解能を必要とする。切替えられたスピーチ/オーディオ・コアコーダの設計において、コアコーダの帯域幅を信号特性に適応させるのと同様に、BWEの時間的およびスペクトル特性の両方を適応させることを決定するコアコーダを使用することはさらに可能である。
すべてのエンベロープが時間内の同じ長さを含む場合、検出した違反(そのときに)に応じて、エンベロープの数はフレームからフレームまで異なる可能性がある。実施形態では、例えば、以下のようにして、SBRフレームのためのエンベロープの数を決定する。入力信号に応じて、最大可能な数のエンベロープ(例えば8)の分割から始めて、段階的にエンベロープの数を減らすことが可能であるので、知覚的に高い品質の信号の再生ができるようにする必要がある以上に、エンベロープは用いられない。
例えば、すでに時間部分の第1番目の境界でフレームの中で検出される違反は、結果的に最大限度の数のエンベロープをもたらすことができるが、第2番目の境界で検出されるだけの違反は、結果的に最大限度の数の半分のエンベロープをもたらすことができる。さらなる実施形態において、伝送されるデータを減らすために、閾値は時刻によって決められる(すなわち、どの境界が現在分析されるかに依存している)。例えば、第1番目と第2番目の時間部分(最初の境界)と第3番目と第4番目の時間部分(第3番目の境界)の間では、閾値はどちらの場合も、第2番目と第3番目の時間部分(第2番目の境界)より高くすることができる。このように、統計学的に、より多くの違反が第1番目または第3番目の境界より第2番目の境界にあり、それ故、より少ないエンベロープが存在し得る。そしてそれは優先される(詳細は、下記を参照)。
さらなる実施形態において、次の時間部分の所定数の時間部分時の長さは、単一のエンベロープが決定されている時間内の極小距離に等しい。そして、決定値カルキュレータは、時間内の極小距離を有する2つの隣接した時間部分のための決定値を計算するように構成される。
さらに他の実施形態は、付加的な側面情報を提供するための情報処理装置を含む。この付加的な側面情報は、オーディオ信号の時間系列の中に第1番目のエンベロープ境界および第2番目のエンベロープを含む。さらなる実施形態において、検出器は、時間的順序で隣接している時間部分の間のそれぞれの境界を調査するように適合される。
実施形態は、エンコーダの中でエンベロープの数を計算するための装置もまた使用する。
エンコーダは、スペクトルエンベロープの数を計算する装置およびこの数を用いてSBRフレームのためのスペクトルエンベロープデータを計算するエンベロープカルキュレータを含む。実施形態は、また、エンベロープの数を計算する方法およびオーディオ信号を符号化する方法を含む。
したがって、FIXFIXの中のエンベロープの使用は、トランジェントとして検出されるかまたはトランジェントと分類されるかを検出するのがあまりに遅いので、前記トランジェント処理によってカバーされないエネルギー変動のより良好なモデリングを目的としている。一方では、それらが適切に扱われない場合、不十分なタイムライク分解能の理由から、それらはアーチファクトを引き起こすのに十分急速である。したがって、本発明によるエンベロープ処理は、強いか急速なエネルギーの変動だけでなく緩除のエネルギーの変動を考慮に入れる。そしてそれは、トランジェントのための特性である。それ故、本発明の実施形態は、特に、ゆっくりと変化するエネルギーを有する信号に関して、より良好な品質のより効率的な符号化を可能にする。そしてその変動強度は、従来のトランジェント検出器によって検出されるにはあまりに低い。
本発明は、図示の実施例について、今から説明される。本発明の特徴は、添付図面を参照して考慮されなければならない以下の詳細な説明を参照することで、より直ちに認められ、よりよく理解されるであろう。
図1は、本発明の実施形態にしたがって多くのスペクトルエンベロープを計算するための装置のブロック図を示す。 図2は、エンベロープ数を計算するカルキュレータを含むSBRモジュールのブロック図を示す。 図3aは、エンベロープ数を計算するカルキュレータを含むエンコーダのブロック図を示す。 図3bは、エンベロープ数を計算するカルキュレータを含むエンコーダのブロック図を示す。 図4は、時間部分の所定数のSBRフレームの分割を図解する。 図5(a)〜図5(c)は、時間部分の異なる数をカバーしている3つのエンベロープを含むSBRフレームのためのさらなる分割を示す。 隣接した時間部分の範囲内の信号のためのスペクトルエネルギー分布を図解する。 隣接した時間部分の範囲内の信号のためのスペクトルエネルギー分布を図解する。 図7aは、オーディオ信号のための異なる時間分解能になっているオプショナルオーディオ/スピーチスイッチを含むエンコーダを示す。 図7bは、オーディオ信号のための異なる時間分解能になっているオプショナルオーディオ/スピーチスイッチを含むエンコーダを示す。 図7cは、オーディオ信号のための異なる時間分解能になっているオプショナルオーディオ/スピーチスイッチを含むエンコーダを示す。
後述する実施形態は、例えばオーディオエンコーダで使われるスペクトル帯域複製を改良するための本発明の原理にとって、実例となっているにすぎない。改良および変更の構成およびその詳細が本願明細書に記載されていることは、他の当業者にとって明らかであるものと理解される。したがって、本願明細書の実施例の説明および説明として示される具体的な詳細によって制限されないことが意図である。
図1は、スペクトルエンベロープ104の数102を計算するための装置100を示す。スペクトルエンベロープ104は、スペクトル帯域複製エンコーダによって引き出される。そこにおいて、最初の時間t0から最終的な時間tnまで延びているスペクトル帯域複製フレーム(SBRフレーム)の次の時間部分110の所定数の中で複数のサンプリングデータを使用しているオーディオ信号105を符号化するのにエンコーダは適している。次の時間部分110の所定数は、オーディオ信号105によって与えられる時間系列に配置される。
装置100は、決定値125を決定するための決定値カルキュレータ120を含む。そこにおいて、決定値125は、一対の隣接した時間部分のスペクトルエネルギー分布の偏差度を測定する。装置100は、決定値125によって閾値の違反135を検出するための違反検出器130をさらに含む。さらに、装置100は、閾値の違反135が検出されるときに、隣接した時間部分の一対との間に第1のエンベロープ境界145を決定するための処理装置140(第1番目の境界の決定処理装置)を含む。装置100は、一対の異なる隣接する時間部分の間で、または、最初の時間t0で、または、他の一対のための閾値の違反135に基づく第1のエンベロープ境界145を有するエンベロープ104のための最終的な時間tnの中で、または、一対の時間的位置または他のSBRフレームの一対に基づいて、第2のエンベロープ境界155を決定するための処理装置150(第2番目の境界の決定処理装置)もまた含む。最後に、装置100は、第1のエンベロープ境界145および第2のエンベロープ境界155を有するスペクトルエンベロープ104の数102を決めるための処理装置160(エンベロープ番号処理装置)を含む。
さらなる実施例は装置100から成る。そこにおいて、次の時間部分110の所定数の時間部分の時間の長さは、単一のエンベロープ104が決定されるのに間に合うように、最小の時間の長さに等しい。さらに、決定値カルキュレータ120は、最小の時間の長さを有する2つの隣接した時間部分のための決定値125を計算するのに適している。
図2は、エンベロープ数カルキュレータ100(図1に示されている)を含むSBRツールのための実施例を示す。そしてそれは、オーディオ信号105を処理することによってスペクトルエンベロープ104の数102を測定する。数102は、エンベロープカルキュレータ210に入力される。そして、それはオーディオ信号105からエンベロープデータ205を計算する。数102を使用して、エンベロープカルキュレータ210はSBRフレームをスペクトルエンベロープ104によってカバーされた部分に分割し、そして、各スペクトルエンベロープ104に関して、エンベロープカルキュレータ210は、エンベロープデータ205を計算する。エンベロープデータは、例えば、量子化されて符号化されたスペクトルエンベロープを含み、このデータは、オリジナル信号のスペクトル特性を複製するために、ノイズおよび高調波成分を加えて、ハイバンド信号を生成し、逆フィルタを使用するのにデコーダ側で必要とされる。
図3aは、エンコーダ300のための実施例を示し、このエンコーダ300は、SBRに関連したモジュール310、分析QMFバンク320、ダウンサンプラー330、AACコア・エンコーダ340およびビットストリーム・ペイロード・フォーマッタ350を含む。加えて、エンコーダ300は、エンベロープカルキュレータ210を含む。エンコーダ300は、PCMサンプル(オーディオ信号105;PCM=パルス符号化変調)のための入力を含む。それは、分析QMFバンク320、SBRに関連したモジュール310およびダウンサンプラー330に接続される。分析QMFバンク320は、次に、エンベロープカルキュレータ210と接続される。そして、それは、次に、ビットストリーム・ペイロード・フォーマッタ350と接続される。ダウンサンプラー330は、AACコア・エンコーダ340と接続される。そして、それは、次に、ビットストリーム・ペイロード・フォーマッタ350と接続される。最後に、SBRに関連したモジュール310は、エンベロープカルキュレータ210に、そして、AACコア・エンコーダ340に接続される。
したがって、エンコーダ300は、コア周波数帯域(ダウン・サンプラー330において)のコンポーネントを生成するためにダウン・オーディオ信号105のサンプルをとる。そしてそれは、コア周波数帯域でオーディオ信号に符号化され、符号化信号をビットストリーム・ペイロード・フォーマッタ350に送るAACコア・エンコーダ340に入力される。コア周波数帯域の符号化されたオーディオ信号は、符号化オーディオストリーム355に加えられる。一方では、オーディオ信号105は、分析QMFバンク320によって分析される。そしてそれは、高周波帯域の周波数成分を抽出して、エンベロープカルキュレータ210にこれらの信号を入力する。例えば、64のサブバンドQMFバンク320は、入力信号のサブバンドフィルタリングを実行する。
フィルタバンクから出力するもの(すなわちサブバンドサンプル)は、複合数値データであり、このように、規則的なQMFバンクと比較して2倍でオーバーサンプリングされる。SBRに関連したモジュール310は、例えば、エンベロープカルキュレータ210にエンベロープ104の数102を提供することによって、エンベロープカルキュレータ210を制御する。 分析QMFバンク320によって生成される数102およびオーディオコンポーネントを使用して、エンベロープカルキュレータ210は、エンベロープデータ205を計算し、そのエンベロープデータ205をビットストリーム・ペイロード・フォーマッタ350に送る。そして、それはエンベロープデータ205と、符号化されたオーディオストリーム355のコア・エンコーダ340によって符号化される成分と結合する。
図3aは、したがって、デコーダ上の高周波数の再構築で用いられるいくつかのパラメータを推定するSBRツールのエンコーダの一部を示す。
図3bは、SBRに関連したモジュール310のための実施例を示す。そしてそれは、エンベロープ数カルキュレータ100(図1図示)および任意の他のSBRモジュール360を含む。SBRに関連したモジュール310は、オーディオ信号105を受信して、エンベロープ104の数102を出力するが、他のSBRモジュール360によって生成される他のデータもまた出力する。
他のSBRモジュール360は、例えば、オーディオ信号105のトランジェントを検出するのに適している従来のトランジェント検出器を含むことができ、SBRモジュールは、デコーダ(SBRパラメータ)上の高周波数の再構築法により用いられるパラメータの一部を適合させることができるかまたはできないようにするために、エンベロープの数および/または位置もまた得ることができる。既にSBRの中で述べたように、SBRタイムユニット(SBRフレーム)は、様々なデータブロック、いわゆるエンベロープに分けることができる。この分割または区分が一定である場合、すなわち、全てのエンベロープ104が同一サイズを有し、最初のエンベロープが始まり、フレーム境界を含んで最後のエンベロープが終わる場合、SBRフレームは、FIXFIXフレームとして定義される。
図4は、スペクトルエンベロープ104の数102のSBRフレームのためのこのようなパーティションを図解する。SBRフレームは、最初の時間t0および最終的な時間tnとの間に時間周期をカバーし、図4の図示した実施例においては、最初の時間部分111,第2番目の時間部分112,・・・,第7番目の時間部分117および第8番目の時間部分118の8つの時間部分に分けられる。8つの時間部分110は、7本の境界によって切り離される。境界1が第1番目および第2番目の時間部分の仲介物で、境界2が第2番目の部分112および第3番目の部分113の間に位置し、境界7が第7番目の部分117および第8番目の部分118の仲介物であるということまでを意味する。標準規格ISO/IEC 14496―3において、FIXFIXフレームの中で、エンベロープ104の最大数は、(サブパーツのパラグラフ4,6,18,3,6を参照)4つに制限される。一般に、FIXFIXフレームのエンベロープ104の数は2(例えば1、2、4)のべき乗であり得る。そこにおいて、同じフレームにおいて、トランジェントが検出されなかった場合、FIXFIXフレームが使われるだけである。一方で、従来の高効率AACエンコーダの実施において、たとえ標準の仕様が理論的に最高4つのエンベロープを許容する場合でも、エンベロープ104の最大数は、やむを得ず2となる。この数のエンベロープ104は、フレーム毎に、例えば、8つ(図4を見よ)に増加することができる。その結果、FIXFIXフレームは1つ、2つ、4つまたは8つのエンベロープ(あるいは他の2のべき乗)を含むことができる。もちろん、エンベロープ104(所定数)の最大数が、SBRフレーム毎に、32のQMFタイムスロットを有するQMFフィルタバンクの時間分解能によって制限することができるように、エンベロープ104の他のいかなる数102もまた可能である。
エンベロープ104の数102は、例えば、以下の通りに計算することができる。決定値カルキュレータ120は、隣接した時間部分110の一対のスペクトルエネルギー分布の偏差を計算する。これは、例えば、決定値カルキュレータ120が、第1番目の時間部分111のための第1のスペクトルエネルギー分布を計算すること、第2番目の時間部分112を有するスペクトルデータから第2のスペクトルエネルギー分布を計算することなどを意味する。それから、第1のスペクトルエネルギー分布および第2のスペクトルエネルギー分布は比較される、そして、この比較から、決定値125が引き出される。そこにおいて、決定値125は、この例では、最初の時間部分111および第2番目の時間部分112との間の境界1に関する。同じ手続きは、これらの隣接した2つの時間部分のために、2つのスペクトルエネルギー分布が引き出されるように、第2番目の時間部分112および第3番目の時間部分113に適合することができる。そして、次に、これらの2つのスペクトルエネルギー分布は、さらなる決定値125を引き出すために、決定値カルキュレータ120によって比較される。
次のステップとして、検出器130は、派生決定値125を閾値と比較し、そして、閾値が違反される場合、検出器130は違反135を検出する。検出器130が違反135を検出する場合、処理装置140は第1のエンベロープ境界145を決定する。例えば、検出器130が境界1において第1番目の時間部分111および第2番目の時間部分112との間に違反を検出する場合、第1のエンベロープ境界145aは、境界1の時間に位置している。
図4の実施例において、グラニュール/境界のためのいくつかの可能性だけが許容される。これは、全部の方法が終わることを、そして、104a(104b)で示される小さいエンベロープによって示されるように、すべての境界がセットされることを意味するものである。この場合、境界は、すべての時間0、1、2、・・・、nに存在している。
しかしながら、第1の境界が例えば時間4の上にあるとき、そのとき、第2の境界に対して捜査がされなければならない。図4に示すように、第2の境界、3、2、0に存在し得る。境界が3にある場合には、最小のエンベロープ104a,104bがセットされるので、全部の手続きが終えられる。境界が2にある場合には、中間のエンベロープ(145a示される。)が使われることができるどうかまだ確かでないので、捜査は続けられなければならない。境界が0にある場合でさえ、後半において、すなわち、4およびnとの間に境界がないとまだ決定されない。後半に境界がない場合、最も広いエンベロープはセットすることができる。境界が例えば5にある場合、最小のエンベロープが使われなければならない。境界が6だけにあれば、そのとき、中間のエンベロープが使われる。
しかしながら、エンベロープに対して、十分にフレキシブルであるかあるいはよりフレキシブルなパターンならば、第1の境界1が決定されたとき、手続きは継続する。それから、処理装置150は第2のエンベロープ境界155を決定する。そしてそれは、他の一対の隣接した時間部分間にあるか、それとも、最初の時間t0または最終の時間tnと一致するかのどちらかである。図4で示す実施例において、第2のエンベロープ境界155aは、最初の時間t0(第1のエンベロープ104aをもたらす)と一致する。そして、他の第2のエンベロープ境界155bは、第2番目の時間部分112および第3番目の時間部分113(第2のエンベロープ104bをもたらす)の間の境界2と一致する。境界1で最初部111および第2番目の時間部分112の間に検出される違反がない場合、検出器130は、第2番目の時間部分112および第3番目の時間部分113の間に境界2を捜査し続ける。違反がある場合、他のエンベロープ104cは、スタート時間t0から境界2まで延びる。
本発明の実施例によれば、一対の隣接したエンベロープについて、前記決定値125はスペクトルエネルギー分布の偏差の測定単位となる。そこにおいて、各スペクトルエネルギー分布は、時間部分の範囲内で、オーディオ信号の一部分に関連する。この実施例の8つのエンベロープでは、それが7つの量(=隣接した時間部分の間の7つの境界)がある、または、一般に、n個のエンベロープがある場合、n―1個の量(決定値125)がある。これらの決定値125の各々は、それから閾値と比較することができ、そして、決定値125(量)が閾値を違反する場合、エンベロープ境界は2つの隣接したエンベロープの間に位置する。決定値125および閾値の定義に応じて、違反は、決定値125が閾値の上または下のどちらかにも存在することができる。決定値125が閾値の下にある場合に備えて、スペクトル分布は、エンベロープからエンベロープまで強く変化することができない。それゆえに、エンベロープ境界は、この位置(時間内の=モーメント)で必要でない場合がある。
好ましい実施例において、エンベロープ104の数102は、2のべき乗を含み、さらに、各エンベロープは、等しい時間周期を含む。これは、4つの可能性があることを意味する。第1の可能性は、全部のSBRフレームが単一のエンベロープ(図4に示されない)によってカバーされるということである。第2の可能性は、そのSBRフレームが2つのエンベロープによってカバーされるということである。第3の可能性は、そのSBRフレームが4つのエンベロープによってカバーされるということである。そして、最後の可能性は、そのSBRフレームが8つのエンベロープ(一番下から一番上まで図4に示される)によってカバーされるということである。
それは、違反が奇数の境界(境界1、境界3、境界5、境界7)にあり、エンベロープの数が常に8(同じ大きさのエンベロープの条件の下で)であるならば、特定の命令の範囲内で境界を捜査するために有利である。一方では、違反が境界2および境界6にある場合、4つのエンベロープがある。そして、最後に、違反が境界4だけにある場合、2つのエンベロープは符号化される、そして、違反が7つの境界のいずれにもない場合、全部のSBRフレームは、1つのエンベロープによってカバーされる。それ故、装置100は最初に境界1、3、5、7を調査することができ、そして、違反がこれらの境界の一つで検出される場合、この場合は、全部のSBRフレームはエンベロープの最大数によって符号化されるので、装置100は、次のSBRフレームを捜査することができる。これらの奇数の境界を捜査したあと、そして、違反が奇数の境界で検出されない場合、検出器130は、次のステップとして、境界2および境界6を捜査することができる。その結果、違反がこれらの2つの境界の一つで検出される場合、エンベロープの数は4つである。そして、装置100は、再び、次のSBRフレームに取り掛かることができる。最終工程として、境界1、2、3、5、6、7まで検出される違反がない場合、検出器130は、境界4を捜査することができる。そして、違反が境界4で検出される場合、エンベロープの数は2に確定される。
一般的な場合(nが偶数であるところのn時間部分について)において、この手順は、また以下の通り、言い直すこともできる。例えば、奇数の境界で違反が検出されず、そのために、決定値125は、隣接したエンベロープ(それは、それらの境界によって分離される)がスペクトルエネルギー分布に関して強い違いが無い構成であるということを意味している閾値の下である場合、SBRフレームをn個のエンベロープに分割する必要がない。そして、その代わりに、n/2個のエンベロープは十分であり得る。さらに、奇数の2倍(例えば境界2、6、10・・・)である境界で検出器130が少しも違反を検出しない場合、エンベロープ境界をこれらの位置に置く必要もなく、したがって、エンベロープの数は、2倍で、すなわち、n/4でさらに減じることができる。この手続きは、着実に継続される(次のステップは、奇数の4倍、すなわち、4,12,・・・となる境界である。)。これらの境界の全てで少しも違反が検出されない場合、全部のSBRフレームのための単一のエンベロープは、充分である。
しかしながら、奇数の境界で決定値125の内の1つが閾値を越える場合、エンベロープ境界は、対応する位置に置かれる(すべてのエンベロープが同じ長さを有すると仮定されたときから)ので、n個のエンベロープは考慮されなければならない。この場合、もし、他の全ての決定値125が閾値の下にあれば、その場合にも、n個のエンベロープは、計算される。
しかしながら、検出器130は、全ての境界を考慮することもでき、エンベロープ104の数を計算するために、全ての時間部分110に関して、全ての決定値125を考慮することができる。
エンベロープ102の数の増加は、伝送されるデータの増加量を意味するので、高い数のエンベロープ104を伴う対応するエンベロープ境界に対して識別閾値は大きくなり得る。これは、境界1、3、5および7での閾値が境界2および6の閾値よりも任意的に高くなる可能性があるということを意味する。そして、それは、同じく、境界4での閾値よりも高くなる可能性がある。より低いかより高い閾値は、多かれ少なかれ閾値の違反が起こり得るという場合に、ここで言及する。例えば、より高い閾値は、2つの隣接している時間部分の間のスペクトルエネルギー分配における偏差度がより低い閾値よりも許容できるかもしれないということを意味する。そして、それ故、スペクトルエネルギー分布における高い閾値のためのより厳密な偏差度は、さらなるエンベロープを要求する必要がある。
選ばれた閾値は、音声信号または一般のオーディオ信号について信号として分類されるかどうかに関しては、信号によって決定され得る。しかしながら、信号が話し言葉として分類される場合、必ずしも識別閾値が常に減じている(または増加している)とは限らない。しかしながら、それは、用途に応じて、一般のオーディオ信号のために役に立つならば、この場合、エンベロープの数が音声信号に対してよりも一般的により小さいので、 閾値は高い。
図5は、エンベロープの長さがSBRフレームを通じて変化するさらなる実施例を図解する。図5aにおいて、実施例は、3つのエンベロープ104、第1のエンベロープ104a、第2のエンベロープ104bおよび第3のエンベロープ104cとともに示される。第1のエンベロープ104aは、最初の時間t0から時間t2の境界2まで延び、第2のエンベロープ104bは、時間t2の境界2から時間t5の境界まで延び、第3のエンベロープ104cは、時間t5の境界5から最後の時間tnまで延びる。すべての時間部分が、再び、同じ長さである場合、そして、SBRフレームが、再び、8つの時間部分に分けられる場合、第1のエンベロープ104aは第1番目および第2番目の時間部分111,112をカバーして、第2のエンベロープ104bは、第3番目,第4番目および第5番目の時間部分113〜115をカバーし、第3のエンベロープ104cは、第6番目、第7番目および第8番目の時間部分をカバーする。したがって、第1のエンベロープ104aは、第2および第3のエンベロープ104bおよび104cよりも小さい。
図5bは、2つのエンベロープだけを有する他の実施例を示し、第1のエンベロープ104aが最初の時間t0から最初t1まで延び、第2のエンベロープ104bは、最初の時間t1から最後の時間tnまで延びている。したがって、第2のエンベロープ104bは、7つの時間部分上に延びているが、第1のエンベロープ104aは、単一の時間部分(最初の時間部分111)上だけに延びている。
図5cの場合も先と同様に、3つのエンベロープ104を有する実施例を示す。そこにおいて、第1のエンベロープ104aは、最初の時間t0から第2の時間t2まで延び、第2のエンベロープ104bは、第2番目の時間t2から第4番目の時間t4まで延び、第3のエンベロープ104cは、第4番目の時間t4から最後の時間tnまで延びる。
これらの実施例において、例えば、エンベロープ104の境界は、閾値の違反が検出されるかまたは最初の時間または最後の時間t0,tnにある隣接した時間部分の間に位置する場合のみに用いられる。図5aにおいて、残留する時間モーメントt1、t3、t4、t6およびt7で違反が少しも検出されないのに対して、違反が時間t2で検出されること、および、違反が時間t5で検出されることを意味する。同様に、図5bにおいて、違反は時間t1でのみで検出され、結果として第1のエンベロープ104aのための境界および第2のエンベロープ104bのための境界をもたらす。そして、図5cにおいて、違反は、第2番目の時間t2および第4番目の時間t4だけで検出される。
デコーダは、順序正しく、エンベロープデータを使用することができ、スペクトルハイバンドを複製することができる。デコーダは、エンベロープ104および対応するエンベロープ境界の位置を必要とする。先に示された実施例において、それは前記標準規格に依存する、そこにおいて、すべてのエンベロープ104は同じ長さから成り、そして、それ故、デコーダは、エンベロープ境界がどこに存在しなければならないか決めることができるように、エンベロープの数を伝送するのに十分であった。しかしながら、図5に示されるように、これらの実施例において、デコーダは、エンベロープ境界が配置された時点で、情報を必要とし、上に述べたように、デコーダは、境界が認識されるとろこの時間モーメントおよびエンベロープの始まりと終わりを保持することができるサイド情報を用いることができるように、追加のサイド情報をデータストリームに入れることができる。この追加情報は、時間t2およびt5(図5aの場合において)、時間t1(図5bの場合において)および時間t2およびt4(図5cの場合において)を含む。
図6aおよび6bは、オーディオ信号105のスペクトルエネルギー分布を用いることによって、決定値カルキュレータ120のための実施例を示す。
図6aは、オーディオ信号のために特定の時間部分、例えば、第1番目の一連の時間部分111についてのサンプリングデータ610を示していて、このサンプリングされたオーディオ信号を、第2番目の一連の時間部分112におけるオーディオ信号620と比較している。オーディオ信号は、サンプリングデータ610,620またはそれらのレベルPのセットが周波数fの関数として示すことができるように、周波数領域に変えられた。より低いおよびより高い周波数帯域は、サンプリングデータが伝送されないf0より高い周波数のためのそれを意味している交差周波数f0によって分離される。その代わりに、デコーダは、SBRデータを用いることによって、これらのサンプリングデータを複製しなければならない。一方では、交差周波数f0より下のサンプルは、例えば、AACエンコーダによって符号化されて、デコーダに伝送される。
デコーダは、高周波成分を複製するために、低周波領域からこれらのサンプルを使用することができる。したがって、第1の時間部分111における第1の一連のサンプル610の偏差および第2の時間部分112における第2の一連のサンプル620の偏差のための計測を見いだすために、それは、高周波帯域(f>f0)のサンプルだけを考慮するのに十分でなくてもよくて、低周波帯域の周波数成分もまた根拠に取り入れてもよい。一般に、相関が高周波帯域の周波数成分および低周波数帯の周波数成分の間の相関がある場合、良質の複製化は予想されることである。第一段階において、それは高周波帯域(交差周波数f0より上に)のサンプリングデータだけを考慮するのに十分であり、第1の一連のサンプリングデータ610と第2の一連のサンプリングデータ620との間で相関を計算するのに十分である。
相関は、標準規格の統計値を用いた方法によって計算することができ、例えば、いわゆる相互相関関数の手段または2つの信号の類似性のための他の統計的手段を含むことができる。2つの信号の相関を推定するために、ピアソンの積率相関係数もまた用いられ得る。ピアソン係数は、標本相関係数としても公知である。一般に、相関係数は、2つの確率変数、 この場合、2つのサンプル分布610および620の間に、直線関係の強さおよび方向を示す。したがって、相関係数は、独立性から2つの確率変数の逸脱に関連する。この広義において、異なる係数が異なる状況のために使われるように、データの性質に適している相関の程度を評価しているいくつかの係数がある。
図6bは、第3の一連のサンプリングデータ630および第4の一連のサンプリングデータ640を示す。そしてそれは、例えば、第3の時間部分113および第4の時間部分114のサンプリングデータと関連し得る。この場合も先と同様に、2つの一連のサンプル(または信号)を比較するために、2つの隣接した時間部分は考慮される。図6aで示される場合とは対照的に、図6bにおいては、サンプリングデータだけが考慮されるように、レベルPが閾値T(P>Tを保持するため)を越える(または、より多くの一般的な違反)閾値Tが導かれる。
本実施例において、スペクトルエネルギー分布の偏差度は、単に、この閾値Tを違反するサンプリングデータの数を計算することによって、測定することができる。そして、その結果は決定値125を修正することができる。この簡便な方法は、各種の時間部分110において、各種の一連のサンプリングデータのきめ細かい統計分析を実行することなしに、両方の信号間の相関係数を得る。あるいは、例えば上記したように、統計分析は、閾値Tだけに違反するサンプルに適用することができる。
図7a〜7cは、スイッチ決定ユニット370およびステレオ符号化ユニット380を含むエンコーダ300を示すさらなる実施例を示す。加えて、エンコーダ300は、例えば、帯域幅拡張ツールとして、エンベロープカルキュレータ210およびSBRに関連したモジュール310を含む。スイッチ決定ユニット370は、オーディオコーダ372および音声コーダ373の間に切り替わるスイッチ決定信号371を提供する。これらのコードの各々は、サンプリングデータ(例えばより高分解能のための1024または低分解能のための256)の異なる数を使用しているコア周波数帯域において、オーディオ信号を符号化することができる。スイッチ決定信号371は、帯域幅拡張(BWE)ツール210、310にも供給される。それから、BWEツール210、310は、例えば、スペクトルエンベロープ104の数102を決定するための閾値を調整して、任意的なトランジェント検出器のオン/オフを作動するためのスイッチ決定信号371によって示される。オーディオ信号105は、ステレオコーディング380がサンプルを取り出すことができるように、スイッチ決定ユニット370に入力されて、ステレオコーディング380に入力される。そして、それは帯域幅拡張ユニット210,310に入力される。スイッチ決定ユニット370によって生成されたスイッチ決定信号371に応じて、帯域幅拡張ツール210、310は、スペクトル帯域複製データを生成する。そして、それは、次に、オーディオコーダ372または音声コーダ373に伝送される。
スイッチ決定信号371は、従属する信号であって、たとえばトランジェント検出器または他の検出器を用いてオーディオ信号を分析することによって、スイッチ決定ユニット370から得ることができる。そしてそれは、可変閾値を含み得るかまたは含み得ない。あるいは、スイッチ決定信号371は、マニュアル的に調整することができるかまたはデータストリーム(オーディオ信号に含まれる)から取得することができる。オーディオコーダ372および音声コーダ373の出力は、再び、ビットストリーム・ペイロード・フォーマッタ350(図3a参照)に、入力され得る。
図7bは、最初の時間ta以下で第2番目の時間tb以上の時間に対してオーディオ信号を検出するスイッチ決定信号371のための実施例を示す。最初の時間taおよび第2番目の時間tbとの間に、スイッチ決定ユニット370は、スイッチ決定信号371のための異なる離散値を意味している音声信号を検出する。
その結果、図7cに示されるように、時間ta以前を意味するオーディオ信号は検出される時間の間ずっと、エンコーディングの時間分解能は低いのに対して、音声信号が検出される(最初の時間taおよび第2番目の時間tbの間に)時間の間ずっと、時間分解能は増加する。時間分解能の増加は、時間ドメインのより短い分析ウィンドウを意味する。増加した時間分解能は、また、前述の増加したスペクトルエンベロープ(図4の記述を参照)の数を意味する。
高周波の正確な時間的表現を必要とする音声信号のために、識別閾値(例えば、図4で用いられた)は、より多くのパラメータ集合を伝送するために、スイッチ決定ユニット370によって制御される。切替えられたコアコーダの時間ドメイン符号化部373によってコーディングされる話し言葉および音声状信号のために、より多くのパラメータ集合を使用する識別閾値は、例えば、引き下げられ、ひいては、時間分解能が増加する。しかしながら、この場合、必ずしも上記したようになるというわけではない。信号に対するタイムライク分解能の適合は、下にあるコーダ構造(図4において使われなかった)から独立している。これは、記載されている方法が、 SBRモジュールが単一のコア・コーダだけを含むシステムの範囲内でも使用可能であることを意味する。
いくつかの態様が装置の文脈に記載されていたにもかかわらず、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に相当する場合には、これらの態様もまた対応方法の説明を表すことは、明らかである。同様に、態様は、対応するブロックまたは項目の説明または対応する装置の機能を表す方法ステップの文脈にも記載されている。
発明の符号化されたオーディオ信号は、デジタル記憶媒体に保存されることができるかまたは伝送媒体(例えば無線伝送媒体または有線伝送媒体(例えばインターネット)に伝送することができる。
特定の実現要求に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアにおいて実現することができる。その実現は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体(例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ)を使用することで、実行することができる。そして、それは、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協同する(または、協同することができる)。
本発明によるいくつかの実施例は、本願明細書において記載されている方法のうちの1つが実行されるように、プログラミング可能なコンピュータシステムと協同される電子的に読み込み可能な制御信号を有するデータ記憶媒体を含む。
通常、本発明の実施例はプログラムコードを有するコンピュータ・プログラム製品として実現されることができる、コンピュータ・プログラム製品がコンピュータ上で動作するときに、その方法のうちの1つを実行するために、プログラムコードが実施されている。プログラムコードは、機械可読なキャリアに例えば格納することができる。他の実施例は、本願明細書において記載されていて、機械可読キャリアに格納される方法のうちの1つを実行するための計算機プログラムを含む。
したがって、換言すれば、本発明の方法の実施例は、コンピュータ・プログラムがコンピュータで作動するときに、本願明細書において記載されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施例において、 データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)は、本願明細書において記載されている方法のうちの1つを実行するために、その上に記録されるコンピュータプログラムを含む。したがって、本発明の方法のさらなる実施例は、本願明細書において記載されている方法のうちの1つを実行するためのコンピュータプログラムを示すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えばデータ通信接続によって、例えば、インターネットを介して、伝送するために構成する可能性がある。
さらなる実施例は、本願明細書において記載されている方法のうちの1つを構成するようにあるいは実行するように適合される、例えばコンピュータまたはプログラム可能論理回路などの処理手段を含む。
さらなる実施例は、本願明細書において記載されている方法のうちの1つを実行するために、コンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施例において、プログラム可能論理回路(例えばフィールド・プログラマブル・ゲート・アレイ)は、本願明細書において記載されている方法の機能性のいくらかまたは全てを実行するために用いることができる。いくつかの実施例では、フィールド・プログラマブル・ゲート・アレイは、本願明細書において記載されている方法のうちの1つを実行するために、マイクロプロセッサと協同することができる。通常、望ましくは、この方法は、いかなるハードウェア装置によっても実行される。
上記した実施例は、単に本発明の原理のために図示するだけである。本明細書において記載されている配置の修正、変更および詳細は、他の当業者にとって明らかであろうことは理解される。したがって、本発明は特許請求の範囲のみによって限定されるものであり、本明細書の実施例の記述および説明によって提示された特定の細部によって限定されるものではないといこうとが真意である。

Claims (15)

  1. スペクトル帯域複製(SBR)エンコーダによって得られるスペクトルエンベロープ(104)の数(102)を計算するための装置(100)であって、
    前記SBRエンコーダは、最初の時間(t0)から最後の時間(tn)まで延びているSBRフレームの中で所定数の次の時間部分(110)の複数のサンプル値を用いてオーディオ信号(105)を符号化するように構成され、前記所定数の次の時間部分(110)は、前記オーディオ信号(105)によって与えられる時間系列に配置され、
    前記装置(100)は、
    一対の隣接した時間部分のスペクトルエネルギー分布の偏差の測定単位となっている決定値(125)を決定するための決定値カルキュレータ(120)、
    前記決定値(125)によって閾値の違反(135)を検出するための検出器(130)、
    前記閾値の前記違反(135)が検出されると、前記一対の隣接した時間部分の間に第1のエンベロープ境界(145)を決定するための処理装置(140)、
    他の一対の閾値の違反(135)に基づいて、またはSBRフレームにおける前記一対または前記異なる一対の時間的位置に基づいて、前記第1のエンベロープ境界(145)を有するエンベロープに関して、一対の異なる隣接した時間部分の間、または、前記最初の時間(t0)または前記最後の時間(tn)における第2のエンベロープ境界(155)を決定するための処理装置(150)、および
    前記第1のエンベロープ境界(145)および前記第2のエンベロープ境界(155)を有するスペクトルエンベロープ(104)の前記数(102)を設定するための数処理装置(160)を含む、装置(100)。
  2. 前記所定数の次の時間部分(110)の時間長さは、単一のエンベロープが決定され、前記決定値カルキュレータ(120)が時間内の最小長さを有する2つの隣接した時間部分の決定値(125)を計算するように構成されるために、時間内の最小長さと同じである、請求項1に記載の装置(100)。
  3. 前記処理装置(140)は、第1の違反検出(135)で前記第1のエンベロープ境界(145)を決定するように構成され、前記処理装置(150)は、少なくとも一つの他の決定値(125)と前記閾値とを比較した後、前記第2のエンベロープ境界(155)を決定するように構成される、請求項1または請求項2に記載の装置(100)。
  4. 前記装置(100)は、付加的なサイド情報を提供するための情報処理装置をさらに含み、前記付加的なサイド情報は、前記オーディオ信号(105)の前記時間系列の中に前記第1のエンベロープ境界(145)および前記第2のエンベロープ境界(155)を含む、請求項3に記載の装置(100)。
  5. 所定数の次の時間部分(110)の中の隣接する時間部分の間に境界があり、前記検出器(130)は、前記隣接した時間部分(110)の間の前記境界の各々を時間的順序で捜査するように構成される、請求項1〜請求項4のいずれか1項に記載の装置(100)。
  6. 前記次の時間部分(110)の前記所定の数は、前記第1のエンベロープ境界(145)および前記第2のエンベロープ境界(155)が偶数および奇数の境界を含むように前記時間に関して番号が付けられて順序付けられた隣接する時間部分(110)の間にn−1個の境界がある状態で、nに等しく、前記数処理装置(160)は、前記検出器(130)が奇数の境界で前記違反(135)を検出した場合に、前記スペクトルエンベロープ(104)の数(102)として前記nを構築するように構成される、請求項1または請求項2に記載の装置(100)。
  7. 前記検出器(130)は、最初に奇数の境界で、前記違反(135)を検出するように構成される、請求項6に記載の装置(100)。
  8. 前記処理装置(150)は、前記スペクトルエンベロープ(104)が同じ時間的長さを含み、前記スペクトルエンベロープ(104)の数(102)が2のべき乗であるように前記第2の境界(155)を決定するように構成される、請求項1〜請求項7のいずれか1項に記載の装置(100)。
  9. 次の時間部分(110)の前記所定の数は、8に等しく、前記数処理装置(160)は、前記スペクトルエンベロープ(104)の各々が同じ時間的長さを含むように前記スペクトルエンベロープ(104)の前記数(102)を1,2,4または8に構築するように構成される、請求項8に記載の装置(100)。
  10. 前記検出器(130)は、より多くのスペクトルエンベロープ(104)を生み出す時間的位置において、より少ないスペクトルエンベロープ(104)を生み出す時間的位置よりも高い閾値が用いられるように、前記違反(135)の時間的位置によって決まる閾値を用いるように構成される、請求項8または請求項9に記載の装置(100)。
  11. 前記装置(100)は、トランジェント閾値を有するトランジェント検出器および/またはエンベロープカルキュレータ(210)をさらに含み、前記トランジェント閾値は、前記閾値より大きい状態であり、前記エンベロープカルキュレータ(210)は、前記第1のエンベロープ境界(145)から前記第2のエンベロープ境界(155)まで延びているスペクトルエンベロープ(104)のためのスペクトルエンベロープデータを計算するように構成されている、請求項1〜請求項10のいずれか1項に記載の装置(100)。
  12. 前記装置(100)は、スイッチ決定信号(371)を提供するように構成されるスイッチ判断ユニット(370)をさらに含み、前記スイッチ決定信号(371)は、音声信号および一般のオーディオ信号を示し、前記検出器(130)は、前記音声信号のための前記閾値を下げるように構成される、請求項1〜請求項11のいずれか1項に記載の装置(100)。
  13. オーディオ信号(105)を符号化するためのエンコーダ(300)であって、
    前記エンコーダ(300)は、
    コア周波数帯域の中で前記オーディオ信号(105)を符号化するためのコアコーダ(340)、
    スペクトルエンベロープ(104)の数(102)を計算するための装置(100)、および
    前記オーディオ信号(105)と、第1のエンベロープ境界(145)および第2のエンベロープ境界を有するスペクトルエンベロープ(104)の前記数(102)とに基づいて、エンベロープデータを計算するためのエンベロープカルキュレータ(210)を含み、
    前記エンコーダ(300)は、スペクトル帯域複製(SBR)エンコーダであり、前記SBRエンコーダは、最初の時間(t0)から最後の時間(tn)まで延びているSBRフレームの中で所定数の次の時間部分(110)の複数のサンプル値を用いてオーディオ信号(105)を符号化するように構成され、前記所定数の次の時間部分(110)は、前記オーディオ信号(105)によって与えられる時間系列に配置され、
    前記装置(100)は、
    一対の隣接した時間部分のスペクトルエネルギー分布の偏差の測定単位となっている決定値(125)を決定するための決定値カルキュレータ(120)、
    前記決定値(125)によって閾値の違反(135)を検出するための検出器(130)、
    前記閾値の前記違反(135)が検出されると、前記一対の隣接した時間部分の間に第1のエンベロープ境界(145)を決定するための処理装置(140)、
    他の一対の閾値の違反(135)に基づいて、またはSBRフレームにおける前記一対または前記異なる一対の時間的位置に基づいて、前記第1のエンベロープ境界(145)を有するエンベロープについて、一対の異なる隣接した時間部分の間、または、前記最初の時間(t0)または前記最後の時間(tn)における第2のエンベロープ境界(155)を決定するための処理装置(150)、および
    前記第1のエンベロープ境界(145)および前記第2のエンベロープ境界(155)を有するスペクトルエンベロープ(104)の前記数(102)を設定するための数処理装置(160)を含む、エンコーダ(300)。
  14. スペクトル帯域複製(SBR)エンコーダによって得られるスペクトルエンベロープ(104)の数(102)を計算するための方法であって、
    前記SBRエンコーダは、最初の時間(t0)から最後の時間(tn)まで延びているSBRフレームの中の所定数の次の時間部分(110)の複数のサンプル値を用いてオーディオ信号(105)を符号化するように構成され、前記所定数の次の時間部分(110)は、前記オーディオ信号(105)によって与えられる時間系列に配置され、
    前記方法は、
    一対の隣接した時間部分のスペクトルエネルギー分布の偏差の測定単位となっている決定値(125)を決定すること、
    前記決定値(125)によって閾値の違反(135)を検出すること、
    前記閾値の違反(135)が検出されたときに、前記一対の隣接した時間部分の間に第1のエンベロープ境界(145)を決定すること、
    他の一対の閾値の違反(135)に基づいて、またはSBRフレームにおける前記一対または前記異なる一対の時間的位置に基づいて、前記第1のエンベロープ境界(145)を有するエンベロープに関して、一対の異なる隣接した時間部分の間、または、前記最初の時間(t0)または前記最後の時間(tn)における第2のエンベロープ境界(155)を決定すること、および
    前記第1のエンベロープ境界(145)および前記第2のエンベロープ境界(155)を有するスペクトルエンベロープ(104)の前記数(102)を設定することを含む、方法。
  15. 請求項14に記載の方法をコンピュータまたは処理装置に実行させるためのコンピュータプログラムを記憶したコンピュータ可読媒体。
JP2011516988A 2008-07-11 2009-06-23 多くのスペクトルエンベロープを計算するための装置および方法 Active JP5551694B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US61/079,841 2008-07-11
PCT/EP2009/004523 WO2010003546A2 (en) 2008-07-11 2009-06-23 An apparatus and a method for calculating a number of spectral envelopes

Publications (2)

Publication Number Publication Date
JP2011527450A JP2011527450A (ja) 2011-10-27
JP5551694B2 true JP5551694B2 (ja) 2014-07-16

Family

ID=40902067

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011516986A Active JP5628163B2 (ja) 2008-07-11 2009-06-23 帯域幅拡張出力データを生成するための装置および方法
JP2011516988A Active JP5551694B2 (ja) 2008-07-11 2009-06-23 多くのスペクトルエンベロープを計算するための装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011516986A Active JP5628163B2 (ja) 2008-07-11 2009-06-23 帯域幅拡張出力データを生成するための装置および方法

Country Status (20)

Country Link
US (2) US8612214B2 (ja)
EP (2) EP2301028B1 (ja)
JP (2) JP5628163B2 (ja)
KR (5) KR101395252B1 (ja)
CN (2) CN102089817B (ja)
AR (3) AR072480A1 (ja)
AU (2) AU2009267530A1 (ja)
BR (2) BRPI0910517B1 (ja)
CA (2) CA2730200C (ja)
CO (2) CO6341676A2 (ja)
ES (2) ES2539304T3 (ja)
HK (2) HK1156141A1 (ja)
IL (2) IL210196A (ja)
MX (2) MX2011000367A (ja)
MY (2) MY153594A (ja)
PL (2) PL2301027T3 (ja)
RU (2) RU2494477C2 (ja)
TW (2) TWI415115B (ja)
WO (2) WO2010003544A1 (ja)
ZA (2) ZA201009207B (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177569B2 (en) 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
RU2591012C2 (ru) 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
PL2545551T3 (pl) 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
BR112012026326B1 (pt) * 2010-04-13 2021-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V método e codificador e decodificador para representação com amostragem precisa de um sinal de áudio
ES2719102T3 (es) * 2010-04-16 2019-07-08 Fraunhofer Ges Forschung Aparato, procedimiento y programa informático para generar una señal de banda ancha que utiliza extensión de ancho de banda guiada y extensión de ancho de banda ciega
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN103548077B (zh) 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
US9633654B2 (en) 2011-12-06 2017-04-25 Intel Corporation Low power voice detection
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
BR112015017632B1 (pt) * 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
MX347080B (es) 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
CA2961336C (en) * 2013-01-29 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
WO2014161996A2 (en) 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
PT3008726T (pt) 2013-06-10 2017-11-24 Fraunhofer Ges Forschung Aparelho e método de codificação, processamento e descodificação de envelope de sinal de áudio por modelação da representação de soma cumulativa empregando codificação e quantização de distribuição
SG11201510164RA (en) 2013-06-10 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
BR112015031605B1 (pt) * 2013-06-21 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de áudio tendo um módulo de extensão de largura de banda com um módulo de ajuste de energia
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
EP3040987B1 (en) 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10120067B2 (en) 2014-08-29 2018-11-06 Leica Geosystems Ag Range data compression
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
PL3405949T3 (pl) 2016-01-22 2020-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób szacowania międzykanałowej różnicy czasowej
CN105513601A (zh) * 2016-01-27 2016-04-20 武汉大学 一种音频编码带宽扩展中频带复制的方法及装置
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10084493B1 (en) * 2017-07-06 2018-09-25 Gogo Llc Systems and methods for facilitating predictive noise mitigation
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US11811686B2 (en) 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2128396C1 (ru) * 1997-07-25 1999-03-27 Гриценко Владимир Васильевич Способ передачи и приема информации и устройство для его осуществления
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
WO2003046891A1 (en) * 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
CA2501368C (en) 2002-10-11 2013-06-25 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
US20080260048A1 (en) 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8314694B2 (en) 2004-06-28 2012-11-20 Abb Research Ltd System and method for suppressing redundant alarms
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
BRPI0616624A2 (pt) * 2005-09-30 2011-06-28 Matsushita Electric Ind Co Ltd aparelho de codificação de fala e método de codificação de fala
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
JP5117407B2 (ja) 2006-02-14 2013-01-16 フランス・テレコム オーディオ符号化/復号化で知覚的に重み付けするための装置
EP1852849A1 (en) 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20070282803A1 (en) * 2006-06-02 2007-12-06 International Business Machines Corporation Methods and systems for inventory policy generation using structured query language
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
WO2008031458A1 (en) 2006-09-13 2008-03-20 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Also Published As

Publication number Publication date
WO2010003546A2 (en) 2010-01-14
KR20130033468A (ko) 2013-04-03
TWI415115B (zh) 2013-11-11
AR072552A1 (es) 2010-09-08
KR20110040820A (ko) 2011-04-20
CO6341676A2 (es) 2011-11-21
CA2730200A1 (en) 2010-01-14
MY155538A (en) 2015-10-30
EP2301028A2 (en) 2011-03-30
KR20130095841A (ko) 2013-08-28
EP2301027A1 (en) 2011-03-30
WO2010003544A1 (en) 2010-01-14
AU2009267532A1 (en) 2010-01-14
EP2301028B1 (en) 2012-12-05
JP5628163B2 (ja) 2014-11-19
AR097473A2 (es) 2016-03-16
BRPI0910523B1 (pt) 2021-11-09
AU2009267532B2 (en) 2013-04-04
US8296159B2 (en) 2012-10-23
ZA201009207B (en) 2011-09-28
US20110202352A1 (en) 2011-08-18
TW201007701A (en) 2010-02-16
IL210196A (en) 2015-10-29
JP2011527450A (ja) 2011-10-27
CN102144259B (zh) 2015-01-07
KR101395257B1 (ko) 2014-05-15
BRPI0910517A2 (pt) 2016-07-26
JP2011527448A (ja) 2011-10-27
KR101345695B1 (ko) 2013-12-30
EP2301027B1 (en) 2015-04-08
IL210330A0 (en) 2011-03-31
US20110202358A1 (en) 2011-08-18
KR101395252B1 (ko) 2014-05-15
US8612214B2 (en) 2013-12-17
MX2011000361A (es) 2011-02-25
IL210196A0 (en) 2011-03-31
HK1156141A1 (en) 2012-06-01
TWI415114B (zh) 2013-11-11
HK1156140A1 (en) 2012-06-01
MX2011000367A (es) 2011-03-02
PL2301028T3 (pl) 2013-05-31
RU2011101617A (ru) 2012-07-27
KR20130095840A (ko) 2013-08-28
KR101395250B1 (ko) 2014-05-15
RU2494477C2 (ru) 2013-09-27
CA2729971C (en) 2014-11-04
CO6341677A2 (es) 2011-11-21
CA2730200C (en) 2016-09-27
WO2010003546A3 (en) 2010-03-04
RU2487428C2 (ru) 2013-07-10
ES2539304T3 (es) 2015-06-29
AU2009267532A8 (en) 2011-03-17
PL2301027T3 (pl) 2015-09-30
CN102144259A (zh) 2011-08-03
CN102089817A (zh) 2011-06-08
CA2729971A1 (en) 2010-01-14
ES2398627T3 (es) 2013-03-20
MY153594A (en) 2015-02-27
AU2009267530A1 (en) 2010-01-14
TW201007700A (en) 2010-02-16
AR072480A1 (es) 2010-09-01
KR20110038029A (ko) 2011-04-13
ZA201100086B (en) 2011-08-31
BRPI0910523A2 (pt) 2020-10-20
CN102089817B (zh) 2013-01-09
RU2011103999A (ru) 2012-08-20
KR101278546B1 (ko) 2013-06-24
BRPI0910517B1 (pt) 2022-08-23

Similar Documents

Publication Publication Date Title
JP5551694B2 (ja) 多くのスペクトルエンベロープを計算するための装置および方法
US8275626B2 (en) Apparatus and a method for decoding an encoded audio signal
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
KR20170037970A (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
WO2013062201A1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
JP4354561B2 (ja) オーディオ信号符号化装置及び復号化装置
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data
KR20060059882A (ko) 오디오 코딩

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130131

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140522

R150 Certificate of patent or registration of utility model

Ref document number: 5551694

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250