JP2004513557A - オーディオ信号のパラメトリック符号化方法及び装置 - Google Patents

オーディオ信号のパラメトリック符号化方法及び装置 Download PDF

Info

Publication number
JP2004513557A
JP2004513557A JP2002540318A JP2002540318A JP2004513557A JP 2004513557 A JP2004513557 A JP 2004513557A JP 2002540318 A JP2002540318 A JP 2002540318A JP 2002540318 A JP2002540318 A JP 2002540318A JP 2004513557 A JP2004513557 A JP 2004513557A
Authority
JP
Japan
Prior art keywords
transition
signal
time
encoding method
transitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002540318A
Other languages
English (en)
Inventor
ヴァフィン,レナット
ヒュースデンス,リハルト
ファン デ パール,ステーフェン エル イェー デー エー
クレイン,ウィレム ベー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004513557A publication Critical patent/JP2004513557A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ信号における遷移の改善された表示は、遷移が正弦波セグメントの最初でだけ生ずるように遷移の位置を変更することを有する。変更手順は、2つの移動する長方形の窓を有するエネルギーベースのアプローチ法を用いて遷移の最初と最後を検出する段階と、遷移の最初と最後の間のサンプルを使用されるセグメンテーションによって指定された位置に移動する段階と、遷移間の信号部分をタイムワープし変更された遷移の間の間隔を埋める段階とを有する。

Description

【0001】
本発明は、信号を符号化する方法、及び、信号を記憶、送信、受信、或いは再現する装置に関わる。
【0002】
オーディオ信号を記憶する一般的な方法は、典型的には6kbps乃至90kbpsの範囲において特に非常に低ビットレートでオーディオ信号を表示するためにパラメトリック符号化を使用することである。このようにして使用されるパラメトリック符号化の使用例は、IEEE International conference on Acoustics,Speech and Signal Processingの会報のVolume 2,pp.1045−1048,1996における“Low bit rate high quality audio coding with combined harmonic and wavelet representation”; 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acousticsの会報のppW99−1−W99−4,1999における“Advances in Parametric Audio Coding”;及び、IEEE International Conference on Acoustics,Speech and Signal Processingの会報のVolume II,pp.877‐880,2000における“A 6 kbps to 85 kbps scalable audio coder”に含まれる。これらの例では、パラメトリックオーディオ符号器が記載されており、オーディオ信号はモデルによって表示され、このときモデルのパラメータは推定されエンコードされている。これらの例は、元の信号の3つの成分:遷移(transient)成分、音(正弦波)成分、及びノイズ成分への分解に基づいてオーディオ信号のパラメトリック表示を使用する。各成分は、上記3つの文献に記載されるように対応する組のパラメータによって表示される。オーディオ信号の遷移成分は、比較的短命なオーディオ信号の隔離された要素として特徴付けられ、オーディオ信号のエネルギーが急に上昇することで表示される。
【0003】
オーディオ信号の遷移成分に対して専用モデルを有することは、正弦波モデル及びノイズモデルが急な攻撃のように知覚的に重要なイベントを容易に表示することができず、乏しいモデリングが結果として前反響のような可聴アーチファクトを生じ得るため、急な攻撃を含むオーディオ信号の部分には有利となることが分かっている。前反響は、遷移が始まる前にモデリングエラーがサンプルに遷移イベントを分散するとき、且つ、結果として生ずるひずみが可聴になるに十分に大きいときに生ずる。遷移が始まる前のサンプルへのモデリングエラーの分散は、オーディオ符号器における入力信号のセグメントづつの解析から生ずる。遷移が解析セグメントの真ん中で起こる場合、遷移を正確にモデリングするために大量の符号化リソースを要求するか、モデリングエラーが解析セグメント全体に分散される。遷移を先行するサンプルのモデリングエラーは、遷移イベント自体からのマスキングがより弱いため、遷移の後のサンプルにおけるよりも典型的には知覚的により明らかである。
【0004】
IEEE International Conference on Acoustics,Speech and Signal Processingの会報のVolume 2,pp.1005‐1008,1996における“Residual modeling in music analysis‐synthesis”では、遷移成分が正弦波モデル及びノイズモデルだけでは十分に表示され得ないことを示す。
【0005】
IEEE International Conference on Acoustics,Speech and Signal Processingの会報のVolume 6,pp.3581‐3584,1998における“Robust exponential modeling of audio signals”では、指数関数的に変調された振幅を有する正弦波(以降減衰された正弦波と呼ぶ)を用いて遷移が効率的にモデリングされ得ることを示す。以下のテキストでは、減衰係数は任意の実数でよく、正の値は適切に減少する振幅に対して増加する振幅に対応する。(上記)“Robust exponential modeling of audio signals”では、オーディオ信号は、セグメントづつ解析され、各セグメントは減衰された正弦波の和として表示される。遷移が所与のセグメントの真ん中で始まるとこのタイプの符号化では問題が生じる。セグメントの始めで遷移が始まる場合と比較して、遷移を良くモデリングするために必要な減衰された正弦波の数は相当増加する。遷移が正しくモデリングされない場合、モデリングエラーが所与のセグメント全体にわたって分散され、結果として可聴な前反響が生じる。
【0006】
Audio Engineering Society,Volume 42,pp.780‐792,October 1994の論文における“ISO‐MPEG−1 Audio:a generic standard for coding of high‐quality digital audio”に記載されるようにMPEG‐1 レイヤIII オーディオ符号化アルゴリズムでは、セグメンテーションは長い窓と短い窓の長さによってだけ画成されている。
【0007】
本発明は、上記不都合な点に取り組むことを目的とする。このために本発明は、独立項に記載するように符号化方法及び符号化装置を提供する。有利な実施例は従属項に記載する。
【0008】
本発明の第1の面によると、入力信号の符号化は、
入力信号の時間セグメントにおける少なくとも一つの遷移の位置を推定し、
所定のタイムスケール上の指定された位置でその遷移或いは各遷移が生ずるように遷移の位置を変更し、変更された信号を得、
変更された信号をモデリングすることを含む。
【0009】
遷移に対する位置だけを提供するために所定のタイムスケール上の指定された位置の形態で制限された時間セグメンテーションを使用することは、有利的にはセグメンテーションを記述するのに必要なビットの数を有利的には減少させる。更に、変更手順は、完全精度セグメンテーション手順と比べて計算費が低い。
【0010】
各遷移は、好ましくは所定のタイムスケール上の複数の可能な位置の最も近くに指定された位置に再び位置決めされる。
【0011】
所定のタイムスケール上の指定された位置は、所定の最小の時間セグメントの大きさの整数倍で定められてもよい。所定の最小の時間セグメントの大きさ、約1ミリ秒(ms)乃至約9msの範囲、より好ましくは約4ms乃至約6msの範囲の長さを有してもよい。
【0012】
有利的に記載した制限された時間セグメンテーションの使用は、モデリングされる入力信号の遷移、正弦波、及びノイズ成分の間で符号化リソースを分散するためにレートひずみ制御が使用される場合、モデリング手順を著しく簡略化する。
【0013】
モデリングは、好ましくは減衰された正弦波を使用する。
【0014】
オーディオ信号は、約5乃至50kHz、より好ましくは8、26、44.1、又は48kHzのレートでサンプリングされる。ビデオ信号は、約5乃至20MHzのレートで好ましくはサンプリングされる。
【0015】
制限された時間セグメンテーションも入力信号の音及び/又はノイズ成分に適用されてもよい。
【0016】
遷移の位置の推定は、エネルギーベースのアプローチ法を使用して、好ましくは移動窓方法を用いて、より好ましくは2つの移動窓を用いて行われ得る。
【0017】
エネルギーベースのアプローチ法は、非常に短い遷移と長い遷移の両方の有利な推定を可能にする。
【0018】
遷移の位置は、各遷移の最初と最後の位置を伴ってもよい。
【0019】
各位置決めされた遷移は、その元の位置からカットアンドペーストで移動され、所定のタイムスケール上の位置で始められるようにする。
【0020】
カットアンドペースト方法は、単に遷移として識別された入力信号の部分を除去し、新しい位置に移動する。従って、この段階は実行するのに非常に簡単である。
【0021】
2つの位置決めされ変更された遷移の間の入力信号の残留部分は、好ましくはタイムワープされ、再位置決めに続いて残留する隙を埋める。時間の歪みは、上記残留部分を長くすること、或いは、短くすることでもよい。
【0022】
ピッチ知覚及び音マスキング効果を含む音響知覚の知識を用いて、タイムワープは、遷移の変更後に残留信号を復元する簡単な方法である。
【0023】
タイムワープは、好ましくは帯域制限補間方法によって、変更された信号のエッジ点の振幅を好ましくは保存する。
【0024】
タイムワープは、残留部分の基本周波数fにおける変化が約0.3%未満であり、より好ましくは約0.2%未満である補間によって行われることが好ましい。
【0025】
さもなければ、残留部分は、変更された遷移直後の第1の長さと第2の長さとに分けられることが好ましい。第1の長さは、約8ms乃至12msであることが好ましく、10msであることがより好ましい。第1の長さは、発生した基本周波数の変化がわずか約1.6%乃至2.4%であり、より好ましくはわずか約2%の場合に補間されることが好ましい。第2の長さに関して、基本周波数の変化は、好ましくはわずか約0.16%乃至0.24%であり、より好ましくは0.2%である。
【0026】
残留部分における隙を埋めるのに補間が不十分な場所では、重なり合い−加算手順が好ましくは使用される。
【0027】
ある遷移又は各遷移の位置の変更は、好ましくは離散コサイン変換を用いて周波数領域への変換を使用して実施され得る。結果として生ずる正弦波表示は、ハンニング窓を用いて遷移の位置に関して解析されてもよい。ハンニング窓は、約512サンプルの長さを有し(1サンプルは、1を入力信号のサンプリング周波数で分割した長さを有する)、好ましくは256サンプルがハンニング窓の間で重なり合う。
【0028】
入力信号は、入力信号を複数の時間セグメントに分割することで好ましくは処理される。時間セグメントは、約0.5s乃至2sの範囲の長さ、好ましくは約1sの長さを有してもよい。
【0029】
隣接する時間セグメントは、好ましくは夫々の長さの約5%乃至約15%だけ好ましくは重なり合うよう配置され、より好ましくは重なり合いは、時間セグメントの長さの約10%であり、この重なり合いは約0.1sでもよい。隣接する時間セグメントの重なり合いに遷移が位置する場所では、遷移の位置は、遷移が最も中心的に位置する時間セグメントにおいて変更される。
【0030】
隣接する時間セグメントにおける重なり合いは、遷移が最も中心的に位置する、或いはより重要には時間セグメントの最初と最後から最も遠くに位置する時間セグメントの選択を有利的に可能にする。
【0031】
本発明は、第1の面の符号化に従って符号化されたオーディオ又はビデオ信号を復号化することを含む。
【0032】
本発明の実施例による装置は、オーディオ装置、例えば、ソリッド・ステートオーディオ装置でもよい。
【0033】
本願記載の全ての特徴は、任意の組み合わせで任意の上記面と組み合わされ得る。
【0034】
本発明の好ましい実施例は、前に記載したよりもより簡略化された解析手順を符号化が有する符号化信号、同様の方法よりも低い計算費を符号化が有する符号化信号、及び、セグメント化された信号を記述するのに必要なビットの数を符号化が減少させる符号化信号を提供する。
【0035】
復号器側で信号をデワープするためにビットストリームに追加のサイド情報が含まれてもよい。適当なデワープにより、ステレオ信号の時間のミスアライメントが回避され得る。
【0036】
本発明の特定の実施例を例によって、添付の図面を参照して説明する。
【0037】
本願に記載し、図4に示す第1の方法は、制限された時間セグメンテーションを使用し、このときオーディオ信号のセグメントは、所定の最小セグメントの大きさ、例えば、本例では5msの整数倍で定義されるが、当然のことながらこの所定の大きさは可変でもよい。制限された時間セグメンテーションを鑑みて、オーディオ信号の遷移成分は、遷移がセグメントの最初でだけ始まるよう変更される。次に変更された信号は、本例では減衰された正弦波を用いてモデリングされる。これにより、減衰された正弦波を用いて遷移が効率的に表示される。
【0038】
オーディオの符号化は、実験的結果の説明で以下に記載するように比較的粗い時間グリッドによって画成される位置でだけ遷移が発生するよう、信号の遷移要素の位置を変更する第1の段階を含む。オーディオ信号中の遷移の位置を変更するために、次の段階:
1.オーディオ信号の遷移成分を推定し、元のオーディオ信号から減算し、残留信号を形成する;
2.遷移がグリッド上で指定された位置でだけ発生し得るよう推定された遷移の位置を変更することで行われる。
【0039】
遷移の推定及び変更中、変更された遷移信号が上記段階1で得られた残留信号に加算されると、得られた信号と元のオーディオ信号との間で知覚的な差がないことが確認される。
【0040】
遷移の位置を変更するためには、符号化されるべき元のオーディオ信号の遷移成分を推定することが必要である。オーディオのパラメトリック符号化に異なる遷移モデルを使用することが可能である。使用されたモデルの一例は、International Computer Music Conferenceの会報のpp.25‐30,1997における“Transient modeling synthesis:a flexible analysis/synthesis tool for transient signals”において提案される時間と周波数領域との間の双対性に基づく遷移モデルである。
【0041】
より詳細には、上記参考文献で提案された遷移推定モデルは時間と周波数領域との間の双対性に基づく。時間領域におけるデルタインパルスは、周波数領域における正弦波に対応する。更に、時間領域における急な遷移は、正弦波の和によって効率的に表わされ得る周波数領域信号に対応する。より特定的には、遷移は次の段階を用いて推定する。
【0042】
1.時間領域セグメントを周波数領域に変換するために離散コサイン変換(DCT)を使用する。セグメントの大きさ(同様に、DCTの大きさ)は、遷移が時間に関して短いイベントであり(従って、周波数領域に変換されると正弦波によって効率的にモデリングされ得る)ことを確実にするために十分に大きくなくてはならない。約1sのブロックの大きさは、十分であることが分かった。
【0043】
2.周波数領域(DCT領域)信号を、正弦波モデルを用いて解析する。使用されたモデルの一例は、Audio Engineering Society 17th Conference “High quality audio coding”の会報のpp.244‐250,1999からの“High quality consistent analysis‐synthesis in sinusoidal coding”に記載されるようなハンニング窓付けされた(Hanning‐windowed)正弦波を有する一貫した反復性正弦波解析/合成である。
【0044】
DCT領域セグメントの正弦波解析は、セグメントづつ行われる。結果として、DCT領域は、
【0045】
【数1】
Figure 2004513557
として表わされ、このときLは正弦波セグメントの長さである(正弦波セグメント間のシフトはL/2である)。正弦波セグメントの長さLは、DCTの大きさの一部であり、
【0046】
【外1】
Figure 2004513557
はハンニング窓のサンプルであり、
【0047】
【外2】
Figure 2004513557
は夫々推定された正弦波の振幅、周波数及び位相である。添え字iは、DCT領域セグメント内の特定の正弦波セグメントを示し、添え字jは正弦波セグメント内の特定の正弦波を示す。時間領域セグメントにおける遷移の位置に関する情報は、対応する正弦波の周波数パラメータに含まれる。セグメントの最初にある遷移は結果として低正弦波周波数を生じ、セグメントの最後にある遷移は高正弦波周波数を生ずる。正弦波モデルの周波数分解能は、遷移の位置の推定における要求された分解能に依存する。要求された時間分解能が1サンプルである場合、要求される周波数分解能はDCTの大きさの逆数によって定義される。
【0048】
時間領域セグメントにおける遷移の位置と、対応する正弦波の周波数との間の双対性により、遷移の位置を変更するための明らかな方法は対応する周波数を変更(及び、位相パラメータを補正)することである。時間領域セグメントにおける遷移の位置はnによって示され、時間グリッドから最も近い可能な位置は、
【0049】
【外3】
Figure 2004513557
によって示される。所望の時間シフトは、
【0050】
【数2】
Figure 2004513557
として定義される。
【0051】
遷移の位置をΔnだけ変更するためには、遷移に対応する周波数ωijと位相φijは、
【0052】
【数3】
Figure 2004513557
として定義されるべきである。
【0053】
振幅Aijの変更は必要ない。
【0054】
上記手順が正弦波パラメータの独立した量子化とは異なることに注意する。1つの遷移に対応する全ての周波数が同じ量だけ変更される。これは、上記式(4)の位相の補正と共に、時間領域遷移の形状が保存され、位置だけが変更されることを確実にする。
【0055】
DCTの大きさがあるとき比較的大きいため、1つ以上の遷移が時間領域セグメントで生じ得る。この場合、モデルは、異なる遷移に対応する正弦波パラメータを識別しなくてはならない。これは、同じ遷移を表示するのに近い正弦波周波数ωijを明らかにすることで行われる。特に、εω以上異ならない周波数を有する2つの正弦波は、同じ遷移を表示すると明らかにされ、εω以上異なる周波数を有する2つの正弦波は、異なる遷移を表示すると明らかにされる。次に、全ての遷移の位置は別々に変更される。以下では、周波数ωijの群を参照するとき、特定の遷移に対応する周波数を参照する。
【0056】
遷移は、時間領域セグメントの最初或いは最後で生じることができる。この場合、正弦波周波数の変更は、0以下又はπ以上の周波数を得ることができる。これにより、時間領域遷移の形状を歪ませる。これを考慮するためには、時間領域セグメント間で重なり合いが許可される(0.1秒)。この場合、遷移は2つの重なり合うセグメント、即ち、相互に重なり合う領域において現れ得る。重なり合いが十分に大きいため、遷移が重なり合うセグメントの一方のボーダーの非常に近くに位置する場合、他方のセグメントのボーダーから安全な距離に位置する。正弦波周波数から遷移の位置を識別することは直接的であり、従って、遷移が2つのセグメントで表示されるとき、識別する2つの重なり合うセグメントで推定された正弦波周波数を知ることは簡単である。このような情況が生じる場合、セグメント中の対応する正弦波は、遷移が対応するボーダーにより近い場所で取り消される。
【0057】
典型的な遷移は、1つの時間サンプルより長く持続する。このとき、遷移のnの位置が何であるかといった自然な問いがあがる。位置を変更した後、遷移の対応するサンプルは、時間グリッドによって画成されたセグメントの最初に対応する位置
【0058】
【外4】
Figure 2004513557
に配置される。従って、推定された値nが遷移の始めに対応することが重要である。以下に説明する時間領域アプローチ法は、良い結果をもたらすことが証明された。最初に、周波数値のmin(ωij)及びmax(ωij)に対応する時間サンプルnmin及びnmaxが識別され、このときωijは、特定の遷移に対応する正弦波の周波数である。次に、時間間隔[nmin,nmax]における推定された遷移信号の最高振幅が見つけられる。遷移nの始まりのサンプルは、最高振幅の10%以上の振幅を有する、間隔[nmin,nmax]中の第1のサンプルとして定義される。
【0059】
典型的には、オーディオ信号の推定された遷移成分は、サンプルnの前に小さい振幅のサンプルを含む。時間サンプルnが遷移の第1のサンプルとして明らかにされ、遷移の前にεωで定められる距離で遷移が生じ得ないため、nの前の対応するサンプルは零の振幅を強制的に有する。結果として、これらサンプルは夫々の元の振幅を有して残留信号となる。
【0060】
上記の通り遷移の位置を推定し、夫々の位置を変更した後、変更された信号は、信号を符号化させるようモデリングされ得る。
【0061】
変更された信号をモデリングするために減衰された正弦波モデルが使用され、このモデルは、指数関数的に変調された振幅を有する正弦波の和で信号sを近似化することを目的とし、即ち、
【0062】
【数4】
Figure 2004513557
であり、このとき、
【0063】
【数5】
Figure 2004513557
は、セグメントの長さである。式(5)は、
【0064】
【外5】
Figure 2004513557
をMの減衰された(複素)指数の和として表わす。パラメータrは、最初の位相及び振幅を決定し、pは、周波数及び減衰を決定する。Mの指数関数に対するパラメータr及びpを決定するために、“Matching pursuits With time‐frequency dictionaries”,IEEE Transactions of Signal Processing,Volume 41,pp.3397‐3415,December 1993に記載されるように適合追跡アルゴリズムが使用される。適合追跡は、重複ディクショナリ(redundant dictionary)から選択された要素に有限拡大することで信号を近似化する。
【0065】
【外6】
Figure 2004513557
が単位法線の完全なディクショナリであるとする。適合追跡アルゴリズムは、信号sを信号と最適に適合するディクショナリ要素gγに投影し、この投影を減算して、次の繰り返しで近似化される残留信号を形成する反復アルゴリズムである。最適に適合するディクショナリ要素を見つけることは、内積<s,gγ>を計算し、内積を最大化する要素を選択することを含む。パラメータr及びpを見つけるためには、減衰された指数
【0066】
【数6】
Figure 2004513557
を含むディクショナリが構成される。
【0067】
定数cが単位法線ディクショナリ要素を有するとして導入される場合、反復m、sにおける残留信号及び式(6)で定義されたディクショナリ要素の内積
【0068】
【数7】
Figure 2004513557
が計算される。
【0069】
異なるαの値に対してこれを行うことで、伝達関数S(z)が半径
【0070】
【外7】
Figure 2004513557
を有する複素z平面における円上で評価される。
【0071】
上記方法は、実験的に試験され、以下にオーディオ信号に対して実施されたコンピュータ・シミュレーション及び非公式のリスニングテストの結果及び説明を記載する。カスタネット信号、ABBA、セリーヌ・ディオン、メタリカによる歌、及びスザンヌ・ベガによるボーカルといったオーディオの抜粋曲が使用された。信号は、44.1kHzでサンプリングされる。DCTの大きさは、44288サンプル(約1秒)であり、時間領域セグメント間の重なり合いは4410サンプル(0.1秒)である。DCT領域信号の正弦波解析は、長さが512サンプルであり、相互の重なり合いが256サンプルであるハンニング窓を用いて行われる。信号の遷移成分は、推定され、減算され、残留信号を形成する。次に、遷移の位置は、220サンプルの時間グリッド(約5ms)に従って変更される。
【0072】
遷移の位置の変更がどの可聴なひずみもまねかないことを確認することが重要である。これを確認するためには、変更された遷移信号は残留信号に加算される。実施されたリスニングテストは、得られた信号と元のオーディオ信号との間で知覚的な差がないことを実証した。
【0073】
以下では、変更手順による改善を例示する。更に、元の遷移信号(即ち、一般的に遷移は任意の位置で始まる)及び変更された遷移信号(遷移はセグメントの最初に始まる)に対する制限されたセグメンテーションの減衰された正弦波モデルの実施を説明する。減衰された正弦波に対する最適な制限された時間セグメンテーション(最小のセグメントの大きさは220サンプル)は、IEEE Transactions of Signal Processing, Volume 45,pp.333‐345,February 1997における“Flexible tree‐structured signal expansions using time‐varying wavelet packets”で提案された技法を用いて見つけられる。この実施は、信号対ノイズ比(SNR)対減衰された正弦波の数(NDS)に関して研究され、図1にも例示し、同図ではカスタネット信号の特定の遷移に対して結果が提示され、このときAは元の遷移を表示し、Bはシフトされた遷移を表示する。変更手順は、前とは違ってある質で遷移を表示するために必要な数よりも相当小さい数の減衰された正弦波を結果とする。図2及び図3の下のプロットは、元の及び変更された遷移夫々の25の減衰された正弦波を有する再構成を示す。これらの図では、t[ms]はミリ秒単位の時間を示す。元の遷移は、セグメントの最初に位置せず、その結果、モデリングエラーが遷移の前のサンプルに分散される。この結果、可聴な前反響が生ずる。他方で、変更された遷移は、セグメントの最初に位置し、その結果、前反響の問題は排除される。
【0074】
図4は、段階S1乃至S6を有する第1の実施例の工程系統図である。
【0075】
S1は、周波数領域への変換によって入力信号の第1の時間セグメントにおける遷移の位置を推定する。
【0076】
S2は、対応する周波数を所定のタイムスケール上の位置に変更することで空間領域における遷移の位置を変更する。
【0077】
S3は、周波数領域への変換によって遷移信号の第2の及びその後の時間セグメントにおける遷移の位置を推定する。
【0078】
S4は、対応する周波数を所定のタイムスケール上の位置に変更することで空間領域における遷移の位置を変更する。
【0079】
S5は、オーディオ信号を遷移、音、及び、ノイズ成分に分解する。
【0080】
S6は、分解された信号を送信或いは再生のために再び組合す。
【0081】
上記に類似する改善が完全精度(full‐precision)可変セグメンテーション(且つ信号変更のない)場合に実現され得ることが可能である。しかしながら、制限されたセグメンテーション及び変更手順は、結果として合計の計算費をより低くする。更に、制限されたセグメンテーションを説明するためにより少ないサイド情報が要求される。
【0082】
符号化方法の第2の実施例は、入力信号中の遷移の位置を推定する、異なる方法及び異なる変更手順を含む。遷移の位置は、遷移が正弦波セグメントの最初でだけ起こり得るよう変更され、この正弦波セグメントは5ミリ秒(ms)でもよい特定のセグメントの大きさに定められ、これは、制限されたセグメンテーションと呼ばれ、第1の実施例のそれに対応する。正弦波セグメントの最初を参照することは、第1の実施例において時間グリッドの最初を参照し、正弦波を参照することは単に使用されるモデリング手順を参照することと考えられる。
【0083】
この第2の実施例は、信号、特に、オーディオ信号のモデリングを改善するために遷移の位置が変更される点で第1の実施例と同じ考え方を用いる。しかしながら、この第2の実施例は、遷移の位置を変更する改善された方法を提供する。
【0084】
第1の方法を要約するに、入力信号は、信号に対する時間と周波数領域の間の双対性に基づくモデルを用いて遷移成分の位置を推定し、遷移成分を減算し、遷移の位置が正弦波セグメントの最初及び制限されたセグメンテーションでだけ始まるよう遷移の位置を変更し、残留信号に変更された遷移を加算して変更されたオーディオ信号を得ることで変更される。
【0085】
要点を述べると、第2の実施例による方法は、EUSIPCOの会報のp2345‐2348,Greece,1998からの“Audio subband coding with improved representation of transient signal segments”に記載するように2つの移動する長方形の窓を有するエネルギーベースのアプローチ法を用いて遷移及びオーディオ信号の最初と最後を検出し、続いて選択された時間グリッド又は正弦波セグメンテーショングリッドによって指定された位置に識別された遷移を移動し、識別された遷移間の信号の部分をタイムワープさせて変更された遷移間の間隔を埋めることを含み、上記文書は本願で参照として組込む。
【0086】
上記“Audio subband coding with improved representation of transient signal segments”に記載する遷移検出アプローチ法は、基準関数C(n)
【0087】
【数8】
Figure 2004513557
の評価に基づき、このときnは時間サンプルであり、E(n)及びE(n)は、時間サンプルnの左側及び右側にある長さNの長方形の窓内の入力信号のエネルギーである。基準関数C(n)の著しいピークは、遷移の最初に対応する。遷移の最後は、ある閾値の真下である遷移の始まりの後にC(n)の第1の値を検索することで定義される。
【0088】
一旦遷移の最初と最後が上記方法を用いて位置探しされると、遷移は、単に信号から除去され、効果的にはカットアンドペースト方法によって指定された正弦波セグメンテーショングリッド上の最も近い位置に再び位置決めされる。手順のこの部分は、特に明確であり、当業者によって容易に実行されるであろう。
【0089】
遷移の位置の変更により、オーディオ信号における2つの連続する遷移の間の距離はより長くされ(例えば、一方が前方向にシフトされ、他方が後方向にシフトされた場合)、又は、距離は短くされ(例えば、時間に関して第1の遷移が後方向にシフトされ、第2の遷移が前方向にシフトされる)得る。図5では、距離が増加される遷移変更の例が示されており、図6では遷移間の減少された距離が示されている。変更された遷移の間の間隔を埋めるために、間にある信号部分は、遷移の間のより大きい又はより小さい距離を可能にするよう何らかの方法で変更されなくてはならない。
【0090】
信号は、時間のゆがみ(タイムワープ)によって変更され、これは、遷移の間の信号のエッジ点の正確な振幅を保存し、従って、以下に説明するように、遷移の直前又は直後に不連続性が生じないようにして行われる。時間のゆがみは、遷移の間の信号を伸長する(図5に示す)か、圧縮(図6に示す)する。元のサンプルの既知の振幅に基づいて新しい整数サンプリング位置における振幅を計算するためにsinc関数に基づく帯域制限補間方法が使用される(帯域制限補間は、Proakis及びManolakisによる“Digital Signal Processing. Principles,Algorithms and Applications”, Prentice‐Hall Inernational,1996に記載する)。変更されたハンニング窓が使用される。各新しいサンプルの振幅を計算するために、新しいサンプルの各側に4つづつ、8つの元のサンプルの振幅が使用される。
【0091】
信号の伸長、或いは、圧縮は、結果として、基本周波数fの対応する変化における音信号を生ずる。変更手順の目的は、fの引き起こされた変更が可聴でないことを確実にすることである。
【0092】
変更を実現するためには、2つの識別され変更された遷移間の信号部分をタイムワープするために以下のアルゴリズムが使用される;
(a)2つの遷移間の信号部分の長さにおける要求される変化が結果としてわずか0.2%だけのfの変化を生ずる場合、信号は単にsinc関数に基づく帯域制限補間方法を受ける。これは、図5a及び図6aに示す例である。fが0.2%より大きく変化する場合、以下に説明する段階b)に進む。
【0093】
限界点が0.2%である理由は、“An Introduction to the psychology of hearing”,Academic Press,1997に記載するように、音響のfを0.2%だけ変化させることが可聴となり得ることが精神音響に関する文献から決定されたからである。独自の実験もこの結果を実証している。
【0094】
(b)信号部分は、2つの遷移の間で2つの重なり合わない間隔に分けられ、第1の間隔は、第1の遷移の終わりの直後に位置し10ms(図5b及び図6b中の間隔1によって示すように)持続し、第2の間隔は残留部分、即ち、第2の遷移の最初まで持続する(図5b及び図6b中で間隔2によって示される)。2つの間隔の長さは、異なる量だけ変更される。2つの遷移間の信号部分の長さにおける要求された変更が、第1の間隔におけるfをわずか2%だけ変化させ、第2の間隔におけるfをわずか0.2%だけ変化させることで行われ、従って2つの間隔中の信号は、図5b及び図6bの下部分に示されるように相応じてタイムワープされる。さもなければ、以下に説明する段階c)に進む。
【0095】
段階b)の説明は、遷移直後の間隔が遷移からのマスキング効果が強い間隔である。従って、この間隔中の信号のより大きい変化が、可聴になる前に可能である。実験により、遷移の最後の直後の間隔10msにおけるわずか2%のfの変化が聞こえないことが立証された。
【0096】
(c)fの結果となる変化が間隔1おいてわずか2%であり、間隔2においてわずか0.2%となるよう2つの間隔中の信号をタイムワープする。結果として生じる長さにおける変化がシフトされた遷移の間の距離を埋めるのに十分でない場合、信号の長さを増加或いは減少するために2つの間隔からのサンプルを用いて変更されたハンニング窓で重なり合い−加算手順を適用する。2つの間隔の間で円滑な遷移を確実にするために、重なり合い−加算領域の長さは、2つの遷移間の信号の正確な長さ(図5c及び図6c)を得るために、要求されるよりも長く選択される。
【0097】
図5及び図6では、遷移の始まりの新しい位置は、小さい矢印で示されている。図5では、2つの遷移間の信号部分はより大きい。図6では、2つの遷移間の信号部分がより短くなっている。図6cの下部分では、明瞭性のために小さい垂直方向のシフトが示されている。
【0098】
第2の実施例の方法の様々なコンピュータ・シミュレーションは、オーディオ信号の非公式のリスニングテストと一緒に実施される。カスタネット、バス、トランペット、セリーヌ・ディオン、メタリカ、ハープシコード、エディー・ラビット、ストラヴィンスキー、オルフのようなオーディオ抜粋曲が使用される。信号は、44.1kHzでサンプリングされる。遷移の位置は、220サンプル(約5ms)の時間グリッドに従って変更される。遷移の位置が任意の可聴のひずみを招かないことを確認することが重要である。実施されたリスニングテストは、元のオーディオ信号と変更されたオーディオ信号との間で知覚的な差がないことを立証した。
【0099】
次に、変更手順により信号のモデリングが改善されることが分かる。元の遷移信号(即ち、一般的に遷移は任意の位置で始まる)及び変更された遷移信号(本発明の方法によって定義されるように遷移はセグメントの最初に始まる)に対して、制限されたセグメンテーションとの減衰された正弦波モデルの機能の間が比較される。図7及び図8の下部分は、夫々元の及び変更された遷移の25の減衰された正弦波を有する再構成を示す。元の遷移は、セグメントの最初に位置せず、その結果、モデリングエラーが遷移の前にサンプルに分散される。これにより、信号の振幅と、5msと約7.5msとの間の図7の下部分によって示される前反響が生じ、これは、元の遷移を示す図7の上部分には示されていない。他方で、変更された遷移は、セグメントの最初に位置し、その結果、前反響は、図8の上部分及び下部分の信号の振幅が5msの直後に零から、即ち、同時に移動する点で、図8に示すように除去される。
【0100】
図9は、段階T1乃至T6を有する第2の実施例の工程系統図である。
【0101】
T1は、エネルギーベースのアプローチ法によって入力信号の第1の時間セグメントにおける遷移(最初と最後)の位置を推定する。
【0102】
T2は、所定のタイムスケール上の位置にカットアンドペーストすることで遷移の位置を変更し、間にある信号部分をタイムワープする。
【0103】
T3は、入力信号の第2の及びその後の時間セグメントにおける遷移(最初と最後)の位置を推定する。
【0104】
T4は、上記の通り遷移の位置を変更し、間にある信号部分をタイムワープする。
【0105】
T5は、オーディオ信号を遷移、音、及び、ノイズ成分に分解する。
【0106】
T6は、分解された信号を送信或いは再生のために再びに組合す。
【0107】
第2の実施例で説明した方法は、より一般的な手順を提供し、第1の実施例を改善した良い結果を提供する。時間のゆがみ原則は、音知覚の知識に基づき、第2の実施例の手順は実行及び利用するのにさほど複雑でない。
【0108】
従来技術の方法及び第1の実施例に対する第2の実施例の利点は、遷移検出モデルがより一般的であり、短い遷移だけでなく、様々な遷移に対して良い結果をもたらす点である。更に、遷移間の信号部分の時間のゆがみは、音知覚の特性、例えば、ピッチ知覚及び時間のマスキング効果の知識に基づく。更に、第2の実施例の方法により計算の複雑性は、著しく低い。
【0109】
本願記載の両方の方法は、オーディオ及びビデオ信号を符号化するのに特に有利な方法を提供する。特に、遷移の位置を制限することは、オーディ符号器(遷移、正弦波、及び、ノイズモデルを含む)における解析手順を著しく簡略化する。更に、対応するセグメンテーションと関連付けられるサイド情報は、記載する2つの実施例においてしばしば使用される制限されたセグメンテーションにより減少される。
【0110】
更に、遷移の位置における差は、知覚的に重要でない。
【0111】
この方法は、オーディオ及び/又はビデオを記憶、送信、受信、又は再現する装置、例えば、ソリッド・ステートオーディオ装置で実行され得る。図10は、符号化のためにオーディオ信号(A)を受信し復号化のために符号化された信号(C)を夫々受信するオーディオ符号器10及びオーディオ復号器12を有し、復号器12はオーディオ信号Aを出力する。特に、オーディオ符号器は、送信又は記録装置に含まれてもよく、更に、オーディオ信号を得るためのソース或いは受信器と、符号化された信号を送信或いは記憶媒体(例えば、ソリッド・ステートメモリ)に送信/出力する出力ユニットとを有する。ステレオオーディオ信号に関して、信号が両耳に届く時間及び強度は、音の局所化、即ち、音源に対する方向及び距離の知覚に関して重要な役割を担う。より正確には、両耳に届く信号の時間における差(両耳差)及び強度における差(両耳強度差)がいわゆるステレオ画像を形成する。ここでは、効率的なモデリングの目的のためにオーディオ信号の時間変更を取り扱う。従って、以下では、結果として生じる両耳(相互通信)時間差に注目する。
【0112】
相互通信時間差の可聴性、及び、ステレオ画像の形成における遷移及び進行中の部分の相対的な重要性は、音の持続時間、周波数コンテンツ、(遷移に対する)繰り返し率を含む様々な要素に依存する。しかしながら、重要な結果は、10μsのオーダーほどに小さい相互通信時間差が可聴システム(遷移或いは進行中の部分のいずれかからのキューを使用して)によって検出され得る。
【0113】
遷移の位置を変更するとき、進行中の部分も時間シフト及び時間のゆがみによって変更され、即ち、両方の重要なキューが存在する。従って、元のステレオ画像を破壊しないよう注意を払わなくてはならない。
【0114】
減衰された正弦波での効率的なモデリングは、両方のステレオチャネルにおける遷移の位置が、遷移が正弦波セグメントの最初から始まるよう変更される場合に得られ得る。しかしながら、2つのチャネルにおける独立した変更は、典型的に破壊されたステレオ画像を生じさせる。この問題の可能な解決策は、減衰された正弦波でモデリングする前に正弦波セグメンテーションに従って遷移の位置を変更するが、2つのチャネルにおける対応する遷移間の元の時間差を説明するサイド情報を復号器に送ることである。復号器では、一方のチャネルにおける合成された信号は元の時間差に従ってゆがめられていなくてもよい。結果として、合成された遷移は、一般的に夫々の元の位置と異なる位置で生ずるが、2つの遷移間の相互通信時間差は保存される。この解決策は、低相互通信時間差を有する同様の検出された遷移を有する非常に相互に関連付けられたステレオチャネルに特に好適である。
【0115】
前述の実施例は、本発明を制限するものではなく例示するものであり、当業者は添付の特許請求の範囲から逸脱することなく多数の代替の実施例を設計することができることに注意すべきである。特許請求の範囲では、括弧内のどの参照記号も請求の範囲を制限するものとして解釈されてはならない。「有する、含む」などの用語は、記載されていない他の素子及び段階を除外するものではない。本発明は、幾つかの別個の素子を有するハードウェアを手段として、且つ、適切にプログラムされたコンピュータを手段として実行され得る。幾つかの手段を列挙する装置クレームでは、これら手段の幾つかはハードウェアの同一のアイテムに含まれ得る。相互に異なる従属項においてある手段が記載されているが、これら手段が利点となるよう組み合わされて使用され得ないことを除外しない。
【0116】
要約するに、オーディオ信号における遷移の改善された表示は、遷移が正弦波セグメントの最初でだけ生じ得るようにして遷移の位置を変更することを含む。変更手順は、
2つの移動する長方形の窓を含むエネルギーベースのアプローチ法を用いて遷移の最初とサイドを検出する段階と、
遷移の最初と最後の間で、使用されるセグメンテーションによって指定される位置にサンプルを移動する段階と、
変更された遷移の間の間隔を埋めるために遷移の間の信号部分をタイムワープする段階とを有する。
【図面の簡単な説明】
【図1】
第1の実施例における元の、及び、時間シフトされた遷移に対する、オーディオ信号の制限されたセグメテーションの場合における減衰された正弦波モデルの実施を示す図である。
【図2】
元の遷移及び25の減衰された正弦波を有するその再構成を示す図である。
【図3】
第1の実施例における元の遷移及び25の減衰された正弦波を有するその再構成を示す図である。
【図4】
第1の実施例におけるオーディオ信号を符号化する方法に伴われる段階の工程系統図である。
【図5a】
第2の実施例における遷移の位置の変更を示す図である。
【図5b】
第2の実施例における遷移の位置の変更を示す図である。
【図5c】
第2の実施例における遷移の位置の変更を示す図である。
【図6a】
図5の第2の実施例における遷移の位置の変更を示す図に類似する図である。
【図6b】
図5の第2の実施例における遷移の位置の変更を示す図に類似する図である。
【図6c】
図5の第2の実施例における遷移の位置の変更を示す図に類似する図である。
【図7】
元の遷移及びその再構成を示す図である。
【図8】
第2の実施例におけるシフトされた遷移及びその再構成の工程系統図である。
【図9】
第2の実施例に伴われる段階の工程系統図である。
【図10】
本願記載の方法を利用するオーディオエンコーダ及びオーディデコーダを示す図である。

Claims (26)

  1. 入力信号の時間セグメントにおける少なくとも一つの遷移の位置を推定する段階を有する、入力信号を符号化する方法であって、
    所定のタイムスケール上の指定された位置で上記遷移が生ずるよう遷移の位置を変更し、変更された信号を得る段階と、
    上記変更された信号をモデリングする段階とを有することを特徴とする符号化方法。
  2. 各遷移は、上記所定のタイムスケール上の複数の可能な位置の最も近くの指定された位置に再び位置決めされる請求項1記載の符号化方法。
  3. 上記所定のタイムスケール上の指定された位置は、所定の最小の時間セグメントの大きさの整数倍で定められる請求項1記載の符号化方法。
  4. 上記所定の最小の時間セグメントの大きさは、約1ミリ秒(ms)乃至約9msの範囲に長さを有する請求項3記載の符号化方法。
  5. 上記モデリング段階は、上記変更された入力信号を表示するために正弦波を使用する請求項1記載の符号化方法。
  6. 制限された時間セグメンテーションも上記入力信号の音及び/又はノイズ成分に適用される請求項1記載の符号化方法。
  7. 遷移の位置の推定は、エネルギーベースのアプローチ法を用いて行われる請求項1記載の符号化方法。
  8. 遷移の位置の推定は、2つの移動窓を用いて行われる請求項7記載の符号化方法。
  9. 遷移の位置は、各遷移の最初と最後の位置を伴う請求項1記載の符号化方法。
  10. 各位置決めされた遷移は、上記所定のタイムスケール上の位置で始まるよう、元の位置からカットアンドペーストで移動される請求項1記載の符号化方法。
  11. 2つの位置決めされ変更された遷移間の上記入力信号の残留部分は、再位置決めに続いて残留する隙を埋めるようタイムワープされる請求項10記載の符号化方法。
  12. 上記タイムワープは、上記残留部分を長くすること、或いは、短くすることである請求項11記載の符号化方法。
  13. 上記タイムワープは、上記変更された信号のエッジ点の振幅を保存する請求項11記載の符号化方法。
  14. 上記タイムワープは、上記残留部分の基本周波数における変化が約0.3%未満である補間によって行われる請求項11記載の符号化方法。
  15. 上記残留部分の上記基本周波数における上記変化が0.3%以上である場合、上記残留部分が変更された遷移直後の第1の長さと第2の長さとに分けられる請求項11記載の符号化方法。
  16. 上記第1の長さは、約8ms乃至12msである請求項15記載の符号化方法。
  17. 上記補間は、上記残留部分における隙を埋めるのに不十分な場合には、重なり合い−加算手順が使用される請求項14記載の符号化方法。
  18. ある遷移又は各遷移の位置の変更は、周波数領域への変換を使用して実施される請求項1記載の符号化方法。
  19. モデリングされた変更信号にサイド情報を含み、上記サイド情報が少なくとも2つのチャネルにおける対応する遷移間の元の時間差を記述する請求項1記載の符号化方法。
  20. 少なくとも2つのチャネルにおける遷移の位置が変更された、モデリングされた変更信号を受信する段階を有し、上記モデリングされた変更信号が更に対応する遷移間の元の時間差を記述するサイド情報を更に有する復号化方法であって、
    上記少なくとも2つのチャネルに対して合成された信号を合成する段階と、
    上記元の時間差に従って上記合成された信号をアンワープする段階とを有する方法。
  21. 少なくとも2つのチャネルにおける遷移の位置が変更され、上記少なくとも2つのチャネルにおける対応する遷移間の元の時間差を記述するサイド情報を更に有するモデリングされた変更信号。
  22. 請求項21記載のモデリングされた変更信号が記憶される記憶媒体。
  23. 少なくとも2つのチャネルにおける遷移の位置が変更され、上記少なくとも2つのチャネルにおける対応する遷移間の元の時間差を記述するサイド情報を更に有するモデリングされた変更信号を受信する手段と、
    上記少なくとも2つのチャネルに対して合成された信号を合成し、上記元の時間差に従って上記合成信号をアンワープする手段とを有する復号器。
  24. 請求項23記載の復号器と、上記アンワープされた合成信号を再現する再現ユニットとを有するオーディオプレーヤー。
  25. オーディオ又はビデオ信号の時間セグメントにおいて一つ以上の遷移の位置を推定するよう動作する電子プロセッサを有する、信号を符号化する装置であって、
    上記プロセッサは、ある遷移或いは各遷移が所定のタイムスケール上の指定された位置で生ずるようある遷移或いは各遷移の位置を変更し、上記変更された入力信号をモデリングするよう動作することを特徴とする装置。
  26. オーディオ装置である請求項19記載の装置。
JP2002540318A 2000-11-03 2001-10-25 オーディオ信号のパラメトリック符号化方法及び装置 Withdrawn JP2004513557A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP00203857 2000-11-03
EP01201570 2001-04-27
EP01201627 2001-05-03
EP01202826 2001-07-25
PCT/EP2001/012423 WO2002037688A1 (en) 2000-11-03 2001-10-25 Parametric coding of audio signals

Publications (1)

Publication Number Publication Date
JP2004513557A true JP2004513557A (ja) 2004-04-30

Family

ID=27440024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002540318A Withdrawn JP2004513557A (ja) 2000-11-03 2001-10-25 オーディオ信号のパラメトリック符号化方法及び装置

Country Status (7)

Country Link
US (1) US7020615B2 (ja)
EP (1) EP1340317A1 (ja)
JP (1) JP2004513557A (ja)
KR (1) KR20020070374A (ja)
CN (1) CN1408146A (ja)
BR (1) BR0107420A (ja)
WO (1) WO2002037688A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507113A (ja) * 2006-10-18 2010-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報信号の符号化

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1386312B1 (en) * 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US7542896B2 (en) * 2002-07-16 2009-06-02 Koninklijke Philips Electronics N.V. Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
JP2007505346A (ja) * 2003-09-09 2007-03-08 コニンクリユケ フィリップス エレクトロニクス エヌ.ブイ. 遷移のオーディオ信号成分の符号化
KR100561869B1 (ko) * 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
JP4318119B2 (ja) * 2004-06-18 2009-08-19 国立大学法人京都大学 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム
CN1973321A (zh) * 2004-06-21 2007-05-30 皇家飞利浦电子股份有限公司 音频编码方法
CN101053018A (zh) * 2004-11-01 2007-10-10 皇家飞利浦电子股份有限公司 包括幅度包络的参数音频编码
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
US20080255688A1 (en) * 2007-04-13 2008-10-16 Nathalie Castel Changing a display based on transients in audio data
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
PL2311033T3 (pl) 2008-07-11 2012-05-31 Fraunhofer Ges Forschung Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8200489B1 (en) * 2009-01-29 2012-06-12 The United States Of America As Represented By The Secretary Of The Navy Multi-resolution hidden markov model using class specific features
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
EP2372704A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
US9075446B2 (en) 2010-03-15 2015-07-07 Qualcomm Incorporated Method and apparatus for processing and reconstructing data
US9136980B2 (en) 2010-09-10 2015-09-15 Qualcomm Incorporated Method and apparatus for low complexity compression of signals
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2951820B1 (en) 2013-01-29 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507113A (ja) * 2006-10-18 2010-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報信号の符号化

Also Published As

Publication number Publication date
CN1408146A (zh) 2003-04-02
WO2002037688A1 (en) 2002-05-10
BR0107420A (pt) 2002-10-08
EP1340317A1 (en) 2003-09-03
US7020615B2 (en) 2006-03-28
KR20020070374A (ko) 2002-09-06
US20020120445A1 (en) 2002-08-29

Similar Documents

Publication Publication Date Title
JP2004513557A (ja) オーディオ信号のパラメトリック符号化方法及び装置
KR101978671B1 (ko) 오디오 프로세서 및 수평 위상 보정을 사용하여 오디오 신호를 처리하기 위한 방법
JP6084595B2 (ja) 音声信号のタイムワープ処理改良変換符号化
RU2361288C2 (ru) Устройство и способ для формирования сигнала управления многоканальным синтезатором и устройство и способ многоканального синтеза
US6266644B1 (en) Audio encoding apparatus and methods
JP5467098B2 (ja) オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
KR101049751B1 (ko) 오디오 코딩
JP5179881B2 (ja) オーディオソースのパラメトリックジョイント符号化
JP5253565B2 (ja) 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム
US7328161B2 (en) Audio decoding method and apparatus which recover high frequency component with small computation
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
EP2820647B1 (en) Phase coherence control for harmonic signals in perceptual audio codecs
RU2481650C2 (ru) Ослабление опережающих эхо-сигналов в цифровом звуковом сигнале
JPH11251918A (ja) 音声信号波形符号化伝送方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041022

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20051128