JP2004513557A

JP2004513557A - オーディオ信号のパラメトリック符号化方法及び装置

Info

Publication number: JP2004513557A
Application number: JP2002540318A
Authority: JP
Inventors: ヴァフィン，レナット; ヒュースデンス，リハルト; ファン　デ　パール，ステーフェン　エル　イェー　デー　エー; クレイン，ウィレム　ベー
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-11-03
Filing date: 2001-10-25
Publication date: 2004-04-30
Also published as: CN1408146A; WO2002037688A1; BR0107420A; EP1340317A1; US7020615B2; KR20020070374A; US20020120445A1

Abstract

オーディオ信号における遷移の改善された表示は、遷移が正弦波セグメントの最初でだけ生ずるように遷移の位置を変更することを有する。変更手順は、２つの移動する長方形の窓を有するエネルギーベースのアプローチ法を用いて遷移の最初と最後を検出する段階と、遷移の最初と最後の間のサンプルを使用されるセグメンテーションによって指定された位置に移動する段階と、遷移間の信号部分をタイムワープし変更された遷移の間の間隔を埋める段階とを有する。

Description

【０００１】
本発明は、信号を符号化する方法、及び、信号を記憶、送信、受信、或いは再現する装置に関わる。
【０００２】
オーディオ信号を記憶する一般的な方法は、典型的には６ｋｂｐｓ乃至９０ｋｂｐｓの範囲において特に非常に低ビットレートでオーディオ信号を表示するためにパラメトリック符号化を使用することである。このようにして使用されるパラメトリック符号化の使用例は、ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇの会報のＶｏｌｕｍｅ　２，ｐｐ．１０４５−１０４８，１９９６における“Ｌｏｗ　ｂｉｔ　ｒａｔｅ　ｈｉｇｈ　ｑｕａｌｉｔｙ　ａｕｄｉｏ　ｃｏｄｉｎｇ　ｗｉｔｈ　ｃｏｍｂｉｎｅｄ　ｈａｒｍｏｎｉｃ　ａｎｄ　ｗａｖｅｌｅｔ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ”；１９９９　ＩＥＥＥ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ａｐｐｌｉｃａｔｉｏｎｓ　ｏｆ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｔｏ　Ａｕｄｉｏ　ａｎｄ　Ａｃｏｕｓｔｉｃｓの会報のｐｐＷ９９−１−Ｗ９９−４，１９９９における“Ａｄｖａｎｃｅｓ　ｉｎ　Ｐａｒａｍｅｔｒｉｃ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ”；及び、ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇの会報のＶｏｌｕｍｅ　ＩＩ，ｐｐ．８７７‐８８０，２０００における“Ａ　６　ｋｂｐｓ　ｔｏ　８５　ｋｂｐｓ　ｓｃａｌａｂｌｅ　ａｕｄｉｏ　ｃｏｄｅｒ”に含まれる。これらの例では、パラメトリックオーディオ符号器が記載されており、オーディオ信号はモデルによって表示され、このときモデルのパラメータは推定されエンコードされている。これらの例は、元の信号の３つの成分：遷移（ｔｒａｎｓｉｅｎｔ）成分、音（正弦波）成分、及びノイズ成分への分解に基づいてオーディオ信号のパラメトリック表示を使用する。各成分は、上記３つの文献に記載されるように対応する組のパラメータによって表示される。オーディオ信号の遷移成分は、比較的短命なオーディオ信号の隔離された要素として特徴付けられ、オーディオ信号のエネルギーが急に上昇することで表示される。
【０００３】
オーディオ信号の遷移成分に対して専用モデルを有することは、正弦波モデル及びノイズモデルが急な攻撃のように知覚的に重要なイベントを容易に表示することができず、乏しいモデリングが結果として前反響のような可聴アーチファクトを生じ得るため、急な攻撃を含むオーディオ信号の部分には有利となることが分かっている。前反響は、遷移が始まる前にモデリングエラーがサンプルに遷移イベントを分散するとき、且つ、結果として生ずるひずみが可聴になるに十分に大きいときに生ずる。遷移が始まる前のサンプルへのモデリングエラーの分散は、オーディオ符号器における入力信号のセグメントづつの解析から生ずる。遷移が解析セグメントの真ん中で起こる場合、遷移を正確にモデリングするために大量の符号化リソースを要求するか、モデリングエラーが解析セグメント全体に分散される。遷移を先行するサンプルのモデリングエラーは、遷移イベント自体からのマスキングがより弱いため、遷移の後のサンプルにおけるよりも典型的には知覚的により明らかである。
【０００４】
ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇの会報のＶｏｌｕｍｅ　２，ｐｐ．１００５‐１００８，１９９６における“Ｒｅｓｉｄｕａｌ　ｍｏｄｅｌｉｎｇ　ｉｎ　ｍｕｓｉｃ　ａｎａｌｙｓｉｓ‐ｓｙｎｔｈｅｓｉｓ”では、遷移成分が正弦波モデル及びノイズモデルだけでは十分に表示され得ないことを示す。
【０００５】
ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇの会報のＶｏｌｕｍｅ　６，ｐｐ．３５８１‐３５８４，１９９８における“Ｒｏｂｕｓｔ　ｅｘｐｏｎｅｎｔｉａｌ　ｍｏｄｅｌｉｎｇ　ｏｆ　ａｕｄｉｏ　ｓｉｇｎａｌｓ”では、指数関数的に変調された振幅を有する正弦波（以降減衰された正弦波と呼ぶ）を用いて遷移が効率的にモデリングされ得ることを示す。以下のテキストでは、減衰係数は任意の実数でよく、正の値は適切に減少する振幅に対して増加する振幅に対応する。（上記）“Ｒｏｂｕｓｔ　ｅｘｐｏｎｅｎｔｉａｌ　ｍｏｄｅｌｉｎｇ　ｏｆ　ａｕｄｉｏ　ｓｉｇｎａｌｓ”では、オーディオ信号は、セグメントづつ解析され、各セグメントは減衰された正弦波の和として表示される。遷移が所与のセグメントの真ん中で始まるとこのタイプの符号化では問題が生じる。セグメントの始めで遷移が始まる場合と比較して、遷移を良くモデリングするために必要な減衰された正弦波の数は相当増加する。遷移が正しくモデリングされない場合、モデリングエラーが所与のセグメント全体にわたって分散され、結果として可聴な前反響が生じる。
【０００６】
Ａｕｄｉｏ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｓｏｃｉｅｔｙ，Ｖｏｌｕｍｅ　４２，ｐｐ．７８０‐７９２，Ｏｃｔｏｂｅｒ　１９９４の論文における“ＩＳＯ‐ＭＰＥＧ−１　Ａｕｄｉｏ：ａ　ｇｅｎｅｒｉｃ　ｓｔａｎｄａｒｄ　ｆｏｒ　ｃｏｄｉｎｇ　ｏｆ　ｈｉｇｈ‐ｑｕａｌｉｔｙ　ｄｉｇｉｔａｌ　ａｕｄｉｏ”に記載されるようにＭＰＥＧ‐１　レイヤＩＩＩ　オーディオ符号化アルゴリズムでは、セグメンテーションは長い窓と短い窓の長さによってだけ画成されている。
【０００７】
本発明は、上記不都合な点に取り組むことを目的とする。このために本発明は、独立項に記載するように符号化方法及び符号化装置を提供する。有利な実施例は従属項に記載する。
【０００８】
本発明の第１の面によると、入力信号の符号化は、
入力信号の時間セグメントにおける少なくとも一つの遷移の位置を推定し、
所定のタイムスケール上の指定された位置でその遷移或いは各遷移が生ずるように遷移の位置を変更し、変更された信号を得、
変更された信号をモデリングすることを含む。
【０００９】
遷移に対する位置だけを提供するために所定のタイムスケール上の指定された位置の形態で制限された時間セグメンテーションを使用することは、有利的にはセグメンテーションを記述するのに必要なビットの数を有利的には減少させる。更に、変更手順は、完全精度セグメンテーション手順と比べて計算費が低い。
【００１０】
各遷移は、好ましくは所定のタイムスケール上の複数の可能な位置の最も近くに指定された位置に再び位置決めされる。
【００１１】
所定のタイムスケール上の指定された位置は、所定の最小の時間セグメントの大きさの整数倍で定められてもよい。所定の最小の時間セグメントの大きさ、約１ミリ秒（ｍｓ）乃至約９ｍｓの範囲、より好ましくは約４ｍｓ乃至約６ｍｓの範囲の長さを有してもよい。
【００１２】
有利的に記載した制限された時間セグメンテーションの使用は、モデリングされる入力信号の遷移、正弦波、及びノイズ成分の間で符号化リソースを分散するためにレートひずみ制御が使用される場合、モデリング手順を著しく簡略化する。
【００１３】
モデリングは、好ましくは減衰された正弦波を使用する。
【００１４】
オーディオ信号は、約５乃至５０ｋＨｚ、より好ましくは８、２６、４４．１、又は４８ｋＨｚのレートでサンプリングされる。ビデオ信号は、約５乃至２０ＭＨｚのレートで好ましくはサンプリングされる。
【００１５】
制限された時間セグメンテーションも入力信号の音及び／又はノイズ成分に適用されてもよい。
【００１６】
遷移の位置の推定は、エネルギーベースのアプローチ法を使用して、好ましくは移動窓方法を用いて、より好ましくは２つの移動窓を用いて行われ得る。
【００１７】
エネルギーベースのアプローチ法は、非常に短い遷移と長い遷移の両方の有利な推定を可能にする。
【００１８】
遷移の位置は、各遷移の最初と最後の位置を伴ってもよい。
【００１９】
各位置決めされた遷移は、その元の位置からカットアンドペーストで移動され、所定のタイムスケール上の位置で始められるようにする。
【００２０】
カットアンドペースト方法は、単に遷移として識別された入力信号の部分を除去し、新しい位置に移動する。従って、この段階は実行するのに非常に簡単である。
【００２１】
２つの位置決めされ変更された遷移の間の入力信号の残留部分は、好ましくはタイムワープされ、再位置決めに続いて残留する隙を埋める。時間の歪みは、上記残留部分を長くすること、或いは、短くすることでもよい。
【００２２】
ピッチ知覚及び音マスキング効果を含む音響知覚の知識を用いて、タイムワープは、遷移の変更後に残留信号を復元する簡単な方法である。
【００２３】
タイムワープは、好ましくは帯域制限補間方法によって、変更された信号のエッジ点の振幅を好ましくは保存する。
【００２４】
タイムワープは、残留部分の基本周波数ｆ_０における変化が約０．３％未満であり、より好ましくは約０．２％未満である補間によって行われることが好ましい。
【００２５】
さもなければ、残留部分は、変更された遷移直後の第１の長さと第２の長さとに分けられることが好ましい。第１の長さは、約８ｍｓ乃至１２ｍｓであることが好ましく、１０ｍｓであることがより好ましい。第１の長さは、発生した基本周波数の変化がわずか約１．６％乃至２．４％であり、より好ましくはわずか約２％の場合に補間されることが好ましい。第２の長さに関して、基本周波数の変化は、好ましくはわずか約０．１６％乃至０．２４％であり、より好ましくは０．２％である。
【００２６】
残留部分における隙を埋めるのに補間が不十分な場所では、重なり合い−加算手順が好ましくは使用される。
【００２７】
ある遷移又は各遷移の位置の変更は、好ましくは離散コサイン変換を用いて周波数領域への変換を使用して実施され得る。結果として生ずる正弦波表示は、ハンニング窓を用いて遷移の位置に関して解析されてもよい。ハンニング窓は、約５１２サンプルの長さを有し（１サンプルは、１を入力信号のサンプリング周波数で分割した長さを有する）、好ましくは２５６サンプルがハンニング窓の間で重なり合う。
【００２８】
入力信号は、入力信号を複数の時間セグメントに分割することで好ましくは処理される。時間セグメントは、約０．５ｓ乃至２ｓの範囲の長さ、好ましくは約１ｓの長さを有してもよい。
【００２９】
隣接する時間セグメントは、好ましくは夫々の長さの約５％乃至約１５％だけ好ましくは重なり合うよう配置され、より好ましくは重なり合いは、時間セグメントの長さの約１０％であり、この重なり合いは約０．１ｓでもよい。隣接する時間セグメントの重なり合いに遷移が位置する場所では、遷移の位置は、遷移が最も中心的に位置する時間セグメントにおいて変更される。
【００３０】
隣接する時間セグメントにおける重なり合いは、遷移が最も中心的に位置する、或いはより重要には時間セグメントの最初と最後から最も遠くに位置する時間セグメントの選択を有利的に可能にする。
【００３１】
本発明は、第１の面の符号化に従って符号化されたオーディオ又はビデオ信号を復号化することを含む。
【００３２】
本発明の実施例による装置は、オーディオ装置、例えば、ソリッド・ステートオーディオ装置でもよい。
【００３３】
本願記載の全ての特徴は、任意の組み合わせで任意の上記面と組み合わされ得る。
【００３４】
本発明の好ましい実施例は、前に記載したよりもより簡略化された解析手順を符号化が有する符号化信号、同様の方法よりも低い計算費を符号化が有する符号化信号、及び、セグメント化された信号を記述するのに必要なビットの数を符号化が減少させる符号化信号を提供する。
【００３５】
復号器側で信号をデワープするためにビットストリームに追加のサイド情報が含まれてもよい。適当なデワープにより、ステレオ信号の時間のミスアライメントが回避され得る。
【００３６】
本発明の特定の実施例を例によって、添付の図面を参照して説明する。
【００３７】
本願に記載し、図４に示す第１の方法は、制限された時間セグメンテーションを使用し、このときオーディオ信号のセグメントは、所定の最小セグメントの大きさ、例えば、本例では５ｍｓの整数倍で定義されるが、当然のことながらこの所定の大きさは可変でもよい。制限された時間セグメンテーションを鑑みて、オーディオ信号の遷移成分は、遷移がセグメントの最初でだけ始まるよう変更される。次に変更された信号は、本例では減衰された正弦波を用いてモデリングされる。これにより、減衰された正弦波を用いて遷移が効率的に表示される。
【００３８】
オーディオの符号化は、実験的結果の説明で以下に記載するように比較的粗い時間グリッドによって画成される位置でだけ遷移が発生するよう、信号の遷移要素の位置を変更する第１の段階を含む。オーディオ信号中の遷移の位置を変更するために、次の段階：
１．オーディオ信号の遷移成分を推定し、元のオーディオ信号から減算し、残留信号を形成する；
２．遷移がグリッド上で指定された位置でだけ発生し得るよう推定された遷移の位置を変更することで行われる。
【００３９】
遷移の推定及び変更中、変更された遷移信号が上記段階１で得られた残留信号に加算されると、得られた信号と元のオーディオ信号との間で知覚的な差がないことが確認される。
【００４０】
遷移の位置を変更するためには、符号化されるべき元のオーディオ信号の遷移成分を推定することが必要である。オーディオのパラメトリック符号化に異なる遷移モデルを使用することが可能である。使用されたモデルの一例は、Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｍｐｕｔｅｒ　Ｍｕｓｉｃ　Ｃｏｎｆｅｒｅｎｃｅの会報のｐｐ．２５‐３０，１９９７における“Ｔｒａｎｓｉｅｎｔ　ｍｏｄｅｌｉｎｇ　ｓｙｎｔｈｅｓｉｓ：ａ　ｆｌｅｘｉｂｌｅ　ａｎａｌｙｓｉｓ／ｓｙｎｔｈｅｓｉｓ　ｔｏｏｌ　ｆｏｒ　ｔｒａｎｓｉｅｎｔ　ｓｉｇｎａｌｓ”において提案される時間と周波数領域との間の双対性に基づく遷移モデルである。
【００４１】
より詳細には、上記参考文献で提案された遷移推定モデルは時間と周波数領域との間の双対性に基づく。時間領域におけるデルタインパルスは、周波数領域における正弦波に対応する。更に、時間領域における急な遷移は、正弦波の和によって効率的に表わされ得る周波数領域信号に対応する。より特定的には、遷移は次の段階を用いて推定する。
【００４２】
１．時間領域セグメントを周波数領域に変換するために離散コサイン変換（ＤＣＴ）を使用する。セグメントの大きさ（同様に、ＤＣＴの大きさ）は、遷移が時間に関して短いイベントであり（従って、周波数領域に変換されると正弦波によって効率的にモデリングされ得る）ことを確実にするために十分に大きくなくてはならない。約１ｓのブロックの大きさは、十分であることが分かった。
【００４３】
２．周波数領域（ＤＣＴ領域）信号を、正弦波モデルを用いて解析する。使用されたモデルの一例は、Ａｕｄｉｏ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｓｏｃｉｅｔｙ　１７^ｔｈ　Ｃｏｎｆｅｒｅｎｃｅ　“Ｈｉｇｈ　ｑｕａｌｉｔｙ　ａｕｄｉｏ　ｃｏｄｉｎｇ”の会報のｐｐ．２４４‐２５０，１９９９からの“Ｈｉｇｈ　ｑｕａｌｉｔｙ　ｃｏｎｓｉｓｔｅｎｔ　ａｎａｌｙｓｉｓ‐ｓｙｎｔｈｅｓｉｓ　ｉｎ　ｓｉｎｕｓｏｉｄａｌ　ｃｏｄｉｎｇ”に記載されるようなハンニング窓付けされた（Ｈａｎｎｉｎｇ‐ｗｉｎｄｏｗｅｄ）正弦波を有する一貫した反復性正弦波解析／合成である。
【００４４】
ＤＣＴ領域セグメントの正弦波解析は、セグメントづつ行われる。結果として、ＤＣＴ領域は、
【００４５】
【数１】

として表わされ、このときＬは正弦波セグメントの長さである（正弦波セグメント間のシフトはＬ／２である）。正弦波セグメントの長さＬは、ＤＣＴの大きさの一部であり、
【００４６】
【外１】

はハンニング窓のサンプルであり、
【００４７】
【外２】

は夫々推定された正弦波の振幅、周波数及び位相である。添え字ｉは、ＤＣＴ領域セグメント内の特定の正弦波セグメントを示し、添え字ｊは正弦波セグメント内の特定の正弦波を示す。時間領域セグメントにおける遷移の位置に関する情報は、対応する正弦波の周波数パラメータに含まれる。セグメントの最初にある遷移は結果として低正弦波周波数を生じ、セグメントの最後にある遷移は高正弦波周波数を生ずる。正弦波モデルの周波数分解能は、遷移の位置の推定における要求された分解能に依存する。要求された時間分解能が１サンプルである場合、要求される周波数分解能はＤＣＴの大きさの逆数によって定義される。
【００４８】
時間領域セグメントにおける遷移の位置と、対応する正弦波の周波数との間の双対性により、遷移の位置を変更するための明らかな方法は対応する周波数を変更（及び、位相パラメータを補正）することである。時間領域セグメントにおける遷移の位置はｎ_０によって示され、時間グリッドから最も近い可能な位置は、
【００４９】
【外３】

によって示される。所望の時間シフトは、
【００５０】
【数２】

として定義される。
【００５１】
遷移の位置をΔｎだけ変更するためには、遷移に対応する周波数ω_ｉｊと位相φ_ｉｊは、
【００５２】
【数３】

として定義されるべきである。
【００５３】
振幅Ａ_ｉｊの変更は必要ない。
【００５４】
上記手順が正弦波パラメータの独立した量子化とは異なることに注意する。１つの遷移に対応する全ての周波数が同じ量だけ変更される。これは、上記式（４）の位相の補正と共に、時間領域遷移の形状が保存され、位置だけが変更されることを確実にする。
【００５５】
ＤＣＴの大きさがあるとき比較的大きいため、１つ以上の遷移が時間領域セグメントで生じ得る。この場合、モデルは、異なる遷移に対応する正弦波パラメータを識別しなくてはならない。これは、同じ遷移を表示するのに近い正弦波周波数ω_ｉｊを明らかにすることで行われる。特に、ε_ω以上異ならない周波数を有する２つの正弦波は、同じ遷移を表示すると明らかにされ、ε_ω以上異なる周波数を有する２つの正弦波は、異なる遷移を表示すると明らかにされる。次に、全ての遷移の位置は別々に変更される。以下では、周波数ω_ｉｊの群を参照するとき、特定の遷移に対応する周波数を参照する。
【００５６】
遷移は、時間領域セグメントの最初或いは最後で生じることができる。この場合、正弦波周波数の変更は、０以下又はπ以上の周波数を得ることができる。これにより、時間領域遷移の形状を歪ませる。これを考慮するためには、時間領域セグメント間で重なり合いが許可される（０．１秒）。この場合、遷移は２つの重なり合うセグメント、即ち、相互に重なり合う領域において現れ得る。重なり合いが十分に大きいため、遷移が重なり合うセグメントの一方のボーダーの非常に近くに位置する場合、他方のセグメントのボーダーから安全な距離に位置する。正弦波周波数から遷移の位置を識別することは直接的であり、従って、遷移が２つのセグメントで表示されるとき、識別する２つの重なり合うセグメントで推定された正弦波周波数を知ることは簡単である。このような情況が生じる場合、セグメント中の対応する正弦波は、遷移が対応するボーダーにより近い場所で取り消される。
【００５７】
典型的な遷移は、１つの時間サンプルより長く持続する。このとき、遷移のｎ_０の位置が何であるかといった自然な問いがあがる。位置を変更した後、遷移の対応するサンプルは、時間グリッドによって画成されたセグメントの最初に対応する位置
【００５８】
【外４】

に配置される。従って、推定された値ｎ_０が遷移の始めに対応することが重要である。以下に説明する時間領域アプローチ法は、良い結果をもたらすことが証明された。最初に、周波数値のｍｉｎ（ω_ｉｊ）及びｍａｘ（ω_ｉｊ）に対応する時間サンプルｎ_ｍｉｎ及びｎ_ｍａｘが識別され、このときω_ｉｊは、特定の遷移に対応する正弦波の周波数である。次に、時間間隔［ｎ_ｍｉｎ，ｎ_ｍａｘ］における推定された遷移信号の最高振幅が見つけられる。遷移ｎ_０の始まりのサンプルは、最高振幅の１０％以上の振幅を有する、間隔［ｎ_ｍｉｎ，ｎ_ｍａｘ］中の第１のサンプルとして定義される。
【００５９】
典型的には、オーディオ信号の推定された遷移成分は、サンプルｎ_０の前に小さい振幅のサンプルを含む。時間サンプルｎ_０が遷移の第１のサンプルとして明らかにされ、遷移の前にε_ωで定められる距離で遷移が生じ得ないため、ｎ_０の前の対応するサンプルは零の振幅を強制的に有する。結果として、これらサンプルは夫々の元の振幅を有して残留信号となる。
【００６０】
上記の通り遷移の位置を推定し、夫々の位置を変更した後、変更された信号は、信号を符号化させるようモデリングされ得る。
【００６１】
変更された信号をモデリングするために減衰された正弦波モデルが使用され、このモデルは、指数関数的に変調された振幅を有する正弦波の和で信号ｓを近似化することを目的とし、即ち、
【００６２】
【数４】

であり、このとき、
【００６３】
【数５】

は、セグメントの長さである。式（５）は、
【００６４】
【外５】

をＭの減衰された（複素）指数の和として表わす。パラメータｒ_ｍは、最初の位相及び振幅を決定し、ｐ_ｍは、周波数及び減衰を決定する。Ｍの指数関数に対するパラメータｒ_ｍ及びｐ_ｍを決定するために、“Ｍａｔｃｈｉｎｇ　ｐｕｒｓｕｉｔｓ　Ｗｉｔｈ　ｔｉｍｅ‐ｆｒｅｑｕｅｎｃｙ　ｄｉｃｔｉｏｎａｒｉｅｓ”，ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｆ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏｌｕｍｅ　４１，ｐｐ．３３９７‐３４１５，Ｄｅｃｅｍｂｅｒ　１９９３に記載されるように適合追跡アルゴリズムが使用される。適合追跡は、重複ディクショナリ（ｒｅｄｕｎｄａｎｔ　ｄｉｃｔｉｏｎａｒｙ）から選択された要素に有限拡大することで信号を近似化する。
【００６５】
【外６】

が単位法線の完全なディクショナリであるとする。適合追跡アルゴリズムは、信号ｓを信号と最適に適合するディクショナリ要素ｇ_γに投影し、この投影を減算して、次の繰り返しで近似化される残留信号を形成する反復アルゴリズムである。最適に適合するディクショナリ要素を見つけることは、内積＜ｓ，ｇ_γ＞を計算し、内積を最大化する要素を選択することを含む。パラメータｒ_ｍ及びｐ_ｍを見つけるためには、減衰された指数
【００６６】
【数６】

を含むディクショナリが構成される。
【００６７】
定数ｃが単位法線ディクショナリ要素を有するとして導入される場合、反復ｍ、ｓ_ｍにおける残留信号及び式（６）で定義されたディクショナリ要素の内積
【００６８】
【数７】

が計算される。
【００６９】
異なるαの値に対してこれを行うことで、伝達関数Ｓ_ｍ（ｚ）が半径
【００７０】
【外７】

を有する複素ｚ平面における円上で評価される。
【００７１】
上記方法は、実験的に試験され、以下にオーディオ信号に対して実施されたコンピュータ・シミュレーション及び非公式のリスニングテストの結果及び説明を記載する。カスタネット信号、ＡＢＢＡ、セリーヌ・ディオン、メタリカによる歌、及びスザンヌ・ベガによるボーカルといったオーディオの抜粋曲が使用された。信号は、４４．１ｋＨｚでサンプリングされる。ＤＣＴの大きさは、４４２８８サンプル（約１秒）であり、時間領域セグメント間の重なり合いは４４１０サンプル（０．１秒）である。ＤＣＴ領域信号の正弦波解析は、長さが５１２サンプルであり、相互の重なり合いが２５６サンプルであるハンニング窓を用いて行われる。信号の遷移成分は、推定され、減算され、残留信号を形成する。次に、遷移の位置は、２２０サンプルの時間グリッド（約５ｍｓ）に従って変更される。
【００７２】
遷移の位置の変更がどの可聴なひずみもまねかないことを確認することが重要である。これを確認するためには、変更された遷移信号は残留信号に加算される。実施されたリスニングテストは、得られた信号と元のオーディオ信号との間で知覚的な差がないことを実証した。
【００７３】
以下では、変更手順による改善を例示する。更に、元の遷移信号（即ち、一般的に遷移は任意の位置で始まる）及び変更された遷移信号（遷移はセグメントの最初に始まる）に対する制限されたセグメンテーションの減衰された正弦波モデルの実施を説明する。減衰された正弦波に対する最適な制限された時間セグメンテーション（最小のセグメントの大きさは２２０サンプル）は、ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｆ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，　Ｖｏｌｕｍｅ　４５，ｐｐ．３３３‐３４５，Ｆｅｂｒｕａｒｙ　１９９７における“Ｆｌｅｘｉｂｌｅ　ｔｒｅｅ‐ｓｔｒｕｃｔｕｒｅｄ　ｓｉｇｎａｌ　ｅｘｐａｎｓｉｏｎｓ　ｕｓｉｎｇ　ｔｉｍｅ‐ｖａｒｙｉｎｇ　ｗａｖｅｌｅｔ　ｐａｃｋｅｔｓ”で提案された技法を用いて見つけられる。この実施は、信号対ノイズ比（ＳＮＲ）対減衰された正弦波の数（ＮＤＳ）に関して研究され、図１にも例示し、同図ではカスタネット信号の特定の遷移に対して結果が提示され、このときＡは元の遷移を表示し、Ｂはシフトされた遷移を表示する。変更手順は、前とは違ってある質で遷移を表示するために必要な数よりも相当小さい数の減衰された正弦波を結果とする。図２及び図３の下のプロットは、元の及び変更された遷移夫々の２５の減衰された正弦波を有する再構成を示す。これらの図では、ｔ［ｍｓ］はミリ秒単位の時間を示す。元の遷移は、セグメントの最初に位置せず、その結果、モデリングエラーが遷移の前のサンプルに分散される。この結果、可聴な前反響が生ずる。他方で、変更された遷移は、セグメントの最初に位置し、その結果、前反響の問題は排除される。
【００７４】
図４は、段階Ｓ１乃至Ｓ６を有する第１の実施例の工程系統図である。
【００７５】
Ｓ１は、周波数領域への変換によって入力信号の第１の時間セグメントにおける遷移の位置を推定する。
【００７６】
Ｓ２は、対応する周波数を所定のタイムスケール上の位置に変更することで空間領域における遷移の位置を変更する。
【００７７】
Ｓ３は、周波数領域への変換によって遷移信号の第２の及びその後の時間セグメントにおける遷移の位置を推定する。
【００７８】
Ｓ４は、対応する周波数を所定のタイムスケール上の位置に変更することで空間領域における遷移の位置を変更する。
【００７９】
Ｓ５は、オーディオ信号を遷移、音、及び、ノイズ成分に分解する。
【００８０】
Ｓ６は、分解された信号を送信或いは再生のために再び組合す。
【００８１】
上記に類似する改善が完全精度（ｆｕｌｌ‐ｐｒｅｃｉｓｉｏｎ）可変セグメンテーション（且つ信号変更のない）場合に実現され得ることが可能である。しかしながら、制限されたセグメンテーション及び変更手順は、結果として合計の計算費をより低くする。更に、制限されたセグメンテーションを説明するためにより少ないサイド情報が要求される。
【００８２】
符号化方法の第２の実施例は、入力信号中の遷移の位置を推定する、異なる方法及び異なる変更手順を含む。遷移の位置は、遷移が正弦波セグメントの最初でだけ起こり得るよう変更され、この正弦波セグメントは５ミリ秒（ｍｓ）でもよい特定のセグメントの大きさに定められ、これは、制限されたセグメンテーションと呼ばれ、第１の実施例のそれに対応する。正弦波セグメントの最初を参照することは、第１の実施例において時間グリッドの最初を参照し、正弦波を参照することは単に使用されるモデリング手順を参照することと考えられる。
【００８３】
この第２の実施例は、信号、特に、オーディオ信号のモデリングを改善するために遷移の位置が変更される点で第１の実施例と同じ考え方を用いる。しかしながら、この第２の実施例は、遷移の位置を変更する改善された方法を提供する。
【００８４】
第１の方法を要約するに、入力信号は、信号に対する時間と周波数領域の間の双対性に基づくモデルを用いて遷移成分の位置を推定し、遷移成分を減算し、遷移の位置が正弦波セグメントの最初及び制限されたセグメンテーションでだけ始まるよう遷移の位置を変更し、残留信号に変更された遷移を加算して変更されたオーディオ信号を得ることで変更される。
【００８５】
要点を述べると、第２の実施例による方法は、ＥＵＳＩＰＣＯの会報のｐ２３４５‐２３４８，Ｇｒｅｅｃｅ，１９９８からの“Ａｕｄｉｏ　ｓｕｂｂａｎｄ　ｃｏｄｉｎｇ　ｗｉｔｈ　ｉｍｐｒｏｖｅｄ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｏｆ　ｔｒａｎｓｉｅｎｔ　ｓｉｇｎａｌ　ｓｅｇｍｅｎｔｓ”に記載するように２つの移動する長方形の窓を有するエネルギーベースのアプローチ法を用いて遷移及びオーディオ信号の最初と最後を検出し、続いて選択された時間グリッド又は正弦波セグメンテーショングリッドによって指定された位置に識別された遷移を移動し、識別された遷移間の信号の部分をタイムワープさせて変更された遷移間の間隔を埋めることを含み、上記文書は本願で参照として組込む。
【００８６】
上記“Ａｕｄｉｏ　ｓｕｂｂａｎｄ　ｃｏｄｉｎｇ　ｗｉｔｈ　ｉｍｐｒｏｖｅｄ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｏｆ　ｔｒａｎｓｉｅｎｔ　ｓｉｇｎａｌ　ｓｅｇｍｅｎｔｓ”に記載する遷移検出アプローチ法は、基準関数Ｃ（ｎ）
【００８７】
【数８】

の評価に基づき、このときｎは時間サンプルであり、Ｅ_Ｌ（ｎ）及びＥ_Ｒ（ｎ）は、時間サンプルｎの左側及び右側にある長さＮの長方形の窓内の入力信号のエネルギーである。基準関数Ｃ（ｎ）の著しいピークは、遷移の最初に対応する。遷移の最後は、ある閾値の真下である遷移の始まりの後にＣ（ｎ）の第１の値を検索することで定義される。
【００８８】
一旦遷移の最初と最後が上記方法を用いて位置探しされると、遷移は、単に信号から除去され、効果的にはカットアンドペースト方法によって指定された正弦波セグメンテーショングリッド上の最も近い位置に再び位置決めされる。手順のこの部分は、特に明確であり、当業者によって容易に実行されるであろう。
【００８９】
遷移の位置の変更により、オーディオ信号における２つの連続する遷移の間の距離はより長くされ（例えば、一方が前方向にシフトされ、他方が後方向にシフトされた場合）、又は、距離は短くされ（例えば、時間に関して第１の遷移が後方向にシフトされ、第２の遷移が前方向にシフトされる）得る。図５では、距離が増加される遷移変更の例が示されており、図６では遷移間の減少された距離が示されている。変更された遷移の間の間隔を埋めるために、間にある信号部分は、遷移の間のより大きい又はより小さい距離を可能にするよう何らかの方法で変更されなくてはならない。
【００９０】
信号は、時間のゆがみ（タイムワープ）によって変更され、これは、遷移の間の信号のエッジ点の正確な振幅を保存し、従って、以下に説明するように、遷移の直前又は直後に不連続性が生じないようにして行われる。時間のゆがみは、遷移の間の信号を伸長する（図５に示す）か、圧縮（図６に示す）する。元のサンプルの既知の振幅に基づいて新しい整数サンプリング位置における振幅を計算するためにｓｉｎｃ関数に基づく帯域制限補間方法が使用される（帯域制限補間は、Ｐｒｏａｋｉｓ及びＭａｎｏｌａｋｉｓによる“Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．　Ｐｒｉｎｃｉｐｌｅｓ，Ａｌｇｏｒｉｔｈｍｓ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ”，　Ｐｒｅｎｔｉｃｅ‐Ｈａｌｌ　Ｉｎｅｒｎａｔｉｏｎａｌ，１９９６に記載する）。変更されたハンニング窓が使用される。各新しいサンプルの振幅を計算するために、新しいサンプルの各側に４つづつ、８つの元のサンプルの振幅が使用される。
【００９１】
信号の伸長、或いは、圧縮は、結果として、基本周波数ｆ_０の対応する変化における音信号を生ずる。変更手順の目的は、ｆ_０の引き起こされた変更が可聴でないことを確実にすることである。
【００９２】
変更を実現するためには、２つの識別され変更された遷移間の信号部分をタイムワープするために以下のアルゴリズムが使用される；
（ａ）２つの遷移間の信号部分の長さにおける要求される変化が結果としてわずか０．２％だけのｆ_０の変化を生ずる場合、信号は単にｓｉｎｃ関数に基づく帯域制限補間方法を受ける。これは、図５ａ及び図６ａに示す例である。ｆ_０が０．２％より大きく変化する場合、以下に説明する段階ｂ）に進む。
【００９３】
限界点が０．２％である理由は、“Ａｎ　Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　ｔｈｅ　ｐｓｙｃｈｏｌｏｇｙ　ｏｆ　ｈｅａｒｉｎｇ”，Ａｃａｄｅｍｉｃ　Ｐｒｅｓｓ，１９９７に記載するように、音響のｆ_０を０．２％だけ変化させることが可聴となり得ることが精神音響に関する文献から決定されたからである。独自の実験もこの結果を実証している。
【００９４】
（ｂ）信号部分は、２つの遷移の間で２つの重なり合わない間隔に分けられ、第１の間隔は、第１の遷移の終わりの直後に位置し１０ｍｓ（図５ｂ及び図６ｂ中の間隔１によって示すように）持続し、第２の間隔は残留部分、即ち、第２の遷移の最初まで持続する（図５ｂ及び図６ｂ中で間隔２によって示される）。２つの間隔の長さは、異なる量だけ変更される。２つの遷移間の信号部分の長さにおける要求された変更が、第１の間隔におけるｆ_０をわずか２％だけ変化させ、第２の間隔におけるｆ_０をわずか０．２％だけ変化させることで行われ、従って２つの間隔中の信号は、図５ｂ及び図６ｂの下部分に示されるように相応じてタイムワープされる。さもなければ、以下に説明する段階ｃ）に進む。
【００９５】
段階ｂ）の説明は、遷移直後の間隔が遷移からのマスキング効果が強い間隔である。従って、この間隔中の信号のより大きい変化が、可聴になる前に可能である。実験により、遷移の最後の直後の間隔１０ｍｓにおけるわずか２％のｆ_０の変化が聞こえないことが立証された。
【００９６】
（ｃ）ｆ_０の結果となる変化が間隔１おいてわずか２％であり、間隔２においてわずか０．２％となるよう２つの間隔中の信号をタイムワープする。結果として生じる長さにおける変化がシフトされた遷移の間の距離を埋めるのに十分でない場合、信号の長さを増加或いは減少するために２つの間隔からのサンプルを用いて変更されたハンニング窓で重なり合い−加算手順を適用する。２つの間隔の間で円滑な遷移を確実にするために、重なり合い−加算領域の長さは、２つの遷移間の信号の正確な長さ（図５ｃ及び図６ｃ）を得るために、要求されるよりも長く選択される。
【００９７】
図５及び図６では、遷移の始まりの新しい位置は、小さい矢印で示されている。図５では、２つの遷移間の信号部分はより大きい。図６では、２つの遷移間の信号部分がより短くなっている。図６ｃの下部分では、明瞭性のために小さい垂直方向のシフトが示されている。
【００９８】
第２の実施例の方法の様々なコンピュータ・シミュレーションは、オーディオ信号の非公式のリスニングテストと一緒に実施される。カスタネット、バス、トランペット、セリーヌ・ディオン、メタリカ、ハープシコード、エディー・ラビット、ストラヴィンスキー、オルフのようなオーディオ抜粋曲が使用される。信号は、４４．１ｋＨｚでサンプリングされる。遷移の位置は、２２０サンプル（約５ｍｓ）の時間グリッドに従って変更される。遷移の位置が任意の可聴のひずみを招かないことを確認することが重要である。実施されたリスニングテストは、元のオーディオ信号と変更されたオーディオ信号との間で知覚的な差がないことを立証した。
【００９９】
次に、変更手順により信号のモデリングが改善されることが分かる。元の遷移信号（即ち、一般的に遷移は任意の位置で始まる）及び変更された遷移信号（本発明の方法によって定義されるように遷移はセグメントの最初に始まる）に対して、制限されたセグメンテーションとの減衰された正弦波モデルの機能の間が比較される。図７及び図８の下部分は、夫々元の及び変更された遷移の２５の減衰された正弦波を有する再構成を示す。元の遷移は、セグメントの最初に位置せず、その結果、モデリングエラーが遷移の前にサンプルに分散される。これにより、信号の振幅と、５ｍｓと約７．５ｍｓとの間の図７の下部分によって示される前反響が生じ、これは、元の遷移を示す図７の上部分には示されていない。他方で、変更された遷移は、セグメントの最初に位置し、その結果、前反響は、図８の上部分及び下部分の信号の振幅が５ｍｓの直後に零から、即ち、同時に移動する点で、図８に示すように除去される。
【０１００】
図９は、段階Ｔ１乃至Ｔ６を有する第２の実施例の工程系統図である。
【０１０１】
Ｔ１は、エネルギーベースのアプローチ法によって入力信号の第１の時間セグメントにおける遷移（最初と最後）の位置を推定する。
【０１０２】
Ｔ２は、所定のタイムスケール上の位置にカットアンドペーストすることで遷移の位置を変更し、間にある信号部分をタイムワープする。
【０１０３】
Ｔ３は、入力信号の第２の及びその後の時間セグメントにおける遷移（最初と最後）の位置を推定する。
【０１０４】
Ｔ４は、上記の通り遷移の位置を変更し、間にある信号部分をタイムワープする。
【０１０５】
Ｔ５は、オーディオ信号を遷移、音、及び、ノイズ成分に分解する。
【０１０６】
Ｔ６は、分解された信号を送信或いは再生のために再びに組合す。
【０１０７】
第２の実施例で説明した方法は、より一般的な手順を提供し、第１の実施例を改善した良い結果を提供する。時間のゆがみ原則は、音知覚の知識に基づき、第２の実施例の手順は実行及び利用するのにさほど複雑でない。
【０１０８】
従来技術の方法及び第１の実施例に対する第２の実施例の利点は、遷移検出モデルがより一般的であり、短い遷移だけでなく、様々な遷移に対して良い結果をもたらす点である。更に、遷移間の信号部分の時間のゆがみは、音知覚の特性、例えば、ピッチ知覚及び時間のマスキング効果の知識に基づく。更に、第２の実施例の方法により計算の複雑性は、著しく低い。
【０１０９】
本願記載の両方の方法は、オーディオ及びビデオ信号を符号化するのに特に有利な方法を提供する。特に、遷移の位置を制限することは、オーディ符号器（遷移、正弦波、及び、ノイズモデルを含む）における解析手順を著しく簡略化する。更に、対応するセグメンテーションと関連付けられるサイド情報は、記載する２つの実施例においてしばしば使用される制限されたセグメンテーションにより減少される。
【０１１０】
更に、遷移の位置における差は、知覚的に重要でない。
【０１１１】
この方法は、オーディオ及び／又はビデオを記憶、送信、受信、又は再現する装置、例えば、ソリッド・ステートオーディオ装置で実行され得る。図１０は、符号化のためにオーディオ信号（Ａ）を受信し復号化のために符号化された信号（Ｃ）を夫々受信するオーディオ符号器１０及びオーディオ復号器１２を有し、復号器１２はオーディオ信号Ａを出力する。特に、オーディオ符号器は、送信又は記録装置に含まれてもよく、更に、オーディオ信号を得るためのソース或いは受信器と、符号化された信号を送信或いは記憶媒体（例えば、ソリッド・ステートメモリ）に送信／出力する出力ユニットとを有する。ステレオオーディオ信号に関して、信号が両耳に届く時間及び強度は、音の局所化、即ち、音源に対する方向及び距離の知覚に関して重要な役割を担う。より正確には、両耳に届く信号の時間における差（両耳差）及び強度における差（両耳強度差）がいわゆるステレオ画像を形成する。ここでは、効率的なモデリングの目的のためにオーディオ信号の時間変更を取り扱う。従って、以下では、結果として生じる両耳（相互通信）時間差に注目する。
【０１１２】
相互通信時間差の可聴性、及び、ステレオ画像の形成における遷移及び進行中の部分の相対的な重要性は、音の持続時間、周波数コンテンツ、（遷移に対する）繰り返し率を含む様々な要素に依存する。しかしながら、重要な結果は、１０μｓのオーダーほどに小さい相互通信時間差が可聴システム（遷移或いは進行中の部分のいずれかからのキューを使用して）によって検出され得る。
【０１１３】
遷移の位置を変更するとき、進行中の部分も時間シフト及び時間のゆがみによって変更され、即ち、両方の重要なキューが存在する。従って、元のステレオ画像を破壊しないよう注意を払わなくてはならない。
【０１１４】
減衰された正弦波での効率的なモデリングは、両方のステレオチャネルにおける遷移の位置が、遷移が正弦波セグメントの最初から始まるよう変更される場合に得られ得る。しかしながら、２つのチャネルにおける独立した変更は、典型的に破壊されたステレオ画像を生じさせる。この問題の可能な解決策は、減衰された正弦波でモデリングする前に正弦波セグメンテーションに従って遷移の位置を変更するが、２つのチャネルにおける対応する遷移間の元の時間差を説明するサイド情報を復号器に送ることである。復号器では、一方のチャネルにおける合成された信号は元の時間差に従ってゆがめられていなくてもよい。結果として、合成された遷移は、一般的に夫々の元の位置と異なる位置で生ずるが、２つの遷移間の相互通信時間差は保存される。この解決策は、低相互通信時間差を有する同様の検出された遷移を有する非常に相互に関連付けられたステレオチャネルに特に好適である。
【０１１５】
前述の実施例は、本発明を制限するものではなく例示するものであり、当業者は添付の特許請求の範囲から逸脱することなく多数の代替の実施例を設計することができることに注意すべきである。特許請求の範囲では、括弧内のどの参照記号も請求の範囲を制限するものとして解釈されてはならない。「有する、含む」などの用語は、記載されていない他の素子及び段階を除外するものではない。本発明は、幾つかの別個の素子を有するハードウェアを手段として、且つ、適切にプログラムされたコンピュータを手段として実行され得る。幾つかの手段を列挙する装置クレームでは、これら手段の幾つかはハードウェアの同一のアイテムに含まれ得る。相互に異なる従属項においてある手段が記載されているが、これら手段が利点となるよう組み合わされて使用され得ないことを除外しない。
【０１１６】
要約するに、オーディオ信号における遷移の改善された表示は、遷移が正弦波セグメントの最初でだけ生じ得るようにして遷移の位置を変更することを含む。変更手順は、
２つの移動する長方形の窓を含むエネルギーベースのアプローチ法を用いて遷移の最初とサイドを検出する段階と、
遷移の最初と最後の間で、使用されるセグメンテーションによって指定される位置にサンプルを移動する段階と、
変更された遷移の間の間隔を埋めるために遷移の間の信号部分をタイムワープする段階とを有する。
【図面の簡単な説明】
【図１】
第１の実施例における元の、及び、時間シフトされた遷移に対する、オーディオ信号の制限されたセグメテーションの場合における減衰された正弦波モデルの実施を示す図である。
【図２】
元の遷移及び２５の減衰された正弦波を有するその再構成を示す図である。
【図３】
第１の実施例における元の遷移及び２５の減衰された正弦波を有するその再構成を示す図である。
【図４】
第１の実施例におけるオーディオ信号を符号化する方法に伴われる段階の工程系統図である。
【図５ａ】
第２の実施例における遷移の位置の変更を示す図である。
【図５ｂ】
第２の実施例における遷移の位置の変更を示す図である。
【図５ｃ】
第２の実施例における遷移の位置の変更を示す図である。
【図６ａ】
図５の第２の実施例における遷移の位置の変更を示す図に類似する図である。
【図６ｂ】
図５の第２の実施例における遷移の位置の変更を示す図に類似する図である。
【図６ｃ】
図５の第２の実施例における遷移の位置の変更を示す図に類似する図である。
【図７】
元の遷移及びその再構成を示す図である。
【図８】
第２の実施例におけるシフトされた遷移及びその再構成の工程系統図である。
【図９】
第２の実施例に伴われる段階の工程系統図である。
【図１０】
本願記載の方法を利用するオーディオエンコーダ及びオーディデコーダを示す図である。

Claims

入力信号の時間セグメントにおける少なくとも一つの遷移の位置を推定する段階を有する、入力信号を符号化する方法であって、
所定のタイムスケール上の指定された位置で上記遷移が生ずるよう遷移の位置を変更し、変更された信号を得る段階と、
上記変更された信号をモデリングする段階とを有することを特徴とする符号化方法。
各遷移は、上記所定のタイムスケール上の複数の可能な位置の最も近くの指定された位置に再び位置決めされる請求項１記載の符号化方法。
上記所定のタイムスケール上の指定された位置は、所定の最小の時間セグメントの大きさの整数倍で定められる請求項１記載の符号化方法。
上記所定の最小の時間セグメントの大きさは、約１ミリ秒（ｍｓ）乃至約９ｍｓの範囲に長さを有する請求項３記載の符号化方法。
上記モデリング段階は、上記変更された入力信号を表示するために正弦波を使用する請求項１記載の符号化方法。
制限された時間セグメンテーションも上記入力信号の音及び／又はノイズ成分に適用される請求項１記載の符号化方法。
遷移の位置の推定は、エネルギーベースのアプローチ法を用いて行われる請求項１記載の符号化方法。
遷移の位置の推定は、２つの移動窓を用いて行われる請求項７記載の符号化方法。
遷移の位置は、各遷移の最初と最後の位置を伴う請求項１記載の符号化方法。
各位置決めされた遷移は、上記所定のタイムスケール上の位置で始まるよう、元の位置からカットアンドペーストで移動される請求項１記載の符号化方法。
２つの位置決めされ変更された遷移間の上記入力信号の残留部分は、再位置決めに続いて残留する隙を埋めるようタイムワープされる請求項１０記載の符号化方法。
上記タイムワープは、上記残留部分を長くすること、或いは、短くすることである請求項１１記載の符号化方法。
上記タイムワープは、上記変更された信号のエッジ点の振幅を保存する請求項１１記載の符号化方法。
上記タイムワープは、上記残留部分の基本周波数における変化が約０．３％未満である補間によって行われる請求項１１記載の符号化方法。
上記残留部分の上記基本周波数における上記変化が０．３％以上である場合、上記残留部分が変更された遷移直後の第１の長さと第２の長さとに分けられる請求項１１記載の符号化方法。
上記第１の長さは、約８ｍｓ乃至１２ｍｓである請求項１５記載の符号化方法。
上記補間は、上記残留部分における隙を埋めるのに不十分な場合には、重なり合い−加算手順が使用される請求項１４記載の符号化方法。
ある遷移又は各遷移の位置の変更は、周波数領域への変換を使用して実施される請求項１記載の符号化方法。
モデリングされた変更信号にサイド情報を含み、上記サイド情報が少なくとも２つのチャネルにおける対応する遷移間の元の時間差を記述する請求項１記載の符号化方法。
少なくとも２つのチャネルにおける遷移の位置が変更された、モデリングされた変更信号を受信する段階を有し、上記モデリングされた変更信号が更に対応する遷移間の元の時間差を記述するサイド情報を更に有する復号化方法であって、
上記少なくとも２つのチャネルに対して合成された信号を合成する段階と、
上記元の時間差に従って上記合成された信号をアンワープする段階とを有する方法。
少なくとも２つのチャネルにおける遷移の位置が変更され、上記少なくとも２つのチャネルにおける対応する遷移間の元の時間差を記述するサイド情報を更に有するモデリングされた変更信号。
請求項２１記載のモデリングされた変更信号が記憶される記憶媒体。
少なくとも２つのチャネルにおける遷移の位置が変更され、上記少なくとも２つのチャネルにおける対応する遷移間の元の時間差を記述するサイド情報を更に有するモデリングされた変更信号を受信する手段と、
上記少なくとも２つのチャネルに対して合成された信号を合成し、上記元の時間差に従って上記合成信号をアンワープする手段とを有する復号器。
請求項２３記載の復号器と、上記アンワープされた合成信号を再現する再現ユニットとを有するオーディオプレーヤー。
オーディオ又はビデオ信号の時間セグメントにおいて一つ以上の遷移の位置を推定するよう動作する電子プロセッサを有する、信号を符号化する装置であって、
上記プロセッサは、ある遷移或いは各遷移が所定のタイムスケール上の指定された位置で生ずるようある遷移或いは各遷移の位置を変更し、上記変更された入力信号をモデリングするよう動作することを特徴とする装置。
オーディオ装置である請求項１９記載の装置。