JP2006126826A

JP2006126826A - オーディオ信号符号化／復号化方法及びその装置

Info

Publication number: JP2006126826A
Application number: JP2005294095A
Authority: JP
Inventors: Yoon-Hark Oh; 潤學呉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-10-26
Filing date: 2005-10-06
Publication date: 2006-05-18
Also published as: KR20060036724A; KR100750115B1; CN1767394A; NL1030280C2; US20060100885A1; NL1030280A1

Abstract

【課題】オーディオ信号に対して類似性を有するフレームを時間軸変更を通じて減らすことによって、高周波領域を損失せず、優れたオーディオ音質で再生できるオーディオ信号符号化／復号化方法及びその装置を提供する。
【解決手段】入力オーディオ信号に対してフレーム別に類似度を判断して時間軸に圧縮し、フレーム時間軸変更フラグを発生させる符号化過程と、フレーム時間軸変更フラグによって圧縮されたオーディオ信号を時間軸伸長を通じてデコーディングする符号化過程とを含む。
【選択図】図２Ａ

Description

本発明は、オーディオコーデック（ＣＯＤＥＣ：Ｃｏｄｅｒ／Ｄｅｃｏｄｅｒ）に係り、特に、時間軸圧縮／伸長を通じてオーディオ信号の高周波領域を損失せずに、高音質で再生するオーディオ符号化／復号化方法及び装置に関する。

通常、ＭＰＥＧ−１（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ−１）は、デジタルビデオ及びデジタルオーディオ圧縮に関する標準を制定する動画専門家グループを称し、この機構は、世界標準化機構であるＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄｉｚａｔｉｏｎＯｒｇａｎｉｚａｔｉｏｎ）の後援を受けている。ＭＰＥＧ−１オーディオは、基本的に６０分や７２分ほどのＣＤに保存された４４.１Ｋｈｚのサンプリングレートのオーディオ信号を圧縮する時に使われるが、圧縮方法及びコーデックの複雑度によって３層のレイヤに分けられる。

そのうち、レイヤ３は、最も複雑な方法であって、レイヤ２に比べて顕著に多くのフィルタを使用し、ハフマンコーディングを使用する。また、レイヤ３は、エンコーディング時、ビット率（１１２Ｋｂｐｓ、１２８Ｋｂｐｓ、１６０Ｋｂｐｓなど）によって音質性能が変わる。一般的に、ＭＰＥＧ−１レイヤ３オーディオをＭＰ３オーディオと称す。

ＭＰ３オーディオは、フィルタバンクからなるＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）と心理音響モデル２とを利用したビット割当及び量子化によってエンコーディングされる。

しかし、ＭＰ３オーディオは、圧縮するほど高周波数領域を損失する。例えば、９６ｋｂｐｓのＭＰ３ファイルである場合、３２個のフィルタバンク値のうち１１.０２５ｋＨｚ以上の周波数成分が損失される。１２８ｋｂｐｓのＭＰ３ファイルである場合、１５ｋＨｚの３２個のフィルターバンク値のうち、１５ｋＨｚ以上の周波数成分が損失される。人間の聴感は、一般的に、一部高周波成分にあまり敏感でないため、高周波数帯域は、時々オーディオ信号をＭＰ３フォーマットに圧縮するために捨てられる。したがって、このような高周波領域が損失されたオーディオ信号は、損失によって音色が変わり、明瞭度が低下し、かつ押さえられるか、または濁っている音が出る。
韓国特許公開第２００４−００４４３８９号公報日本特許公開２０００−３２２０９９号公報

本発明が解決しようとする技術的課題は、時間軸圧縮／伸長を通じてオーディオ信号の高周波領域を損失せず、高音質で再生するオーディオ符号化及び復号化方法を提供することである。

本発明が解決しようとする他の技術的課題は、オーディオ符号化及び復号化方法を適用したオーディオ符号化及び復号化装置を提供することである。

前記課題を解決するために、本発明は、オーディオ符号化及び／または復号化方法において、入力オーディオ信号に対して、フレーム間の類似度を判断して時間軸に変換し、フレーム時間軸変更フラグを発生させる前処理過程と、前記前処理過程で時間軸に圧縮されたオーディオ信号を心理音響モデルに基づいてエンコーディングするエンコーディング過程と、前記エンコーディング過程でエンコーディングされたオーディオ信号に対してデコーディングする過程と、前記フレーム時間軸変更フラグがイネーブルされた場合、時間軸伸長を通じてオーディオ信号を再生する後処理過程と、を含むことを特徴とする。

前記他の課題を解決するために、本発明は、オーディオ符号化／復号化装置において、入力オーディオ信号に対してフレーム別に類似度によって時間軸に変更し、フレーム時間軸変更フラグを発生させる前処理手段と、前記前処理手段で時間軸に変更されたオーディオ信号を心理音響モデルに基づいてエンコーディングするエンコーディング手段と、前記エンコーディング手段でエンコーディングされたオーディオ信号に対してフィルタバンク成分を復元するデコーディング手段と、前記フレーム時間軸変更フラグがイネーブルされた場合、時間軸伸長を通じて前記デコーディング手段でデコーディングされたオーディオ信号を再生する後処理手段と、を備えることを特徴とする。

本発明によれば、オーディオ信号に対して類似性を有するフレームを時間軸変更を通じて減らすことによって、高周波領域を損失せず、優れたオーディオ音質で再生できる。

以下、添付された図面を参照して、本発明の望ましい実施形態を説明する。

図１は、本発明によるオーディオ符号化装置を示すブロック図である。

前処理部１１０は、入力オーディオ信号に対してフレーム間類似度を判別し、その類似度が大きい場合、当該フレームのオーディオ信号を時間軸に圧縮してフレーム時間軸変更フラグを発生させる。

エンコーダ１２０は、前処理部１１０で前処理されたオーディオ信号に対して心理音響モデルに基づいてエンコーディングする。

パッキング部１３０は、前処理１１０で生成されたフレーム時間軸変更フラグとエンコーダ１２０でエンコーディングされたビットストリームとを一つの出力ストリームで構成する。

図２Ａは、図１の前処理部１１０の一実施形態である。図２Ａを参照するに、フレーム類似度判断部２１０は、入力信号に対してフレーム別に周波数成分を分析し、その周波数成分間の差に基づいてフレーム間の類似度を判断する。そして、フレーム類似度判断部２１０は、以前フレームと現在フレームとの類似度が所定値以上である場合、フレーム時間軸変更フラグを発生させる。

時間軸変更部２２０は、フレーム類似度判断部２１０で発生する時間軸変更フラグによってフレームを時間軸に圧縮する。

図２Ｂは、図１の前処理部１１０の他の実施形態である。図２Ｂを参照するに、フレーム類似度判断部２１０は、以前フレームと現在フレームとの類似度が所定値以上である場合、フレームスキップフラグを発生させる。

フレームスキップ部２２０−１は、フレーム類似度判断部２１０で発生するフレームスキップフラグによって現在フレームをスキップする。

フレームスキップフラグは、フレームスキップ部２２０−１に、現在フレームが以前フレームと類似しているため、現在フレームが符号化されてはならないことを知らせる。フレームスキップフラグは、復号装置に符号化過程中に現在フレームがスキップされたことを知らせるために、復号されたオーディオデータと共にパッキング部（図１参照）によってビットストリームでパッキングされる。したがって、復号装置は、現在フレームのデータを推論するために、以前フレームのデータを使用できる。

図３は、図１のエンコーダ１２０の一実施形態である。図３を参照するに、フィルターバンク部３１０は、各グラニュール単位で入力されるＰＣＭオーディオサンプルを多重位相バンクを利用して３２サブ帯域に帯域分割する。付加的に、それぞれのサブバンドは、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）によって１８スペクトル係数に変換される。

心理音響モデル部３２０は、音響心理学で明らかになったマスキング現象と可聴限界とを利用して、各バンド別に許容されるビット割当情報を決定する。人間の聴覚特性では、高いレベルの周波数成分が低いレベルの隣接周波数をマスクする効果がある。

ビット割当部３３０は、心理音響モデル部３２０の心理音響モデルから決定された各バンド別の割当情報を利用して、フィルタバンク部３１０から分割された各フィルターバンク帯域またはスペクトル係数にビットを割当する。

図４は、本発明によるオーディオ復号化装置のブロック図である。

アンパッキング部４１０は、入力ストリームからフレーム時間軸変更フラグ及びヘッダ情報、サイド情報及びメインデータビットを分離する。

デコーダ部４２０は、アンパッキング部４１０から分離されたメインデータビットに対してＭＤＣＴ成分またはフィルタバンク成分を復元し、そのＭＤＣＴ成分またはフィルタバンク成分に対して逆ＭＤＣＴまたは逆フィルタリングを行って最終オーディオ信号を生成する。

後処理部３２０は、アンパッキング部４１０から受信されたフレーム時間軸変更フラグがイネーブルされた場合、時間軸伸長を通じてデコーダ部４２０でデコーディングされたオーディオ信号を元来のオーディオ信号に変更する。すなわち、フレーム時間軸変更フラグは、後処理部４３０に、当該フレームの復号されたオーディオ信号が以前符号化処理中に時間のフレーム変更（例えば、圧縮）された時を知らせる。

図５は、図４の後処理部３２０の一実施形態である。図５を参照するに、時間軸変更部５５０は、デコーダ部４２０でデコーディングされたオーディオ信号ｘ（ｎ）をフレーム時間軸変更フラグによって時間軸伸長を行って元来のオーディオ信号に伸長する。

図６は、図１のデコーダ部４２０の一実施形態である。図６を参照するに、逆量子化部６１０は、アンパッキングされたメインデータビットに対して逆量子化を通じてＭＤＣＴ成分またはフィルタバンク成分を復元する。

逆フィルタバンク部６２０は、ＭＤＣＴ成分またはフィルタバンク成分に対して逆ＭＤＣＴまたは逆フィルタリングを行って最終オーディオ信号を生成する。

図７は、図２のフレーム類似度判断部２１０の詳細フローチャートである。

まず、オーディオ信号を入力する（７１０過程）。

次いで、入力されたオーディオ信号に対してＦＦＴを利用してフレーム別に周波数成分を分析する（７２０過程）。

次いで、以前フレームと現在フレームとの間に分析された周波数成分の差を計算する（７３０過程）。

次いで、周波数成分の差値が臨界値より小さいか、または同じであれば（７４０過程）、以前フレームと現在フレームとの間に類似性があると判断して、フレーム時間軸変更フラグを発生させ（７５０過程）、一方、周波数成分の差値が臨界値より大きければ、以前フレームと現在フレームとの間に類似性がないと判断してフレーム時間軸変更フラグを発生させない。

図８Ａ乃至図８Ｃは、図１及び図４の前処理部１１０及び後処理部４３０で適用される時間軸変化方法を示す波形図である。

時間軸変換は、信号の再生速度の変更を意味する。この時間軸変換は、出力される信号のピッチを変えずに再生率を修正する。

時間軸変換は、２つの主要な動作である時間軸圧縮（再生速度の増加）、時間軸伸長（再生速度の減少）で構成される。前処理部１１０で適用される時間軸圧縮は、整数倍のピッチ区間を削除することによって行われ、後処理部４３０で適用される時間軸伸長は、追加的なピッチ区間を挿入することによって行われる。このピッチ区間は、入力フレーム内に必ずしも存在せねばならない。通常的に、時間軸変換は、色々な方法があるが、一般的に性能に優れたＳＯＬＡ（ＳｙｎｃｈｒｏｎｉｚｅｄＯｖｅｒＬａｐＡｄｄ）方式を良く使用する。

ＳＯＬＡは、相互相関係数を利用するが、これは、フーリエ変換を行わずとも、時間次元で時間軸変換を行うことを可能にする。

ＳＯＬＡは、信号のピッチに関係なく動作する。すなわち、入力信号は、固定された長さを有して、その入力信号を複数個のウィンドウに分けて伝える。このとき、固定された長さは、最小２〜３個のピッチ区間を有さねばならない。

出力される信号は、このような信号内のピッチ区間を重畳及び加算することによって合成される。

ｘ（ｎ）を入力信号、ｙ（ｎ）を時間軸変換された信号とすれば、長さがＮであるフレームが与えられるとき、入力される信号のフレーム間の間隔をＳ_ａ、時間軸変換された信号のフレーム間の間隔をＳ_ｓという。このとき、Ｓ_ｓ／Ｓ_ａは、変換率ａとなる。ここで、ａが１より大きければ、時間軸圧縮に該当し、ａが１より小さければ、時間軸伸長に該当する。

まず、ＳＯＬＡは、ｘ（ｎ）からｙ（ｎ）に第１のフレームを複写する。そして、第ｍの入力信号ｘ（ｍＳ_ａ＋ｊ）（０≦ｊ≦Ｎ−１）は、フレーム別に隣接した時間軸変換信号ｙ（ｍＳ_ｓ＋ｊ）で同期が合わせられて加えられる。現在フレームと以前フレームとの相互相関を最大化させるために、現在フレームが移動する。したがってＳＯＬＡは、フレーム内で可変的な重畳領域を許容し、これは、入力信号のピッチに影響を与えず、入力信号の時間軸を変換する。フレームを重畳領域で合わせるとき、加重値関数を利用する。第ｍのフレームでＳＯＬＡの正規化された相互相関係数Ｒ_ｍは、許容される範囲のフレーム配置オフセットｋに対して式（２）のように求められる。

ここで、ｘ（ｎ）は、時間軸変換のための入力信号を表し、ｙ（ｎ）は、時間軸変換された信号を表す。そして、ｍは、フレーム数を表し、Ｌは、ｘ（ｎ）とｙ（ｎ）との重畳される領域の長さを表す。

したがって、Ｒ_ｍが決定されれば、時間軸変換されたｙ（ｎ）は、式（３）のように更新される。

ここで、Ｌ_ｍは、既定のＲ_ｍが含まれる２つの信号間の重畳領域を表し、ｆ（ｊ）は、０≦ｆ（ｊ）≦１にする加重関数を表す。

したがって、図８Ａ乃至図８Ｃに示したように、ＳＯＬＡ方式を利用して元来の信号を時間軸圧縮及び伸長を行う。すなわち、（ａ）は、元来信号（ｓｏｌｉｄで表示される）と第１、第２オーバラッピングセグメント（ｄｏｔｔｅｄで表示される）とを示している。（ｂ）は、元来の信号を同期化されたセグメントオーバラップで時間軸拡張する波形図である。（ｃ）は、元来の信号を同期化されたセグメントオーバラップで時間軸圧縮する波形図である。

本発明は、前述した実施形態に限定されず、本発明の思想内で当業者による変形が可能である。

本発明は、一般的に、デジタルＴＶ、ＤＶＤ、デジタル音楽放送（ＤＡＢ：ＤｉｇｉｔａｌＡｕｄｉｏＢｒｏａｄｃａｓｔｉｎｇ）及びＭＰ３プレイヤに適用可能である。

本発明によるオーディオ符号化装置を示すブロック図である。図１のオーディオ符号化装置の前処理部の一実施形態を示す図である。図１のオーディオ符号化装置の前処理部の他の実施形態を示す図である。図１のエンコーダの一実施形態を示す図である。本発明によるオーディオ復号化装置を示すブロック図である。図４の後処理部の一実施形態を示す図である。図１のデコーダ部の一実施形態を示す図である。図２のフレーム類似度判断部の詳細フローチャートである。図１及び図４の前処理部及び後処理部で適用される時間軸変化方法を示す波形図である。図１及び図４の前処理部及び後処理部で適用される時間軸変化方法を示す波形図である。図１及び図４の前処理部及び後処理部で適用される時間軸変化方法を示す波形図である。

符号の説明

２１０フレーム類似度判断部
２２０時間軸変更部

Claims

オーディオ符号化及び／または復号化方法において、
入力オーディオ信号に対してフレーム間の類似度を判断して時間軸に圧縮し、フレーム時間軸変更フラグを発生させる符号化過程と、
前記符号化過程でフレーム時間軸変更フラグによって圧縮されたオーディオ信号を時間軸伸長を通じてデコーディングする復号化過程と、を含むオーディオ符号化／復号化方法。
前記符号化過程は、
入力オーディオ信号に対してフレーム間の類似度を判断して時間軸に圧縮し、フレーム時間軸変更フラグを発生させる前処理過程と、
前記前処理過程で時間軸に圧縮されたオーディオ信号を心理音響モデルに基づいてエンコーディングするエンコーディング過程と、
前記前処理過程で発生したフレーム時間軸変更フラグと前記エンコーディング過程でエンコーディングされたオーディオデータとをビットストリームに変換するパッキング過程と、を含むことを特徴とする請求項１に記載のオーディオ符号化／復号化方法。
前記オーディオ信号の前処理過程は、下記の式による同期化された重畳及び加算処理を行う過程を含み、

ここで、Ｒ_ｍは、相互相関係数、ｘ（ｎ）は、入力信号を表し、ｙ（ｎ）は、時間軸変換された信号、Ｓ_ａは、入力される信号ｘ（ｎ）のフレーム間の間隔、Ｓ_ｓは、時間軸変換された信号ｙ（ｎ）のフレーム間の間隔、Ｎは、フレームの長さ、ｍは、フレーム数、Ｌは、ｘ（ｎ）とｙ（ｎ）との重畳される領域の長さであることを特徴とする請求項２に記載のオーディオ符号化／復号化方法。
前記前処理過程は、
入力信号に対してフレーム間の類似度を判断して以前フレームと現在フレームとの類似度が所定値以上である場合、フレーム時間軸変更フラグを発生させる過程と、
前記発生する時間軸変更フラグによって、フレームを時間軸に圧縮する過程と、を含むことを特徴とする請求項２に記載のオーディオ符号化／復号化方法。
前記類似度判定過程は、
入力オーディオ信号の各フレームに対して周波数成分を分析する過程と、
現在フレームと以前フレームとの間に前記分析された周波数成分の差を決定する過程と、
前記周波数成分の差値が臨界値より小さければ、以前フレームと現在フレームとの間に類似性があると判断し、前記周波数成分の差値が臨界値より大きければ、以前フレームと現在フレームとの間に類似性がないと判定する過程と、を含むことを特徴とする請求項４に記載のオーディオ符号化／復号化方法。
前記前処理過程は、
入力信号に対してフレーム間の類似度を判断する過程と、
前記以前フレームと現在フレームとの類似度が所定値以上である場合、現在フレームをスキップする過程と、を含むことを特徴とする請求項２に記載のオーディオ符号化／復号化方法。
前記類似度判定過程は、
オーディオ信号に対してフレームごとに周波数成分を分析する過程と、
以前フレームと現在フレームとの間に前記分析された周波数成分の差を計算する過程と、
前記周波数成分の差値が臨界値より小さければ、以前フレームと現在フレームとの間に類似性があると判断し、そうでなければ、以前フレームと現在フレームとの間に類似性がないと判定する過程と、であることを特徴とする請求項６に記載のオーディオ符号化／復号化方法。
前記入力オーディオ信号のエンコーディング過程は、
入力されるオーディオサンプルを多重位相バンクを通じて複数個のサブバンドに分割する過程と、
複数個のサブバンドの音響心理学のマスキング現象と可聴限界とによって、各サブバンドに対するビット割当情報を決定する過程と、
前記過程で決定された各サブバンド別のビット割当情報に基づいて、前記複数個のサブバンドにビットを割当する過程と、を含むことを特徴とする請求項２に記載のオーディオ符号化／復号化方法。
前記復号化過程は、
入力されるビットストリームからフレーム時間軸変更フラグ及びオーディオデータを分離するアンパッキング過程と、
前記過程でオーディオデータを所定のデコーディングアルゴリズムに基づいてデコーディングするデコーディング過程と、
前記過程でフレーム時間軸変更フラグがイネーブルされた場合、そのフレームで時間軸の伸長を通じてオーディオ信号を伸長する後処理過程と、を含むことを特徴とする請求項１に記載のオーディオ符号化／復号化方法。
オーディオ符号化方法において、
複数個の時間フレームに分けられたデータを有する入力信号を受信する過程と、
前記入力信号の複数個フレームのうち、類似度を決定し、現在フレームの少なくとも一部のデータが符号化されないことを表すために、現在フレームが以前フレームと類似していると決定されれば、時間軸変更フラグを発生させる過程と、
前記時間軸変更フラグの発生によって、時間軸に対して前記複数個フレームのデータを圧縮する過程と、
前記圧縮されたデータ及び少なくとも一つ以上の前記時間軸変更フラグを含むビットストリームを形成する過程と、を含むオーディオ符号化方法。
前記複数個フレームのデータを圧縮する過程は、当該時間軸変更フラグが発生すれば、現在フレームをスキップする過程を含むことを特徴とする請求項１０に記載のオーディオ符号化方法。
前記類似度決定過程は、入力信号の複数個の周波数サブバンドの周波数成分を比較する過程を含むことを特徴とする請求項１０に記載のオーディオ符号化方法。
前記周波数成分の比較過程は、現在フレームと以前フレームとの周波数成分の差を計算し、前記計算された周波数成分の差と類似臨界値とを比較する過程を含むことを特徴とする請求項１２に記載のオーディオ符号化方法。
前記ビットストリーム形成過程は、
心理音響モデルによって前記圧縮されたデータを符号化する過程と、
前記符号化されたデータ、前記少なくとも一つ以上の時間軸変更フラグの発生、ヘッダ情報、及び付加情報をビットストリームにパッキングする過程と、を含むことを特徴とする請求項１０に記載のオーディオ符号化方法。
前記データ圧縮過程は、信号再生率を上昇させることであることを特徴とする請求項１０に記載のオーディオ符号化方法。
前記複数個のフレームのデータ圧縮過程は、前記入力信号のピッチ区間を重畳し、かつ加算することであることを特徴とする請求項１０に記載のオーディオ符号化方法。
時間軸に対してオーディオ信号を圧縮してオーディオ信号の信号再生率を向上させるために、オーディオ信号上で時間軸変更動作を行う過程と、
心理音響モデルによってビットを割当して前記圧縮されたオーディオ信号を符号化する過程と、を含むオーディオデータの符号化方法。
入力ビットストリームを受信してオーディオデータと少なくとも一つ以上の時間軸変更フラグとを抽出する過程と、
前記入力ビットストリームから前記オーディオデータを復号してオーディオ信号を獲得する過程と、
前記オーディオデータと共に受信された前記少なくとも一つ以上の時間軸変更フラグによって、前記時間軸に対して前記復号されたオーディオ信号を伸長する過程と、を含むオーディオデータの復号化方法。
前記少なくとも一つ以上の時間軸変更フラグは、以前符号化動作中に時間軸に対して圧縮された少なくとも一つ以上のフレームのオーディオ信号を表すものであることを特徴とする請求項１８に記載のオーディオデータの復号化方法。
前記少なくとも一つ以上の時間軸変更フラグは、以前符号化動作中にスキップされた少なくとも一つ以上のフレームのオーディオ信号を表すものであることを特徴とする請求項１８に記載のオーディオデータの復号化方法。
オーディオ符号化及び／または復号化装置において、
入力オーディオ信号に対してフレーム間の類似度によって時間軸に圧縮し、フレーム時間軸変更フラグを発生させる前処理手段と、
前記前処理手段で時間軸に圧縮されたオーディオ信号を心理音響モデルに基づいてエンコーディングするエンコーディング手段と、
前記エンコーディング手段で発生したフレーム時間軸変更フラグと前記エンコーディング手段でエンコーディングされたオーディオデータとをビットストリームに変換するパッキング手段と、
前記パッキング手段から受信されるビットストリームからフレーム時間軸変更フラグ及びオーディオデータを分離するアンパッキング手段と、
前記アンパッキング手段から分離されたオーディオデータを所定のデコーディングアルゴリズムによって復元するデコーディング手段と、
前記アンパッキング手段から分離されたフレーム時間軸変更フラグがイネーブルされた場合、時間軸の伸長を通じて前記デコーディング手段でデコーディングされたオーディオ信号を伸長する後処理手段と、を備えるオーディオ符号化／復号化装置。
前記前処理手段は、
入力信号に対してフレーム別に周波数成分を分析して、その周波数成分間の差に基づいてフレーム間の類似度を判断し、以前フレームと現在フレームとの類似度が所定値以上である場合、フレーム時間軸変更フラグを発生させるフレーム類似度判断部と、
前記フレーム類似度判断部で発生する時間軸変更フラグによって、フレームを時間軸に圧縮する時間軸変更部と、を備えることを特徴とする請求項２１に記載のオーディオ符号化／復号化装置。