JP2009524846A

JP2009524846A - 適応的時間／周波数ベース符号化モード決定装置およびこのための符号化モード決定方法

Info

Publication number: JP2009524846A
Application number: JP2008552210A
Authority: JP
Inventors: オー，ウン−ミ; ジュー，ギ−ヒョン; キム，ジュン−フェ; ソン，チャン−ヨン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2006-01-24
Filing date: 2006-12-06
Publication date: 2009-07-02
Also published as: WO2007086646A1; KR20070077652A; EP1982329B1; US8744841B2; EP1982329A1; US20070174051A1; EP1982329A4

Abstract

適応的時間／周波数ベース符号化モード決定装置および方法を提供する。本発明の一実施形態に係る適応的時間／周波数ベース符号化モード決定装置は、入力オーディオ信号の時間領域信号分析を実行して時間領域特性を生成する時間領域特性抽出部と、入力オーディオ信号の周波数領域信号分析を実行して、入力オーディオ信号のフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成する周波数領域特性抽出部と、時間領域特性および周波数領域特性を用いて、周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定するモード決定器とを備えることを特徴とする。したがって、多様なオーディオコンテンツを効率的に圧縮することができる。

Description

本発明は、オーディオ符号化／復号化装置および方法に関し、より詳細には、入力オーディオデータの特性に応じて時間ベース符号化または周波数ベース符号化を適応的に選択して入力オーディオデータを符号化することで、２種類の符号化方式の符号化利得を最大限に用いて高圧縮効率を得ることができる適応的時間／周波数ベースオーディオ符号化装置および符号化モード決定方法に関する。

既存の音声／音楽圧縮方式は、オーディオコーデックと音声コーデックとに大別される。ａａｃＰｌｕｓなどのオーディオコーデックは、周波数領域上の信号を圧縮するアルゴリズムであって、心理音響モデルを適用するが、圧縮対象がオーディオ信号ではなく音声信号である場合には、同じ符号化データ量で考慮するときに、音声コーデック方式の圧縮結果物よりも音質が大きく低下し、特にアタック（ａｔｔａｃｋ）信号には音質低下がさらに大きい。この反面、ＡＭＲ−ＷＢなどのコーデックは、時間領域上の信号を圧縮するアルゴリズムであって、音声発声モデルを適用するが、圧縮対象が音声信号ではなくオーディオ信号の場合には、同じ符号化データ量で考慮するときに、オーディオコーデック方式の圧縮結果物よりも音質が大きく低下するという短所がある。

上述した特性を考慮し、音声／音楽圧縮を同時に効率的に実行するための従来の技術としてＡＭＲ−ＷＢ＋方式（３ＧＰＰＴＳ２６．２９０）があるが、これは音声圧縮方式としてＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）を、オーディオ圧縮方式としてＴＣＸ（ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）を用いる。特に、このような方式は、時間軸上のフレーム別にＡＣＥＬＰ方式を適用するのかＴＣＸ方式を適用するかを決定して符号化し、圧縮対象が音声信号に近い場合には効率的に動作するが、オーディオ信号に近い場合には処理単位別の符号化過程による音質または圧縮率の劣化が発生するという問題点がある。

したがって、圧縮方式を選択的に適用して入力オーディオデータを符号化することにおいて、符号化モード決定単位をどのように決定するのか、どのような基準によって該当する決定単位に対する符号化モードを決定するのかは、符号化性能に大きい影響を及ぼす極めて重要な要素である。

本発明は、上述したような従来技術の問題点を解決するために案出されたものであって、入力オーディオ信号に対する符号化モードを周波数帯域別に判断して時間ベース符号化または周波数ベース符号化することで、２種類の符号化方式の符号化利得を効率的に用いて高圧縮性能を得られるようにすることを目的とする。

また、本発明は、入力オーディオ信号を時間領域および周波数領域別に長区間特性および短区間特性を抽出して周波数帯域別に適切な符号化モードを決定するようにし、適応的時間／周波数ベースオーディオ符号化の性能を最適化することを他の目的とする。

さらに、本発明は、開ループ（ｏｐｅｎｌｏｏｐ）決定方式を用い、低い複雑度を有しながらも効果的に符号化モードを決定することをさらに他の目的とする。

上述した目的を達成し、従来技術の問題点を解決するために、本発明の適応的時間／周波数ベース符号化モード決定装置は、入力オーディオ信号の時間領域信号分析を実行して時間領域特性を生成する時間領域特性抽出部と、前記入力オーディオ信号の周波数領域信号分析を実行して、前記入力オーディオ信号のフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成する周波数領域特性抽出部と、前記時間領域特性および前記周波数領域特性を用いて、前記周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定するモード決定器とを備えることを特徴とする。

また、本発明の適応的時間／周波数ベースオーディオ符号化装置は、入力オーディオ信号の時間領域信号分析を実行して時間領域特性を生成する時間領域特性抽出部と、前記入力オーディオ信号の周波数領域信号分析を実行して、前記入力オーディオ信号のフレームの周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成する周波数領域特性抽出部と、前記時間領域特性および前記周波数領域特性を用いて、前記周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定するモード決定器と、前記周波数バンドそれぞれに対して前記決定された符号化モードで符号化する符号化部と、前記符号化されたデータに対するビットストリーム処理をし、処理されたビットストリームを出力するビットストリーム出力部とを備えることを特徴とする。

このとき、周波数領域特性抽出部が入力オーディオ信号の現在フレーム（ｃｕｒｒｅｎｔｆｒａｍｅ）の周波数領域信号分析を実行するときに、時間領域特性抽出部は、入力オーディオ信号の現在または次フレーム（ｎｅｘｔｆｒａｍｅ）の周波数領域信号に該当する時間領域信号分析を実行することができる。

このとき、時間領域特性は、入力オーディオ信号の時間領域短区間特性であり、周波数領域特性は、周波数バンドそれぞれに相応する周波数領域短区間特性であり、適応的時間／周波数ベースオーディオ符号化装置は、時間領域短区間特性および周波数領域短区間特性を分析して時間領域長区間特性および周波数領域長区間特性を生成する長区間特性抽出部をさらに備え、モード決定器は、時間領域長区間特性および周波数領域長区間特性をさらに用いて符号化モードを決定することができる。

また、本発明の適応的時間／周波数ベース符号化モード決定方法は、入力オーディオ信号の時間領域信号分析を実行して時間領域特性を生成するステップと、前記入力オーディオ信号の周波数領域信号分析を実行して、前記入力オーディオ信号のフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成するステップと、前記時間領域特性および前記周波数領域特性を用いて、前記周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定するステップとを含むことを特徴とする。

本発明において、時間ベース符号化方式は、ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）など時間軸上で圧縮を行う音声圧縮アルゴリズムを意味しており、周波数ベース符号化方式は、ＴＣＸ、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｅｃ）など周波数軸上で圧縮を行うオーディオ圧縮アルゴリズムを意味する。

以下、本発明に係る好ましい実施形態を、添付の図面を参照しながら詳細に説明する。

図１は、本発明の一実施形態に係る適応的時間／周波数ベースオーディオ符号化装置を示すブロック図である。図１を参照するに、適応的時間／周波数ベースオーディオ符号化装置は、変換／モード決定部１１０と、符号化部１２０と、ビットストリーム出力部１３０とを備える。

変換／モード決定部１１０は、入力オーディオ信号ＩＮをフレーム単位で周波数変換（ｆｒｅｑｕｅｎｃｙｔｒａｎｓｆｏｒｍ）し、変換した周波数領域を複数の周波数領域に分割して生成された周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定する。この過程を介して、変換／モード決定部１１０は、時間ベース符号化モードとして決定された周波数領域信号Ｓ１、周波数ベース符号化モードとして決定された周波数領域信号Ｓ２、周波数領域分割に関する情報Ｓ３、周波数バンドそれぞれの符号化モード情報Ｓ４を出力する。このとき、周波数領域を一貫して分割する場合であれば、復号化ステップにおいて分割情報を必要としない場合もあるため、周波数領域分割に関する情報Ｓ３は用いられない場合もある。

符号化部１２０は、時間ベース符号化モードとして決定された周波数領域信号Ｓ１を時間ベース符号化し、周波数ベース符号化モードとして決定された周波数領域信号Ｓ２を周波数ベース符号化し、時間ベース符号化されたデータＳ５および周波数ベース符号化されたデータＳ６を出力する。

ビットストリーム（ｂｉｔｓｔｒｅａｍ）出力部１３０は、符号化されたデータＳ５、Ｓ６に対するビットストリーム処理をし、処理されたビットストリームを出力する。このとき、ビットストリーム出力部１３０は、周波数領域分割に関する情報Ｓ３および周波数バンドそれぞれの符号化モード情報Ｓ４を用いてビットストリーム処理を行うことができる。このとき、ビットストリームは、エントロピー符号化などのデータ圧縮過程を経ることもできる。

図２は、周波数領域変換した信号の分割および符号化モード決定過程を概念的に示す図である。図２を参照するに、入力オーディオ信号には、２２０００Ｈｚの周波数成分まで含まれており、５つの周波数バンドに分割されている。分割された周波数バンドは、相応する符号化モードが低周波から高周波の順に時間ベース符号化モード、周波数ベース符号化モード、時間ベース符号化モード、周波数ベース符号化モード、および周波数ベース符号化モードとして決定されていることが分かる。このとき、入力オーディオ信号は、所定の時間（例えば、約２０ｍｓ）の間のオーディオフレームであり、図２に示すグラフは、所定の時間の間のオーディオフレームに対して周波数変換したものである。図２に示すように、オーディオフレームは、ｓｆ１、ｓｆ２、ｓｆ３、ｓｆ４、およびｓｆ５の５つの周波数帯域に分けられる。

図２に示すように、時間領域における１つのフレームに相応する周波数領域が分割された周波数バンドそれぞれに対して適切な符号化モードを割り当てることが極めて重要である。このとき、入力オーディオ信号の時間領域特性および周波数領域特性を用いて、それぞれの周波数バンド別に適切な符号化モード決定を実行することができる。それぞれの周波数バンド別に符号化モードを決定することについては、以下で詳述する。

図３は、図１に示す変換／モード決定部１１０の一例を示すブロック図である。図３を参照するに、変換／モード決定部は、周波数領域変換部３１０と、符号化モード判断部３２０と、出力部３３０とを備える。

周波数領域変換部３１０は、入力オーディオ信号ＩＮを図２に示す周波数スペクトラムのような周波数領域信号Ｓ７に変換する。例えば、周波数領域変換部３１０は、入力オーディオ信号ＩＮに対してＭＬＴ（ＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）を行うことができる。

特に、周波数領域変換部３１０は、入力オーディオ信号ＩＮに対する周波数可変（ＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇ）ＭＬＴを実行することができる。周波数可変ＭＬＴは、Ｍ．ＰｕｒａｔとＰ．Ｎｏｌｌが著述した「ＡＮｅｗＯｒｔｈｏｎｏｒｍａｌＷａｖｅｌｅｔＰａｃｋｅｔＤｅｃｏｍｐｏｓｉｔｉｏｎｆｏｒＡｕｄｉｏＣｏｄｉｎｇＵｓｉｎｇＦｒｅｑｕｅｎｃｙ−ＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ，ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ，Ｏｃｔ，１９９５」に詳細に記述されている。

周波数可変ＭＬＴを用いれば、周波数変換した周波数領域信号の一部周波数バンドに対しては周波数ベース符号化を実行し、他の周波数バンドに対しては逆ＭＬＴ変換を実行して時間領域信号に変えた後、時間ベース符号化を実行することができる。この後に、時間ベース符号化した信号が再びＭＬＴ変換した後、周波数ベース符号化した周波数バンド信号と合わされば、すべての周波数帯域に対して符号化した信号が得られる。

符号化モード判断部３２０は、時間領域信号である入力オーディオ信号ＩＮおよび入力オーディオ信号ＩＮが周波数変換した周波数領域信号Ｓ７を信号分析し、それぞれの周波数バンド別に時間ベース符号化モードおよび周波数ベース符号化モードのうちの１つの符号化モードを決定する。このとき、符号化モード判断部３２０は、時間領域信号である入力オーディオ信号ＩＮの現在または次フレーム（ｎｅｘｔｆｒａｍｅ）の周波数領域信号分析を実行するときに、周波数領域信号Ｓ７の現在フレームの周波数領域信号分析を実行することができる。

現在フレームのモード決定時に次フレームの特性を反映することで、モードが１フレーム間隔に頻繁にスイッチングされることを抑制し、モード変化を緩和することができる。例えば、過去、現在、および次の特性値の平均値を用いたり、過去と現在の特徴として現在フレームのモードを決定した後、次フレームの特徴値に応じてスイッチングを保留し、判断を次フレームに繰り越す方式で符号化モード判断部３２０を実現することができる。

出力部３３０は、符号化モード判断部３２０の判断結果に応じて、周波数領域信号Ｓ７を時間ベース符号化モードとして決定された周波数領域信号Ｓ１、周波数ベース符号化モードとして決定された周波数領域信号Ｓ２、周波数領域分割に関する情報Ｓ３、および符号化モード情報Ｓ４を出力する。

図４は、本発明の一実施形態に係る適応的時間／周波数ベース符号化モード決定装置を示すブロック図である。図４を参照するに、適応的時間／周波数ベース符号化モード決定装置は、時間領域特性抽出部４１０と、周波数領域特性抽出部４２０と、モード決定器４３０と、長区間特性抽出部４４０と、フレーム特性バッファ４５０とを備える。

図４に示す適応的時間／周波数ベース符号化モード決定装置は、図３に示す符号化モード判断部３２０として用いることができる。

時間領域特性抽出部４１０は、入力オーディオ信号ＩＮの時間領域信号分析を実行して時間領域特性を生成する。このとき、時間領域特性は、特に、時間領域短区間特性（ｔｉｍｅｄｏｍａｉｎｓｈｏｒｔ−ｔｅｒｍｆｅａｔｕｒｅ）であることができる。例えば、時間領域短区間特性は、遷移（ｔｒａｎｓｉｅｎｔ）程度および短期／長期予測利得（ｐｒｅｄｉｃｔｉｏｎｇａｉｎ）の大きさ程度を含むことができる。

周波数領域特性抽出部４２０は、入力オーディオ信号ＩＮの周波数領域信号分析を実行して、入力オーディオ信号ＩＮの１つのフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成する。このとき、周波数領域特性抽出部４２０は、図３に示す周波数領域変換部３１０から入力オーディオ信号ＩＮの周波数領域信号Ｓ７を受信して周波数分析を行うことができる。このとき、周波数領域特性は、周波数領域短区間特性であることができる。例えば、周波数領域短区間特性は、スペクトラムの自己相関度（ａｕｔｏｃｏｒｒｅｌａｔｉｏｎ）を含むことができる。

このとき、周波数領域特性抽出部４２０が入力オーディオ信号ＩＮの現在フレームに対する周波数領域信号分析を実行するときに、時間領域特性抽出部４１０は、入力オーディオ信号ＩＮの現在または次フレームの周波数領域信号分析に該当する時間領域信号分析を実行することができる。このとき、周波数領域特性抽出部４２０は、現在フレームと共に以前フレーム（ｐｒｅｖｉｏｕｓｆｒａｍｅ）の一部をウィンドウィング（ｗｉｎｄｏｗｉｎｇ）することもできる。

長区間特性抽出部４４０は、時間領域短区間特性および周波数領域短区間特性を分析して時間領域長区間特性および周波数領域長区間特性を生成する。

このとき、時間領域長区間特性は、周期性（ｐｅｒｉｏｄｉｃｉｔｙ）の連続性（ｃｏｎｔｉｎｕｉｔｙ）程度、周波数スペクトラムの傾斜（ｓｐｅｃｔｒａｌｔｉｌｔ）程度、およびフレームエネルギー程度を含むことができる。このとき、周期性の連続性は、ピッチラグ（ｐｉｔｃｈｌａｇ）の変化が少なく、ピッチ相関度（ｐｉｔｃｈｃｏｒｒｅｌａｔｉｏｎ）が高いフレームが一定の区間以上連続して持続する程度であることができる。また、周期性の連続性は、１番目のフォルマント周波数（１^ｓｔｆｏｒｍａｎｔｆｒｅｑｕｅｎｃｙ）が極めて低く、ピッチ相関度が高いフレームが一定の区間以上連続して持続する程度であることができる。

このとき、周波数領域長区間特性は、チャンネル間の相関度を含むことができる。

フレーム特性バッファ４５０は、時間領域特性抽出部４１０から時間領域短区間特性が提供されてこれを保存する。したがって、時間領域特性抽出部４１０が次フレームに相応する時間領域短区間特性を出力するときに、フレーム特性バッファ４５０は、現在フレームに相応する時間領域短区間特性を出力することができる。

モード決定器４３０は、時間領域短区間特性、周波数領域短区間特性、時間領域長区間特性、および周波数領域長区間特性を用いて、周波数バンドそれぞれに対する符号化モードを時間ベース符号化モードおよび周波数ベース符号化モードのうちの１つとして決定する。このとき、モード決定器４３０は、以前フレーム、現在フレーム、および次フレームの時間領域信号分析結果、および以前フレームおよび現在フレームの周波数領域信号分析結果を用いて、周波数バンド別に符号化モードを決定することができる。

時間ベース符号化方式が効果的である場合の例は、線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）で予測利得（ＰｒｅｄｉｃｔｉｏｎＧａｉｎ）が大きい場合、または音声信号のように高いピッチを有する信号（ｈｉｇｈｌｙｐｉｔｃｈｅｄｓｉｇｎａｌ）が入力オーディオ信号である場合を挙げることができる。これに反し、周波数ベース符号化方式が効果的である場合の例は、正弦波信号（ｓｉｎｕｓｏｉｄａｌｓｉｇｎａｌ）、入力オーディオ信号中に付随的な高周波信号が含まれた場合は、信号間の遮蔽現象（ｍａｓｋｉｎｇｅｆｆｅｃｔ）が大きい場合を挙げることができる。

下記の表１は、周波数ベース符号化が効率的である入力オーディオ信号の特性の例を示すものである。

表１

下記の表２は、時間ベース符号化が効率的である入力オーディオ信号特性の例を示すものである。

表２

例えば、モード決定器４３０は、時間領域短区間特性、周波数領域短区間特性、時間領域長区間特性、および周波数領域長区間特性を用いて、上記した表１の条件に近い場合には符号化モードを周波数ベース符号化モードとして決定するし、上記した表２の条件に近い場合には符号化モードを時間ベース符号化モードとして決定することができる。

図５は、図４に示すモード決定器４３０の動作を説明するためのフローチャートである。図５を参照するに、モード決定器は、入力オーディオ信号のステレオ信号程度が所定のレベル以上であるか否かを判断するＳ５１０。

ステップＳ５１０の判断結果、入力オーディオ信号のチャンネル間の相関度が低くてステレオ信号程度が所定のレベル以上である場合に、モード決定器は、符号化モードを周波数ベース符号化モードとして決定するＳ５７０。

ステップＳ５１０の判断結果、入力オーディオ信号のチャンネル間の相関度が高くてステレオ信号程度が所定のレベル未満である場合に、モード決定器は、入力オーディオ信号の遷移程度が所定のレベル以上であるか否かを判断するＳ５２０。

ステップＳ５２０の判断結果、入力オーディオ信号の遷移程度が所定のレベル未満である場合に、モード決定器は、符号化モードを周波数ベース符号化モードとして決定するＳ５７０。

ステップＳ５２０の判断結果、入力オーディオ信号の遷移程度が所定のレベル以上である場合に、モード決定器は、入力オーディオ信号の長期／短期予測利得が所定のレベル以上であるか否かを判断するＳ５３０。

ステップＳ５３０の判断結果、入力オーディオ信号の長期／短期予測利得が所定のレベル未満である場合に、モード決定器は、符号化モードを周波数ベース符号化モードとして決定するＳ５７０。

ステップＳ５３０の判断結果、入力オーディオ信号の長期／短期予測利得が所定のレベル以上である場合に、モード決定器は、該当する周波数バンドに相応するスペクトラムの自己相関度が所定のレベル以上であるか否かを判断するＳ５４０。

ステップＳ５４０の判断結果、該当する周波数バンドに相応するスペクトラムの自己相関度が所定のレベル未満である場合に、モード決定器は、符号化モードを周波数ベース符号化モードとして決定するＳ５７０。

ステップＳ５４０の判断結果、該当する周波数バンドに相応するスペクトラムの自己相関度が所定のレベル以上である場合に、モード決定器は、入力オーディオ信号の周期性の連続性が所定の区間以上持続するか否かを判断するＳ５５０。このとき、ステップＳ５５０は、ピッチラグの変化が少なく、ピッチ相関度の高いフレームが一定の区間以上連続して持続するか否か、または１番目のフォルマント周波数が極めて低く、ピッチ相関度が高いフレームが一定の区間以上連続して持続するか否かを判断することもできる。

ステップＳ５５０の判断結果、入力オーディオ信号の周期性の連続性が所定の区間以上持続する場合に、モード決定器は、符号化モードを周波数ベース符号化モードとして決定するＳ５７０。

ステップＳ５５０の判断結果、入力オーディオ信号の周期性の連続性が所定の区間以上持続しない場合に、モード決定器は、周波数スペクトラムの傾斜が緩慢である上に、高いフレームエネルギーが一定の区間以上連続して持続する程度である音楽連続性（ｍｕｓｉｃｃｏｎｔｉｎｕｉｔｙ）が所定のレベル以上であるか否かを判断するＳ５６０。

ステップＳ５６０の判断結果、周波数スペクトラムの傾斜が緩慢である上に、高いフレームエネルギーが一定の区間以上連続して持続する程度が所定のレベル以上である場合に、モード決定器は、符号化モードを周波数ベース符号化モードとして決定するＳ５７０。

ステップＳ５６０の判断結果、周波数スペクトラムの傾斜が緩慢である上に、高いフレームエネルギーが一定の区間以上連続して持続する程度が所定のレベル未満である場合に、モード決定器は、符号化モードを時間ベース符号化モードとして決定するＳ５８０。

図６は、本発明の一実施形態に係る適応的時間／周波数ベース符号化モード決定方法を説明するためのフローチャートである。

図６を参照するに、本発明の一実施形態に係る適応的時間／周波数ベース符号化モード決定方法は、入力オーディオ信号の時間領域信号分析を実行して時間領域短区間特性を生成するＳ６１０。

このとき、時間領域短区間特性は、入力オーディオ信号の遷移程度および短期／長期予測利得の大きさ程度を含むことができる。

また、適応的時間／周波数ベース符号化モード決定方法は、入力オーディオ信号の周波数領域信号分析を実行して周波数バンドそれぞれに相応する周波数領域短区間特性を生成するＳ６２０。

このとき、周波数領域短区間特性は、スペクトラムの自己相関度を含むことができる。

このとき、ステップＳ６２０が入力オーディオ信号の現在フレームに対する周波数領域信号分析を実行するときに、ステップＳ６１０は、入力オーディオ信号の現在または次フレームの周波数領域信号に相応する時間領域信号分析を実行することができる。このとき、ステップＳ６２０は、現在フレームと共に以前フレームの一部をウィンドウィングすることもできる。

また、適応的時間／周波数ベース符号化モード決定方法は、時間領域短区間特性および周波数領域短区間特性を分析して時間領域長区間特性および周波数領域長区間特性を生成するＳ６３０。

このとき、時間領域長区間特性は、周期性の連続性程度、周波数スペクトラムの傾斜程度、およびフレームエネルギー程度を含むことができる。このとき、周期性の連続性は、ピッチラグの変化が少なく、ピッチ相関度が高いフレームが一定の区間以上連続して持続する程度であることができる。また、周期性の連続性は、１番目のフォルマント周波数が極めて低く、ピッチ相関度が高いフレームが一定の区間以上連続して持続する程度であることができる。

また、適応的時間／周波数ベース符号化モード決定方法は、時間領域特性および周波数領域特性を用い、周波数バンドそれぞれに対する符号化モードを時間ベース符号化モードおよび周波数ベース符号化モードのうちの１つとして決定するＳ６４０。

このような過程を介して適応的に時間ベース符号化モードおよび周波数ベース符号化モードのうちの１つを選択的に適用して符号化を実行することで、多様なオーディオコンテンツに対して効率的な符号化を実行することができる上に、開ループ方式で符号化モードを選択することで、閉ルーフ（ｃｌｏｓｅｄｌｏｏｐ）方式に比べて低い複雑度を有する符号化器を実現することができる。

図７は、本発明の一実施形態に係る適応的時間／周波数ベース複号化装置７００を示す図である。図７を参照するに、適応的時間／周波数ベース複号化装置７００は、ビットストリーム入力部７１０と、複号化部７２０とを備える。

適応的時間／周波数ベース複号化装置７００は、符号化したビットストリームを効率的に複号化することができる。ビットストリーム入力部７１０は、時間ベース符号化データＳ５、周波数ベース符号化データＳ６、周波数領域分割情報Ｓ３、および符号化モード情報Ｓ４を生成することができる。ビットストリーム入力部７１０は、Ｓ５、Ｓ６、Ｓ３、およびＳ４を複号化部７２０に出力することができる。

複号化部７２０は、周波数領域分割情報Ｓ３および符号化モード情報Ｓ４を用いて時間ベース符号化データＳ５および周波数ベース符号化データＳ６を複号化することができる。このとき、符号化モード情報Ｓ４は、分割した周波数帯域それぞれの符号化モード情報を含むことができる。複合化部７２０は、分割した周波数帯域それぞれの符号化データを複号化することができる。

なお、本発明に係る適応的時間／周波数ベース符号化モード決定方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体でもある。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。前記したハードウェア要素は、本発明の動作を実行するために一以上のソフトウェアモジュールとして作動するように構成することができ、その逆もできる。

上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。

本発明の適応的時間／周波数ベースオーディオ符号化装置および符号化モード決定方法は、入力オーディオ信号に対する符号化モードを周波数帯域別に判断して時間ベース符号化または周波数ベース符号化することで、２種類の符号化方式の符号化利得を効率的に用い、高圧縮性能を得ることができる。

また、本発明は、入力オーディオ信号を時間領域および周波数領域別に長区間特性および短区間特性を抽出して周波数帯域別に適切な符号化モードを決定するようにし、適応的時間／周波数ベースオーディオ符号化の性能を最適化することができる。

また、本発明は、開ループ決定方式を用い、低い複雑度を有しながらも効果的に符号化モードを決定することができる。

また、本発明は、現在フレームのモード決定時に次フレームの特性を反映することで、モードが１フレーム間隔で頻繁にスイッチングされることを抑制し、モード変化を緩和することができる。

本発明の一実施形態に係る適応的時間／周波数ベースオーディオ符号化装置を示すブロック図である。周波数領域変換した信号の分割および符号化モード決定過程を概念的に示す図である。図１に示す変換／モード決定部の一例を示すブロック図である。本発明の一実施形態に係る適応的時間／周波数ベース符号化モード決定装置を示すブロック図である。図４に示すモード決定器の動作を説明するためのフローチャートである。本発明の一実施形態に係る適応的時間／周波数ベース符号化モード決定方法を説明するためのフローチャートである。本発明の一実施形態に係る適応的時間／周波数ベース符号化装置を示す図である。

Claims

入力オーディオ信号の時間領域信号分析を実行して時間領域特性を生成する時間領域特性抽出部と、
前記入力オーディオ信号の周波数領域信号分析を実行して、前記入力オーディオ信号のフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成する周波数領域特性抽出部と、
前記時間領域特性および前記周波数領域特性に基づいて、前記周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定するモード決定器と、
を備えることを特徴とする適応的時間／周波数ベース符号化モード決定装置。
前記周波数領域特性抽出部が前記入力オーディオ信号の現在フレームの周波数領域信号分析を実行するときに、前記時間領域特性抽出部は、前記入力オーディオ信号の現在フレームまたは次フレームの周波数領域信号に該当する時間領域信号分析を実行することを特徴とする請求項１に記載の適応的時間／周波数ベース符号化モード決定装置。
前記時間領域特性は、前記入力オーディオ信号の時間領域短区間特性であり、前記周波数領域特性は、前記周波数バンドそれぞれに相応する周波数領域短区間特性であり、
前記適応的時間／周波数ベース符号化モード決定装置は、
前記時間領域短区間特性および前記周波数領域短区間特性を分析して時間領域長区間特性および周波数領域長区間特性を生成する長区間特性抽出部をさらに備え、
前記モード決定器は、前記時間領域長区間特性および前記周波数領域長区間特性をさらに用いて符号化モードを決定することを特徴とする請求項２に記載の適応的時間／周波数ベース符号化モード決定装置。
前記モード決定器の現在フレームに対する符号化モード決定時に次フレームに対する時間領域分析を実行した結果を用い、フレーム特性バッファを介して以前、現在、または次フレームに対する短区間／長区間予測利得を計算することを特徴とする請求項３に記載の適応的時間／周波数ベース符号化モード決定装置。
前記時間領域短区間特性は、遷移程度および短期／長期予測利得の大きさ程度を含み、前記周波数領域短区間特性は、スペクトラムの自己相関度を含むことを特徴とする請求項３に記載の適応的時間／周波数ベース符号化モード決定装置。
前記時間領域長区間特性は、周期性の連続性程度、周波数スペクトラムの傾斜程度、またはフレームエネルギー程度を含み、前記周波数領域長区間特性は、チャンネル間の相関度を含むことを特徴とする請求項５に記載の適応的時間／周波数ベース符号化モード決定装置。
前記モード決定器は、
前記入力オーディオ信号のステレオ信号程度が所定のレベル以上であるという第１条件、前記入力オーディオ信号の遷移程度が所定のレベル未満であるという第２条件、短期／長期予測利得が所定のレベル未満であるという第３条件、前記周波数バンドに相応するスペクトラムの自己相関度が所定のレベル未満であるという第４条件のうちのいずれか１つ以上を満たす場合に、前記符号化モードを周波数ベース符号化モードとして決定することを特徴とする請求項６に記載の適応的時間／周波数ベース符号化モード決定装置。
前記モード決定器は、
前記第１〜第４条件をすべて満たさず、
前記入力オーディオ信号の周期性の連続性が所定の区間以上持続するという第５条件、および前記周波数スペクトラムの傾斜程度が緩慢であり、高いフレームエネルギーが一定の区間以上連続して持続する程度である音楽連続性が所定のレベル以上である第６条件をすべて満たさない場合に、符号化モードを時間ベース符号化モードとして決定し、
前記第５条件および第６条件のうちのいずれか１つ以上が満たされる場合に、符号化モードを周波数ベース符号化モードとして決定することを特徴とする請求項７に記載の適応的時間／周波数ベース符号化モード決定装置。
前記周波数領域特性抽出部は、時間領域の前記入力オーディオ信号を周波数可変ＭＬＴ、ＭＬＴ、およびＦＦＴのうちのいずれか１つによって変換して前記周波数領域信号分析を実行することを特徴とする請求項１に記載の適応的時間／周波数ベース符号化モード決定装置。
前記周波数バンドそれぞれに対して前記決定された符号化モードに符号化する符号化部と、
前記符号化されたデータに対するビットストリーム処理をし、処理されたビットストリームを出力するビットストリーム出力部と、
を備えることを特徴とする請求項１に記載の適応的時間／周波数ベースオーディオ符号化装置。
前記周波数領域特性抽出部が前記入力オーディオ信号の現在フレームの周波数領域信号分析を実行するときに、前記時間領域特性抽出部は、前記入力オーディオ信号の現在または次フレームの周波数領域信号に該当する時間領域信号分析を実行することを特徴とする請求項１０に記載の適応的時間／周波数ベースオーディオ符号化装置。
前記時間領域特性は、前記入力オーディオ信号の時間領域短区間特性であり、前記周波数領域特性は、前記周波数バンドそれぞれに相応する周波数領域短区間特性であり、
前記適応的時間／周波数ベースオーディオ符号化装置は、
前記時間領域短区間特性および前記周波数領域短区間特性を分析して時間領域長区間特性および周波数領域長区間特性を生成する長区間特性抽出部をさらに備え、
前記モード決定器は、前記時間領域長区間特性および前記周波数領域長区間特性をさらに用いて符号化モードを決定することを特徴とする請求項１１に記載の適応的時間／周波数ベースオーディオ符号化装置。
入力オーディオ信号の時間領域信号分析を実行して時間領域特性を生成するステップと、
前記入力オーディオ信号の周波数領域信号分析を実行して、前記入力オーディオ信号のフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する周波数領域特性を生成するステップと、
前記時間領域特性および前記周波数領域特性を用いて、前記周波数バンドそれぞれに対して時間ベース符号化モードまたは周波数ベース符号化モードを決定するステップと、
を含むことを特徴とする適応的時間／周波数ベース符号化モード決定方法。
前記周波数領域特性を生成するステップが前記入力オーディオ信号の現在フレームの周波数領域信号分析を実行するときに、前記時間領域特性を抽出するステップは、前記入力オーディオ信号の現在または次フレームの周波数領域信号に該当する時間領域信号分析を実行することを特徴とする請求項１３に記載の適応的時間／周波数ベース符号化モード決定方法。
前記時間領域特性は、前記入力オーディオ信号の時間領域短区間特性であり、前記周波数領域特性は、前記周波数バンドそれぞれに相応する周波数領域短区間特性であり、
前記適応的時間／周波数ベース符号化モード決定方法は、
前記時間領域短区間特性および前記周波数領域短区間特性を分析して時間領域長区間特性および周波数領域長区間特性を生成するステップ、
をさらに含み、
前記時間ベース符号化モードまたは周波数ベース符号化モードを決定するステップは、前記時間領域長区間特性および前記周波数領域長区間特性をさらに用いて符号化モードを決定することを特徴とする請求項１４に記載の適応的時間／周波数ベース符号化モード決定方法。
前記周波数ベース符号化モードを決定するステップは、現在フレームに対するモード決定時に次フレームに対する時間領域分析を実行した結果がフレーム特性バッファを介して以前、現在、または次フレームに対する短区間／長区間予測利得に適用されることを特徴とする請求項１５に記載の適応的時間／周波数ベース符号化モード決定方法。
前記時間領域短区間特性は、遷移程度および短期／長期予測利得の大きさ程度を含み、前記周波数領域短区間特性は、スペクトラムの自己相関度を含むことを特徴とする請求項１６に記載の適応的時間／周波数ベース符号化モード決定方法。
前記時間領域長区間特性は、周期性の連続性程度、周波数スペクトラムの傾斜程度、およびフレームエネルギー程度を含み、前記周波数領域長区間特性は、チャンネル間の相関度を含むことを特徴とする請求項１７に記載の適応的時間／周波数ベース符号化モード決定方法。
前記時間ベース符号化モードまたは周波数ベース符号化モードを決定するステップは、
前記入力オーディオ信号のステレオ信号程度が所定のレベル以上であったり、前記入力オーディオ信号の遷移程度が所定のレベル未満であったり、短期／長期予測利得が所定のレベル未満であったり、前記周波数バンドに相応するスペクトラムの自己相関度が所定のレベル未満であったりする場合に、前記符号化モードを周波数ベース符号化モードとして決定することを特徴とする請求項１８に記載の適応的時間／周波数ベース符号化モード決定方法。
前記時間ベース符号化モードまたは周波数ベース符号化モードを決定するステップは、
前記入力オーディオ信号の周期性の連続性が所定の区間以上持続しないと同時に、前記周波数スペクトラムの傾斜程度が所定のレベル以上であったり、所定のレベル以上のフレームエネルギーが一定の区間以上連続して持続しなかったりする場合に、符号化モードを時間ベース符号化モードとして決定することを特徴とする請求項１９に記載の適応的時間／周波数ベース符号化モード決定方法。
請求項１３〜２０のうちのいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
入力オーディオ信号のフレームの周波数バンドそれぞれに対して周波数領域特性および時間領域特性に基づいて、時間ベース符号化モードおよび周波数ベース符号化モードを符号化モードとして決定するモード決定器と、
前記時間ベース符号化モードおよび前記周波数ベース符号化モードのうちで前記符号化モードとして決定された符号化モードに基づいて、前記周波数バンドそれぞれに対して前記入力オーディオ信号を符号化する符号化器と、
を備えることを特徴とする適応的時間／周波数ベース符号化装置。
前記入力オーディオ信号の周波数領域信号分析を実行して、前記入力オーディオ信号のフレームに相応する周波数領域が複数の周波数領域に分割されて生成された周波数バンドそれぞれに相応する領域特性を生成する領域特性抽出部、
をさらに備えることを特徴とする請求項２２に記載の適応的時間／周波数ベース符号化装置。
前記領域特性抽出部は、
前記入力オーディオ信号の現在フレームの周波数領域信号を分析する周波数領域特性抽出部と、
前記入力オーディオ信号の現在フレームまたは次フレームの前記周波数領域信号に相応する時間領域信号を分析する時間領域特性抽出部と、
を備えることを特徴とする請求項２３に記載の適応的時間／周波数ベース符号化装置。
入力オーディオ信号の第１周波数バンドおよび第２周波数バンドに対して時間領域特性および周波数領域特性それぞれを抽出する領域特性抽出部と、
前記周波数領域特性および時間領域特性に基づいて、時間ベース符号化モードおよび周波数ベース符号化モードを決定するモード決定器と、
前記時間ベース符号化モードに基づいて前記第１周波数バンドを符号化し、前記周波数ベース符号化モードに基づいて前記第２周波数バンドを符号化する符号化器と、
を備えることを特徴とする適応的時間／周波数ベース符号化装置。
前記モード決定器は、
前記第１周波数バンドおよび前記第２周波数バンドの分割と関連した第１情報、および前記第１周波数バンドの前記時間ベース符号化モードおよび前記第２周波数バンドの前記周波数ベース符号化モードと関連した第２情報を生成することを特徴とする請求項２５に記載の適応的時間／周波数ベース符号化装置。
前記時間ベース符号化された第１周波数バンド、前記周波数ベース符号化された第２周波数バンド、前記第１情報および前記第２情報を含むビットストリームを出力する出力部、
をさらに備えることを特徴とする請求項２６に記載の適応的時間／周波数ベース符号化装置。
入力オーディオ信号のフレームの周波数バンドそれぞれに対して周波数領域特性および時間領域特性に基づいて、時間ベース符号化モードおよび周波数ベース符号化モードを符号化モードとして決定するモード決定器と、
前記時間ベース符号化モードおよび前記周波数ベース符号化モードのうちで前記符号化モードとして決定された符号化モードに基づいて、前記周波数バンドそれぞれに対して前記入力オーディオ信号を符号化する符号化器と、
ビットストリームを受信し、前記時間ベース符号化モードおよび前記周波数ベース符号化モードのうちで前記符号化モードとして決定された符号化モードに基づいて、前記ビットストリームの周波数バンドそれぞれを復号化する複号化器と、
を備えることを特徴とする符号化／復号化システム。
時間ベース符号化されたデータと、
周波数ベース符号化されたデータと、
周波数領域信号の周波数スペクトラムの個別的な周波数バンドへの分割と関連した情報と、
前記個別的な周波数バンドのモード決定に相応する符号化モード情報と、
を含む処理されたビットストリームを受信するビットストリーム入力部と、
前記個別的な周波数バンドそれぞれに対して前記時間ベース符号化されたデータおよび前記周波数ベース符号化されたデータを復号化して出力オーディオ信号を示す復号化したデータを生成する複号化部と、
を備えることを特徴とする適応的時間／周波数ベース復号化装置。