JP5357040B2

JP5357040B2 - オーディオ及び／またはスピーチ信号符号化及び／または復号化方法及び装置

Info

Publication number: JP5357040B2
Application number: JP2009537084A
Authority: JP
Inventors: オー，ウン−ミ; ソン，チャン−ヨン; チュー，ギ−ヒョン; キム，ジュン−フェ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2006-11-17
Filing date: 2007-11-16
Publication date: 2013-12-04
Anticipated expiration: 2027-11-16
Also published as: JP2010510540A; CN103219010B; US20080120095A1; EP2089878A1; KR101434198B1; JP2014016628A; EP2089878A4; US20170032800A1; JP6170520B2; CN101583994A; CN103219010A; JP2015172779A; JP6050199B2; KR20080044707A; WO2008060114A1; CN101583994B

Description

実施例は、コーデックに係り、より詳細には、スピーチ信号及び／またはオーディオ信号を符号化する方法及び装置に関する。

従来のコーデックは、スピーチコーデックとオーディオコーデックに分類される。スピーチコーデックは、音声発声モデルを利用して、主に５０Ｈｚから７ｋＨｚに至る周波数帯域に該当する信号を符号化または復号化する。このようなスピーチコーデックは、一般的に声帯と声道とをモデリングすることで、音声信号を代表するパラメータを抽出して符号化及び復号化を行う。オーディオコーデックは、ＨＥ−ＡＡＣのように心理音響モデルを適用し、主に０Ｈｚから２４Ｈｚに至る周波数帯域に該当する信号を符号化または復号化する。このようなオーディオコーデックは、人間の聴覚特性を利用して感度の低い信号を省略することによって符号化及び復号化を行う。

しかし、このようなスピーチコーデックとオーディオコーデックは、スピーチ信号とオーディオ信号とをいずれも効率的に行い難い問題点を有する。スピーチコーデックは、スピーチ信号の符号化／復号化に適しているが、オーディオ信号を符号化または復号化するに当たって音質が低下する。オーディオコーデックは、オーディオ信号を符号化するか、復号化する場合、圧縮効果に優れるが、音声信号を符号化／復号化するに当たって信号を圧縮する効率が落ちる。したがって、スピーチ信号、オーディオ信号、スピーチとオーディオとが混合された信号を各々符号化／復号化するに当たって、少ないビットを利用するにもかかわらず、音質を向上させうる方法及び装置が要求される。

実施例は、スピーチ信号及び／またはオーディオ信号をいずれも効率的に符号化／復号化する方法及び装置を提供する。

実施例による側面及びユーティリティは、入力信号を少なくとも１つ以上のドメインに変換する段階と、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定する段階と、前記決定されたドメインで各単位に設けられた信号を符号化する段階と、を含む信号符号化方法を提供することによって達成されうる。

実施例による側面及びユーティリティは、入力信号を利用して既定の単位別に符号化する少なくとも１つ以上のドメインを決定する段階と、各単位に設けられた信号を前記決定されたドメインに変換して符号化する段階と、を含む信号符号化方法を提供することによって達成されうる。

実施例による側面及びユーティリティは、既定の単位に設けられた各信号が符号化されたドメインを判断する段階と、各単位に設けられた信号を前記判断されたドメインで復号化する段階と、前記復号化された各単位に設けられた信号を合成して、信号を復元する段階と、を含む信号復号化方法を提供することによって達成されうる。

実施例による側面及びユーティリティは、入力信号を少なくとも１つ以上のドメインに変換し、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定する変換部と、前記決定されたドメインで各単位に設けられた信号を符号化する符号化部と、を備える信号符号化装置を提供することによって達成されうる。

実施例による側面及びユーティリティは、既定の単位に設けられた各信号が符号化されたドメインを判断する逆多重化部と、各単位に設けられた信号を前記判断されたドメインで復号化する復号化部と、前記復号化された各単位に設けられた信号を合成して信号を復元する変換部と、を備える信号復号化装置を提供することによって達成されうる。

実施例による側面及びユーティリティは、入力信号を少なくとも１つ以上のドメインに変換し、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定し、前記決定されたドメインで各単位に設けられた信号を符号化する符号化部と、既定の単位に設けられた各信号が符号化されたドメインを判断し、各単位に設けられた信号を前記判断されたドメインで復号化し、前記復号化された各単位に設けられた信号を合成して信号を復元する復号化部と、を備える信号符号化及び／または復号化装置を提供することによって達成されうる。

実施例による側面及びユーティリティは、入力信号を少なくとも１つ以上のドメインに変換し、前記入力信号または前記変換された信号を利用して既定の単位別に符号化するドメインを決定し、前記決定されたドメインで各単位に設けられた信号を符号化する方法と、既定の単位に設けられた各信号が符号化されたドメインを判断し、各単位に設けられた信号を前記判断されたドメインで復号化し、前記復号化された各単位に設けられた信号を合成して信号を復元する方法を実行させるプログラムとしてコンピュータで読取り可能なコードを含むコンピュータで読取り可能な媒体を提供することによって達成されうる。

オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図である。図１に示されたオーディオ及び／またはスピーチ信号符号化装置で周波数ドメイン符号化部の一実施例を示すブロック図である。図１に示されたオーディオ及び／またはスピーチ信号符号化装置で周波数ドメイン符号化部の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図である。図１１に示されたオーディオ及び／またはスピーチ信号復号化装置で周波数ドメイン復号化部の一実施例を示すブロック図である。図１１に示されたオーディオ及び／またはスピーチ信号復号化装置で周波数ドメイン復号化部の他の一実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号復号化装置の他の実施例を示すブロック図である。オーディオ及び／またはスピーチ信号符号化方法についての一実施例を示すフローチャートである。図２１に示されたオーディオ及び／またはスピーチ信号符号化方法の一実施例を示すフローチャートである。図２１に示されたオーディオ及び／またはスピーチ信号符号化方法の他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号符号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての一実施例を示すフローチャートである。図３１に示されたオーディオ及び／またはスピーチ信号復号化方法のある段階の一実施例を示すフローチャートである。図３１に示されたオーディオ及び／またはスピーチ信号復号化方法でした段階の他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。オーディオ及び／またはスピーチ信号復号化方法についての他の実施例を示すフローチャートである。

以下、添付した図面を参照して実施例によるオーディオ及び／またはスピーチ信号符号化及び復号化方法及び装置について詳細に説明する。

図１は、オーディオ及び／またはスピーチ信号符号化装置の第１実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、第１ドメイン変換部１００、周波数ドメイン符号化部１１０及び多重化部１２０を含んでなる。

第１ドメイン変換部１００は、入力端子ＩＮを通じて入力された入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部１００は、入力信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。

例えば、第１ドメイン変換部１００は、入力信号を第１変換方式に該当するＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）により周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ）により周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は実数部と共に入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチ（ｍｉｓｓｍａｔｃｈ）を解決しうる。

周波数ドメイン符号化部１１０は、第１ドメイン変換部１００で第１変換方式により変換された信号の各サブバンドから重要スペクトル成分（ＩｍｐｏｒｔａｎｔＳｐｅｃｔｒａｌＣｏｍｐｏｎｅｎｔ）を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部１１０は、図２及び図３に示された例と同様に実施しうる。

第１に、図２は、周波数ドメイン符号化部１１０の一実施例を示すブロック図であって、図１及び図２を参照すれば、周波数ドメイン符号化部１１０は、心理音響モデル適用部２００、重要周波数成分（important spectral component）選択部２１０、量子化部２２０、ノイズ処理部２３０を備えてなる。

心理音響モデル適用部２００は、人間の聴覚特性による知覚的な重複性を除去するために、入力信号に対して心理音響モデルを適用する。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

心理音響モデル適用部２００は、人間の聴覚特性を利用した心理音響モデルを適用して、入力信号から感度の低い細部情報を省略あるいは排除し、周波数別に感度の程度を意味するＳＭＲ値を割当てる。心理音響モデル適用部２００は、第２変換方式に変換された信号を利用して心理音響モデルを適用し、第２変換方式の例としてＭＤＳＴがある。

重要周波数成分選択部２１０は、入力端子ＩＮ１を通じて入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する。重要周波数成分選択部２１０で重要スペクトル成分を選択する方法として次のような方法がある。第１に、ＳＭＲ値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第２に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第３に、各サブバンド別にＳＮＲ値を計算してＳＮＲ値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記３つの方法は別途に実施してもよく、少なくとも１つ以上の方法を組合わせて実施しても良い。

量子化部２２０は、心理音響モデル適用部２００で割当てられたＳＭＲ値で重要周波数成分選択部２１０から選択された重要スペクトル成分を量子化して出力端子ＯＵＴ１を通じて出力する。

ノイズ処理部２３０は、入力端子ＩＮ１を通じて入力される周波数ドメインで表現された信号から、重要周波数成分選択部２１０で選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルを計算して量子化する。ここで、ノイズ処理部２３０は、量子化された結果を出力端子ＯＵＴ２を通じて出力する。

第２に、図３は、周波数ドメイン符号化部１１０の他の一実施例を示すブロック図であって、図１及び図３を参照すれば、周波数ドメイン符号化部１１０は、音声ツール符号化部３００、心理音響モデル適用部３１０、重要周波数成分選択部３２０、量子化部３３０及びノイズ処理部３４０を含んでなる。

音声ツール符号化部３００は、臨界値を有するアタックが強い信号と判別される信号に対して短いトランスフォームの長さでさらに細密に符号化し、その結果を出力端子ＯＵＴ３に出力する。ここで、信号は、第１変換方法により変換される信号でありうる。

心理音響モデル適用部３１０は、人間の聴覚特性による知覚的な重複性を除去あるいは排除するために、入力信号に対して心理音響モデルを適用する。また、心理音響モデル適用部３１０は、入力端子ＩＮ２を通じて入力される周波数ドメインで表現された信号の各サブバンドに対して割当てられるビットを計算する。

心理音響モデル適用部３１０は、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するＳＭＲ値を異ならせて割当てる。心理音響モデル適用部２００は、第２変換方式に変換された信号を利用して心理音響モデルを適用し、第２変換方式の例としてＭＤＳＴがある。

重要周波数成分選択部３２０は、入力端子ＩＮ２を通じて入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する。重要周波数成分選択部３２０で重要スペクトル成分を選択する方法として次のような方法がある。第１に、ＳＭＲ値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第２に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第３に、各サブバンド別にＳＮＲ値を計算してＳＮＲ値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記３つの方法は別途に実施してもよく、少なくとも１つ以上の方法を組合わせて実施しても良い。

量子化部３３０は、心理音響モデル適用部３１０で割当てられたＳＭＲ値で重要周波数成分選択部３２０から選択された重要スペクトル成分を量子化して出力端子ＯＵＴ４を通じて出力する。

ノイズ処理部３４０は、入力端子ＩＮ２を通じて入力される周波数ドメインで表現された信号から、重要周波数成分選択部３２０で選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルをサブバンド別に計算して量子化する。ここで、ノイズ処理部３４０は、量子化された結果を出力端子ＯＵＴ５を通じて出力する。

ここで、ノイズレベルは線形予測（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ）分析を行って計算しうる。このような線形予測分析は、自己相関法（ａｕｔｏｃｏｒｒｅｌａｔｉｏｎｍｅｔｈｏｄ）を利用して行い、共分散法（ｃｏｖａｒｉａｎｃｅｍｅｔｈｏｄ）、ダービンの方法（Ｄｕｒｂｉｎ’ｓｍｅｔｈｏｄ）を利用しうる。線形予測を通じて符号化器で、現在フレームにノイズ成分がどの位あるかを予測する。もし、ノイズ成分が強い場合、ノイズレベルをそのまま伝送し、ノイズ成分が少なく、トーン成分が強い場合には、相対的にノイズレベルを減らして伝送する。また、小さなウィンドウである場合には、ノイズが急変する場合であるために、追加的にノイズレベルを減らして伝送する。

多重化部１２０は、周波数ドメイン符号化部１１０で符号化した結果を多重化してビットストリームを生成し、出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部１１０で符号化した結果は、図２の実施例に記述された出力端子ＯＵ１の量子化部２２０で重要スペクトル成分を量子化した結果及び出力端子ＯＵＴ２のノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された出力端子ＯＵＴ３の音声ツール符号化部３００で符号化された結果、出力端子ＯＵＴ４の量子化部３３０で重要スペクトル成分を量子化した結果及び出力端子ＯＵＴ５のノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図４は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、ドメイン変換部４００、モード決定部４１０、時間ドメイン符号化部４２０、周波数ドメイン符号化部４３０及び多重化部４４０を含んでなる。

ドメイン変換部４００は、入力端子ＩＮ４を通じて入力された入力信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。

ここで、ドメイン変換部４００は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度（ｔｅｍｐｏｒａｌｒｅｓｏｌｕｔｉｏｎ）を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性（ｆｌｅｘｉｂｌｅ）変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてＦＶ−ＭＬＴ（ＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）がある。

このようなドメイン変換部４００は、第１ドメイン変換部４０３及び第２ドメイン変換部４０６を含んでなる。

第１ドメイン変換部４０３は、入力端子ＩＮ４を通じて入力された入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部４０３は、入力信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。

例えば、第１ドメイン変換部４０３は、入力信号を第１変換方式に該当するＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）により周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ）により周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチ（ｍｉｓｓｍａｔｃｈ）を解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第２ドメイン逆変換部４０６は、第１ドメイン変換部４０３で周波数ドメインに変換された所定のサブバンドを、第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部４０６は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴ（ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）により逆変換する。

モード決定部４１０は、第１ドメイン変換部４０３で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部４１０は、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部４１０は、各サブバンドに対してモード決定部４１０で決定されたドメインを示す識別子を量子化して多重化部４４０に出力する。

ここで、モード決定部４１０が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第１ドメイン変換部４０３から入力される周波数ドメインに該当する信号のみ利用する方法、入力端子ＩＮ４を通じて入力される時間ドメインに該当する信号のみ利用する方法、第１ドメイン変換部４０３から入力される周波数ドメインに該当する信号と入力端子ＩＮ４を通じて入力される時間ドメインに該当する信号とをいずれも利用する方法がある。

モード決定部４１０で、周波数ドメインでの符号化が適しないと判断されたサブバンドを、第２ドメイン逆変換部４０６は、第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。

時間ドメイン符号化部４２０は、第２ドメイン逆変換部４０６で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。

所定の場合、モード決定部４１０で、周波数ドメインでの符号化が適しないと判断されたサブバンドも、時間ドメイン符号化部４２０で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部４３０でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部４４０に出力する。

周波数ドメイン符号化部４３０は、モード決定部４１０で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部４３０は、前述した図２及び図３に図示された例によって実施できる。

多重化部４４０は、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部４２０で符号化した結果及び周波数ドメイン符号化部４３０で符号化した結果を含んで多重化することによって、ビットストリームを生成して出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部４３０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果、及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図５は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、ステレオ符号化部５００、第１ドメイン変換部５１０、周波数ドメイン符号化部５２０及び多重化部５３０を含んでなる。

ステレオ符号化部５００は、入力端子ＩＮを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシング（ｄｏｗｎｍｉｘｉｎｇ）する。ステレオ符号化部５００で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシング（ｕｐｍｉｘｉｎｇ）するのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度（ｃｏｒｒｅｌａｔｉｏｎ）または干渉度（ｃｏｈｅｒｅｎｃｅ）などがある。ここで、ステレオ符号化部５００は、抽出したパラメータを量子化して多重化部５３０に出力する。

第１ドメイン変換部５１０は、ステレオ符号化部５００でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部５１０は、ステレオ符号化部５００でダウンミキシングされた信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第１ドメイン変換部５１０は、入力信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

周波数ドメイン符号化部５２０は、第１ドメイン変換部５１０から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部５２０は、前述した図２及び図３に例示された通りに実施しうる。

多重化部５３０は、ステレオ符号化部５００で量子化されたパラメータ及び周波数ドメイン符号化部５２０で符号化した結果を多重化してビットストリームを生成し、出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部５２０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図６は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、ステレオ符号化部６００、ドメイン変換部６１０、モード決定部６２０、時間ドメイン符号化部６３０、周波数ドメイン符号化部６４０及び多重化部６５０を含んでなる。

ステレオ符号化部６００は、入力端子ＩＮを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部６００で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ符号化部６００は、抽出したパラメータを量子化して多重化部５３０に出力する。

ドメイン変換部６１０は、ステレオ符号化部６００でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。

ここで、ドメイン変換部６１０は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、ＦＶ−ＭＬＴ（ＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）がある。

このようなドメイン変換部６１０は、第１ドメイン変換部６１３及び第２ドメイン逆変換部６１６を含んでなる。

第１ドメイン変換部６１３は、ステレオ符号化部６００でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部６１３は、ステレオ符号化部６００でダウンミキシングされた信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、ダウンミキシングされた信号の符号化に利用され、第２変換方式により変換された信号は、ダウンミキシングされた信号に対して心理音響モデルを適用するのに利用される。

例えば、第１ドメイン変換部６１３は、ダウンミキシングされた信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、ダウンミキシングされた信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、ダウンミキシングされた信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２ドメイン逆変換部６１６は、第１ドメイン変換部６１３で周波数ドメインに変換された所定のサブバンドを、第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部６１６は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴ（ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）により逆変換する。

モード決定部６２０は、第１ドメイン変換部６１３で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部６２０は、各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部６２０は、各サブバンドに対してモード決定部６２０で決定されたドメインを示す識別子を量子化して多重化部６５０に出力する。

ここで、モード決定部６２０が所定のサブバンドに対して、周波数ドメインでの符号化の適否を判断するに当たって、第１ドメイン変換部６１３から入力される周波数ドメインに該当する信号のみ利用する方法、ステレオ符号化部６００から入力される時間ドメインに該当する信号のみ利用する方法、第１ドメイン変換部６１３から入力される周波数ドメインに該当する信号及びステレオ符号化部６００から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。

第２ドメイン逆変換部６１６は、モード決定部６２０で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部６１６は、ＩＭＤＣＴを適用して所定のサブバンドを時間ドメインに逆変換する。

時間ドメイン符号化部６３０は、第２ドメイン逆変換部６１６で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。

所定の場合モード決定部６２０で、周波数ドメインでの符号化が適しないと判断されたサブバンドも、時間ドメイン符号化部６３０で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部６４０でも、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部６５０に出力する。

周波数ドメイン符号化部６４０は、モード決定部６２０で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部６４０は、前述した図２及び図３に図示された例によって実施できる。

多重化部６５０は、ステレオ符号化部６００で量子化されたパラメータ各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部６３０で符号化した結果及び周波数ドメイン符号化部６４０で符号化した結果を含んで多重化することによって、ビットストリームを生成して出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部６３０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図７は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、バンド分割部７００、第１ドメイン変換部７１０、周波数ドメイン符号化部７２０、高周波数バンド符号化部７３０及び多重化部７４０を含んでなる。

バンド分割部７００は、入力端子ＩＮを通じて入力された入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。

第１ドメイン変換部７１０は、バンド分割部７００で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部７１０は、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第１ドメイン変換部７１０は、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

周波数ドメイン符号化部７２０は、第１ドメイン変換部７１０から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部７２０は、前述した図２及び図３に例示された通りに実施しうる。

高周波数バンド符号化部７３０は、低周波数バンド信号を利用してバンド分割部７００で分割された高周波数バンド信号を符号化する。

多重化部７４０は、周波数ドメイン符号化部７２０で符号化した結果及び高周波数バンド符号化部７３０で符号化した結果を多重化してビットストリームを生成し、出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部７２０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図８は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、バンド分割部８００、ドメイン変換部８１０、モード決定部８２０、時間ドメイン符号化部８３０、周波数ドメイン符号化部８４０、高周波数バンド符号化部８５０及び多重化部８６０を含んでなる。

バンド分割部８００は、入力端子ＩＮを通じて入力された入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。

ドメイン変換部８１０は、バンド分割部８００で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。

ここで、ドメイン変換部８１０は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、ＦＶ−ＭＬＴがある。

このようなドメイン変換部８１０は、第１ドメイン変換部８１３及び第２ドメイン逆変換部８１６を含んでなる。

第１ドメイン変換部８１３は、バンド分割部８００で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部８１３は、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第１変換方式以外の第２変換方式でも、低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。

例えば、第１ドメイン変換部８１３は、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２ドメイン逆変換部８１６は、第１ドメイン変換部８１３で周波数ドメインに変換された所定のサブバンドを、第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部８１６は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴにより周波数ドメインから時間ドメインに逆変換する。

モード決定部８２０は、第１ドメイン変換部８１３で周波数ドメインに変換された低周波数バンド信号の各サブバンドに対して周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部８２０は、各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部８２０は、各サブバンドに対してモード決定部８２０で決定されたドメインを示す識別子を量子化して多重化部８６０に出力する。

ここで、モード決定部８２０が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第１ドメイン変換部８１３から入力される周波数ドメインに該当する信号のみ利用する方法、バンド分割部８００から入力される時間ドメインに該当する信号のみ利用する方法、第１ドメイン変換部８１３から入力される周波数ドメインに該当する信号及びバンド分割部８００から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。

第２ドメイン逆変換部８１６は、モード決定部８２０で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部８１６は、ＩＭＤＣＴを適用して所定のサブバンドを周波数ドメインから時間ドメインに逆変換する。

時間ドメイン符号化部８３０は、第２ドメイン逆変換部８１６で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。

所定の場合モード決定部８２０で、周波数ドメインでの符号化が適しないと判断されたサブバンドも時間ドメイン符号化部８３０で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部８４０でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部８６０に出力する。

周波数ドメイン符号化部８４０は、モード決定部８２０で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部８４０は、前述した図２及び図３に示された例によって実施できる。

高周波数バンド符号化部８５０は、低周波数バンド信号を利用してバンド分割部８００で分割された高周波数バンド信号を符号化する。

多重化部８６０は、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部８３０で符号化した結果、周波数ドメイン符号化部８４０で符号化した結果及び高周波数バンド符号化部８５０で符号化された結果を含んで多重化することによって、ビットストリームを生成して出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部８４０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図９は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、ステレオ符号化部９００、バンド分割部９１０、第１ドメイン変換部９２０、周波数ドメイン符号化部９３０、高周波数バンド符号化部９４０及び多重化部９５０を含んでなる。

ステレオ符号化部９００は、入力端子ＩＮを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部９００で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ステレオ符号化部９００は、抽出したパラメータを量子化して多重化部９５０に出力する。

バンド分割部９１０は、ステレオ符号化部９００でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。

第１ドメイン変換部９２０は、バンド分割部９１０で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部９２０は、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第１ドメイン変換部９２０は、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

周波数ドメイン符号化部９３０は、第１ドメイン変換部９２０から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部９３０は、前述した図２及び図３に例示された通りに実施しうる。

高周波数バンド符号化部９４０は、低周波数バンド信号を利用してバンド分割部９１０で分割された高周波数バンド信号を符号化する。

多重化部９５０は、ステレオ符号化部９００で量子化されたパラメータ、周波数ドメイン符号化部９３０で符号化した結果及び高周波数バンド符号化部９４０で符号化した結果を多重化してビットストリームを生成し、出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部９９０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図１０は、オーディオ及び／またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号符号化装置は、ステレオ符号化部１０００、バンド分割部１０１０、ドメイン変換部１０２０、モード決定部１０３０、時間ドメイン符号化部１０４０、周波数ドメイン符号化部１０５０、高周波数バンド符号化部１０６０及び多重化部１０７０を含んでなる。

ステレオ符号化部１０００は、入力端子ＩＮを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部１０００で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ステレオ符号化部１０００は、抽出したパラメータを量子化して多重化部１０７０に出力する。

バンド分割部１０１０は、ステレオ符号化部１０００でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。

ドメイン変換部１０２０は、バンド分割部１０１０で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。

ここで、ドメイン変換部１０２０は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、ＦＶ−ＭＬＴがある。

このようなドメイン変換部１０２０は、第１ドメイン変換部１０２３及び第２ドメイン逆変換部１０２６を含んでなる。

第１ドメイン変換部１０２３は、バンド分割部１０１０で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第１ドメイン変換部１０２３は、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第１ドメイン変換部１０２３は、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２ドメイン逆変換部１０２６は、第１ドメイン変換部１０２３で周波数ドメインに変換された所定のサブバンドを、第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部１０２６は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴにより逆変換する。

モード決定部１０３０は、第１ドメイン変換部１０２３で周波数ドメインに変換された低周波数バンド信号の各サブバンドに対して周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部１０３０は、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部１０３０は、各サブバンドに対してモード決定部１０３０で決定されたドメインを示す識別子を量子化して多重化部１０７０に出力する。

ここで、モード決定部１０３０が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第１ドメイン変換部１０２３から入力される周波数ドメインに該当する信号のみ利用する方法、バンド分割部１０１０から入力される時間ドメインに該当する信号のみ利用する方法、第１ドメイン変換部１０２３から入力される周波数ドメインに該当する信号とバンド分割部１０１０から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。

第２ドメイン逆変換部１０２６は、モード決定部１０３０で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第２ドメイン逆変換部１０２６は、ＩＭＤＣＴを適用して所定のサブバンドを逆変換する。

時間ドメイン符号化部１０４０は、第２ドメイン逆変換部１０２６で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。

所定の場合モード決定部１０３０で、周波数ドメインでの符号化が適しないと判断されたサブバンドも時間ドメイン符号化部１０４０で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部１０５０でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部１０７０に出力する。

周波数ドメイン符号化部１０５０は、モード決定部１０３０で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部１０５０は、前述した図２及び図３に図示された例によって実施できる。

高周波数バンド符号化部１０６０は、低周波数バンド信号を利用してバンド分割部１０１０で分割された高周波数バンド信号を符号化する。

多重化部１０７０は、ステレオ符号化部１０００で量子化されたパラメータ、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部１０４０で符号化した結果、周波数ドメイン符号化部１０５０で符号化した結果及び高周波数バンド符号化部１０６０で符号化された結果を含んで多重化することによって、ビットストリームを生成して出力端子ＯＵＴを通じて出力する。ここで、周波数ドメイン符号化部１０５０で符号化した結果は、図２の実施例に記述された量子化部２２０で重要スペクトル成分を量子化した結果及びノイズ処理部２３０で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された音声ツール符号化部３００で符号化された結果、量子化部３３０で重要スペクトル成分を量子化した結果及びノイズ処理部３４０で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図１１は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は逆多重化部１１００、周波数ドメイン復号化部１１１０及び第２ドメイン逆変換部１１２０を含んでなる。

逆多重化部１１００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１１００が出力するデータには、符号化端によって周波数ドメインで符号化された結果として重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。

周波数ドメイン復号化部１１１０は逆多重化部１１００から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部１１１０は各サブバンドから選択された重要スペクトル成分を復号化して、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１１１０は、図１２及び図１３に例示された通りに実施しうる。

第１に、図１２は、図１１に示されたオーディオ及び／またはスピーチ信号復号化装置の周波数ドメイン復号化部１１１０の一実施例を示すブロック図であって、周波数ドメイン復号化部１１１０は、逆量子化部１２００及びノイズ復号化部１２１０を含んでなる。

逆量子化部１２００は、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分を入力端子ＩＮ１を通じて逆多重化された結果を入力されて逆量子化する。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

ノイズ復号化部１２１０は、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを入力端子ＩＮ２を通じて逆多重化された結果を入力されて復号化する。また、ノイズ復号化部１２１０は、復号化されたノイズレベルを逆量子化部１２００で逆量子化された重要スペクトル成分に合成する。ここで、ノイズ復号化部１２１０は、合成された結果を出力端子ＯＵＴ１を通じて出力する。

第２に、図１３は、図１１に示されたオーディオ及び／またはスピーチ信号復号化装置の周波数ドメイン復号化部１１１０の他の実施例を示すブロック図であって、周波数ドメイン復号化部１１１０は、逆量子化部１３００、ノイズ復号化部１３１０及び音声ツール復号化部１３２０を含んでなる。

逆量子化部１３００は、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分を入力端子ＩＮ３を通じて逆多重化された結果を入力されて逆量子化する。

ノイズ復号化部１３１０は、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを入力端子ＩＮ４を通じて逆多重化された結果を入力されて復号化する。また、ノイズ復号化部１３１０は、復号化されたノイズレベルを逆量子化部１２００で逆量子化された重要スペクトル成分に合成する。

音声ツール復号化部１３２０は、符号化端で音声ツールにより符号化された結果を入力端子ＩＮ５を通じて逆多重化された結果を入力されて復号化する。また、音声ツール復号化部１３２０は、音声ツール復号化部１３２０で復号化された結果をノイズ復号化部１３１０で合成された結果に合成する。ここで、音声ツール復号化部１３２０は、合成された結果を出力端子ＯＵＴ２を通じて出力する。

図１１を参照すれば、第２ドメイン逆変換部１１２０は、周波数ドメイン復号化部１１１０で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴ（ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）がある。また、第２ドメイン逆変換部１１２０は、逆変換された結果を出力端子ＯＵＴを通じて出力する。例えば、第２ドメイン逆変換部１１２０は、図１２の出力端子ＯＵＴ１で、ノイズ復号化部１２１０で合成された信号をＩＭＤＣＴにより周波数ドメインから時間ドメインに逆変換し、図１３の出力端子ＯＵＴ２で、音声ツール復号化部１３２０で合成された信号をＩＭＤＣＴにより周波数ドメインから時間ドメインに逆変換する。

図１４は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は、逆多重化部１４００、モード判断部１４１０、周波数ドメイン復号化部１４２０、時間ドメイン復号化部１４３０及びドメイン変換部１４４０を含んでなる。

逆多重化部１４００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１４００が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。

ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。

モード判断部１４１０は、逆多重化部１４００から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。

周波数ドメイン復号化部１４２０は、モード判断部１４１０で周波数ドメインで符号化されたと判断された１つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部１４２０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１４２０は、図１２及び図１３に例示された通りに実施しうる。

時間ドメイン復号化部１４３０は、モード判断部１４１０によって時間ドメインで符号化されたと判断された１つ以上のサブバンドを周波数ドメインで復号化する。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。周波数ドメイン復号化部１４２０は、周波数ドメインで該当サブバンドの符号化結果を復号化し、時間ドメイン復号化部１４３０では、時間ドメインで符号化された結果を復号化する。

ドメイン変換部１４４０は、時間ドメイン復号化部１４３０で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部１４２０で復号化された信号及び時間ドメイン復号化部１４３０から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。

ここで、ドメイン変換部１４４０は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴ（ＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）がある。

ドメイン変換部１４４０は、第２ドメイン変換部１４４３及び第２ドメイン逆変換部１４４６を含んでなる。

第２ドメイン変換部１４４３は、時間ドメイン復号化部１４３０で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する。例えば、第２変換方式にはＭＤＣＴがある。

第２ドメイン逆変換部１４４６は、周波数ドメイン復号化部１４２０で復号化されたサブバンドの信号と第２ドメイン変換部１４４３で変換されたサブバンドの信号とを合成して、第２逆変換方式により周波数ドメインから時間ドメインに逆変換する。このような第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴ（ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）がある。ここで、第２ドメイン逆変換部１４４６は、逆変換された結果を出力端子ＯＵＴを通じて出力する。

図１５は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は、逆多重化部１５００、周波数ドメイン復号化部１５１０、第２ドメイン逆変換部１５２０及びステレオ復号化部１５３０を含んでなる。

逆多重化部１５００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１５００が逆多重化して出力するデータには符号化端によって周波数ドメインで符号化された結果及びステレオ信号にアップミキシングするためのパラメータを含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。

周波数ドメイン復号化部１５１０は、逆多重化部１１００から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部１５１０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１５１０は、図１２及び図１３に例示された通りに実施しうる。

第２ドメイン逆変換部１５２０は、周波数ドメイン復号化部１５１０で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。

ステレオ復号化部１５３０は、第２ドメイン逆変換部１５２０で逆変換されたモノ信号をステレオ信号にアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部１５３０は、アップミキシングされたステレオ信号を出力端子ＯＵＴを通じて出力する。

図１６は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は、逆多重化部１６００、モード判断部１６１０、周波数ドメイン復号化部１６２０、時間ドメイン復号化部１６３０、ドメイン変換部１６４０及びステレオ復号化部１６５０を含んでなる。

逆多重化部１６００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１６００が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及びモノ信号をステレオ信号にアップミキシングするためのパラメータなどがある。

ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれることもある。

モード判断部１６１０は、逆多重化部１６００から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。

周波数ドメイン復号化部１６２０は、モード判断部１６１０で周波数ドメインで符号化されたと判断された１つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部１６２０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１６２０は、図１２及び図１３に例示された通りに実施しうる。

時間ドメイン復号化部１６３０は、モード判断部１６１０によって時間ドメインで符号化されたと判断された１つ以上のサブバンドを時間ドメインで復号化する。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。該当するサブバンドを周波数ドメイン復号化部１６２０では、周波数ドメインで符号化された結果を復号化し、時間ドメイン復号化部１６３０では、時間ドメインで符号化された結果を復号化する。

ドメイン変換部１６４０は、時間ドメイン復号化部１６３０で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部１４２０で復号化された信号及び時間ドメイン復号化部１４３０から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。

ここで、ドメイン変換部１６４０は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴがある。

ドメイン変換部１６４０は、第２ドメイン変換部１６４３及び第２ドメイン逆変換部１６４６を含んでなる。

第２ドメイン変換部１６４３は、時間ドメイン復号化部１６３０で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する。例えば、第２変換方式には、ＭＤＣＴがある。

第２ドメイン逆変換部１６４６は、周波数ドメイン復号化部１６２０で復号化されたサブバンドの信号と第２ドメイン変換部１６４３で変換されたサブバンドの信号とを合成して、第２逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

ステレオ復号化部１６５０は、第２ドメイン逆変換部１６４６で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、ステレオ復号化部１６５０は、アップミキシングされたステレオ信号を出力端子ＯＵＴを通じて出力する。

図１７は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は逆多重化部１７００、周波数ドメイン復号化部１７１０、高周波数バンド復号化部１７２０、第２ドメイン逆変換部１７３０及びバンド合成部１７４０を含んでなる。

逆多重化部１７００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１７００が逆多重化して出力するデータには、符号化端によって周波数ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。

周波数ドメイン復号化部１７１０は、逆多重化部１７００から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部１７１０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１７１０は、図１２及び図１３に例示された通りに実施しうる。

第２ドメイン逆変換部１７３０は、周波数ドメイン復号化部１７１０で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。

高周波数バンド復号化部１７２０は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部１７００から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。

バンド合成部１７４０は、第２ドメイン逆変換部１７３０で逆変換された低周波数バンド信号と高周波数バンド復号化部１７２０で生成された高周波数バンド信号とを合成する。ここで、バンド合成部１７４０は、合成された信号を出力端子ＯＵＴを通じて出力する。

図１８は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は逆多重化部１８００、モード判断部１８１０、周波数ドメイン復号化部１８２０、時間ドメイン復号化部１８３０、ドメイン変換部１８４０、高周波数バンド復号化部１８５０及びバンド合成部１８６０を含んでなる。

逆多重化部１８００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１８００が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報などがある。

ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。

モード判断部１８１０は、逆多重化部１８００から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。

周波数ドメイン復号化部１８２０は、モード判断部１８１０で周波数ドメインで符号化されたと判断された１つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部１８２０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１８２０は、図１２及び図１３に例示された通りに実施しうる。

時間ドメイン復号化部１８３０は、モード判断部１８１０によって時間ドメインで符号化されたと判断された１つ以上のサブバンドを時間ドメインで復号化する。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。該当するサブバンドを周波数ドメイン復号化部１８２０では周波数ドメインで符号化された結果を復号化し、時間ドメイン復号化部１８３０では時間ドメインで符号化された結果を復号化する。

ドメイン逆変換部１８４０は、時間ドメイン復号化部１８３０で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部１８２０で復号化された信号及び時間ドメイン復号化部１８３０から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。

ここで、ドメイン変換部１８４０は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴ（ＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）がある。

ドメイン変換部１８４０は、第２ドメイン変換部１８４３及び第２ドメイン逆変換部１８４６を含んでなる。

第２ドメイン変換部１８４３は、時間ドメイン復号化部１８３０で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する。第２変換方式にはＭＤＣＴがある。

第２ドメイン逆変換部１８４６は、周波数ドメイン復号化部１６２０で復号化されたサブバンドの信号と第２ドメイン変換部１８４３で変換されたサブバンドの信号とを合成して第２逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

高周波数バンド復号化部１８５０は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部１８００から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。

バンド合成部１８６０は、第２ドメイン逆変換部１８４６で逆変換された低周波数バンド信号と高周波数バンド復号化部１８５０で生成された高周波数バンド信号とを合成する。ここで、バンド合成部１８６０は、合成された信号を出力端子ＯＵＴを通じて出力する。

図１９は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は、逆多重化部１９００、周波数ドメイン復号化部１９１０、第２ドメイン逆変換部１９２０、高周波数バンド復号化部１９３０、バンド合成部１９４０及びステレオ復号化部１９５０を含んでなる。

逆多重化部１９００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部１９００が逆多重化して出力するデータには符号化端によって周波数ドメインで符号化された結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報、ステレオでアップミキシングできるパラメータなどがある。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。

周波数ドメイン復号化部１９１０は、逆多重化部１９００から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部１９１０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１９１０は、図１２及び図１３に例示された通りに実施しうる。

第２ドメイン逆変換部１９２０は、周波数ドメイン復号化部１９１０で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。

高周波数バンド復号化部１９３０は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部１９００から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。

バンド合成部１９４０は、第２ドメイン逆変換部１９２０で逆変換された低周波数バンド信号と高周波数バンド復号化部１９３０で生成された高周波数バンド信号とを合成する。

ステレオ復号化部１９５０は、バンド合成部１９４０で提供されるモノ信号を、逆多重化部１９００から出力されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用して、ステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部１９５０は、アップミキシングされたステレオ信号を出力端子ＯＵＴを通じて出力する。

図２０は、オーディオ及び／またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び／またはスピーチ信号復号化装置は、逆多重化部２０００、モード判断部２０１０、周波数ドメイン復号化部２０２０、時間ドメイン復号化部２０３０、ドメイン逆変換部２０４０、高周波数バンド復号化部２０５０、バンド合成部２０６０及びステレオ復号化部２０７０を含んでなる。

逆多重化部２０００は、入力端子ＩＮを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部２０００が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報などがある。

モード判断部２０１０は、逆多重化部２０００から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。

周波数ドメイン復号化部２０２０は、モード判断部２０１０で周波数ドメインで符号化されたと判断された１つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部２０２０は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部１８２０は、図１２及び図１３に例示された通りに実施しうる。

時間ドメイン復号化部２０３０は、モード判断部２０１０によって時間ドメインで符号化されたと判断された１つ以上のサブバンドを時間ドメインで復号化する。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。周波数ドメイン復号化部２０２０では、周波数ドメインで該当サブバンドの符号化結果を復号化し、時間ドメイン復号化部２０３０では、時間ドメインで該当サブバンドの符号化結果を復号化する。

ドメイン逆変換部２０４０は、時間ドメイン復号化部２０３０で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部２０２０で復号化された信号及び時間ドメイン復号化部２０３０から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。

ここで、ドメイン変換部２０４０は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴがある。

このようなドメイン変換部２０４０は、第２ドメイン変換部２０４３及び第２ドメイン逆変換部２０４６を含んでなる。

第２ドメイン変換部２０４３は、時間ドメイン復号化部２０３０で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する。例えば、第２変換方式にはＭＤＣＴがある。

第２ドメイン逆変換部２０４６は、周波数ドメイン復号化部２０２０で復号化されたサブバンドの信号と第２ドメイン変換部２０４３で変換されたサブバンドの信号とを合成して、第２逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

高周波数バンド復号化部２０５０は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部２０００から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。

バンド合成部２０６０は、第２ドメイン逆変換部２０４６で逆変換された低周波数バンド信号と高周波数バンド復号化部２０５０で生成された高周波数バンド信号とを合成する。

ステレオ復号化部２０７０は、バンド合成部２０６０で提供されるモノ信号を逆多重化部２０００から出力されたモノ信号をステレオ信号でアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部２０７０は、アップミキシングされたステレオ信号を出力端子ＯＵＴを通じて出力する。

図２１は、オーディオ及び／またはスピーチ信号符号化方法についての第１実施例を示すフローチャートである。

まず、入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２１００段階）。第２１００段階では、入力信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。

例えば、第２１００段階は、入力信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２１００段階で、第１変換方式により変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する（第２１１０段階）。このような第２１１０段階は、図２２及び２３に例示された通りに実施しうる。

第１に、図２２は、図２１に示されたオーディオ及び／またはスピーチ信号符号化方法の第２１１０段階の一実施例を示すフローチャートである。

まず、人間の聴覚特性による知覚的な重複性を除去するために、心理音響モデルを適用する（第２２００段階）。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第２２００段階では、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するＳＭＲ値を割当てる。第２２００段階では、第２変換方式に変換された信号を利用して心理音響モデルを適用し、第２変換方式の例としてＭＤＳＴがある。

第２２００段階後に、入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する（第２２０５段階）。第２２０５段階で、重要スペクトル成分を選択する方法として次のような方法がある。第１に、ＳＭＲ値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第２に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第３に、各サブバンド別にＳＮＲ値を計算してＳＮＲ値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記３つの方法は、別途に実施してもよく、少なくとも１つ以上の方法を組合わせて実施しても良い。

第２２００段階で割当てられたＳＭＲ値で第２２０５段階から選択された重要スペクトル成分を量子化する（第２２１０段階）。

第２２１０段階後に、周波数ドメインで表現された信号から、第２２０５段階から選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルを計算して量子化する（第２２２０段階）。

図２３は、図２１に示されたオーディオ及び／またはスピーチ信号符号化方法の第２１１０段階の他の実施例を示すフローチャートである。

まず、アタックが強い信号と判別される信号に対して短いトランスフォームの長さでさらに細密に符号化する（第２３００段階）。

第２３００段階後に、人間の聴覚特性による知覚的な重複性を除去するために、心理音響モデルを適用する（第２３０５段階）。

第２３０５段階では、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するＳＭＲ値を異ならせて割当てる。第２３０５段階では、第２変換方式に変換された信号を利用して心理音響モデルを適用し、第２変換方式の例としてＭＤＳＴがある。

第２３０５段階後に、入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する（第２３１０段階）。第２３１０段階で重要スペクトル成分を選択する方法として次のような方法がある。第１に、ＳＭＲ値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第２に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第３に、各サブバンド別にＳＮＲ値を計算してＳＮＲ値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記３つの方法は、別途に実施してもよく、少なくとも１つ以上の方法を組合わせて実施しても良い。

第２３０５段階で割当てられたＳＭＲ値で第２３１０段階から選択された重要スペクトル成分を量子化する（第２３２０段階）。

第２３２０段階後に、入力される周波数ドメインで表現された信号から、第２３１０段階から選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルをサブバンド別に計算して量子化する（第２３３０段階）。

ここで、ノイズレベルは線形予測分析を行って計算できる。このような線形予測分析は、自己相関法（ａｕｔｏｃｏｒｒｅｌａｔｉｏｎｍｅｔｈｏｄ）を利用して行い、共分散法（ｃｏｖａｒｉａｎｃｅｍｅｔｈｏｄ）、ダービンの方法（Ｄｕｒｂｉｎ’ｓｍｅｔｈｏｄ）などを利用しうる。線形予測を通じて符号化器で現在フレームにノイズ成分がどの位あるかを予測する。もし、ノイズ成分が強い場合、ノイズレベルをそのまま伝送し、もし、ノイズ成分は少なく、トーン成分が強い場合には、相対的にノイズレベルを減らして伝送する。また、小さなウィンドウである場合には、ノイズが急変する場合であるために、追加的にノイズレベルを減らして伝送する。

次いで、図２１を参照すれば、第２１１０段階で符号化した結果を多重化してビットストリームを生成する（第２１２０段階）。第２１１０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図２４は、オーディオ及び／またはスピーチ信号符号化方法についての第２実施例を示すフローチャートである。

まず、入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２４００段階）。第２４００段階では、入力信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。

例えば、第２４００段階では、入力信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第２４００段階で、周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する（第２４１０段階）。言い換えれば、第２４１０段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第２４１０段階では、各サブバンドに対して第２４１０段階で決定されたドメインを示す識別子を量子化する。

第２４１０段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第２４００段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する入力信号のみ利用する方法、第２４００段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する入力信号とをいずれも利用する方法がある。

もし、第２４１０段階で、周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する（第２４２０段階）。ここで、第２４２０段階では、前述した図２２及び２３に示された例によって実施できる。

もし、第２４１０段階で、周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する（第２４３０段階）。例えば、第２４３０段階は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴにより逆変換する。

第２４００段階及び第２４３０段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性ある変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、ＦＶ−ＭＬＴがある。

第２４３０段階で、時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する（第２４４０段階）。

所定の場合、第２４１０段階で、周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。

第２４２０段階または第２４４０段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第２４４０段階で符号化した結果及び第２４２０段階で符号化した結果を含んで多重化することによって、ビットストリームを生成する。第２４２０段階で、符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図２５は、オーディオ及び／またはスピーチ信号符号化方法についての第３実施例を示すフローチャートである。

まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする（第２５００段階）。第２５００段階で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。第２５００段階では、抽出したパラメータを量子化する。

第２５００段階でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２５１０段階）。第２５１０段階では、第２５００段階でダウンミキシングされた信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第２５１０段階では、入力信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２５１０段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する（第２５２０段階）。このような第２５２０段階では、前述した図２２及び２３に例示された通りに実施しうる。

第２５００段階で量子化されたパラメータ及び第２５２０段階で符号化した結果を多重化してビットストリームを生成する（第２５３０段階）。第２５２０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図２６は、オーディオ及び／またはスピーチ信号符号化方法についての第４実施例を示すフローチャートである。

まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする（第２６００段階）。第２６００段階で抽出するパラメータは符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、第２６００段階では抽出したパラメータを量子化する。

第２６００段階でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２６１０段階）。第２６１０段階では、入力信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、入力信号の符号化に利用され、第２変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。

例えば、第２６１０段階では、入力信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第２６１０段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する（第２６２０段階）。言い換えれば、第２６２０段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第２６２０段階では、各サブバンドに対して第２６２０段階で決定されたドメインを示す識別子を量子化する。

第２６２０段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第２６１０段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する第２６００段階でダウンミキシングされた信号のみ利用する方法、第２６１０段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する第２６００段階でダウンミキシングされた信号とをいずれも利用する方法がある。

もし、第２６２０段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する（第２６３０段階）。ここで、第２６３０段階では、前述した図２２及び２３に示された例によって実施できる。

もし、第２６２０段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する（第２６４０段階）。例えば、第２６４０段階は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴにより逆変換する。

第２６１０段階及び第２６４０段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性ある変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてＦＶ−ＭＬＴがある。

第２６４０段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する（第２６５０段階）。

所定の場合、第２６２０段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。

第２６３０段階または第２６５０段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第２６００段階で量子化一パラメータ、第２６３０段階で符号化した結果及び第２６５０段階で符号化した結果を含んで多重化することによって、ビットストリームを生成する。第２６３０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図２７は、オーディオ及び／またはスピーチ信号符号化方法についての第５実施例を示すフローチャートである。

まず、入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する（第２７００段階）。

第２７００段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２７１０段階）。第２７１０段階では低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第２７１０段階では、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２７１０段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する（第２７２０段階）。このような第２７２０段階は、前述した図２及び図３に例示された通りに実施しうる。

第２７００段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する（第２７３０段階）。

第２７２０段階で符号化した結果、第２７３０段階で符号化した結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を多重化してビットストリームを生成する（第２７４０段階）。ここで、第２７２０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図２８は、オーディオ及び／またはスピーチ信号符号化方法についての第６実施例を示すフローチャートである。

まず、入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する（第２８００段階）。

第２８００段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２８１０段階）。第２８１０段階では、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。

例えば、第２８１０段階では、低周波数バンド信号を、第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第２８１０段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する（第２８２０段階）。言い換えれば、第２８２０段階では既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第２８２０段階では、各サブバンドに対して第２８２０段階で決定されたドメインを示す識別子を量子化する。

第２８２０段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第２８１０段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する低周波数バンド信号のみ利用する方法、第２８１０段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する低周波数バンド信号とをいずれも利用する方法がある。

もし、第２８２０段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する（第２８３０段階）。ここで、第２８３０段階は、前述した図２２及び２３に図示された例によって実施できる。

もし、第２８２０段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する（第２８４０段階）。例えば、第２８４０段階は、第１変換方式に対する逆変換方式に該当するＩＭＤＣＴにより逆変換する。

第２８１０段階及び第２８４０段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてＦＶ−ＭＬＴがある。

第２８４０段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する（第２８５０段階）。

所定の場合、第２８２０段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。

第２８００段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する（第２８６０段階）。

第２８３０段階または第２８５０段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第２８３０段階で符号化した結果、第２８５０段階で符号化した結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含んで多重化することによって、ビットストリームを生成する（第２８７０段階）。第２８３０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図２９は、オーディオ及び／またはスピーチ信号符号化方法についての第７実施例を示すフローチャートである。

まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする（第２９００段階）。第２９００段階で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、第２９００段階では抽出したパラメータを量子化する。

第２９００段階でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する（第２９１０段階）。

第２９１０段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第２９２０段階）。第２９２０段階では、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

例えば、第２９２０段階では、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。

第２９２０段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する（第２９３０段階）。このような第２９３０段階は、前述した図２２及び２３に例示された通りに実施しうる。

第２９１０段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する（第２９４０段階）。

第２９００段階で量子化されたパラメータ、第２９３０段階で符号化した結果及び第２９４０段階で符号化した結果を多重化することによって、ビットストリームを生成する。ここで、第２９３０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図３０は、オーディオ及び／またはスピーチ信号符号化方法についての第８実施例を示すフローチャートである。

まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする（第３０００段階）。第３０００段階で抽出するパラメータは符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、第３０００段階では、抽出したパラメータを量子化する。

第３０００段階でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する（第３０１０段階）。

第３０１０段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する（第３０２０段階）。第３０２０段階では、低周波数バンド信号を第１変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第１変換方式以外の第２変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第１変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第２変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。

例えば、第３０２０段階では、低周波数バンド信号を第１変換方式に該当するＭＤＣＴにより周波数ドメインに変換して実数部として表現し、第２変換方式に該当するＭＤＳＴにより周波数ドメインに変換して虚数部として表現しうる。ここで、ＭＤＣＴにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、ＭＤＳＴにより変換されて虚数部として表現された信号は低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してＤＦＴを行った後、ＭＤＣＴの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第３０２０段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する（第３０３０段階）。言い換えれば、第３０３０段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第３０３０段階では、各サブバンドに対して第３０３０段階で決定されたドメインを示す識別子を量子化する。

第３０３０段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第３０２０段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する低周波数バンド信号のみ利用する方法、第３０２０段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する低周波数バンド信号とをいずれも利用する方法がある。

もし、第３０３０段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する（第３０４０段階）。ここで、第３０４０段階は、前述した図２２及び２３に図示された例によって実施できる。

もし、第３０３０段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第１変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する（第３０５０段階）。例えば、第３０５０段階は第１変換方式に対する逆変換方式に該当するＩＭＤＣＴにより逆変換する。

第３０２０段階及び第３０５０段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてＦＶ−ＭＬＴがある。
第３０５０段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する（第３０６０段階）。

所定の場合、第３０３０段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の１つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。

第３０１０段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する（第３０７０段階）。

第３０００段階で量子化されたパラメータ、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第３０４０段階で符号化した結果、第３０６０段階で符号化した結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含んで多重化することによってビットストリームを生成する（第３０８０段階）。第３０８０段階で符号化した結果は、図２２の実施例に記述された第２２１０段階で重要スペクトル成分を量子化した結果及び第２２２０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図３の実施例に記述された第２３００段階で符号化された結果、第２３２０段階で重要スペクトル成分を量子化した結果及び第２３３０段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。

図３１は、オーディオ及び／またはスピーチ信号復号化方法についての第１実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３１００段階）。第３１００段階で逆多重化した結果には、符号化端によって周波数ドメインで符号化された結果として重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。

第３１００段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を復号化する（第３１１０段階）。さらに詳細には、第３１１０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３１１０段階は、図３２及び図３３に例示された通りに実施しうる。

第１に、図３２は、図３１に示されたオーディオ及び／またはスピーチ信号復号化方法の第３１１０段階の一実施例を示すフローチャートである。

まず、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分が逆多重化された結果を逆量子化する（第３２００段階）。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。

第３２００段階で逆量子化した重要スペクトル成分を除いた残余スペクトル成分のノイズレベルが逆多重化された結果を復号化する（第３２１０段階）。また、第３２１０段階では、復号化されたノイズレベルを第３２００段階で復号化された重要スペクトル成分に合成する。

第２に、図３３は、図３１に示されたオーディオ及び／またはスピーチ信号復号化方法の第３１１０段階の他の一実施例を示すフローチャートである。

まず、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分が逆多重化された結果を逆量子化する（第３３００段階）。

第３３００段階で逆量子化された重要スペクトル成分を除いた残余スペクトル成分のノイズレベルが逆多重化された結果を復号化する（第３３１０段階）。また、第３３１０段階では、復号化されたノイズレベルを第３３００段階で復号化された重要スペクトル成分に合成する。

第３３１０段階後に、符号化端で音声ツールにより符号化された結果が逆多重化された結果を復号化する（第３３２０段階）。また、第３３２０段階では、第３３２０段階で復号化された結果を第３３１０段階で合成された結果に合成する。

第３１１０段階で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する（第３１２０段階）。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。例えば、第３１２０段階では、図３２で第３２００段階で合成された信号をＩＭＤＣＴにより周波数ドメインから時間ドメインに逆変換し、図３３で第３３２０段階で合成された信号をＩＭＤＣＴにより周波数ドメインから時間ドメインに逆変換する。

図３４は、オーディオ及び／またはスピーチ信号復号化方法についての第２実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３４００段階）。第３４００段階逆多重化した結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。

第３４００段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する（第３４１０段階）。

もし、第３４１０段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを周波数ドメインで復号化する（第３４２０段階）。さらに詳細には、第３４２０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３４２０段階は、図３２及び図３３に例示された通りに実施しうる。

もし、第３４１０段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを時間ドメインで復号化する（第３４３０段階）。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドに対して時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。

第３４３０段階で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する（第３４４０段階）。例えば、第２変換方式にはＭＤＣＴがある。

第３４２０段階で復号化されたサブバンドの信号と第３４４０段階で変換されたサブバンドの信号とを合成して、第２逆変換方式により周波数ドメインから時間ドメインに逆変換する（第３４５０段階）。このような第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

第３４４０段階及び第３４５０段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴがある。

図３５は、オーディオ及び／またはスピーチ信号復号化方法についての第３実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３５００段階）。第３５００段階で逆多重化された結果には、符号化端によって周波数ドメインで符号化された結果及びモノ信号をステレオ信号にアップミキシングするためのパラメータを含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。

第３５００段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を周波数ドメインで復号化する（第３５１０段階）。さらに詳細には、第３５１０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３５１０段階は図３２及び図３３に例示された通りに実施しうる。

第３５１０段階で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する（第３５２０段階）。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。

第３５２０段階で逆変換されたモノ信号をステレオ信号でアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする（第３５３０段階）。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。

図３６は、オーディオ及び／またはスピーチ信号復号化方法についての第４実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３６００段階）。第３６００段階逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。

第３６００段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する（第３６１０段階）。

もし、第３６１０段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを周波数ドメインで復号化する（第３６２０段階）。さらに詳細には、第３６２０段階では各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３４２０段階は、図３２及び図３３に例示された通りに実施しうる。

もし、第３６１０段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを時間ドメインで復号化する（第３６３０段階）。

第３６３０段階で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する（第３６４０段階）。例えば、第２変換方式にはＭＤＣＴがある。

第３６２０段階で復号化されたサブバンドの信号と第３６４０段階で変換されたサブバンドの信号とを合成して、第２逆変換方式により周波数ドメインから時間ドメインに逆変換する（第３６５０段階）。このような第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

第３６４０段階及び第３６５０段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴがある。

第３６５０段階で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする（第３６６０段階）。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。

図３７は、オーディオ及び／またはスピーチ信号復号化方法についての第５実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３７００段階）。第３７００段階で逆多重化されたデータには、符号化端によって周波数ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。

第３７００段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を周波数ドメインで復号化する（第３７１０段階）。さらに詳細には、第３７１０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３７１０段階は、図３２及び図３３に例示された通りに実施しうる。

第３７１０段階で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する（第３７２０段階）。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。

第３７２０段階で逆変換された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する（第３７３０段階）。

第３７２０段階で逆変換された低周波数バンド信号と第３７３０段階で生成された高周波数バンド信号とを合成する（第３７４０段階）。

図３８は、オーディオ及び／またはスピーチ信号復号化方法についての第６実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３８００段階）。第３８００段階で逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。

第３８００段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する（第３８１０段階）。

もし、第３８１０段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを周波数ドメインで復号化する（第３８２０段階）。さらに詳細には、第３８２０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３８２０段階は図３２及び図３３に例示された通りに実施しうる。

もし、第３８１０段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを時間ドメインで復号化する（第３８３０段階）。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドを時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。

第３８３０段階で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する（第３８４０段階）。例えば、第２変換方式にはＭＤＣＴがある。

第３８２０段階で復号化されたサブバンドの信号と第３８４０段階で変換されたサブバンドの信号とを合成して、第２逆変換方式により周波数ドメインから時間ドメインに逆変換する（第３８５０段階）。このような第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

第３８４０段階及び第３８５０段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴがある。

第３８００段階で逆多重化された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する（第３８６０段階）。

第３８５０段階で逆変換された低周波数バンド信号と第３８６０段階で復号化された高周波数バンド信号とを合成する（第３８７０段階）。

図３９は、オーディオ及び／またはスピーチ信号復号化方法についての第７実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第３９００段階）。第３９００段階で逆多重化された結果には、符号化端によって周波数ドメインで符号化された結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報、ステレオでアップミキシングできるパラメータなどがある。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。

第３９００段階で逆多重化された結果を周波数ドメインで復号化する（第３９１０段階）。さらに詳細には、第３９１０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第３９１０段階は、図３２及び図３３に例示された通りに実施しうる。

第３９１０段階で復号化された結果を周波数ドメインから時間ドメインに第２逆変換方式により逆変換する（第３９２０段階）。ここで、第２逆変換方式は、前述した第２変換方式に対する逆変換過程を適用したものであって、例えば、ＩＭＤＣＴがある。

第３９００段階で逆多重化された高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する（第３９３０段階）。

第３９２０段階で逆変換された低周波数バンド信号と第３９３０段階で生成された高周波数バンド信号とを合成する（第３９４０段階）。

第３９４０段階で合成されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする（第３９５０段階）。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。

図４０は、オーディオ及び／またはスピーチ信号復号化方法についての第８実施例を示すフローチャートである。

まず、符号化端から伝送されたビットストリームを入力されて逆多重化する（第４０００段階）。第４０００段階で逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。

第４０００段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する（第４０１０段階）。

もし、第４０１０段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを周波数ドメインで復号化する（第４０２０段階）。さらに詳細には、第４０２０段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第４０２０段階は、図３２及び図３３に例示された通りに実施しうる。
もし、第４０１０段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する１つ以上のサブバンドを時間ドメインで復号化する（第４０３０段階）。

所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合、該当するサブバンドを時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。

第４０３０段階で復号化された信号を第２変換方式により時間ドメインから周波数ドメインに変換する（第４０４０段階）。例えば、第２変換方式にはＭＤＣＴがある。

第４０２０段階で復号化されたサブバンドの信号と第４０４０段階で変換されたサブバンドの信号とを合成して第２逆変換方式により周波数ドメインから時間ドメインに逆変換する（第４０５０段階）。このような第２逆変換方式は、前述した第２変換方式を逆変換する過程を行うものであって、例えば、ＩＭＤＣＴがある。

第４０４０段階及び第４０５０段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてＦＶ−ＭＬＴがある。

第４０００段階で逆多重化された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する（第４０６０段階）。

第４０５０段階で逆変換された低周波数バンド信号と第４０６０段階で生成された高周波数バンド信号とを合成する（第４０７０段階）。

第４０７０段階で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする（第４０８０段階）。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。

実施例は、コンピュータで読取り可能な記録媒体にコンピュータ（情報処理機能を有する装置とをいずれも含む）で読取り可能なコードとして具現することができる。コンピュータで読取り可能な記録媒体はコンピュ−タシステムで読取り可能なデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読取り可能な記録装置の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ保存装置などがある。

オーディオ及び／またはスピーチ信号符号化及び復号化方法及び装置の実施例によれば、スピーチ信号、オーディオ信号及びスピーチ信号とオーディオ信号が混合された信号をいずれも効率的に符号化／復号化しうる。また、符号化及び復号化を行うに当たって、少ないビットを使用しても、音質をさらに向上させうる効果を奏しうる。

理解を助けるために図示された実施例を参考にして説明したが、これは例示的なものに過ぎず、当業者ならば、これより多様な変形及び均等な他実施例が可能であるという点を理解できるである。したがって、実施例の真の技術的保護範囲は、特許請求の範囲により決まるべきである。

Claims

オーディオデータの符号化されたドメインが第１ドメインであるか第２ドメインであるかを判断する段階と、
符号化されたオーディオデータを前記判断されたドメインで復号化する段階と、
互いに異なるドメインで復号された前記オーディオデータを、帯域幅を拡張するために、１つのドメインで表現されるように処理する段階と、
前記１つのドメインで表現されるように処理されたオーディオデータを用いて高周波数帯域信号を生成する段階と、
前記１つのドメインで表現されるように処理されたオーディオデータと前記生成された高周波数帯域信号を含むモノ信号を、前記モノ信号をステレオ信号にアップミキシングするためのパラメータを用いてアップミキシングする段階と、を含むことを特徴とする信号復号化方法。
前記第１ドメインと前記第２ドメインは相異なることを特徴とする請求項１に記載の信号復号化方法。
前記第１ドメインと前記第２ドメインのうち一つは周波数ドメインであることを特徴とする請求項１に記載の信号復号化方法。
前記オーディオデータは低周波数帯域信号を含むことを特徴とする請求項１に記載の信号復号化方法。
オーディオデータの符号化されたドメインが第１ドメインであるか第２ドメインであるかを判断するモード判断部と、
符号化されたオーディオデータを前記判断されたドメインで復号化する復号化部と、
互いに異なるドメインで復号された前記オーディオデータを、帯域幅を拡張するために、１つのドメインで表現されるように処理するドメイン逆変換部と、
前記１つのドメインで表現されるように処理されたオーディオデータを用いて高周波数帯域信号を生成する高周波数バンド復号化部と、
前記１つのドメインで表現されるように処理されたオーディオデータと前記生成された高周波数帯域信号を含むモノ信号を、前記モノ信号をステレオ信号にアップミキシングするためのパラメータを用いてアップミキシングするステレオ復号化部と、を備え、
前記判断されたドメインが前記第１ドメインであり、前記第１ドメインが周波数ドメインである場合には、ノイズレベルを追加で復号化することを特徴とする信号復号化装置。
前記第１ドメインと前記第２ドメインは相異なることを特徴とする請求項５に記載の信号復号化装置。
前記オーディオデータは低周波数帯域信号を含むことを特徴とする請求項５に記載の信号復号化装置。