以下、添付した図面を参照して実施例によるオーディオ及び/またはスピーチ信号符号化及び復号化方法及び装置について詳細に説明する。
図1は、オーディオ及び/またはスピーチ信号符号化装置の第1実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、第1ドメイン変換部100、周波数ドメイン符号化部110及び多重化部120を含んでなる。
第1ドメイン変換部100は、入力端子INを通じて入力された入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部100は、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部100は、入力信号を第1変換方式に該当するMDCT(Modified Discrete Cosine Transform)により周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDST(Modified Discrete Sine Transform)により周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は実数部と共に入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFT(Discrete Fourier Transform)を行った後、MDCTの係数を量子化することで発生するミスマッチ(miss match)を解決しうる。
周波数ドメイン符号化部110は、第1ドメイン変換部100で第1変換方式により変換された信号の各サブバンドから重要スペクトル成分(Important Spectral Component)を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部110は、図2及び図3に示された例と同様に実施しうる。
第1に、図2は、周波数ドメイン符号化部110の一実施例を示すブロック図であって、図1及び図2を参照すれば、周波数ドメイン符号化部110は、心理音響モデル適用部200、重要周波数成分(important spectral component)選択部210、量子化部220、ノイズ処理部230を備えてなる。
心理音響モデル適用部200は、人間の聴覚特性による知覚的な重複性を除去するために、入力信号に対して心理音響モデルを適用する。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
心理音響モデル適用部200は、人間の聴覚特性を利用した心理音響モデルを適用して、入力信号から感度の低い細部情報を省略あるいは排除し、周波数別に感度の程度を意味するSMR値を割当てる。心理音響モデル適用部200は、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
重要周波数成分選択部210は、入力端子IN1を通じて入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する。重要周波数成分選択部210で重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
量子化部220は、心理音響モデル適用部200で割当てられたSMR値で重要周波数成分選択部210から選択された重要スペクトル成分を量子化して出力端子OUT1を通じて出力する。
ノイズ処理部230は、入力端子IN1を通じて入力される周波数ドメインで表現された信号から、重要周波数成分選択部210で選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルを計算して量子化する。ここで、ノイズ処理部230は、量子化された結果を出力端子OUT2を通じて出力する。
第2に、図3は、周波数ドメイン符号化部110の他の一実施例を示すブロック図であって、図1及び図3を参照すれば、周波数ドメイン符号化部110は、音声ツール符号化部300、心理音響モデル適用部310、重要周波数成分選択部320、量子化部330及びノイズ処理部340を含んでなる。
音声ツール符号化部300は、臨界値を有するアタックが強い信号と判別される信号に対して短いトランスフォームの長さでさらに細密に符号化し、その結果を出力端子OUT3に出力する。ここで、信号は、第1変換方法により変換される信号でありうる。
心理音響モデル適用部310は、人間の聴覚特性による知覚的な重複性を除去あるいは排除するために、入力信号に対して心理音響モデルを適用する。また、心理音響モデル適用部310は、入力端子IN2を通じて入力される周波数ドメインで表現された信号の各サブバンドに対して割当てられるビットを計算する。
心理音響モデル適用部310は、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するSMR値を異ならせて割当てる。心理音響モデル適用部200は、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
重要周波数成分選択部320は、入力端子IN2を通じて入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する。重要周波数成分選択部320で重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
量子化部330は、心理音響モデル適用部310で割当てられたSMR値で重要周波数成分選択部320から選択された重要スペクトル成分を量子化して出力端子OUT4を通じて出力する。
ノイズ処理部340は、入力端子IN2を通じて入力される周波数ドメインで表現された信号から、重要周波数成分選択部320で選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルをサブバンド別に計算して量子化する。ここで、ノイズ処理部340は、量子化された結果を出力端子OUT5を通じて出力する。
ここで、ノイズレベルは線形予測(linear prediction)分析を行って計算しうる。このような線形予測分析は、自己相関法(autocorrelation method)を利用して行い、共分散法(covariance method)、ダービンの方法(Durbin’s method)を利用しうる。線形予測を通じて符号化器で、現在フレームにノイズ成分がどの位あるかを予測する。もし、ノイズ成分が強い場合、ノイズレベルをそのまま伝送し、ノイズ成分が少なく、トーン成分が強い場合には、相対的にノイズレベルを減らして伝送する。また、小さなウィンドウである場合には、ノイズが急変する場合であるために、追加的にノイズレベルを減らして伝送する。
多重化部120は、周波数ドメイン符号化部110で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部110で符号化した結果は、図2の実施例に記述された出力端子OU1の量子化部220で重要スペクトル成分を量子化した結果及び出力端子OUT2のノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された出力端子OUT3の音声ツール符号化部300で符号化された結果、出力端子OUT4の量子化部330で重要スペクトル成分を量子化した結果及び出力端子OUT5のノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図4は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ドメイン変換部400、モード決定部410、時間ドメイン符号化部420、周波数ドメイン符号化部430及び多重化部440を含んでなる。
ドメイン変換部400は、入力端子IN4を通じて入力された入力信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部400は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度(temporal resolution)を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性(flexible)変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLT(Frequency Varying Modulated Lapped Transform)がある。
このようなドメイン変換部400は、第1ドメイン変換部403及び第2ドメイン変換部406を含んでなる。
第1ドメイン変換部403は、入力端子IN4を通じて入力された入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部403は、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部403は、入力信号を第1変換方式に該当するMDCT(Modified Discrete Cosine Transform)により周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDST(Modified Discrete Sine Transform)により周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFT(Discrete Fourier Transform)を行った後、MDCTの係数を量子化することで発生するミスマッチ(missmatch)を解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2ドメイン逆変換部406は、第1ドメイン変換部403で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部406は、第1変換方式に対する逆変換方式に該当するIMDCT(Inverse Modified Discrete Cosine Transform)により逆変換する。
モード決定部410は、第1ドメイン変換部403で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部410は、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部410は、各サブバンドに対してモード決定部410で決定されたドメインを示す識別子を量子化して多重化部440に出力する。
ここで、モード決定部410が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部403から入力される周波数ドメインに該当する信号のみ利用する方法、入力端子IN4を通じて入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部403から入力される周波数ドメインに該当する信号と入力端子IN4を通じて入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
モード決定部410で、周波数ドメインでの符号化が適しないと判断されたサブバンドを、第2ドメイン逆変換部406は、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。
時間ドメイン符号化部420は、第2ドメイン逆変換部406で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合、モード決定部410で、周波数ドメインでの符号化が適しないと判断されたサブバンドも、時間ドメイン符号化部420で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部430でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部440に出力する。
周波数ドメイン符号化部430は、モード決定部410で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部430は、前述した図2及び図3に図示された例によって実施できる。
多重化部440は、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部420で符号化した結果及び周波数ドメイン符号化部430で符号化した結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部430で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果、及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図5は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部500、第1ドメイン変換部510、周波数ドメイン符号化部520及び多重化部530を含んでなる。
ステレオ符号化部500は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシング(downmixing)する。ステレオ符号化部500で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシング(upmixing)するのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度(correlation)または干渉度(coherence)などがある。ここで、ステレオ符号化部500は、抽出したパラメータを量子化して多重化部530に出力する。
第1ドメイン変換部510は、ステレオ符号化部500でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部510は、ステレオ符号化部500でダウンミキシングされた信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部510は、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
周波数ドメイン符号化部520は、第1ドメイン変換部510から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部520は、前述した図2及び図3に例示された通りに実施しうる。
多重化部530は、ステレオ符号化部500で量子化されたパラメータ及び周波数ドメイン符号化部520で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部520で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図6は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部600、ドメイン変換部610、モード決定部620、時間ドメイン符号化部630、周波数ドメイン符号化部640及び多重化部650を含んでなる。
ステレオ符号化部600は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部600で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ符号化部600は、抽出したパラメータを量子化して多重化部530に出力する。
ドメイン変換部610は、ステレオ符号化部600でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部610は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLT(Frequency Varying Modulated Lapped Transform)がある。
このようなドメイン変換部610は、第1ドメイン変換部613及び第2ドメイン逆変換部616を含んでなる。
第1ドメイン変換部613は、ステレオ符号化部600でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部613は、ステレオ符号化部600でダウンミキシングされた信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、ダウンミキシングされた信号の符号化に利用され、第2変換方式により変換された信号は、ダウンミキシングされた信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部613は、ダウンミキシングされた信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、ダウンミキシングされた信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、ダウンミキシングされた信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2ドメイン逆変換部616は、第1ドメイン変換部613で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部616は、第1変換方式に対する逆変換方式に該当するIMDCT(Inverse Modified Discrete Cosine Transform)により逆変換する。
モード決定部620は、第1ドメイン変換部613で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部620は、各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部620は、各サブバンドに対してモード決定部620で決定されたドメインを示す識別子を量子化して多重化部650に出力する。
ここで、モード決定部620が所定のサブバンドに対して、周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部613から入力される周波数ドメインに該当する信号のみ利用する方法、ステレオ符号化部600から入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部613から入力される周波数ドメインに該当する信号及びステレオ符号化部600から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
第2ドメイン逆変換部616は、モード決定部620で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部616は、IMDCTを適用して所定のサブバンドを時間ドメインに逆変換する。
時間ドメイン符号化部630は、第2ドメイン逆変換部616で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合モード決定部620で、周波数ドメインでの符号化が適しないと判断されたサブバンドも、時間ドメイン符号化部630で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部640でも、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部650に出力する。
周波数ドメイン符号化部640は、モード決定部620で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部640は、前述した図2及び図3に図示された例によって実施できる。
多重化部650は、ステレオ符号化部600で量子化されたパラメータ各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部630で符号化した結果及び周波数ドメイン符号化部640で符号化した結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部630で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図7は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、バンド分割部700、第1ドメイン変換部710、周波数ドメイン符号化部720、高周波数バンド符号化部730及び多重化部740を含んでなる。
バンド分割部700は、入力端子INを通じて入力された入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
第1ドメイン変換部710は、バンド分割部700で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部710は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部710は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
周波数ドメイン符号化部720は、第1ドメイン変換部710から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部720は、前述した図2及び図3に例示された通りに実施しうる。
高周波数バンド符号化部730は、低周波数バンド信号を利用してバンド分割部700で分割された高周波数バンド信号を符号化する。
多重化部740は、周波数ドメイン符号化部720で符号化した結果及び高周波数バンド符号化部730で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部720で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図8は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、バンド分割部800、ドメイン変換部810、モード決定部820、時間ドメイン符号化部830、周波数ドメイン符号化部840、高周波数バンド符号化部850及び多重化部860を含んでなる。
バンド分割部800は、入力端子INを通じて入力された入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
ドメイン変換部810は、バンド分割部800で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部810は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLTがある。
このようなドメイン変換部810は、第1ドメイン変換部813及び第2ドメイン逆変換部816を含んでなる。
第1ドメイン変換部813は、バンド分割部800で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部813は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも、低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。
例えば、第1ドメイン変換部813は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2ドメイン逆変換部816は、第1ドメイン変換部813で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部816は、第1変換方式に対する逆変換方式に該当するIMDCTにより周波数ドメインから時間ドメインに逆変換する。
モード決定部820は、第1ドメイン変換部813で周波数ドメインに変換された低周波数バンド信号の各サブバンドに対して周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部820は、各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部820は、各サブバンドに対してモード決定部820で決定されたドメインを示す識別子を量子化して多重化部860に出力する。
ここで、モード決定部820が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部813から入力される周波数ドメインに該当する信号のみ利用する方法、バンド分割部800から入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部813から入力される周波数ドメインに該当する信号及びバンド分割部800から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
第2ドメイン逆変換部816は、モード決定部820で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部816は、IMDCTを適用して所定のサブバンドを周波数ドメインから時間ドメインに逆変換する。
時間ドメイン符号化部830は、第2ドメイン逆変換部816で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合モード決定部820で、周波数ドメインでの符号化が適しないと判断されたサブバンドも時間ドメイン符号化部830で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部840でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部860に出力する。
周波数ドメイン符号化部840は、モード決定部820で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部840は、前述した図2及び図3に示された例によって実施できる。
高周波数バンド符号化部850は、低周波数バンド信号を利用してバンド分割部800で分割された高周波数バンド信号を符号化する。
多重化部860は、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部830で符号化した結果、周波数ドメイン符号化部840で符号化した結果及び高周波数バンド符号化部850で符号化された結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部840で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図9は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部900、バンド分割部910、第1ドメイン変換部920、周波数ドメイン符号化部930、高周波数バンド符号化部940及び多重化部950を含んでなる。
ステレオ符号化部900は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部900で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ステレオ符号化部900は、抽出したパラメータを量子化して多重化部950に出力する。
バンド分割部910は、ステレオ符号化部900でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
第1ドメイン変換部920は、バンド分割部910で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部920は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部920は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
周波数ドメイン符号化部930は、第1ドメイン変換部920から入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する。このような周波数ドメイン符号化部930は、前述した図2及び図3に例示された通りに実施しうる。
高周波数バンド符号化部940は、低周波数バンド信号を利用してバンド分割部910で分割された高周波数バンド信号を符号化する。
多重化部950は、ステレオ符号化部900で量子化されたパラメータ、周波数ドメイン符号化部930で符号化した結果及び高周波数バンド符号化部940で符号化した結果を多重化してビットストリームを生成し、出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部990で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図10は、オーディオ及び/またはスピーチ信号符号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号符号化装置は、ステレオ符号化部1000、バンド分割部1010、ドメイン変換部1020、モード決定部1030、時間ドメイン符号化部1040、周波数ドメイン符号化部1050、高周波数バンド符号化部1060及び多重化部1070を含んでなる。
ステレオ符号化部1000は、入力端子INを通じて入力された入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする。ステレオ符号化部1000で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ステレオ符号化部1000は、抽出したパラメータを量子化して多重化部1070に出力する。
バンド分割部1010は、ステレオ符号化部1000でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する。
ドメイン変換部1020は、バンド分割部1010で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換してサブバンド別に分割し、所定のサブバンドに対して時間ドメインに逆変換する。
ここで、ドメイン変換部1020は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性 変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLTがある。
このようなドメイン変換部1020は、第1ドメイン変換部1023及び第2ドメイン逆変換部1026を含んでなる。
第1ドメイン変換部1023は、バンド分割部1010で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する。ここで、第1ドメイン変換部1023は、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第1ドメイン変換部1023は、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2ドメイン逆変換部1026は、第1ドメイン変換部1023で周波数ドメインに変換された所定のサブバンドを、第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部1026は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
モード決定部1030は、第1ドメイン変換部1023で周波数ドメインに変換された低周波数バンド信号の各サブバンドに対して周波数ドメインでの符号化の適否を判断する。言い換えれば、モード決定部1030は、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、モード決定部1030は、各サブバンドに対してモード決定部1030で決定されたドメインを示す識別子を量子化して多重化部1070に出力する。
ここで、モード決定部1030が所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第1ドメイン変換部1023から入力される周波数ドメインに該当する信号のみ利用する方法、バンド分割部1010から入力される時間ドメインに該当する信号のみ利用する方法、第1ドメイン変換部1023から入力される周波数ドメインに該当する信号とバンド分割部1010から入力される時間ドメインに該当する信号とをいずれも利用する方法がある。
第2ドメイン逆変換部1026は、モード決定部1030で、周波数ドメインでの符号化が適しないと判断されたサブバンドを第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する。例えば、第2ドメイン逆変換部1026は、IMDCTを適用して所定のサブバンドを逆変換する。
時間ドメイン符号化部1040は、第2ドメイン逆変換部1026で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する。
所定の場合モード決定部1030で、周波数ドメインでの符号化が適しないと判断されたサブバンドも時間ドメイン符号化部1040で該当するサブバンドの信号を時間ドメインで符号化すると同時に、周波数ドメイン符号化部1050でも同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化して多重化部1070に出力する。
周波数ドメイン符号化部1050は、モード決定部1030で、周波数ドメインでの符号化が適すると判断されたサブバンドを、周波数ドメインで符号化する。ここで、周波数ドメイン符号化部1050は、前述した図2及び図3に図示された例によって実施できる。
高周波数バンド符号化部1060は、低周波数バンド信号を利用してバンド分割部1010で分割された高周波数バンド信号を符号化する。
多重化部1070は、ステレオ符号化部1000で量子化されたパラメータ、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、時間ドメイン符号化部1040で符号化した結果、周波数ドメイン符号化部1050で符号化した結果及び高周波数バンド符号化部1060で符号化された結果を含んで多重化することによって、ビットストリームを生成して出力端子OUTを通じて出力する。ここで、周波数ドメイン符号化部1050で符号化した結果は、図2の実施例に記述された量子化部220で重要スペクトル成分を量子化した結果及びノイズ処理部230で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された音声ツール符号化部300で符号化された結果、量子化部330で重要スペクトル成分を量子化した結果及びノイズ処理部340で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図11は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は逆多重化部1100、周波数ドメイン復号化部1110及び第2ドメイン逆変換部1120を含んでなる。
逆多重化部1100は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1100が出力するデータには、符号化端によって周波数ドメインで符号化された結果として重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
周波数ドメイン復号化部1110は逆多重化部1100から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1110は各サブバンドから選択された重要スペクトル成分を復号化して、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1110は、図12及び図13に例示された通りに実施しうる。
第1に、図12は、図11に示されたオーディオ及び/またはスピーチ信号復号化装置の周波数ドメイン復号化部1110の一実施例を示すブロック図であって、周波数ドメイン復号化部1110は、逆量子化部1200及びノイズ復号化部1210を含んでなる。
逆量子化部1200は、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分を入力端子IN1を通じて逆多重化された結果を入力されて逆量子化する。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
ノイズ復号化部1210は、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを入力端子IN2を通じて逆多重化された結果を入力されて復号化する。また、ノイズ復号化部1210は、復号化されたノイズレベルを逆量子化部1200で逆量子化された重要スペクトル成分に合成する。ここで、ノイズ復号化部1210は、合成された結果を出力端子OUT1を通じて出力する。
第2に、図13は、図11に示されたオーディオ及び/またはスピーチ信号復号化装置の周波数ドメイン復号化部1110の他の実施例を示すブロック図であって、周波数ドメイン復号化部1110は、逆量子化部1300、ノイズ復号化部1310及び音声ツール復号化部1320を含んでなる。
逆量子化部1300は、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分を入力端子IN3を通じて逆多重化された結果を入力されて逆量子化する。
ノイズ復号化部1310は、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを入力端子IN4を通じて逆多重化された結果を入力されて復号化する。また、ノイズ復号化部1310は、復号化されたノイズレベルを逆量子化部1200で逆量子化された重要スペクトル成分に合成する。
音声ツール復号化部1320は、符号化端で音声ツールにより符号化された結果を入力端子IN5を通じて逆多重化された結果を入力されて復号化する。また、音声ツール復号化部1320は、音声ツール復号化部1320で復号化された結果をノイズ復号化部1310で合成された結果に合成する。ここで、音声ツール復号化部1320は、合成された結果を出力端子OUT2を通じて出力する。
図11を参照すれば、第2ドメイン逆変換部1120は、周波数ドメイン復号化部1110で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCT(Inverse Modified Discrete Cosine Transform)がある。また、第2ドメイン逆変換部1120は、逆変換された結果を出力端子OUTを通じて出力する。例えば、第2ドメイン逆変換部1120は、図12の出力端子OUT1で、ノイズ復号化部1210で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換し、図13の出力端子OUT2で、音声ツール復号化部1320で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換する。
図14は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1400、モード判断部1410、周波数ドメイン復号化部1420、時間ドメイン復号化部1430及びドメイン変換部1440を含んでなる。
逆多重化部1400は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1400が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
モード判断部1410は、逆多重化部1400から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部1420は、モード判断部1410で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部1420は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1420は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部1430は、モード判断部1410によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。周波数ドメイン復号化部1420は、周波数ドメインで該当サブバンドの符号化結果を復号化し、時間ドメイン復号化部1430では、時間ドメインで符号化された結果を復号化する。
ドメイン変換部1440は、時間ドメイン復号化部1430で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部1420で復号化された信号及び時間ドメイン復号化部1430から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部1440は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLT(Frequency Varying Modulated Lapped Transform)がある。
ドメイン変換部1440は、第2ドメイン変換部1443及び第2ドメイン逆変換部1446を含んでなる。
第2ドメイン変換部1443は、時間ドメイン復号化部1430で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。例えば、第2変換方式にはMDCTがある。
第2ドメイン逆変換部1446は、周波数ドメイン復号化部1420で復号化されたサブバンドの信号と第2ドメイン変換部1443で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCT(Inverse Modified Discrete Cosine Transform)がある。ここで、第2ドメイン逆変換部1446は、逆変換された結果を出力端子OUTを通じて出力する。
図15は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1500、周波数ドメイン復号化部1510、第2ドメイン逆変換部1520及びステレオ復号化部1530を含んでなる。
逆多重化部1500は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1500が逆多重化して出力するデータには符号化端によって周波数ドメインで符号化された結果及びステレオ信号にアップミキシングするためのパラメータを含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
周波数ドメイン復号化部1510は、逆多重化部1100から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1510は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1510は、図12及び図13に例示された通りに実施しうる。
第2ドメイン逆変換部1520は、周波数ドメイン復号化部1510で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
ステレオ復号化部1530は、第2ドメイン逆変換部1520で逆変換されたモノ信号をステレオ信号にアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部1530は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図16は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1600、モード判断部1610、周波数ドメイン復号化部1620、時間ドメイン復号化部1630、ドメイン変換部1640及びステレオ復号化部1650を含んでなる。
逆多重化部1600は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1600が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及びモノ信号をステレオ信号にアップミキシングするためのパラメータなどがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれることもある。
モード判断部1610は、逆多重化部1600から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部1620は、モード判断部1610で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部1620は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1620は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部1630は、モード判断部1610によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを時間ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。該当するサブバンドを周波数ドメイン復号化部1620では、周波数ドメインで符号化された結果を復号化し、時間ドメイン復号化部1630では、時間ドメインで符号化された結果を復号化する。
ドメイン変換部1640は、時間ドメイン復号化部1630で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部1420で復号化された信号及び時間ドメイン復号化部1430から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部1640は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
ドメイン変換部1640は、第2ドメイン変換部1643及び第2ドメイン逆変換部1646を含んでなる。
第2ドメイン変換部1643は、時間ドメイン復号化部1630で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。例えば、第2変換方式には、MDCTがある。
第2ドメイン逆変換部1646は、周波数ドメイン復号化部1620で復号化されたサブバンドの信号と第2ドメイン変換部1643で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
ステレオ復号化部1650は、第2ドメイン逆変換部1646で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、ステレオ復号化部1650は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図17は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は逆多重化部1700、周波数ドメイン復号化部1710、高周波数バンド復号化部1720、第2ドメイン逆変換部1730及びバンド合成部1740を含んでなる。
逆多重化部1700は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1700が逆多重化して出力するデータには、符号化端によって周波数ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
周波数ドメイン復号化部1710は、逆多重化部1700から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1710は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1710は、図12及び図13に例示された通りに実施しうる。
第2ドメイン逆変換部1730は、周波数ドメイン復号化部1710で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
高周波数バンド復号化部1720は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部1700から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部1740は、第2ドメイン逆変換部1730で逆変換された低周波数バンド信号と高周波数バンド復号化部1720で生成された高周波数バンド信号とを合成する。ここで、バンド合成部1740は、合成された信号を出力端子OUTを通じて出力する。
図18は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は逆多重化部1800、モード判断部1810、周波数ドメイン復号化部1820、時間ドメイン復号化部1830、ドメイン変換部1840、高周波数バンド復号化部1850及びバンド合成部1860を含んでなる。
逆多重化部1800は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1800が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報などがある。
ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
モード判断部1810は、逆多重化部1800から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部1820は、モード判断部1810で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部1820は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1820は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部1830は、モード判断部1810によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを時間ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。該当するサブバンドを周波数ドメイン復号化部1820では周波数ドメインで符号化された結果を復号化し、時間ドメイン復号化部1830では時間ドメインで符号化された結果を復号化する。
ドメイン逆変換部1840は、時間ドメイン復号化部1830で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部1820で復号化された信号及び時間ドメイン復号化部1830から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部1840は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLT(Frequency Varying Modulated LappedTransform)がある。
ドメイン変換部1840は、第2ドメイン変換部1843及び第2ドメイン逆変換部1846を含んでなる。
第2ドメイン変換部1843は、時間ドメイン復号化部1830で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。第2変換方式にはMDCTがある。
第2ドメイン逆変換部1846は、周波数ドメイン復号化部1620で復号化されたサブバンドの信号と第2ドメイン変換部1843で変換されたサブバンドの信号とを合成して第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
高周波数バンド復号化部1850は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部1800から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部1860は、第2ドメイン逆変換部1846で逆変換された低周波数バンド信号と高周波数バンド復号化部1850で生成された高周波数バンド信号とを合成する。ここで、バンド合成部1860は、合成された信号を出力端子OUTを通じて出力する。
図19は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部1900、周波数ドメイン復号化部1910、第2ドメイン逆変換部1920、高周波数バンド復号化部1930、バンド合成部1940及びステレオ復号化部1950を含んでなる。
逆多重化部1900は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部1900が逆多重化して出力するデータには符号化端によって周波数ドメインで符号化された結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報、ステレオでアップミキシングできるパラメータなどがある。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
周波数ドメイン復号化部1910は、逆多重化部1900から出力される符号化端によって周波数ドメインで符号化された結果を復号化する。さらに詳細には、周波数ドメイン復号化部1910は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1910は、図12及び図13に例示された通りに実施しうる。
第2ドメイン逆変換部1920は、周波数ドメイン復号化部1910で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
高周波数バンド復号化部1930は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部1900から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部1940は、第2ドメイン逆変換部1920で逆変換された低周波数バンド信号と高周波数バンド復号化部1930で生成された高周波数バンド信号とを合成する。
ステレオ復号化部1950は、バンド合成部1940で提供されるモノ信号を、逆多重化部1900から出力されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用して、ステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部1950は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図20は、オーディオ及び/またはスピーチ信号復号化装置の一実施例を示すブロック図であって、前記オーディオ及び/またはスピーチ信号復号化装置は、逆多重化部2000、モード判断部2010、周波数ドメイン復号化部2020、時間ドメイン復号化部2030、ドメイン逆変換部2040、高周波数バンド復号化部2050、バンド合成部2060及びステレオ復号化部2070を含んでなる。
逆多重化部2000は、入力端子INを通じて符号化端から伝送されたビットストリームを入力されて逆多重化する。ここで、逆多重化部2000が逆多重化して出力するデータには、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果、所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
モード判断部2010は、逆多重化部2000から出力された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する。
周波数ドメイン復号化部2020は、モード判断部2010で周波数ドメインで符号化されたと判断された1つ以上のサブバンドを周波数ドメインで復号化する。さらに詳細には、周波数ドメイン復号化部2020は、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような周波数ドメイン復号化部1820は、図12及び図13に例示された通りに実施しうる。
時間ドメイン復号化部2030は、モード判断部2010によって時間ドメインで符号化されたと判断された1つ以上のサブバンドを時間ドメインで復号化する。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。周波数ドメイン復号化部2020では、周波数ドメインで該当サブバンドの符号化結果を復号化し、時間ドメイン復号化部2030では、時間ドメインで該当サブバンドの符号化結果を復号化する。
ドメイン逆変換部2040は、時間ドメイン復号化部2030で復号化された信号を時間ドメインから周波数ドメインに変換し、周波数ドメイン復号化部2020で復号化された信号及び時間ドメイン復号化部2030から出力された信号を周波数ドメインに変換された信号を合成して周波数ドメインから時間ドメインに変換する。
ここで、ドメイン変換部2040は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
このようなドメイン変換部2040は、第2ドメイン変換部2043及び第2ドメイン逆変換部2046を含んでなる。
第2ドメイン変換部2043は、時間ドメイン復号化部2030で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する。例えば、第2変換方式にはMDCTがある。
第2ドメイン逆変換部2046は、周波数ドメイン復号化部2020で復号化されたサブバンドの信号と第2ドメイン変換部2043で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する。ここで、第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
高周波数バンド復号化部2050は、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を逆多重化部2000から入力され、低周波数バンド信号を利用して高周波数バンド信号を生成する。
バンド合成部2060は、第2ドメイン逆変換部2046で逆変換された低周波数バンド信号と高周波数バンド復号化部2050で生成された高周波数バンド信号とを合成する。
ステレオ復号化部2070は、バンド合成部2060で提供されるモノ信号を逆多重化部2000から出力されたモノ信号をステレオ信号でアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、ステレオ復号化部2070は、アップミキシングされたステレオ信号を出力端子OUTを通じて出力する。
図21は、オーディオ及び/またはスピーチ信号符号化方法についての第1実施例を示すフローチャートである。
まず、入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2100段階)。第2100段階では、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第2100段階は、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2100段階で、第1変換方式により変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2110段階)。このような第2110段階は、図22及び23に例示された通りに実施しうる。
第1に、図22は、図21に示されたオーディオ及び/またはスピーチ信号符号化方法の第2110段階の一実施例を示すフローチャートである。
まず、人間の聴覚特性による知覚的な重複性を除去するために、心理音響モデルを適用する(第2200段階)。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2200段階では、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するSMR値を割当てる。第2200段階では、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
第2200段階後に、入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する(第2205段階)。第2205段階で、重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は、別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
第2200段階で割当てられたSMR値で第2205段階から選択された重要スペクトル成分を量子化する(第2210段階)。
第2210段階後に、周波数ドメインで表現された信号から、第2205段階から選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルを計算して量子化する(第2220段階)。
図23は、図21に示されたオーディオ及び/またはスピーチ信号符号化方法の第2110段階の他の実施例を示すフローチャートである。
まず、アタックが強い信号と判別される信号に対して短いトランスフォームの長さでさらに細密に符号化する(第2300段階)。
第2300段階後に、人間の聴覚特性による知覚的な重複性を除去するために、心理音響モデルを適用する(第2305段階)。
第2305段階では、人間の聴覚特性を利用した心理音響モデルを適用して感度の低い細部情報を省略し、周波数別に感度の程度を意味するSMR値を異ならせて割当てる。第2305段階では、第2変換方式に変換された信号を利用して心理音響モデルを適用し、第2変換方式の例としてMDSTがある。
第2305段階後に、入力される周波数ドメインで表現された信号の各サブバンドから重要スペクトル成分を選択する(第2310段階)。第2310段階で重要スペクトル成分を選択する方法として次のような方法がある。第1に、SMR値を計算してマスキング閾値より大きい信号を重要スペクトル成分として選択する。第2に、所定の加重値を考慮してスペクトルピークを抽出して重要スペクトル成分を選択する。第3に、各サブバンド別にSNR値を計算してSNR値の低いサブバンドのうち、所定大きさ以上のピーク値を有する周波数成分を重要スペクトル成分として選択する。前記3つの方法は、別途に実施してもよく、少なくとも1つ以上の方法を組合わせて実施しても良い。
第2305段階で割当てられたSMR値で第2310段階から選択された重要スペクトル成分を量子化する(第2320段階)。
第2320段階後に、入力される周波数ドメインで表現された信号から、第2310段階から選択された重要スペクトル成分を除いた残余スペクトル成分を抽出し、残余スペクトル成分のノイズレベルをサブバンド別に計算して量子化する(第2330段階)。
ここで、ノイズレベルは線形予測分析を行って計算できる。このような線形予測分析は、自己相関法(autocorrelation method)を利用して行い、共分散法(covariance method)、ダービンの方法(Durbin’s method)などを利用しうる。線形予測を通じて符号化器で現在フレームにノイズ成分がどの位あるかを予測する。もし、ノイズ成分が強い場合、ノイズレベルをそのまま伝送し、もし、ノイズ成分は少なく、トーン成分が強い場合には、相対的にノイズレベルを減らして伝送する。また、小さなウィンドウである場合には、ノイズが急変する場合であるために、追加的にノイズレベルを減らして伝送する。
次いで、図21を参照すれば、第2110段階で符号化した結果を多重化してビットストリームを生成する(第2120段階)。第2110段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図24は、オーディオ及び/またはスピーチ信号符号化方法についての第2実施例を示すフローチャートである。
まず、入力信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2400段階)。第2400段階では、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第2400段階では、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2400段階で、周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第2410段階)。言い換えれば、第2410段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第2410段階では、各サブバンドに対して第2410段階で決定されたドメインを示す識別子を量子化する。
第2410段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第2400段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する入力信号のみ利用する方法、第2400段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する入力信号とをいずれも利用する方法がある。
もし、第2410段階で、周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第2420段階)。ここで、第2420段階では、前述した図22及び23に示された例によって実施できる。
もし、第2410段階で、周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第2430段階)。例えば、第2430段階は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第2400段階及び第2430段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性ある変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例として、FV−MLTがある。
第2430段階で、時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第2440段階)。
所定の場合、第2410段階で、周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第2420段階または第2440段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第2440段階で符号化した結果及び第2420段階で符号化した結果を含んで多重化することによって、ビットストリームを生成する。第2420段階で、符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図25は、オーディオ及び/またはスピーチ信号符号化方法についての第3実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第2500段階)。第2500段階で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。第2500段階では、抽出したパラメータを量子化する。
第2500段階でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2510段階)。第2510段階では、第2500段階でダウンミキシングされた信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第2510段階では、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2510段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2520段階)。このような第2520段階では、前述した図22及び23に例示された通りに実施しうる。
第2500段階で量子化されたパラメータ及び第2520段階で符号化した結果を多重化してビットストリームを生成する(第2530段階)。第2520段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図26は、オーディオ及び/またはスピーチ信号符号化方法についての第4実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第2600段階)。第2600段階で抽出するパラメータは符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。ここで、第2600段階では抽出したパラメータを量子化する。
第2600段階でダウンミキシングされた信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2610段階)。第2610段階では、入力信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも入力信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、入力信号の符号化に利用され、第2変換方式により変換された信号は、入力信号に対して心理音響モデルを適用するのに利用される。
例えば、第2610段階では、入力信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、入力信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、入力信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2610段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第2620段階)。言い換えれば、第2620段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第2620段階では、各サブバンドに対して第2620段階で決定されたドメインを示す識別子を量子化する。
第2620段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第2610段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する第2600段階でダウンミキシングされた信号のみ利用する方法、第2610段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する第2600段階でダウンミキシングされた信号とをいずれも利用する方法がある。
もし、第2620段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第2630段階)。ここで、第2630段階では、前述した図22及び23に示された例によって実施できる。
もし、第2620段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第2640段階)。例えば、第2640段階は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第2610段階及び第2640段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性ある変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLTがある。
第2640段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第2650段階)。
所定の場合、第2620段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第2630段階または第2650段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第2600段階で量子化一パラメータ、第2630段階で符号化した結果及び第2650段階で符号化した結果を含んで多重化することによって、ビットストリームを生成する。第2630段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図27は、オーディオ及び/またはスピーチ信号符号化方法についての第5実施例を示すフローチャートである。
まず、入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第2700段階)。
第2700段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2710段階)。第2710段階では低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第2710段階では、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2710段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2720段階)。このような第2720段階は、前述した図2及び図3に例示された通りに実施しうる。
第2700段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第2730段階)。
第2720段階で符号化した結果、第2730段階で符号化した結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を多重化してビットストリームを生成する(第2740段階)。ここで、第2720段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図28は、オーディオ及び/またはスピーチ信号符号化方法についての第6実施例を示すフローチャートである。
まず、入力信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第2800段階)。
第2800段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2810段階)。第2810段階では、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。
例えば、第2810段階では、低周波数バンド信号を、第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第2810段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第2820段階)。言い換えれば、第2820段階では既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第2820段階では、各サブバンドに対して第2820段階で決定されたドメインを示す識別子を量子化する。
第2820段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第2810段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する低周波数バンド信号のみ利用する方法、第2810段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する低周波数バンド信号とをいずれも利用する方法がある。
もし、第2820段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第2830段階)。ここで、第2830段階は、前述した図22及び23に図示された例によって実施できる。
もし、第2820段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第2840段階)。例えば、第2840段階は、第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第2810段階及び第2840段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLTがある。
第2840段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第2850段階)。
所定の場合、第2820段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第2800段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第2860段階)。
第2830段階または第2850段階後に、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第2830段階で符号化した結果、第2850段階で符号化した結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含んで多重化することによって、ビットストリームを生成する(第2870段階)。第2830段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図29は、オーディオ及び/またはスピーチ信号符号化方法についての第7実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第2900段階)。第2900段階で抽出するパラメータは、符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、第2900段階では抽出したパラメータを量子化する。
第2900段階でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第2910段階)。
第2910段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第2920段階)。第2920段階では、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために、第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
例えば、第2920段階では、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。
第2920段階で周波数ドメインに変換された信号の各サブバンドから重要スペクトル成分を選択して量子化し、重要スペクトル成分を除いた残余スペクトル成分を抽出することによって、残余スペクトル成分のノイズレベルを計算して量子化する(第2930段階)。このような第2930段階は、前述した図22及び23に例示された通りに実施しうる。
第2910段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第2940段階)。
第2900段階で量子化されたパラメータ、第2930段階で符号化した結果及び第2940段階で符号化した結果を多重化することによって、ビットストリームを生成する。ここで、第2930段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図30は、オーディオ及び/またはスピーチ信号符号化方法についての第8実施例を示すフローチャートである。
まず、入力信号がステレオ信号に該当する場合、入力信号を分析してパラメータを抽出し、ダウンミキシングする(第3000段階)。第3000段階で抽出するパラメータは符号化端で伝送したモノ信号を復号化端でステレオ信号にアップミキシングするのに必要な情報を意味する。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。また、第3000段階では、抽出したパラメータを量子化する。
第3000段階でダウンミキシングされた信号を所定の周波数を基準に低周波数バンド信号と高周波数バンド信号とに分割する(第3010段階)。
第3010段階で分割された低周波数バンド信号を時間ドメインから周波数ドメインに変換し、サブバンド別に分割する(第3020段階)。第3020段階では、低周波数バンド信号を第1変換方式で時間ドメインから周波数ドメインに変換し、心理音響モデルを適用するために第1変換方式以外の第2変換方式でも低周波数バンド信号を時間ドメインから周波数ドメインに変換する。第1変換方式により変換された信号は、低周波数バンド信号の符号化に利用され、第2変換方式により変換された信号は、低周波数バンド信号に対して心理音響モデルを適用するのに利用される。
例えば、第3020段階では、低周波数バンド信号を第1変換方式に該当するMDCTにより周波数ドメインに変換して実数部として表現し、第2変換方式に該当するMDSTにより周波数ドメインに変換して虚数部として表現しうる。ここで、MDCTにより変換されて実数部として表現された信号は、低周波数バンド信号の符号化に用いられ、MDSTにより変換されて虚数部として表現された信号は低周波数バンド信号に対して心理音響モデルを適用するのに利用される。これにより、信号の位相情報をさらに表現できるために、時間ドメインに該当する信号に対してDFTを行った後、MDCTの係数を量子化することで発生するミスマッチを解決しうる。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第3020段階で周波数ドメインに変換された信号の各サブバンドに対して、周波数ドメインでの符号化の適否を判断する(第3030段階)。言い換えれば、第3030段階では、既定の基準によって各サブバンドに対して、周波数ドメインで符号化するか、時間ドメインで符号化するかを決定する。また、第3030段階では、各サブバンドに対して第3030段階で決定されたドメインを示す識別子を量子化する。
第3030段階で、所定のサブバンドに対して周波数ドメインでの符号化の適否を判断するに当たって、第3020段階で変換された周波数ドメインに該当する信号のみ利用する方法、時間ドメインに該当する低周波数バンド信号のみ利用する方法、第3020段階で変換された周波数ドメインに該当する信号と時間ドメインに該当する低周波数バンド信号とをいずれも利用する方法がある。
もし、第3030段階で周波数ドメインでの符号化が適したサブバンドであると判断されれば、該当するサブバンドを周波数ドメインで符号化する(第3040段階)。ここで、第3040段階は、前述した図22及び23に図示された例によって実施できる。
もし、第3030段階で周波数ドメインでの符号化が適したサブバンドではないと判断されれば、該当するサブバンドに対して第1変換方式に対する逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3050段階)。例えば、第3050段階は第1変換方式に対する逆変換方式に該当するIMDCTにより逆変換する。
第3020段階及び第3050段階は、時間ドメインで表現された信号を入力されて時間ドメイン及び周波数ドメインで同時に表現できるあらゆる変換方式で具現しうる。さらに詳細には、時間ドメインで表現された信号を周波数ドメインに変換した後、バンド別に適切に時間解像度を調節し、所定のサブバンドに対して周波数ドメインで表現できる適応性変換方式である。さらに、虚数表現を通じて心理音響モジュールを適用するための信号も生成する。このような変換方式の一例としてFV−MLTがある。
第3050段階で時間ドメインに逆変換されたサブバンドの信号を時間ドメインで符号化する(第3060段階)。
所定の場合、第3030段階で周波数ドメインでの符号化が適したサブバンドではないと判断されても、該当するサブバンドの信号を時間ドメインで符号化すると同時に、同じサブバンドの信号を周波数ドメインで符号化することもできる。これにより、所定の1つ以上のサブバンドは、時間ドメインのみならず、周波数ドメインでも符号化される。この場合、所定サブバンドの信号が時間ドメイン及び周波数ドメインの両方で符号化されたという識別子を量子化する。
第3010段階で分割された高周波数バンド信号を低周波数バンド信号を利用して符号化する(第3070段階)。
第3000段階で量子化されたパラメータ、各サブバンドが符号化されたドメインを示す識別子を量子化した結果、第3040段階で符号化した結果、第3060段階で符号化した結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含んで多重化することによってビットストリームを生成する(第3080段階)。第3080段階で符号化した結果は、図22の実施例に記述された第2210段階で重要スペクトル成分を量子化した結果及び第2220段階で残余スペクトル成分のノイズレベルを量子化した結果を意味し、図3の実施例に記述された第2300段階で符号化された結果、第2320段階で重要スペクトル成分を量子化した結果及び第2330段階で残余スペクトル成分のノイズレベルを量子化した結果を意味する。
図31は、オーディオ及び/またはスピーチ信号復号化方法についての第1実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3100段階)。第3100段階で逆多重化した結果には、符号化端によって周波数ドメインで符号化された結果として重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
第3100段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を復号化する(第3110段階)。さらに詳細には、第3110段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3110段階は、図32及び図33に例示された通りに実施しうる。
第1に、図32は、図31に示されたオーディオ及び/またはスピーチ信号復号化方法の第3110段階の一実施例を示すフローチャートである。
まず、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分が逆多重化された結果を逆量子化する(第3200段階)。ここで、心理音響モデルは、人間聴覚システムの遮蔽作用に対する数学的モデルをいう。
第3200段階で逆量子化した重要スペクトル成分を除いた残余スペクトル成分のノイズレベルが逆多重化された結果を復号化する(第3210段階)。また、第3210段階では、復号化されたノイズレベルを第3200段階で復号化された重要スペクトル成分に合成する。
第2に、図33は、図31に示されたオーディオ及び/またはスピーチ信号復号化方法の第3110段階の他の一実施例を示すフローチャートである。
まず、人間の聴覚特性による知覚的な重複性を除去する心理音響モデルを適用してそれぞれ異なって割当てられたビットで符号化された重要スペクトル成分が逆多重化された結果を逆量子化する(第3300段階)。
第3300段階で逆量子化された重要スペクトル成分を除いた残余スペクトル成分のノイズレベルが逆多重化された結果を復号化する(第3310段階)。また、第3310段階では、復号化されたノイズレベルを第3300段階で復号化された重要スペクトル成分に合成する。
第3310段階後に、符号化端で音声ツールにより符号化された結果が逆多重化された結果を復号化する(第3320段階)。また、第3320段階では、第3320段階で復号化された結果を第3310段階で合成された結果に合成する。
第3110段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3120段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。例えば、第3120段階では、図32で第3200段階で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換し、図33で第3320段階で合成された信号をIMDCTにより周波数ドメインから時間ドメインに逆変換する。
図34は、オーディオ及び/またはスピーチ信号復号化方法についての第2実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3400段階)。第3400段階逆多重化した結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3400段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第3410段階)。
もし、第3410段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第3420段階)。さらに詳細には、第3420段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3420段階は、図32及び図33に例示された通りに実施しうる。
もし、第3410段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第3430段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドに対して時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第3430段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第3440段階)。例えば、第2変換方式にはMDCTがある。
第3420段階で復号化されたサブバンドの信号と第3440段階で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3450段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第3440段階及び第3450段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
図35は、オーディオ及び/またはスピーチ信号復号化方法についての第3実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3500段階)。第3500段階で逆多重化された結果には、符号化端によって周波数ドメインで符号化された結果及びモノ信号をステレオ信号にアップミキシングするためのパラメータを含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果が含まれるもある。
第3500段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を周波数ドメインで復号化する(第3510段階)。さらに詳細には、第3510段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3510段階は図32及び図33に例示された通りに実施しうる。
第3510段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3520段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
第3520段階で逆変換されたモノ信号をステレオ信号でアップミックスするためのパラメータを利用してステレオ信号にアップミキシングする(第3530段階)。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
図36は、オーディオ及び/またはスピーチ信号復号化方法についての第4実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3600段階)。第3600段階逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3600段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第3610段階)。
もし、第3610段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第3620段階)。さらに詳細には、第3620段階では各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3420段階は、図32及び図33に例示された通りに実施しうる。
もし、第3610段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第3630段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドに対して時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第3630段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第3640段階)。例えば、第2変換方式にはMDCTがある。
第3620段階で復号化されたサブバンドの信号と第3640段階で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3650段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第3640段階及び第3650段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
第3650段階で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする(第3660段階)。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
図37は、オーディオ及び/またはスピーチ信号復号化方法についての第5実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3700段階)。第3700段階で逆多重化されたデータには、符号化端によって周波数ドメインで符号化された結果及び低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報を含む。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3700段階で逆多重化された符号化端によって周波数ドメインで符号化された結果を周波数ドメインで復号化する(第3710段階)。さらに詳細には、第3710段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3710段階は、図32及び図33に例示された通りに実施しうる。
第3710段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3720段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
第3720段階で逆変換された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第3730段階)。
第3720段階で逆変換された低周波数バンド信号と第3730段階で生成された高周波数バンド信号とを合成する(第3740段階)。
図38は、オーディオ及び/またはスピーチ信号復号化方法についての第6実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3800段階)。第3800段階で逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3800段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第3810段階)。
もし、第3810段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第3820段階)。さらに詳細には、第3820段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3820段階は図32及び図33に例示された通りに実施しうる。
もし、第3810段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第3830段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも、周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合該当するサブバンドを時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第3830段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第3840段階)。例えば、第2変換方式にはMDCTがある。
第3820段階で復号化されたサブバンドの信号と第3840段階で変換されたサブバンドの信号とを合成して、第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第3850段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第3840段階及び第3850段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
第3800段階で逆多重化された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第3860段階)。
第3850段階で逆変換された低周波数バンド信号と第3860段階で復号化された高周波数バンド信号とを合成する(第3870段階)。
図39は、オーディオ及び/またはスピーチ信号復号化方法についての第7実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第3900段階)。第3900段階で逆多重化された結果には、符号化端によって周波数ドメインで符号化された結果、低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報、ステレオでアップミキシングできるパラメータなどがある。ここで、符号化端によって周波数ドメインで符号化された結果には、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第3900段階で逆多重化された結果を周波数ドメインで復号化する(第3910段階)。さらに詳細には、第3910段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第3910段階は、図32及び図33に例示された通りに実施しうる。
第3910段階で復号化された結果を周波数ドメインから時間ドメインに第2逆変換方式により逆変換する(第3920段階)。ここで、第2逆変換方式は、前述した第2変換方式に対する逆変換過程を適用したものであって、例えば、IMDCTがある。
第3900段階で逆多重化された高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第3930段階)。
第3920段階で逆変換された低周波数バンド信号と第3930段階で生成された高周波数バンド信号とを合成する(第3940段階)。
第3940段階で合成されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする(第3950段階)。このようなパラメータの例として二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
図40は、オーディオ及び/またはスピーチ信号復号化方法についての第8実施例を示すフローチャートである。
まず、符号化端から伝送されたビットストリームを入力されて逆多重化する(第4000段階)。第4000段階で逆多重化された結果には、各サブバンドが符号化されたドメインの情報、所定のサブバンドに対して符号化端によって周波数ドメインで符号化された結果及び所定のサブバンドに対して符号化端によって時間ドメインで符号化された結果などがある。
ここで、符号化端によって周波数ドメインで符号化された結果は、重要スペクトル成分を量子化した結果及び残余スペクトル成分のノイズレベルを量子化した結果などがある。さらに、音声ツールによって符号化された結果を含むこともできる。
第4000段階で逆多重化された各サブバンドが符号化されたドメインの情報を読出して各サブバンドに対して周波数ドメインで符号化されたか、時間ドメインで符号化されたかを判断する(第4010段階)。
もし、第4010段階で周波数ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを周波数ドメインで復号化する(第4020段階)。さらに詳細には、第4020段階では、各サブバンドから選択された重要スペクトル成分を復号化し、重要スペクトル成分を除いた残余スペクトル成分のノイズレベルを復号化する。このような第4020段階は、図32及び図33に例示された通りに実施しうる。
もし、第4010段階によって時間ドメインで符号化されたサブバンドであると判断されれば、該当する1つ以上のサブバンドを時間ドメインで復号化する(第4030段階)。
所定の場合、符号化端で特定のサブバンドに対して時間ドメインで符号化すると決定された場合にも周波数ドメインと時間ドメインとの両方で該当するサブバンドを符号化する場合がある。かかる場合、該当するサブバンドを時間ドメインで符号化された結果を復号化し、周波数ドメインでも符号化された結果を復号化する。
第4030段階で復号化された信号を第2変換方式により時間ドメインから周波数ドメインに変換する(第4040段階)。例えば、第2変換方式にはMDCTがある。
第4020段階で復号化されたサブバンドの信号と第4040段階で変換されたサブバンドの信号とを合成して第2逆変換方式により周波数ドメインから時間ドメインに逆変換する(第4050段階)。このような第2逆変換方式は、前述した第2変換方式を逆変換する過程を行うものであって、例えば、IMDCTがある。
第4040段階及び第4050段階は、所定のバンド単位で分割されて時間ドメインまたは周波数ドメインで表現された信号を入力されて時間ドメインに変換できるあらゆる変換方式で具現しうる。このような変換方式の一例としてFV−MLTがある。
第4000段階で逆多重化された低周波数バンド信号を利用して高周波数バンド信号を復号化できる情報によって低周波数バンド信号を利用して高周波数バンド信号を復号化する(第4060段階)。
第4050段階で逆変換された低周波数バンド信号と第4060段階で生成された高周波数バンド信号とを合成する(第4070段階)。
第4070段階で逆変換されたモノ信号をステレオ信号にアップミキシングするためのパラメータを利用してステレオ信号にアップミキシングする(第4080段階)。このようなパラメータの例として、二チャンネル間エネルギーの差、二チャンネルの相関度または干渉度などがある。
実施例は、コンピュータで読取り可能な記録媒体にコンピュータ(情報処理機能を有する装置とをいずれも含む)で読取り可能なコードとして具現することができる。コンピュータで読取り可能な記録媒体はコンピュ−タシステムで読取り可能なデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読取り可能な記録装置の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ保存装置などがある。
オーディオ及び/またはスピーチ信号符号化及び復号化方法及び装置の実施例によれば、スピーチ信号、オーディオ信号及びスピーチ信号とオーディオ信号が混合された信号をいずれも効率的に符号化/復号化しうる。また、符号化及び復号化を行うに当たって、少ないビットを使用しても、音質をさらに向上させうる効果を奏しうる。
理解を助けるために図示された実施例を参考にして説明したが、これは例示的なものに過ぎず、当業者ならば、これより多様な変形及び均等な他実施例が可能であるという点を理解できるである。したがって、実施例の真の技術的保護範囲は、特許請求の範囲により決まるべきである。