JP6573887B2

JP6573887B2 - オーディオ信号の符号化方法、復号方法及びその装置

Info

Publication number: JP6573887B2
Application number: JP2016540509A
Authority: JP
Inventors: リ，ナム−スク; キム，ヒョン−ウク
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-12-16
Filing date: 2014-11-25
Publication date: 2019-09-11
Anticipated expiration: 2034-11-25
Also published as: EP3069337A4; WO2015093742A1; TWI555010B; CN106030704B; EP3069337B1; US10186273B2; KR102251833B1; US20170018280A1; EP3069337A1; JP2017504054A; TW201539432A; CN106030704A; KR20150069919A

Description

本発明は、オーディオ信号を符号化または復号する方法、及びその装置に係り、さらに詳細には、ピッチフィルタを利用してオーディオ信号を符号化または復号する方法、及びその装置に係わる。

オーディオ信号の符号化にあたり、短い遅延時間（latency time）を確保するためには、符号化の基本単位であるフレームの長さが短くなければならず、高い音質を確保するためには、十分な周波数分解能が必要であるために、フレーム長が長くなければならない。従って、短い遅延時間と高い音質は、同時に満足させ難い。

一般的なオーディオ符号化システムにおいて、使用しようとするアプリケーション（application）により、フレーム長を短くすることにより、遅延率を低下させ、音質の劣化を甘受する方法が利用されもする。または、完璧な復元（perfect reconstruction）を断念する特別な形態のウィンドウ（window）関数を使用する方法が利用されもする。特に、短い遅延時間が要求されるアプリケーションの場合、短いフレーム長によって周波数分解能が低下し、音質劣化が発生してしまう。

ピッチフィルタ（pitch filter）は、短い遅延時間のために、短いウィンドウを利用するオーディオ符号化システムにおいて、周期的な音楽信号及び音声信号に対して目立って発生する符号化歪曲（coding distortion）を低減させるために使用される。

本発明の一実施形態は、オーディオ信号の符号化時及び復号時に発生するエラーを減少させることにより、復元されたオーディオ信号の音質を高めることができるオーディオ信号の符号化方法及びその装置、並びに復号方法及びその装置を提供する。

本発明の一実施形態によるオーディオ符号化方法は、オーディオ信号からピッチを検出する段階と、前記検出されたピッチを考慮してフィルタ係数を決定する段階と、前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第２フィルタリングを行う段階と、前記第２フィルタリングされたオーディオ信号を符号化する段階と、を含む。

本発明の一実施形態によるオーディオ符号化方法において、前記オーディオ信号を第１フィルタリングする段階をさらに含み、前記ピッチを検出する段階は、前記第１フィルタリングされたオーディオ信号からピッチを検出する段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記第１フィルタリングする段階は、前記オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングするプリエンファシス（pre-emphasis）を行う段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記ピッチを検出する段階は、前記第２フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含む、前記ピッチに係わる情報を、前記オーディオ信号から獲得する段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記第２フィルタリングする段階は、前記オーディオ信号に対してコムフィルタリング（comb filtering）を行う段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記ピッチを検出する段階は、前記オーディオ信号から前記ピッチに係わる情報を獲得する段階を含み、前記符号化する段階は、前記第２フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力する段階を含み、前記ピッチに係わる情報は、前記第２フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記ビットストリームを生成して出力する段階は、前記ピッチに係わる情報を前記ビットストリームの補助領域（auxiliary area）内に含む前記ビットストリームを生成して出力する段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記ピッチを検出する段階は、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得する段階を含み、前記符号化する段階は、前記ピッチに係わる情報を１フレーム遅延させる段階と、前記第２フィルタリングされたオーディオ信号、及び前記遅延されたピッチに係わる情報を含むビットストリームを生成して出力する段階と、を含み、前記ピッチに係わる情報は、前記第２フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

一方、本発明の一実施形態によるオーディオ復号方法は、符号化された信号を受信する段階と、前記受信された信号を復号する段階と、前記復号された信号をフィルタリングする段階と、を含み、前記符号化された信号は、オーディオ信号からピッチを検出し、前記検出されたピッチを考慮し、前記オーディオ信号を第２フィルタリングし、前記第２フィルタリングされたオーディオ信号を符号化することによって生成され、前記復号された信号をフィルタリングする段階は、前記第２フィルタリングの逆フィルタリングを行う段階を含む。

本発明の一実施形態によるオーディオ復号方法において、前記符号化された信号は、前記オーディオ信号を第１フィルタリングし、前記第１フィルタリングされたオーディオ信号からピッチを検出することによって生成されるものでもある。

本発明の一実施形態によるオーディオ復号方法において、前記符号化された信号を受信する段階は、前記第１フィルタリングされたオーディオ信号から獲得されたピッチに係わる情報をさらに含む前記符号化された信号を受信する段階を含み、前記復号された信号をフィルタリングする段階は、前記符号化された信号から、前記ピッチに係わる情報を抽出する段階と、前記ピッチに係わる情報に基づいて、前記復号された信号をフィルタリングするためのフィルタ係数を決定する段階と、を含んでもよい。

一方、本発明の一実施形態によるオーディオ符号化装置は、オーディオ信号からピッチを検出するピッチ検出部と、前記検出されたピッチを考慮してフィルタ係数を決定し、前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第２フィルタリングを行う第２フィルタと、前記第２フィルタリングされたオーディオ信号を符号化する符号化部と、を含む。

本発明の一実施形態によるオーディオ符号化装置において、前記オーディオ信号を第１フィルタリングする第１フィルタをさらに含み、前記ピッチ検出部は、前記第１フィルタリングされたオーディオ信号からピッチを検出することができる。

本発明の一実施形態によるオーディオ符号化装置において、前記第１フィルタは、前記オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングするプリエンファシス（pre-emphasis）を行うことができる。

本発明の一実施形態によるオーディオ符号化装置において、前記ピッチ検出部は、前記第２フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含む前記ピッチに係わる情報を、前記オーディオ信号から獲得することができる。

本発明の一実施形態によるオーディオ符号化装置において、前記第２フィルタは、前記オーディオ信号に対してコムフィルタリングを行うことを特徴とする。

本発明の一実施形態によるオーディオ符号化装置において、前記ピッチ検出部は、前記オーディオ信号から前記ピッチに係わる情報を獲得し、前記符号化部は、前記第２フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力し、前記ピッチに係わる情報は、前記第２フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

本発明の一実施形態によるオーディオ符号化装置において、前記符号化部は、前記ピッチに係わる情報を前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力することができる。

本発明の一実施形態によるオーディオ符号化装置において、前記ピッチ検出部は、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得し、前記符号化部は、前記ピッチに係わる情報を１フレーム遅延させ、前記第２フィルタリングされたオーディオ信号、及び前記遅延されたピッチに係わる情報を含むビットストリームを生成して出力し、前記ピッチに係わる情報は、前記第２フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

一方、本発明の一実施形態によるオーディオ復号装置は、符号化された信号を受信し、前記受信された信号を復号する復号部と、前記復号された信号をフィルタリングするフィルタと、を含み、前記符号化された信号は、オーディオ信号からピッチを検出し、前記検出されたピッチを考慮し、前記オーディオ信号を第２フィルタリングし、前記第２フィルタリングされたオーディオ信号を符号化することによって生成され、前記フィルタは、前記第２フィルタリングの逆フィルタリングを行う。

本発明の一実施形態によるオーディオ復号装置において、前記符号化された信号は、前記オーディオ信号を第１フィルタリングし、前記第１フィルタリングされたオーディオ信号からピッチを検出することによって生成される。

本発明の一実施形態によるオーディオ復号装置において、前記復号部は、前記第１フィルタリングされたオーディオ信号から獲得されたピッチに係わる情報をさらに含む前記符号化された信号を受信する段階を含み、前記フィルタは、前記符号化された信号から、前記ピッチに係わる情報を抽出し、前記ピッチに係わる情報に基づいて、前記復号された信号をフィルタリングするためのフィルタ係数を決定することができる。

一方、本発明の一実施形態によるオーディオ符号化方法は、オーディオ信号から獲得されたピッチに係わる情報を利用して、前記オーディオ信号をプリフィルタリングする段階と、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して前記プリフィルタリングされたオーディオ信号に対してウィンドウイングを行う段階と、前記オーバーラップ区間を考慮し、前記ウィンドウイングが行われたオーディオ信号、及び前記ピッチに係わる情報を符号化することによって、ビットストリームを生成して出力する段階と、を含む。

本発明の一実施形態によるオーディオ符号化方法において、前記ビットストリームを生成して出力する段階は、前記オーバーラップ区間を考慮し、符号化遅延を決定する段階と、前記決定された符号化遅延によって、前記ピッチに係わる情報を遅延させて出力する段階と、を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記プリフィルタリングする段階は、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得する段階を含み、前記オーバーラップ区間の長さは、前記ウィンドウの５０％以上であり、前記ビットストリームを生成して出力する段階は、前記オーバーラップ区間を考慮し、前記ピッチに係わる情報を１フレーム遅延させて出力する段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記ビットストリームを生成して出力する段階は、前記ピッチに係わる情報が、前記ビットストリームの補助領域に含まれるように、前記ビットストリームを生成して出力する段階を含み、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグを含み、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つをさらに含み、前記ビットストリームを生成して出力する段階は、前記フラグを前記ビットストリームのヘッダ内に含み、前記ピッチ周期、前記ピッチゲイン及び前記ピッチタップのうち少なくとも一つを前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力する段階を含んでもよい。

本発明の一実施形態によるオーディオ符号化方法において、前記プリフィルタリングする段階は、前記オーディオ信号を第１フィルタリングする段階と、前記第１フィルタリングされたオーディオ信号から前記ピッチに係わる情報を獲得する段階と、前記ピッチに係わる情報を考慮してフィルタ係数を決定する段階と、前記決定されたフィルタ係数を利用して、前記オーディオ信号に対して第２フィルタリングを行うことができる。

一方、本発明の一実施形態によるオーディオ復号方法は、受信されたビットストリームから周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する段階と、前記周波数変換されたオーディオ信号を逆変換する段階と、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、前記逆変換されたオーディオ信号に対してウィンドウイングを行う段階と、前記ピッチに係わる情報を利用して、前記ウィンドウイングが行われたオーディオ信号をポストフィルタリングする段階と、を含み、前記ポストフィルタリングは、符号化過程で行われたプリフィルタリングに対応し、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮し、前記ビットストリームに含まれるように符号化されたことを特徴とする。

本発明の一実施形態によるオーディオ復号方法において、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮して決定された符号化遅延によって遅延されて出力されたものでもある。

本発明の一実施形態によるオーディオ復号方法において、前記周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する段階は、前記受信されたビットストリームの補助領域内に含まれた前記ピッチに係わる情報を獲得する段階を含み、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含むものでもある。

一方、本発明の一実施形態によるオーディオ符号化装置は、オーディオ信号から獲得されたピッチに係わる情報を利用して、前記オーディオ信号をプリフィルタリングするプリフィルタと、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、前記ピッチフィルタリングされたオーディオ信号に対してウィンドウイングを行い、前記オーバーラップ区間を考慮し、前記ウィンドウイングが行われたオーディオ信号、及び前記ピッチに係わる情報を符号化することにより、ビットストリームを生成して出力する符号化部を含む。

本発明の一実施形態によるオーディオ符号化装置において、前記符号化部は、前記オーバーラップ区間を考慮し、符号化遅延を決定し、前記決定された符号化遅延によって、前記ピッチに係わる情報を遅延させて出力することができる。

本発明の一実施形態によるオーディオ符号化装置において、前記プリフィルタは、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得し、前記オーバーラップ区間の長さは、前記ウィンドウの５０％以上であり、前記符号化部は、前記オーバーラップ区間を考慮し、前記ピッチに係わる情報を１フレーム遅延させて出力することができる。

本発明の一実施形態によるオーディオ符号化装置において、前記符号化部は、前記ピッチに係わる情報が前記ビットストリームの補助領域に含まれるように、前記ビットストリームを生成して出力し、前記ピッチに係わる情報は、前記プリフィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

本発明の一実施形態によるオーディオ符号化装置において、前記ピッチに係わる情報は、前記プリフィルタの適用いかんを示すフラグを含み、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つをさらに含み、前記符号化部は、前記フラグを前記ビットストリームのヘッダ内に含み、前記ピッチ周期、前記ピッチゲイン及び前記ピッチタップのうち少なくとも一つを前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力することができる。

本発明の一実施形態によるオーディオ符号化装置において、前記プリフィルタは、前記オーディオ信号を第１フィルタリングし、前記第１フィルタリングされたオーディオ信号から前記ピッチに係わる情報を獲得し、前記ピッチに係わる情報を考慮してフィルタ係数を決定し、前記決定されたフィルタ係数を利用して、前記オーディオ信号に対して第２フィルタリングを行うことができる。

一方、本発明の一実施形態によるオーディオ復号装置は、受信されたビットストリームから周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得し、前記周波数変換されたオーディオ信号を逆変換し、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、前記逆変換されたオーディオ信号に対してウィンドウイングを行う復号部と、前記ピッチに係わる情報を利用して、前記ウィンドウイングが行われたオーディオ信号をポストフィルタリングするポストフィルタと、を含み、前記ポストフィルタは、符号化過程で行われたプリフィルタリングに対応する前記ポストフィルタリングを行い、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮し、前記ビットストリームに含まれるように符号化されたことを特徴とする。

本発明の一実施形態によるオーディオ復号装置において、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮して決定された符号化遅延によって遅延されて出力されたものでもある。

本発明の一実施形態によるオーディオ復号装置において、前記復号部は、前記受信されたビットストリームの補助領域内に含まれた前記ピッチに係わる情報を獲得し、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

一方、本発明の一実施形態によるコンピュータで判読可能な記録媒体は、前述の方法を実行するためのプログラムを記録することができる。

一般的なオーディオコーデックシステムのブロック図である。ピッチプリフィルタリングを行う一般的なオーディオ符号化装置のブロック図である。ピッチポストフィルタリングを行う一般的なオーディオ復号装置のブロック図である。本発明の一実施形態の一例によるオーディオ符号化装置のブロック図である。本発明の一実施形態の一例によるオーディオ符号化装置のブロック図である。本発明の一実施形態によるオーディオ復号装置のブロック図である。本発明の一実施形態の他の例によるオーディオ符号化方法について説明するためのフローチャートである。本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。本発明の一実施形態によるオーディオ符号化装置のブロック図である。本発明の一実施形態によるオーディオ復号装置のブロック図である。本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。ＡＣ−３コーデックで利用されるビットストリームの構造について説明するための図面である。Ｅ−ＡＣ３コーデックで利用されるビットストリームの構造について説明するための図面である。心理音響モデルを利用する、本発明の一実施形態によるオーディオ符号化装置のブロック図を図示する図面である。

本発明の利点、特徴、及びそれらを達成する方法は、添付される図面と共に詳細に説明する実施形態を参照すれば、明確になるであろう。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態によって具現され、ただし、本実施形態は、本発明の開示を完全にさせ、本発明が属する技術分野で当業者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、特許請求の範疇によってのみ定義されるのである。明細書全体にわたって、同一参照符号は、同一構成要素を指す。

また、本発明において、次の用語は、次のような基準で解釈され、記載されていない用語でも、下記趣旨によって解釈される。

本実施形態で使用される「部」という用語は、ソフトウェア、ＦＰＧＡまたはＡＳＩＣのようなハードウェア構成要素を意味し、「部」は、ある役割を行う。しかし、「部」は、ソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングすることができる記録媒体にあるように構成されてもよいが、またはその以上のプロセッサを再生させるように構成されてもよい。従って、一例として「部」は、ソフトウェア構成要素、客体志向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素；並びにプロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数；を含む。構成要素及び「部」によって提供される機能は、さらに少数の構成要素及び「部」に結合されたり、追加的な構成要素及び「部」にさらに分離されたりする。

一方、本明細書において、「所定ウィンドウの大きさ」は、所定ウィンドウが適用された時間領域のフレームを時間・周波数変換したとき、周波数領域での係数の個数を意味する。

また、本明細書において、情報（information）は、値（value）、パラメータ（parameter）、係数（coefficients）、成分（elements）などをいずれも含む用語であり、場合によっては、意味は異なっても解釈されるが、本発明は、それに限定されるものではない。

一方、オーディオ信号（audio signal）とは、広義には、ビデオ信号と区分される概念であり、再生時、聴覚で識別することができる信号を意味する。オーディオ信号は、狭義には、音声（speech）信号と区分される概念であり、音声特性がないか、あるいは少ない信号を意味する。本発明でのオーディオ信号は、広義に解釈されなければならず、音声信号と区分されて使用されるとき、狭義のオーディオ信号と理解される。

一方、フレームとは、オーディオ信号を符号化または復号するためのデータ単位を称するものであり、特定サンプル数や特定時間に限定されるものではない。

ピッチフィルタリングとは、オーディオ信号から、ピッチという時間周期を探してフィルタリングすることによって、符号化効率を高める方法を意味する。

本発明の一実施形態によるオーディオ符号化／復号方法及びその装置は、オーディオ信号の周波数変換係数の符号化／復号装置及びその方法にもなり、さらには、該装置及び該方法が適用されたオーディオ信号処理装置及びその方法にもなる。

また、本明細書においては、説明の便宜上、１つのウィンドウに係わるオーディオ符号化／復号方法及びその装置の動作を記述した場合がある。しかし、本発明の一実施形態によるオーディオ符号化／復号方法及びその装置は、オーディオ信号が分割された複数のウィンドウごとに、本明細書に記述された動作を反復することができる。

以下、添付された図面を参照し、本発明について詳細に説明する。

図１は、一般的なオーディオコーデックシステムのブロック図である。図１に図示されているように、一般的なオーディオコーデックシステム３０は、オーディオ符号化装置１０及びオーディオ復号装置２０を含む。

オーディオ符号化装置１０は、入力オーディオ信号を受信し、入力オーディオ信号を符号化する。オーディオ符号化装置１０は、入力オーディオ信号を符号化することによって、圧縮されたオーディオビットストリームを生成する。オーディオ復号装置２０は、圧縮されたオーディオビットストリームを受信し、圧縮されたオーディオビットストリームを復号する。オーディオ復号装置２０は、圧縮されたオーディオビットストリームを復号することによって、出力オーディオ信号を生成する。

オーディオ符号化装置１０は、入力オーディオ信号をフレーム単位で処理することができる。例えば、各フレームは、２．５ｍｓないし４０ｍｓ範囲内のフレームサイズに対応するオーディオサンプルを含んでもよい。

オーディオ符号化装置１０の符号化部１５は、時間・ドメインオーディオ信号サンプルを、周波数・ドメイン変換係数に変換することができる。符号化部１５は、周波数・ドメイン変換係数を量子化し、符号化しまたは圧縮することができる。符号化部１５は、圧縮された周波数・ドメイン変換係数に対応するビットストリームを、オーディオ復号装置２０に伝送するか、あるいは記録媒体に保存し、追ってオーディオ復号装置２０に伝送することができる。

オーディオ復号装置２０の復号部２５は、圧縮されたオーディオビットストリームを復号することによって、量子化された変換係数を回復（recover）する。オーディオ復号装置２０は、量子化された変換係数を、時間・ドメインオーディオ信号サンプルにさらに変えるために、逆変換を適用することができる。オーディオ復号装置２０は、フレーム境界において、時間・ドメイン波形の不連続を滑らかにするために、オーバーラップアドオペレーション（overlap add operation）を行う。

オーディオ信号が周期的である場合、人間聴覚システムは、非常に小さい符号化歪曲をさらに敏感に認知する傾向がある。従って、周期的な音楽信号及び音声信号に対して目立って発生する符号化歪曲（coding distortion）を減少させるために、ピッチプリフィルタ１１及びピッチポストフィルタ２１が使用される。

ピッチプリフィルタ１１及びピッチポストフィルタ２１は、ハーモニック成分間のバレー（valley）に対して発生する量子化ノイズの大きさを減少させることができる。ピッチプリフィルタ１１及びピッチポストフィルタ２１は、一種のノイズシェーピング（noise shaping）の役割を行う。以下、ピッチプリフィルタ及びピッチポストフィルタと係わり、図２及び図３を参照して具体的に説明する。

図２は、ピッチプリフィルタリングを行う一般的なオーディオ符号化装置のブロック図である。

図２に図示されているように、オーディオ符号化装置１０に含まれるピッチプリフィルタ１１は、プリエンファシス（pre-emphasis）部１２、ピッチ検出部１３及びコムフィルタ（comb-filter）１４を含んでもよい。図２の符号化部１５は、図１の符号化部１５に対応するが、重複説明は省略する。

プリエンファシス部１２は、信号内の重要な周波数成分（frequency components）を強調する処理を行うことができる。プリエンファシス部１２は、所定帯域内の周波数成分の大きさ（magnitude）を他の周波数成分の大きさより増大させるか、あるいは所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングすることにより、所定帯域内の周波数成分を強調する処理を行うことができる。

オーディオ信号の低周波成分の場合、経時的変化が相対的に小さい。従って、オーディオ信号の処理において、ピッチ成分を抽出するためには、経時的変化が相対的に大きい高周波帯域の強調が必要である。オーディオ符号化装置１０は、プリエンファシス部１２としての高域通過フィルタを使用することにより、低周波帯域に含まれる成分を除去することができる。高域通過フィルタを含むプリエンファシス部１２は、数式（１）のように示すことができる。

数式（１）で、ｘ［ｎ］は、プリエンファシス部１２への現在入力信号であり、ｘ［ｎ−１］は、プリエンファシス部１２への過去入力信号であり、ｙ［ｎ］は、プリエンファシス部１２の出力信号であり、αは、フィルタ係数であり、０．９から１までの値でもある。

ピッチ検出部１３は、多様なピッチ検出アルゴリズムを利用してピッチを検出する。

コムフィルタ１４は、検出されたピッチに基づいて、フィルタ係数を決定することができる。コムフィルタ１４は、決定されたフィルタ係数を利用して、入力されたオーディオ信号に対して、コムフィルタリングを適用することができる。コムフィルタ１４は、一例として、周波数・ドメインでのピッチハーモニック成分間のバレーを強化（boost）することができる。または、コムフィルタ１４は、周波数・ドメイン内において、ピッチハーモニックピークを抑制することができる。

図３は、ピッチポストフィルタリングを行う一般的なオーディオ復号装置のブロック図である。

図３に図示されているように、オーディオ復号装置２０に含まれるピッチポストフィルタ２１は、コムフィルタ２４、及びデエンファシス（de-emphasis）部２２を含んでもよい。図３の復号部２５は、図１の復号部２５に対応するが、重複説明は省略する。

図３のコムフィルタ２４は、図２のコムフィルタ１４フィルタの逆フィルタ（inverse filter）でもある。従って、コムフィルタ２４は、周波数・ドメインでのピッチハーモニック成分間のバレーを弱化（attenuate）することができる。または、コムフィルタ２４は、周波数・ドメイン内において、ピッチハーモニックピークを強化することができる。

デエンファシス部２２は、プリエンファシス部１２の補完物（complement）であり、プリエンファシス部１２の逆フィルタを使用することができる。デエンファシス部２２は、オーディオ符号化装置１０のプリエンファシス部１２で強調された周波数成分を補償する。すなわち、デエンファシス部２２は、所定帯域内の周波数成分の大きさ（magnitude）を、他の周波数成分の大きさより減少させることができる。

第１実施形態
図１ないし図３に図示されたオーディオコーデックシステム３０に含まれるオーディオ符号化装置１０は、正確なピッチ検出のために、プリエンファシス部１２においてプリエンファシス処理された入力オーディオ信号に対して、ピッチを検出する。オーディオ符号化装置１０は、検出されたピッチに基づいて、決定されたフィルタ係数を利用して、コムフィルタリングを行う。そして、オーディオ符号化装置１０は、プリエンファシス部１２においてプリエンファシス処理された入力オーディオ信号を、周波数・ドメイン符号化してビットストリームを出力する。

また、オーディオコーデックシステム３０に含まれるオーディオ復号装置２０は、入力されたビットストリームを周波数・ドメイン復号し、コムフィルタリングを行い、デエンファシス処理を行う。

一般的なオーディオコーデックシステム３０によれば、プリエンファシス処理されたオーディオ信号がコムフィルタリングされ、コムフィルタリング処理された信号が、符号化過程、復号過程及びデエンファシス過程を経る。従って、オーディオコーデックシステム３０を介して出力されるオーディオ信号には、プリエンファシス過程及びデエンファシス過程を経ながらエラーが累積される。

一般的なオーディオコーデックシステム３０によれば、オーディオ信号が、オーディオ符号化装置１０及びオーディオ復号装置２０を経ながら、符号化エラーが発生する。従って、プリエンファシス処理過程、コムフィルタリング過程、符号化過程及び復号過程を経た信号は、符号化エラーを含むので、オーディオ符号化装置１０に入力されたオーディオ信号とは違いが生じる。従って、オーディオ復号装置２０に入力されたビットストリームが、デエンファシス部２２においてデエンファシス処理されるとしても、オーディオ復号装置２０は、正確な出力オーディオ信号を出力することができないという問題点がある。

本発明の一実施形態によるオーディオ符号化装置及びその方法、並びにオーディオ復号装置及びその方法は、オーディオ信号に対するプリエンファシス処理を選択的に適用することにより、前述の問題点を解決し、復元された音質を向上させることができる。

図４Ａは、本発明の一実施形態の一例によるオーディオ符号化装置１００のブロック図である。

図４Ａに図示されているように、本発明の一実施形態の一例によるオーディオ符号化装置１００は、フィルタリング部１４０及び符号化部１５０を含んでもよい。

フィルタリング部１４０は、周期的なオーディオ信号に対して発生する符号化歪曲を減少させるためのものである。フィルタリング部１４０は、ピッチ検出部１２０及び第２フィルタ１３０を含んでもよい。

ピッチ検出部１２０は、オーディオ信号からピッチを検出する。オーディオ信号のピッチを検出するということは、フレーム単位に分割されたオーディオ信号の各フレームから、ピッチに係わる情報を獲得するということを意味する。また、オーディオ信号のピッチを検出するということは、後述する第２フィルタ１３０のフィルタ係数を決定するということを意味する。例えば、ピッチ検出部１２０は、ピッチに係わる情報として、後述する第２フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップ（tap）のうち少なくとも一つを含むピッチに係わる情報をオーディオ信号から獲得することができる。

第２フィルタ１３０は、ピッチ検出部１２０で検出されたピッチを考慮し、フィルタ係数を決定する。第２フィルタ１３０は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第２フィルタリングを行う。ピッチ検出部１２０で検出されたピッチに係わる情報に基づいて、第２フィルタ１３０のゲインが決定される。例えば、第２フィルタ１３０は、オーディオ信号に対してコムフィルタリングを行うことができるが、本発明は、それに限定されるものではない。

例えば、第２フィルタ１３０が、オールゼロ（all-zero）コムフィルタである場合、第２フィルタ１３０の伝達関数Ｈｐｒｅ（ｚ）は、下記数式（２）のように示すことができる。

このとき、ｐは、オーディオ信号から獲得されたピッチ周期であり、ｂは、オーディオ信号から獲得されたピッチタップである。ｂは、０より大きいか、あるいはそれと同じであり、１より小さい範囲内で選択される値であり、オーディオ信号内において、十分な周期性（periodicity）が検出されない場合、ｂは、０にもなる。オーディオ信号が周期的になるほど、ｂは、１に近くなる。

本発明の一実施形態によれば、オーディオ信号を符号化するために、第２フィルタ１３０が選択的に使用される。第２フィルタ１３０がユーザの選択によって選択的に使用される場合、別途のスイッチング部（図示せず）が提供される。第２フィルタ１３０が選択的に使用される場合には、後述するオーディオ復号装置２００で対応する処理が行われるように、ピッチ検出部１２０は、第２フィルタ１３０の適用いかんを示すフラグを生成し、オーディオ復号装置２００に伝送することができる。すなわち、ピッチ検出部１２０は、オーディオ信号に基づいて、第２フィルタ１３０において、オーディオ信号に対して、第２フィルタリングを行うか否かということを決定することができる。ピッチ検出部１２０は、決定された結果によっ、て第２フィルタ１３０の適用いかんを示すフラグを、オーディオ復号装置２００に伝送することができる。例えば、第２フィルタの適用いかんを示すフラグは、ビットストリームのヘッダに含まれて伝送される。

符号化部１５０は、第２フィルタリングされたオーディオ信号を符号化する。符号化部１５０は、第２フィルタリングされたオーディオ信号を含むビットストリームを生成して出力することができる。

具体的には、符号化部１５０は、第２フィルタリングされたオーディオ信号が分割された各ウィンドウを、周波数変換することができる。符号化部１５０は、入力されるオーディオ信号に対して、時間・周波数変換、言い換えれば、時間・周波数マッピング（time to frequency mapping）というものを遂行し、周波数変換係数を生成することができる。このとき、ウィンドウの周波数変換は、ＱＭＦ（quadrature mirror filterbank）、ＭＤＣＴ（modified discrete Fourier transform）、ＦＦＴ（fast Fourier transform）、またはそれらと類似した方式で遂行されるが、本発明は、それらに限定されるものではない。

符号化部１５０は、ウィンドウの変換係数を量子化することができる。符号化部１５０は、量子化されたオーディオ信号を、無ノイズ符号化（noiseless coding）及びビットストリームパッキング（bitstream packing）のような過程を経て符号化されたビットストリームの形態に出力することができる。

符号化部１５０は、第２フィルタリングされたオーディオ信号とと共に、ピッチに係わる情報を含むビットストリームを生成して出力することができる。フィルタリング部１４０で行われるピッチフィルタリングは、オーディオ信号から、ピッチという時間周期を探してフィルタリングすることにより、符号化効率を高める方法である。従って、既存コーデックにおいてピッチフィルタリングを利用する場合、ピッチフィルタリングを利用するコーデックと、既存コーデックとの互換性を維持するための方法が必要である。本発明の一実施形態による符号化部１５０は、ピッチに係わる情報が、ビットストリームの補助領域（auxiliary area）に含まれるようにビットストリームを生成して出力することができる。

一方、オーディオ符号化時に発生する遅延によって、ピッチに係わる情報とオーディオ信号とが伝送されるフレームが異なりもする。従って、符号化部１５０は、復号されるフレームに適するように、ピッチに係わる情報を遅延させて出力することができる。例えば、オーディオ符号化装置１００が５０％オーバーラップウィンドウを使用する場合、符号化部１５０は、ピッチに係わる情報を１フレーム遅延させることができる。その場合、オーディオ符号化装置１００は、第２フィルタリングされたオーディオ信号と、遅延されたピッチに係わる情報とを含むビットストリームを生成して出力することができる。遅延されたピッチに係わる情報を出力する具体的な方法と係わっては、追って図８ないし図１３を参照して説明する。図８ないし図１３は、本発明の第２実施形態と係わるが、本発明の第１実施形態にも適用される。

本発明の一実施形態の一例によれば、オーディオ符号化装置１０においてプリエンファシス処理を行うことによって発生する複雑度を低減させることができる。本発明の一実施形態の他の例によれば、プリエンファシス処理されたオーディオ信号の代わりに、原本オーディオ信号を符号化することにより、符号化エラーを低減させることができる。

一方、本発明の一実施形態の他の例として、図４Ｂに図示されているように、フィルタリング部１４０は、第１フィルタ１１０をさらに含んでもよい。図４Ｂのピッチ検出部１２０、第２フィルタ１３０及び符号化部１５０は、図４Ａのピッチ検出部１２０、第２フィルタ１３０及び符号化部１５０に対応するが、重複説明は省略する。

第１フィルタ１１０は、オーディオ信号を第１フィルタリングする。第１フィルタ１１０は、ピッチ検出に適するように、オーディオ信号を処理する。例えば、第１フィルタ１１０は、オーディオ信号の一部周波数帯域を強調するために、オーディオ信号をプリエンファシス処理することができる。プリエンファシス処理とは、オーディオ信号に含まれる所定帯域内の周波数成分の大きさを、他の周波数成分の大きさより増大させるか、あるいは所定帯域内の周波数成分を除いた他の周波数成分の大きさを減少させることを意味する。

第１フィルタ１１０がプリエンファシス処理を行う場合を例として挙げて説明すれば、本発明の一実施形態の他の例によるオーディオ符号化装置１００は、プリエンファシス処理されたオーディオ信号からピッチを検出し、プリエンファシス処理されていない原本オーディオ信号を符号化することにより、ピッチ検出の正確度を高めると共に、符号化エラーを低減させることができる。

ピッチ検出部１２０は、第１フィルタ１１０において第１フィルタリングされたオーディオ信号からピッチを検出する。第２フィルタ１３０は、ピッチ検出部１２０で検出されたピッチを考慮し、フィルタ係数を決定する。第２フィルタ１３０は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第２フィルタリングを行う。

図５は、本発明の一実施形態によるオーディオ復号装置のブロック図である。図５に図示されているように、本発明の一実施形態によるオーディオ復号装置２００は、復号部２５０及びフィルタ２４０を含む。

復号部２５０は、ビットストリームを受信し、受信されたビットストリームを復号する。受信されたビットストリームは、原本オーディオ信号からピッチを検出し、検出されたピッチを考慮し、原本オーディオ信号を第２フィルタリングし、第２フィルタリングされたオーディオ信号を符号化することによって生成されたビットストリームでもある。または、受信されたビットストリームは、原本オーディオ信号を第１フィルタリングし、第１フィルタリングされたオーディオ信号に対してピッチを検出し、検出されたピッチを考慮し、原本オーディオ信号を第２フィルタリングし、第２フィルタリングされたオーディオ信号を符号化することによって生成されたビットストリームでもある。また、受信されたビットストリームは、オーディオ符号化装置１００のフィルタリング部１４０において、ピッチフィルタリング時に利用されたピッチに係わる情報を含んでもよい。

具体的には、復号部２５０は、受信されたビットストリームを逆量子化することにより、周波数変換係数を生成する。復号部２５０は、周波数・時間変換、言い換えれば、周波数・時間マッピング（frequency to time mapping）というものを行うことによって周波数変換係数を逆変換し、復号された信号を出力することができる。周波数・時間変換は、ＩＱＭＦ（inverse quadrature mirror filterbank）、ＩＭＤＣＴ（inverse modified discrete Fourier transform）、ＩＦＦＴ（inverse fast Fourier transform）、またはそれらと類似した方式によって遂行されるが、本発明は、それらに限定されるものではない。

フィルタ２４０は、復号部２５０で復号された信号をフィルタリングする。フィルタ２４０は、復号された信号に対して、ビットストリームを生成するために行われた第２フィルタリングの逆フィルタリングを行うことができる。フィルタ２４０は、受信されたビットストリームからピッチに係わる情報を抽出し、受信されたビットストリーム内に含まれたピッチに係わる情報に基づいて、オーディオ符号化装置１００で行われた第２フィルタリングに対応する処理を行うことができる。すなわち、フィルタ２４０は、ビットストリーム内に含まれるパラメータに基づいて、オーディオ符号化装置１００において除去された周期的な成分を復元することができる。

フィルタ２４０において利用するピッチに係わる情報は、第２フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

本発明の一実施形態によれば、オーディオ信号を復号するために、フィルタ２４０が選択的に使用される。フィルタ２４０は、ビットストリーム内に含まれる第２フィルタの適用いかんを示すフラグに基づいて、選択的に使用される。例えば、第２フィルタの適用いかんを示すフラグは、ビットストリームのヘッダに含まれて伝送される。フィルタ２４０は、第２フィルタの適用いかんを示すフラグに基づいて、オーディオ符号化装置１００で行われた第２フィルタリングに対応する処理を行うことができる。従って、フィルタ２４０は、オーディオ符号化装置１００においてオーディオ信号を符号化するために、第２フィルタ１３０が適用されたか否かということによって選択的に使用される。

フィルタ２４０は、復号された信号に対してコムフィルタリングを行うことができるが、本発明は、それに限定されるものではない。例えば、オーディオ符号化装置１００の第２フィルタ１３０がオールゼロコムフィルタである場合、オーディオ復号装置２００のフィルタ２４０の伝達関数Ｈｐｏｓｔ（ｚ）は、下記数式（３）のように示すことができる。

このとき、ｐは、オーディオ信号から獲得されたピッチ周期であり、ｂは、オーディオ信号から獲得されたピッチタップである。ｂは、０より大きいか、あるいはそれと同じであり、１より小さい範囲内で選択される値であり、オーディオ信号内において十分な周期性が検出されない場合、ｂは、０にもなる。オーディオ信号が周期的になるほど、ｂは、１に近くなる。

前述のように、本発明の一実施形態によるオーディオ符号化装置１００及びオーディオ復号装置２００は、プリエンファシス過程及びデエンファシス過程を省略することにより、オーディオコーデックシステムの複雑度を低減させることができる。本発明の一実施形態によるオーディオ符号化装置１００は、プリエンファシス処理されたオーディオ信号の代わりに、原本オーディオ信号をそのまま符号化することにより、符号化エラーを低減させ、結果的に、復元されたオーディオ信号の音質を向上させることができる。また、本発明の一実施形態の一例によるオーディオ符号化装置１００は、ピッチ検出時には、プリエンファシス処理されたオーディオ信号を利用して、ピッチ検出の正確度を確保すると共に、符号化時には、原本オーディオ信号を利用することによって、復元されたオーディオ信号の音質を向上させることができる。

本発明の一実施形態の一例によるオーディオ符号化方法は、図４Ａに図示されたオーディオ符号化装置１００で処理される段階から構成される。

本発明の一実施形態の一例によるオーディオ符号化装置１００は、オーディオ信号からピッチを検出し、検出されたピッチを考慮し、フィルタ係数を決定することができる。本発明の一実施形態の一例によるオーディオ符号化装置１００は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第２フィルタリングを行い、第２フィルタリングされたオーディオ信号を符号化することができる。

一方、図６は、本発明の一実施形態の他の例によるオーディオ符号化方法について説明するためのフローチャートである。

図６を参照すれば、本発明の一実施形態の他の例によるオーディオ符号化方法は、図４Ｂに図示されたオーディオ符号化装置１００で処理される段階から構成される。従って、以下で省略された内容であるとしても、図４Ｂに図示されたオーディオ符号化装置１００について説明した内容は、図６のオーディオ符号化方法にも適用されるということが分かる。

段階Ｓ６１０において、本発明の一実施形態の他の例によるオーディオ符号化装置１００は、オーディオ信号を第１フィルタリングすることができる。オーディオ符号化装置１００は、オーディオ信号の一部周波数帯域を強調するプリエンファシス処理を行うことができる。すなわち、オーディオ符号化装置１００は、オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分の大きさを減少させる処理を行うことができる。

段階Ｓ６２０において、オーディオ符号化装置１００は、第１フィルタリングされたオーディオ信号に対してピッチを検出することができる。オーディオ符号化装置１００は、フレーム単位に分割されたオーディオ信号の各フレームから、ピッチに係わる情報を獲得することができる。オーディオ符号化装置１００は、第２フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含むピッチに係わる情報を、前記オーディオ信号から獲得することができる。

段階Ｓ６３０において、オーディオ符号化装置１００は、検出されたピッチを考慮し、フィルタ係数を決定することができる。

段階Ｓ６４０において、オーディオ符号化装置１００は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第２フィルタリングを行うことができる。例えば、オーディオ符号化装置１００は、オーディオ信号に対して、コムフィルタリングを第２フィルタリングとして行うことができる。

段階Ｓ６５０において、オーディオ符号化装置１００は、第２フィルタリングされたオーディオ信号を符号化することができる。オーディオ符号化装置１００は、第２フィルタリングされたオーディオ信号、及びピッチに係わる情報を含むビットストリームを生成して出力することができる。このとき、オーディオ符号化装置１００は、ピッチに係わる情報が、ビットストリームの補助領域に含まれるように、ビットストリームを生成して出力することができる。オーディオ符号化装置１００は、ピッチに係わる情報を１フレーム遅延させて出力することができる。オーディオ符号化装置１００は、第２フィルタリングされたオーディオ信号、及び遅延されたピッチに係わる情報を含むビットストリームを生成して出力することができる。

図７は、本発明の一実施形態によるオーディオ復号方法について説明するためのフローチャートである。

図７を参照すれば、本発明の一実施形態によるオーディオ復号方法は、図５に図示されたオーディオ復号装置２００で処理される段階から構成される。従って、以下で省略された内容であるとしても、図５に図示されたオーディオ復号装置２００について説明した内容は、図７のオーディオ復号方法にも適用されるということが分かる。

段階Ｓ７１０において、本発明の一実施形態によるオーディオ復号装置２００は、符号化された信号を受信する。このとき、符号化された信号は、原本オーディオ信号からピッチを検出され、検出されたピッチを考慮し、原本オーディオ信号を第２フィルタリングし、第２フィルタリングされたオーディオ信号を符号化することによって生成された信号でもある。または、符号化された信号は、原本オーディオ信号を第１フィルタリングし、第１フィルタリングされたオーディオ信号からピッチを検出し、検出されたピッチを考慮し、原本オーディオ信号を第２フィルタリングし、第２フィルタリングされたオーディオ信号を符号化することによって生成された信号でもある。オーディオ復号装置２００は、第１フィルタリングされたオーディオ信号から獲得されたピッチに係わる情報をさらに含む符号化された信号を受信することができる。

段階Ｓ７２０において、オーディオ復号装置２００は、受信された信号を復号する。

段階Ｓ７３０において、オーディオ復号装置２００は、復号された信号をフィルタリングする。このとき、オーディオ復号装置２００は、符号化されたオーディオ信号の符号化時に行われた第２フィルタリングの逆フィルタリングを行うことができる。オーディオ復号装置２００は、受信された信号からピッチに係わる情報を抽出することができる。オーディオ復号装置２００は、ピッチに係わる情報に基づいて、復号された信号をフィルタリングするためのフィルタ係数を決定することができる。オーディオ復号装置２００は、決定されたフィルタ係数に基づいて、復号された信号に対してフィルタリングを行うことができる。

第２実施形態
図１ないし図３に図示されたオーディオコーデックシステム３０において、オーディオ符号化装置１０は、ピッチに係わる情報を獲得した後、ロウオーバーラップウィンドウ（low overlap window）または５０％オーバーラップウィンドウを利用して、ウィンドウイングを行い、周波数・ドメイン符号化を行うことができる。ウィンドウイングとは、周波数・ドメイン符号化を行うために、オーディオ信号を小さいセットに分けることを意味する。

図８Ａないし図８Ｅは、一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。図８Ａないし図８Ｅは、Ｎ−２，Ｎ−１，Ｎ及びＮ１＋１フレームを含むオーディオ信号を符号化及び復号する場合を例として挙げて説明する。

図８Ａは、オーディオ符号化装置１０に入力されるオーディオ信号を図示している。図８Ｂは、ピッチプリフィルタ１１によって行われるピッチの検出を図示している。図８Ｃは、符号化部１５によって行われるオーディオ信号、及びピッチに係わる情報の符号化を図示している。

図８Ｂに図示されているように、ピッチプリフィルタ１１は、現在フレーム８０１からピッチを検出する。ピッチプリフィルタ１１は、現在フレーム８０１から、ピッチ情報Ｎ＋１を獲得する。オーディオ符号化装置１０は、オーディオ信号から、ピッチに係わる情報を獲得した後、オーディオ信号にウィンドウ８０４を適用した後、周波数変換を行い、周波数・ドメイン符号化を行う。従って、図８Ｃに図示されているように、オーディオ符号化装置１０は、オーディオ復号装置２０に、現在フレーム８０１と共にピッチ情報Ｎ＋１を符号化して伝送する。

図１ないし図３に図示されたオーディオコーデックシステム３０において、オーディオ復号装置１０は、圧縮されたビットストリームに含まれる量子化された変換係数を逆変換し、復号された信号を出力する。

図８Ｄは、復号部２５によって行われる復号を図示している。図８Ｅは、ピッチポストフィルタ２１によって行われるフィルタリングを図示している。図８Ｄに図示されているように、オーディオ復号装置２０は、オーディオ符号化装置１０で適用されたウィンドウ８０４と同一サイズのウィンドウ８０５を利用して、オーディオ信号を復号することができる。オーディオ復号装置２０は、現在フレーム８０２を逆変換するために、現在フレーム８０２とオーバーラップされる次のフレーム８０３を待たなければならない。すなわち、オーバーラップ区間によって時間遅延が発生する。例えば、図８Ｅに図示されているように、５０％オーバーラップウィンドウを適用する場合、１フレーム遅延が発生する。

図８Ａないし図８Ｅに図示されているように、オーディオ符号化装置１０において、所定のフレームから抽出されたピッチに係わる情報は、当該フレームと共にオーディオ復号装置２０に伝送される。しかし、オーディオ復号装置２０は、当該フレームより以前のフレームを復号するために、前記ピッチに係わる情報を利用する。図８Ｅに図示されているように、オーディオ復号装置２０は、現在フレーム８０２を復号するために、ピッチ情報Ｎ＋１を利用する。ピッチ情報Ｎ＋１８０３は、オーディオ符号化装置１０が、現在フレーム８０２の次のフレームであるフレームＮ＋１８０３から獲得した情報である。

図８Ｃに図示されているように、オーディオ符号化装置１０が、ピッチに係わる情報を伝送するフレームと、周波数変換されたオーディオ信号を伝送するフレームとが同一である。しかし、周波数・ドメイン復号を行う場合、復号遅延が発生する。従って、オーディオコーデックシステム３０によれば、オーディオ復号装置２０で復号されるフレームに適用されるピッチに係わる情報は、復号されたフレームの以前フレームのオーディオ信号から獲得された情報である。

従って、復号されたオーディオ信号に対して、ピッチに係わる情報の適用において、復元されるオーディオ信号の音質を高めるためには、復号遅延を考慮し、ピッチに係わる情報を伝送する方法が必要である。すなわち、ピッチに係わる情報が抽出されたフレームが復号される時点において、前記ピッチに係わる情報が利用されるようにする方法が必要である。

本発明の一実施形態によるオーディオ符号化装置及びその方法、並びにオーディオ復号装置及びその方法は、ピッチに係わる情報を、対応するフレームが復号される時点を考慮して伝送することにより、前述の問題点を解決し、復元された音質を向上させることができる。

図９は、本発明の一実施形態によるオーディオ符号化装置のブロック図である。

図９に図示されているように、本発明の一実施形態によるオーディオ符号化装置５００は、プリフィルタ５１０及び符号化部５５０を含む。

プリフィルタ５１０は、周期的なオーディオ信号の符号化過程内及び復号過程内において、目立って発生する符号化歪曲を低減させるためのものである。プリフィルタ５１０は、入力オーディオ信号から、ピッチに係わる情報を獲得する。プリフィルタ５１０は、ピッチに係わる情報を利用して、オーディオ信号をプリフィルタリングすることができる。例えば、プリフィルタリングとは、周波数・ドメインでのピッチハーモニック成分間のバレーを強化するか、あるいはピッチハーモニックピークを抑制する動作を意味する。

プリフィルタ５１０は、図１及び図２のピッチプリフィルタ１１を含んでもよい。または、プリフィルタ５１０は、図４Ａまたは図４Ｂのフィルタリング部１４０を含んでもよい。重複説明は省略する。

プリフィルタ５１０は、入力オーディオ信号を第１フィルタリングし、第１フィルタリングされたオーディオ信号から、ピッチに係わる情報を獲得することができる。プリフィルタ５１０は、フレーム単位に分割されたオーディオ信号の各フレームから、ピッチに係わる情報を獲得することができる。プリフィルタ５１０は、ピッチに係わる情報を考慮してフィルタ係数を決定し、決定されたフィルタ係数を利用して、オーディオ信号を第２フィルタリングすることができる。

符号化部５５０は、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、ピッチフィルタリングされたオーディオ信号に対して、ウィンドウイングを行うことができる。符号化部５５０は、ウィンドウのオーバーラップ区間を考慮し、ウィンドウイングが行われたオーディオ信号、及びピッチに係わる情報を符号化することができる。ウィンドウのオーバーラップ区間を考慮し、ピッチに係わる情報を符号化するというのは、ウィンドウのオーバーラップ区間に基づいて復号遅延を決定し、決定された復号遅延によって、ピッチに係わる情報を遅延させて符号化するということを意味する。符号化部５５０は、符号化されたオーディオ信号、及びピッチに係わる情報を含むビットストリームを生成して出力することができる。

本発明の一実施形態による符号化部５５０は、ウィンドウのオーバーラップ区間を考慮し、符号化遅延を決定することができる。符号化時に利用されるウィンドウと、復号時に利用されるウィンドウとの長さが同一であり、オーバーラップ区間の長さが同一である場合、符号化部５５０は、符号化時に利用されるウィンドウのオーバーラップ区間に基づいて、復号時に発生する遅延時間を計算することができる。

符号化部５５０は、決定された符号化遅延によって、ピッチに係わる情報を遅延させ、遅延されたピッチに係わる情報を出力することができる。そのために、符号化部５５０は、ピッチに係わる情報を復号遅延ほど保存した後で出力するバッファ（図示せず）を含んでもよい。一例として、オーバーラップ区間の長さが、ウィンドウの５０％以上である場合、符号化部５５０は、オーバーラップ区間を考慮し、ピッチに係わる情報を１フレーム遅延させて出力することができる。他の例として、オーバーラップ区間の長さが、ウィンドウの５０％未満である場合、符号化部５５０は、オーバーラップ区間を考慮し、１フレームより短い時間ほどピッチに係わる情報を遅延させて出力することができる。

図１１Ａないし図１１Ｅは、本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。図１１Ａないし図１１Ｅは、Ｎ−２，Ｎ−１，Ｎ及びＮ１＋１フレームを含むオーディオ信号を符号化及び復号する場合を例として挙げて説明する
図１１Ａは、オーディオ符号化装置５００に入力されるオーディオ信号を図示している。図１１Ｂは、プリフィルタ５１０によって行われるピッチの検出を図示している。図１１Ｃは、符号化部５５０によって遂行されるオーディオ信号、及びピッチに係わる情報の符号化を図示している。

図１１Ｂに図示されているように、プリフィルタ５１０は、現在フレーム１１０１からピッチを検出する。プリフィルタ５１０は、現在フレーム１１０１からピッチ情報Ｎ＋１を獲得する。

オーディオ符号化装置５００は、オーディオ信号からピッチに係わる情報を獲得した後、オーディオ信号にウィンドウ１１０４を適用した後、周波数変換を行い、周波数・ドメイン符号化を行う。本発明の一実施形態による符号化部５５０は、ウィンドウのオーバーラップ区間に基づいて、復号遅延を決定し、決定された復号遅延によって、ピッチに係わる情報を遅延させて符号化する。図１１Ａないし図１１Ｅに図示されているように、５０％オーバーラップウィンドウを利用するオーディオコーデックシステムの場合、ピッチに係わる情報を１フレーム遅延させて出力することができる。図１１Ｃに図示されているように、符号化部５５０は、現在フレーム１１０１を符号化し、符号化されたオーディオ信号を含むビットストリームの出力において、現在フレーム１１０１に対応するピッチに係わる情報であるピッチ情報Ｎ＋１を、現在フレーム１１０１と共に出力する代わりに、１フレーム遅延されて出力されるピッチ情報Ｎを、現在フレーム１１０１と共に出力する。

本発明の一実施形態によるオーディオ符号化装置５００は、ピッチに係わる情報を、ビットストリームに含めて出力するにあたり、復号遅延を考慮し、ピッチに係わる情報をバッファに保存し、遅延されたピッチに係わる情報を出力することができる。

一方、符号化部５５０は、既存オーディオコーデック（例えば、ＡＡＣ（advanced audio coding）、ＭＰ３（ＭＰＥＧ−１ audio layer−３）、ＡＡＣＥＬＤ（advanced audio coding enhanced low delay）など）との互換性のために、ピッチに係わる情報が出力されるビットストリームの補助領域に含まれるように、ビットストリームを生成して出力することができる。

そのとき、ピッチに係わる情報は、プリフィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。プリフィルタの適用いかんを示すフラグは、後述するオーディオ復号装置６００で対応する処理が行われるように、プリフィルタリング処理を行ったか否かということを示すフラグを意味する。

図１４Ａないし図１４Ｅは、本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。

図１４Ａに図示されているように、一般的なビットストリームは、ヘッダ（header）１４０１、付加情報（side information）領域１４０２、ローデータ（raw data）領域１４０３及び補助（auxiliary）領域１４０４を含んでもよい。

例えば、図１４Ｂに図示されているように、本発明の一実施形態による符号化部５５０は、ヘッダ１４０１の次に、ピッチに係わる情報１４１０を含むビットストリームを生成して出力することができる。または、図１４Ｃに図示されているように、本発明の一実施形態による符号化部５５０は、付加情報領域１４０２の次に、ピッチに係わる情報１４１０を含むビットストリームを生成して出力することができる。または、図１４Ｄに図示されているように、本発明の一実施形態による符号化部５５０は、ローデータ領域１４０３の次に、ピッチに係わる情報１４１０を含むビットストリームを生成して出力することができる。または、図１４Ｅに図示されているように、本発明の一実施形態による符号化部５５０は、補助領域１４０４内に、ピッチに係わる情報１４１０を含むビットストリームを生成して出力することができる。

また、符号化部５５０は、プリフィルタの適用いかんを示すフラグが、ビットストリームのヘッダに含まれるようにビットストリームを生成し、プリフィルタの適用いかんを示すフラグを除いた残りのピッチに係わる情報は、図１４Ｂないし図１４Ｅに図示された領域内にピッチに係わる情報を含むビットストリームを生成して出力することができる。

すなわち、符号化部５５０は、プリフィルタの適用いかんを示すフラグを除いた残りのピッチに係わる情報が、ヘッダの次、付加情報の次、補助領域以前のうち少なくとも一つに位置するように、ビットストリームを生成して出力することができる。

図１５Ａは、ＡＣ−３コーデックで利用されるビットストリームの構造を図示し、図１５Ｂは、Ｅ−ＡＣ３コーデックで利用されるビットストリームの構造を図示している。図１５に図示された構造を有するビットストリームを利用するＡＣ−３／Ｅ−ＡＣ３コーデックの場合、本発明の一実施形態による符号化部５５０は、ＢＳＩのａｄｄｂｓｉ領域、ＡＢ０〜ＡＢ５のｓｋｉｐｆｌｄ領域またはauxiliary領域に、ピッチに係わる情報を含むように、ビットストリームを生成して出力することができる。本発明の一実施形態によるオーディオ符号化装置５００は、前述の例に限定されるものではなく、ＣＥＬＴ（constrained energy lapped transform）、ＡＡＣ、ＭＰ３、ＡＡＣＥＬＤ、ＡＣ−３、Ｅ−ＡＣ３など多様なコーデック間の互換性を維持するように、ビットストリームの所定領域に、ピッチに係わる情報を含むように、ビットストリームを生成して出力することができる。

図１０は、本発明の一実施形態によるオーディオ復号装置のブロック図である。

図１０に図示されているように、本発明の一実施形態によるオーディオ復号装置６００は、復号部６５０及びポストフィルタ６１０を含む。

復号部６５０は、圧縮されたオーディオビットストリームを復号する。復号部６５０は、受信されたビットストリームから、周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する。復号部６５０は、周波数変換されたオーディオ信号を逆変換し、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、逆変換されたオーディオ信号に対して、ウィンドウイングを行う。復号部６５０は、オーディオ符号化装置５００において、ウィンドウイングを行うために利用されたウィンドウと同一サイズのウィンドウを利用して、ウィンドウイングを行うことができる。

オーディオ復号装置６００は、オーディオ符号化装置５００のプリフィルタ５１０に対応するポストフィルタ６１０を使用することができる。ポストフィルタ６１０は、周期的なオーディオ信号の符号化過程内及び復号過程内で目立って発生する符号化歪曲を減少させるためのものである。ポストフィルタ６１０は、受信されたビットストリーム内に含まれたピッチに係わる情報に基づいて、オーディオ符号化装置５００で行われたプリフィルタリングに対応する処理を行うことができる。すなわち、ポストフィルタ６１０は、ビットストリーム内に含まれるパラメータに基づいて、オーディオ符号化装置５００で除去された周期的な成分を復元することができる。例えば、ピッチに係わる情報は、受信されたビットストリームの補助領域内に含まれる。

ピッチに係わる情報は、先にオーディオ符号化装置５００と係わって説明したように、ウィンドウのオーバーラップ区間を考慮して決定された符号化遅延によって遅延されて出力されたものでもある。ピッチに係わる情報は、プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

ポストフィルタ６１０は、ピッチに係わる情報を利用して、ウィンドウイングが行われたオーディオ信号をポストフィルタリングすることができる。ポストフィルタ６１０は、ピッチに係わる情報を考慮し、フィルタ係数を決定することができる。ポストフィルタ６１０は、決定されたフィルタ係数に基づいて、復号されたオーディオ信号に対して、ポストフィルタリングを行うことができる。ポストフィルタリングとは、周波数・ドメインでのピッチハーモニック成分間のバレーを抑制するか、あるいはピッチハーモニックピークを強化する動作を意味する。

ポストフィルタリングは、符号化過程で行われたプリフィルタリングに対応するものでもある。従って、一例によれば、オーディオ復号装置６００は、受信されたビットストリームのヘッダに含まれたプリフィルタリング処理いかんと係わるフラグを参照し、選択的にポストフィルタリングを行うことができる。

ポストフィルタ６１０は、図１及び図３のピッチポストフィルタ２１を含んでもよい。または、ポストフィルタ６１０は、図５のフィルタ２４０を含んでもよい。重複説明は省略する。

図１１Ｄは、復号部６５０によって行われる復号を図示している。図１１Ｅは、ポストフィルタ６１０によって行われるフィルタリングを図示している。図１１Ｄに図示されているように、オーディオ復号装置６００は、オーディオ符号化装置５００で適用されたウィンドウ１１０４と同一サイズのウィンドウ１１０５を利用して、オーディオ信号を復号することができる。オーディオ復号装置６００は、現在フレーム１１０２を逆変換するために、現在フレーム１１０２とオーバーラップされる次のフレーム１１０３を待たなければならない。すなわち、オーバーラップ区間によって時間遅延が発生する。例えば、図１１Ａないし図１１Ｅに図示されているように、５０％オーバーラップウィンドウを適用する場合、１フレーム遅延が発生する。

従って、図１１Ｅに図示されているように、オーディオ復号装置６００は、現在フレーム１１０２を復号するために、復号される現在フレーム１１０２と対応するピッチ情報Ｎを利用する。ピッチ情報Ｎは、オーディオ符号化装置５００がフレームＮから獲得した情報である。

本発明の一実施形態によるオーディオ符号化装置５００及びオーディオ復号装置６００によれば、オーディオ復号装置６００で復号されるフレームに正確に対応するピッチに係わる情報が利用される。従って、本発明の一実施形態によれば、復元されるオーディオ信号の音質が向上する。

前述のように、本発明の一実施形態によるオーディオコーデックシステムに含まれるオーディオ符号化装置５００は、符号化遅延を考慮し、ピッチに係わる情報を伝送する。従って、オーディオ復号装置６００は、オーディオ復号装置６００で復号されるフレームに対応するピッチに係わる情報を、必要な時点、すなわち、当該フレームが復号される時点で提供される。従って、本発明の一実施形態によるオーディオコーデックシステムは、ランダムアクセス（random access）を支援することができる。また、パケットが損失された状況において、エラーが発生しないフレームに対して、正確なピッチに係わる情報を利用して復号を行うことができる。

図１２は、本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。

図１２を参照すれば、本発明の第１実施形態の一例によるオーディオ符号化方法は、図９に図示されたオーディオ符号化装置５００で処理される段階から構成される。従って、以下で省略された内容であるとしても、図９に図示されたオーディオ符号化装置５００について説明した内容は、図１２のオーディオ符号化方法にも適用されるということが分かる。

段階Ｓ１２１０において、本発明の一実施形態によるオーディオ符号化装置５００は、オーディオ信号から獲得されたピッチに係わる情報を利用して、オーディオ信号をプリフィルタリングすることができる。本発明の一実施形態によるオーディオ符号化装置５００は、本発明の一実施形態によるオーディオ符号化装置１００と係わり、前述のように、入力オーディオ信号に対するプリエンファシス処理を選択的に行うことができる。

すなわち、オーディオ符号化装置５００は、オーディオ信号を第１フィルタリングし、第１フィルタリングされたオーディオ信号からピッチに係わる情報を獲得することができる。第１フィルタリングは、オーディオ信号からピッチに係わる情報を獲得するために、所定の周波数帯域の信号を強調する動作を意味する。オーディオ符号化装置５００は、獲得されたピッチに係わる情報を考慮してフィルタ係数を決定し、決定されたフィルタ係数を利用して設計された第２フィルタを利用して、オーディオ信号を第２フィルタリングすることができる。例えば、第２フィルタリングは、コムフィルタリングを含んでもよい。

また、オーディオ符号化装置５００は、フレーム単位に分割されたオーディオ信号の各フレームからピッチに係わる情報を獲得することができる。

段階Ｓ１２２０において、本発明の一実施形態によるオーディオ符号化装置５００は、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、プリフィルタリングされたオーディオ信号に対して、ウィンドウイングを行うことができる。

段階Ｓ１２３０において、本発明の一実施形態によるオーディオ符号化装置５００は、オーバーラップ区間を考慮し、ウィンドウイングが行われたオーディオ信号、及びピッチに係わる情報を符号化することができる。オーディオ符号化装置５００は、ウィンドウイングが行われたオーディオ信号、及びピッチに係わる情報を符号化することにより、ビットストリームを生成して出力することができる。

オーディオ符号化装置５００は、オーバーラップ区間を考慮し、符号化遅延を決定し、決定された符号化遅延によって、ピッチに係わる情報を遅延させて出力することができる。例えば、オーバーラップ区間の長さが、ウィンドウの５０％以上である場合、オーディオ符号化装置５００は、ピッチに係わる情報を１フレーム遅延させて出力することができる。

また、オーディオ符号化装置５００は、ピッチに係わる情報が、ビットストリームの補助領域に含まれるように、ビットストリームを生成して出力することができ、そのとき、ピッチに係わる情報は、プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。例えば、オーディオ符号化装置５００は、プリフィルタリング遂行いかんを示すフラグをビットストリームのヘッダ内に含み、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つをビットストリームの補助領域内に含むビットストリームを生成して出力することができる。

図１３は、本発明の一実施形態によるオーディオ復号方法について説明するためのフローチャートである。

図１３を参照すれば、本発明の一実施形態によるオーディオ復号方法は、図１０に図示されたオーディオ復号装置６００で処理される段階から構成される。従って、以下で省略された内容であるとしても、図１０に図示されたオーディオ復号装置６００について説明した内容は、図１３のオーディオ復号方法にも適用されるということが分かる。

段階Ｓ１３１０において、本発明の一実施形態によるオーディオ復号装置６００は、受信されたビットストリームから、周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する。オーディオ復号装置６００に受信されるピッチに係わる情報は、符号化時または復号時に適用されるウィンドウのオーバーラップ区間を考慮して遅延されて出力されたものでもある。

段階Ｓ１３２０において、オーディオ復号装置６００は、周波数変換されたオーディオ信号を逆変換することにより、時間・ドメインオーディオ信号サンプルを獲得する。

段階Ｓ１３３０において、オーディオ復号装置６００は、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、逆変換されたオーディオ信号に対してウィンドウイングを行う。

段階Ｓ１３４０において、オーディオ復号装置６００は、ピッチに係わる情報を利用して、ウィンドウイングが行われたオーディオ信号をポストフィルタリングする。そのとき、オーディオ復号装置６００で行われるポストフィルタリングは、オーディオ符号化装置５００で行われたプリフィルタリングに対応する。ポストフィルタリングとプリフィルタリングとの対応とは、互いに逆フィルタリング関係であるということを意味する。オーディオ復号装置６００は、受信されたビットストリームの補助領域内に含まれたピッチに係わる情報を獲得することができる。そのとき、ピッチに係わる情報は、プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。

図１６は、心理音響モデルを利用する、本発明の一実施形態によるオーディオ符号化装置のブロック図を図示している。

図１６に図示されているように、本発明の一実施形態によるオーディオ符号化装置１６００は、心理音響モデル部１６５０を含んでもよい。

図１６のピッチプリフィルタ１６１０は、図４のフィルタリング部１４０、または図９のプリフィルタ５１０に対応する。従って、重複説明は省略する。

図１６のウィンドウイング部１６２０、周波数変換部１６３０、量子化部１６４０、心理音響モデル部１６５０、エントロピー符号化部１６６０及びビットストリーム形成部１６７０は、図４の符号化部１５０、または図９の符号化部５５０に対応する。

ウィンドウイング部１６２０は、入力されたオーディオ信号をウィンドウ単位に分割することができる。ウィンドウのフレーム長は、オーディオ符号化装置１６００に適用されるアプリケーションによって変更される。

周波数変換部１６３０は、オーディオ信号が分割された各ウィンドウを、時間・周波数変換することができる。周波数変換部１６３０は、ウィンドウを時間・周波数変換することによって、変換係数を生成することができる。そのとき、時間・周波数変換は、ＱＭＦ（quadrature mirror filterbank）、ＭＤＣＴ（modified discrete Fourier transform）、ＦＦＴ（fast Fourier transform）、またはそれらと類似の方式によって行われるが、本発明は、それに限定されるものではない。

心理音響モデル部１６５０は、入力オーディオ信号に対してマスキング効果を適用し、マスキング臨界値（masking threshold）を生成する。

マスキング効果とは、心理音響理論によるものであり、大きい信号に隣接した小さい信号は、大きい信号によって隠されるために、人間の聴覚構造がそれを十分に認知することができないという特性を利用するのである。例えば、騒がしいバスが通り過ぎるバス停留所のように騷音がはなはだしい空間では、静かな空間で聞こえる対話音声が聞こえなくなる。

マスキング臨界値とは、聴者が聞くことができる限界値を意味する。マスキング効果によれば、マスキング臨界値以下に位置したオーディオ信号は聴者が聞くことができない。

心理音響モデルの適用において、オーディオ信号が分割された１つのウィンドウに含まれる複数の周波数変換係数帯域（frequency scale factor band）には、エネルギーが最大である信号が中間に存在し、該信号よりはるかに小サイズの信号が周辺にいくつか存在する。ここで、最大の信号がマスカ（masker）になり、そのマスカを基準に、マスキングカーブ（masking curve）が描かれる。該マスキングカーブによって描かれる小さい信号は、マスキング信号（masked signal）またはマスキ（maskee）になる。該マスキングされた信号を除き、残りの信号のみを有効な信号として残しておくことをマスキングという。

量子化部１６４０は、心理音響モデル部１６５０で決定されたマスキング臨界値を利用して、周波数変換部１６３０で変換されたウィンドウの変換係数を量子化することができる。

量子化部１６４０が変換係数を量子化する過程において、ノイズが発生するが、量子化部１６４０は、発生する量子化ノイズがマスキング臨界値より小さいように、変換係数を量子化することができる。量子化ノイズがマスキング臨界値より小さいということは、量子化によるノイズのエネルギーが、マスキング効果によって隠れるということを意味する。言い替えれば、マスキング臨界値より小さい量子化ノイズは、聴取者が聞くことができない。

エントロピー符号化部１６６０は、量子化されたオーディオ信号に対して、エントロピー符号化を行うことができる。エントロピー符号化部１６６０は、例えば、ハフマン符号化（Huffman coding）、範囲符号化（range encoding）、算術符号化（arithmetic coding）、及びそれと類似した方式を利用して量子化されたオーディオ信号を符号化することができるが、それらに限定されるものではない。

ビットストリーム形成部１６７０は、エントロピー符号化部１６６０から出力された符号化されたオーディオ信号から、１またはそれ以上のビットストリームを生成して出力することができる。

本発明の一実施形態は、コンピュータによって実行されるプログラムモジュールのような、コンピュータによって実行可能な命令語を含む記録媒体の形態によっても具現される。コンピュータ判読可能媒体は、コンピュータによってアクセスされる任意の可用媒体でもあり、揮発性媒体及び不揮発性媒体、分離型及び非分離型の媒体をいずれも含む。また、コンピュータ判読可能媒体は、コンピュータ記録媒体及び通信媒体をいずれも含んでもよい。コンピュータ記録媒体は、コンピュータ判読可能命令語、データ構造、プログラムモジュールまたはその他データのような情報の保存のための任意の方法または技術によって具現された揮発性及び不揮発性、分離型及び非分離型の媒体をいずれも含む。該通信媒体は、典型的には、コンピュータ判読可能命令語、データ構造、プログラムモジュールまたは搬送波のような変調されたデータ信号のその他データ、またはその他伝送メカニズムを含み、任意の情報伝達媒体を含む。

前述の本発明の説明は、例示のためのものであり、本発明が属する技術分野の当業者であるならば、本発明の技術的思想や必須な特徴を変更せずにも、他の具体的な形態に容易に変形が可能であるということをを理解することができるであろう。従って、以上で記述した実施形態は、全ての面で例示的なものであり、限定的ではないということが理解されなければならない。例えば、単一型と説明されている各構成要素は、分散されて実施されもし、同様に、分散されていると説明されている構成要素も、結合された形態でも実施される。

本発明の範囲は、前述の詳細な説明よりは、特許請求の範囲によって示され、特許請求の範囲の意味、範囲及びその均等概念から導き出される全ての変更、または変形された形態は、本発明の範囲に含まれると解釈されなければならない。

Claims

オーディオ信号からピッチを検出する段階と、
前記検出されたピッチを考慮してフィルタ係数を決定する段階と、
前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第２フィルタリングを行う段階と、
前記第２フィルタリングされたオーディオ信号を符号化する段階と、を含み、
前記第２フィルタリングされたオーディオ信号を符号化する段階は、
所定のオーバーラップ区間を有するように設計されるウィンドウを利用し、前記第２フィルタリングされたオーディオ信号に対してウィンドウイングを行う段階と、
前記ウィンドウのオーバーラップ区間を基に符号化遅延を決定する段階と、
前記決定された符号化遅延により、前記ピッチに係わる情報を遅延させて出力する段階と、
前記第２フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力する段階と
を含む、ことを特徴とするオーディオ符号化方法。
前記オーディオ信号を第１フィルタリングする段階をさらに含み、
前記ピッチを検出する段階は、前記第１フィルタリングされたオーディオ信号からピッチを検出する段階を含むことを特徴とする請求項１に記載のオーディオ符号化方法。
前記第１フィルタリングする段階は、
前記オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングするプリエンファシスを行う段階を含むことを特徴とする請求項２に記載のオーディオ符号化方法。
前記ピッチを検出する段階は、
前記第２フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含む前記ピッチに係わる情報を、前記オーディオ信号から獲得する段階を含むことを特徴とする請求項１に記載のオーディオ符号化方法。
前記第２フィルタリングする段階は、
前記オーディオ信号に対してコムフィルタリングを行う段階を含むことを特徴とする請求項１に記載のオーディオ符号化方法。
前記ピッチを検出する段階は、
前記オーディオ信号から前記ピッチに係わる情報を獲得する段階を含み、
前記ピッチに係わる情報は、前記第２フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含むことを特徴とする請求項１に記載のオーディオ符号化方法。
前記ビットストリームを生成して出力する段階は、
前記ピッチに係わる情報を前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力する段階を含むことを特徴とする請求項１に記載のオーディオ符号化方法。
前記ピッチを検出する段階は、
フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得する段階を含み、
前記決定された符号化遅延により、前記ピッチに係わる情報を遅延させて出力する段階は、
前記ピッチに係わる情報を１フレーム遅延させて出力する段階と、
前記第２フィルタリングされたオーディオ信号、及び前記遅延されたピッチに係わる情報を含むビットストリームを生成して出力する段階と、を含む、
ことを特徴とする請求項１に記載のオーディオ符号化方法。
オーディオ信号からピッチを検出するピッチ検出部と、
前記検出されたピッチを考慮してフィルタ係数を決定し、前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第２フィルタリングを行う第２フィルタと、
前記第２フィルタリングされたオーディオ信号を符号化する符号化部と、を含み、
前記符号化部は、
所定のオーバーラップ区間を有するように設計されるウィンドウを利用し、前記第２フィルタリングされたオーディオ信号に対してウィンドウイングを行い、
前記ウィンドウのオーバーラップ区間を基に符号化遅延を決定し、
前記決定された符号化遅延により、前記ピッチに係わる情報を遅延させて出力し、
前記第２フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力する、
ことを特徴とするオーディオ符号化装置。
請求項１ないし８のうちいずれか１項に記載の方法を実行するためのプログラムを記録したコンピュータで判読可能な記録媒体。