JP6573887B2 - オーディオ信号の符号化方法、復号方法及びその装置 - Google Patents

オーディオ信号の符号化方法、復号方法及びその装置 Download PDF

Info

Publication number
JP6573887B2
JP6573887B2 JP2016540509A JP2016540509A JP6573887B2 JP 6573887 B2 JP6573887 B2 JP 6573887B2 JP 2016540509 A JP2016540509 A JP 2016540509A JP 2016540509 A JP2016540509 A JP 2016540509A JP 6573887 B2 JP6573887 B2 JP 6573887B2
Authority
JP
Japan
Prior art keywords
pitch
audio signal
audio
encoding
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016540509A
Other languages
English (en)
Other versions
JP2017504054A (ja
Inventor
リ,ナム−スク
キム,ヒョン−ウク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017504054A publication Critical patent/JP2017504054A/ja
Application granted granted Critical
Publication of JP6573887B2 publication Critical patent/JP6573887B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Description

本発明は、オーディオ信号を符号化または復号する方法、及びその装置に係り、さらに詳細には、ピッチフィルタを利用してオーディオ信号を符号化または復号する方法、及びその装置に係わる。
オーディオ信号の符号化にあたり、短い遅延時間(latency time)を確保するためには、符号化の基本単位であるフレームの長さが短くなければならず、高い音質を確保するためには、十分な周波数分解能が必要であるために、フレーム長が長くなければならない。従って、短い遅延時間と高い音質は、同時に満足させ難い。
一般的なオーディオ符号化システムにおいて、使用しようとするアプリケーション(application)により、フレーム長を短くすることにより、遅延率を低下させ、音質の劣化を甘受する方法が利用されもする。または、完璧な復元(perfect reconstruction)を断念する特別な形態のウィンドウ(window)関数を使用する方法が利用されもする。特に、短い遅延時間が要求されるアプリケーションの場合、短いフレーム長によって周波数分解能が低下し、音質劣化が発生してしまう。
ピッチフィルタ(pitch filter)は、短い遅延時間のために、短いウィンドウを利用するオーディオ符号化システムにおいて、周期的な音楽信号及び音声信号に対して目立って発生する符号化歪曲(coding distortion)を低減させるために使用される。
本発明の一実施形態は、オーディオ信号の符号化時及び復号時に発生するエラーを減少させることにより、復元されたオーディオ信号の音質を高めることができるオーディオ信号の符号化方法及びその装置、並びに復号方法及びその装置を提供する。
本発明の一実施形態によるオーディオ符号化方法は、オーディオ信号からピッチを検出する段階と、前記検出されたピッチを考慮してフィルタ係数を決定する段階と、前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第2フィルタリングを行う段階と、前記第2フィルタリングされたオーディオ信号を符号化する段階と、を含む。
本発明の一実施形態によるオーディオ符号化方法において、前記オーディオ信号を第1フィルタリングする段階をさらに含み、前記ピッチを検出する段階は、前記第1フィルタリングされたオーディオ信号からピッチを検出する段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記第1フィルタリングする段階は、前記オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングするプリエンファシス(pre-emphasis)を行う段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記ピッチを検出する段階は、前記第2フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含む、前記ピッチに係わる情報を、前記オーディオ信号から獲得する段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記第2フィルタリングする段階は、前記オーディオ信号に対してコムフィルタリング(comb filtering)を行う段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記ピッチを検出する段階は、前記オーディオ信号から前記ピッチに係わる情報を獲得する段階を含み、前記符号化する段階は、前記第2フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力する段階を含み、前記ピッチに係わる情報は、前記第2フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記ビットストリームを生成して出力する段階は、前記ピッチに係わる情報を前記ビットストリームの補助領域(auxiliary area)内に含む前記ビットストリームを生成して出力する段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記ピッチを検出する段階は、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得する段階を含み、前記符号化する段階は、前記ピッチに係わる情報を1フレーム遅延させる段階と、前記第2フィルタリングされたオーディオ信号、及び前記遅延されたピッチに係わる情報を含むビットストリームを生成して出力する段階と、を含み、前記ピッチに係わる情報は、前記第2フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
一方、本発明の一実施形態によるオーディオ復号方法は、符号化された信号を受信する段階と、前記受信された信号を復号する段階と、前記復号された信号をフィルタリングする段階と、を含み、前記符号化された信号は、オーディオ信号からピッチを検出し、前記検出されたピッチを考慮し、前記オーディオ信号を第2フィルタリングし、前記第2フィルタリングされたオーディオ信号を符号化することによって生成され、前記復号された信号をフィルタリングする段階は、前記第2フィルタリングの逆フィルタリングを行う段階を含む。
本発明の一実施形態によるオーディオ復号方法において、前記符号化された信号は、前記オーディオ信号を第1フィルタリングし、前記第1フィルタリングされたオーディオ信号からピッチを検出することによって生成されるものでもある。
本発明の一実施形態によるオーディオ復号方法において、前記符号化された信号を受信する段階は、前記第1フィルタリングされたオーディオ信号から獲得されたピッチに係わる情報をさらに含む前記符号化された信号を受信する段階を含み、前記復号された信号をフィルタリングする段階は、前記符号化された信号から、前記ピッチに係わる情報を抽出する段階と、前記ピッチに係わる情報に基づいて、前記復号された信号をフィルタリングするためのフィルタ係数を決定する段階と、を含んでもよい。
一方、本発明の一実施形態によるオーディオ符号化装置は、オーディオ信号からピッチを検出するピッチ検出部と、前記検出されたピッチを考慮してフィルタ係数を決定し、前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第2フィルタリングを行う第2フィルタと、前記第2フィルタリングされたオーディオ信号を符号化する符号化部と、を含む。
本発明の一実施形態によるオーディオ符号化装置において、前記オーディオ信号を第1フィルタリングする第1フィルタをさらに含み、前記ピッチ検出部は、前記第1フィルタリングされたオーディオ信号からピッチを検出することができる。
本発明の一実施形態によるオーディオ符号化装置において、前記第1フィルタは、前記オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングするプリエンファシス(pre-emphasis)を行うことができる。
本発明の一実施形態によるオーディオ符号化装置において、前記ピッチ検出部は、前記第2フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含む前記ピッチに係わる情報を、前記オーディオ信号から獲得することができる。
本発明の一実施形態によるオーディオ符号化装置において、前記第2フィルタは、前記オーディオ信号に対してコムフィルタリングを行うことを特徴とする。
本発明の一実施形態によるオーディオ符号化装置において、前記ピッチ検出部は、前記オーディオ信号から前記ピッチに係わる情報を獲得し、前記符号化部は、前記第2フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力し、前記ピッチに係わる情報は、前記第2フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
本発明の一実施形態によるオーディオ符号化装置において、前記符号化部は、前記ピッチに係わる情報を前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力することができる。
本発明の一実施形態によるオーディオ符号化装置において、前記ピッチ検出部は、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得し、前記符号化部は、前記ピッチに係わる情報を1フレーム遅延させ、前記第2フィルタリングされたオーディオ信号、及び前記遅延されたピッチに係わる情報を含むビットストリームを生成して出力し、前記ピッチに係わる情報は、前記第2フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
一方、本発明の一実施形態によるオーディオ復号装置は、符号化された信号を受信し、前記受信された信号を復号する復号部と、前記復号された信号をフィルタリングするフィルタと、を含み、前記符号化された信号は、オーディオ信号からピッチを検出し、前記検出されたピッチを考慮し、前記オーディオ信号を第2フィルタリングし、前記第2フィルタリングされたオーディオ信号を符号化することによって生成され、前記フィルタは、前記第2フィルタリングの逆フィルタリングを行う。
本発明の一実施形態によるオーディオ復号装置において、前記符号化された信号は、前記オーディオ信号を第1フィルタリングし、前記第1フィルタリングされたオーディオ信号からピッチを検出することによって生成される。
本発明の一実施形態によるオーディオ復号装置において、前記復号部は、前記第1フィルタリングされたオーディオ信号から獲得されたピッチに係わる情報をさらに含む前記符号化された信号を受信する段階を含み、前記フィルタは、前記符号化された信号から、前記ピッチに係わる情報を抽出し、前記ピッチに係わる情報に基づいて、前記復号された信号をフィルタリングするためのフィルタ係数を決定することができる。
一方、本発明の一実施形態によるオーディオ符号化方法は、オーディオ信号から獲得されたピッチに係わる情報を利用して、前記オーディオ信号をプリフィルタリングする段階と、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して前記プリフィルタリングされたオーディオ信号に対してウィンドウイングを行う段階と、前記オーバーラップ区間を考慮し、前記ウィンドウイングが行われたオーディオ信号、及び前記ピッチに係わる情報を符号化することによって、ビットストリームを生成して出力する段階と、を含む。
本発明の一実施形態によるオーディオ符号化方法において、前記ビットストリームを生成して出力する段階は、前記オーバーラップ区間を考慮し、符号化遅延を決定する段階と、前記決定された符号化遅延によって、前記ピッチに係わる情報を遅延させて出力する段階と、を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記プリフィルタリングする段階は、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得する段階を含み、前記オーバーラップ区間の長さは、前記ウィンドウの50%以上であり、前記ビットストリームを生成して出力する段階は、前記オーバーラップ区間を考慮し、前記ピッチに係わる情報を1フレーム遅延させて出力する段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記ビットストリームを生成して出力する段階は、前記ピッチに係わる情報が、前記ビットストリームの補助領域に含まれるように、前記ビットストリームを生成して出力する段階を含み、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグを含み、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つをさらに含み、前記ビットストリームを生成して出力する段階は、前記フラグを前記ビットストリームのヘッダ内に含み、前記ピッチ周期、前記ピッチゲイン及び前記ピッチタップのうち少なくとも一つを前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力する段階を含んでもよい。
本発明の一実施形態によるオーディオ符号化方法において、前記プリフィルタリングする段階は、前記オーディオ信号を第1フィルタリングする段階と、前記第1フィルタリングされたオーディオ信号から前記ピッチに係わる情報を獲得する段階と、前記ピッチに係わる情報を考慮してフィルタ係数を決定する段階と、前記決定されたフィルタ係数を利用して、前記オーディオ信号に対して第2フィルタリングを行うことができる。
一方、本発明の一実施形態によるオーディオ復号方法は、受信されたビットストリームから周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する段階と、前記周波数変換されたオーディオ信号を逆変換する段階と、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、前記逆変換されたオーディオ信号に対してウィンドウイングを行う段階と、前記ピッチに係わる情報を利用して、前記ウィンドウイングが行われたオーディオ信号をポストフィルタリングする段階と、を含み、前記ポストフィルタリングは、符号化過程で行われたプリフィルタリングに対応し、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮し、前記ビットストリームに含まれるように符号化されたことを特徴とする。
本発明の一実施形態によるオーディオ復号方法において、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮して決定された符号化遅延によって遅延されて出力されたものでもある。
本発明の一実施形態によるオーディオ復号方法において、前記周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する段階は、前記受信されたビットストリームの補助領域内に含まれた前記ピッチに係わる情報を獲得する段階を含み、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含むものでもある。
一方、本発明の一実施形態によるオーディオ符号化装置は、オーディオ信号から獲得されたピッチに係わる情報を利用して、前記オーディオ信号をプリフィルタリングするプリフィルタと、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、前記ピッチフィルタリングされたオーディオ信号に対してウィンドウイングを行い、前記オーバーラップ区間を考慮し、前記ウィンドウイングが行われたオーディオ信号、及び前記ピッチに係わる情報を符号化することにより、ビットストリームを生成して出力する符号化部を含む。
本発明の一実施形態によるオーディオ符号化装置において、前記符号化部は、前記オーバーラップ区間を考慮し、符号化遅延を決定し、前記決定された符号化遅延によって、前記ピッチに係わる情報を遅延させて出力することができる。
本発明の一実施形態によるオーディオ符号化装置において、前記プリフィルタは、フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得し、前記オーバーラップ区間の長さは、前記ウィンドウの50%以上であり、前記符号化部は、前記オーバーラップ区間を考慮し、前記ピッチに係わる情報を1フレーム遅延させて出力することができる。
本発明の一実施形態によるオーディオ符号化装置において、前記符号化部は、前記ピッチに係わる情報が前記ビットストリームの補助領域に含まれるように、前記ビットストリームを生成して出力し、前記ピッチに係わる情報は、前記プリフィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
本発明の一実施形態によるオーディオ符号化装置において、前記ピッチに係わる情報は、前記プリフィルタの適用いかんを示すフラグを含み、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つをさらに含み、前記符号化部は、前記フラグを前記ビットストリームのヘッダ内に含み、前記ピッチ周期、前記ピッチゲイン及び前記ピッチタップのうち少なくとも一つを前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力することができる。
本発明の一実施形態によるオーディオ符号化装置において、前記プリフィルタは、前記オーディオ信号を第1フィルタリングし、前記第1フィルタリングされたオーディオ信号から前記ピッチに係わる情報を獲得し、前記ピッチに係わる情報を考慮してフィルタ係数を決定し、前記決定されたフィルタ係数を利用して、前記オーディオ信号に対して第2フィルタリングを行うことができる。
一方、本発明の一実施形態によるオーディオ復号装置は、受信されたビットストリームから周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得し、前記周波数変換されたオーディオ信号を逆変換し、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、前記逆変換されたオーディオ信号に対してウィンドウイングを行う復号部と、前記ピッチに係わる情報を利用して、前記ウィンドウイングが行われたオーディオ信号をポストフィルタリングするポストフィルタと、を含み、前記ポストフィルタは、符号化過程で行われたプリフィルタリングに対応する前記ポストフィルタリングを行い、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮し、前記ビットストリームに含まれるように符号化されたことを特徴とする。
本発明の一実施形態によるオーディオ復号装置において、前記ピッチに係わる情報は、前記オーバーラップ区間を考慮して決定された符号化遅延によって遅延されて出力されたものでもある。
本発明の一実施形態によるオーディオ復号装置において、前記復号部は、前記受信されたビットストリームの補助領域内に含まれた前記ピッチに係わる情報を獲得し、前記ピッチに係わる情報は、前記プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
一方、本発明の一実施形態によるコンピュータで判読可能な記録媒体は、前述の方法を実行するためのプログラムを記録することができる。
一般的なオーディオコーデックシステムのブロック図である。 ピッチプリフィルタリングを行う一般的なオーディオ符号化装置のブロック図である。 ピッチポストフィルタリングを行う一般的なオーディオ復号装置のブロック図である。 本発明の一実施形態の一例によるオーディオ符号化装置のブロック図である。 本発明の一実施形態の一例によるオーディオ符号化装置のブロック図である。 本発明の一実施形態によるオーディオ復号装置のブロック図である。 本発明の一実施形態の他の例によるオーディオ符号化方法について説明するためのフローチャートである。 本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。 一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。 一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。 一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。 一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。 一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。 本発明の一実施形態によるオーディオ符号化装置のブロック図である。 本発明の一実施形態によるオーディオ復号装置のブロック図である。 本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。 本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。 本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。 本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。 本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。 本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。 本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。 本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。 本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。 本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。 本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。 本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。 AC−3コーデックで利用されるビットストリームの構造について説明するための図面である。 E−AC3コーデックで利用されるビットストリームの構造について説明するための図面である。 心理音響モデルを利用する、本発明の一実施形態によるオーディオ符号化装置のブロック図を図示する図面である。
本発明の利点、特徴、及びそれらを達成する方法は、添付される図面と共に詳細に説明する実施形態を参照すれば、明確になるであろう。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態によって具現され、ただし、本実施形態は、本発明の開示を完全にさせ、本発明が属する技術分野で当業者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、特許請求の範疇によってのみ定義されるのである。明細書全体にわたって、同一参照符号は、同一構成要素を指す。
また、本発明において、次の用語は、次のような基準で解釈され、記載されていない用語でも、下記趣旨によって解釈される。
本実施形態で使用される「部」という用語は、ソフトウェア、FPGAまたはASICのようなハードウェア構成要素を意味し、「部」は、ある役割を行う。しかし、「部」は、ソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングすることができる記録媒体にあるように構成されてもよいが、またはその以上のプロセッサを再生させるように構成されてもよい。従って、一例として「部」は、ソフトウェア構成要素、客体志向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素;並びにプロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数;を含む。構成要素及び「部」によって提供される機能は、さらに少数の構成要素及び「部」に結合されたり、追加的な構成要素及び「部」にさらに分離されたりする。
一方、本明細書において、「所定ウィンドウの大きさ」は、所定ウィンドウが適用された時間領域のフレームを時間・周波数変換したとき、周波数領域での係数の個数を意味する。
また、本明細書において、情報(information)は、値(value)、パラメータ(parameter)、係数(coefficients)、成分(elements)などをいずれも含む用語であり、場合によっては、意味は異なっても解釈されるが、本発明は、それに限定されるものではない。
一方、オーディオ信号(audio signal)とは、広義には、ビデオ信号と区分される概念であり、再生時、聴覚で識別することができる信号を意味する。オーディオ信号は、狭義には、音声(speech)信号と区分される概念であり、音声特性がないか、あるいは少ない信号を意味する。本発明でのオーディオ信号は、広義に解釈されなければならず、音声信号と区分されて使用されるとき、狭義のオーディオ信号と理解される。
一方、フレームとは、オーディオ信号を符号化または復号するためのデータ単位を称するものであり、特定サンプル数や特定時間に限定されるものではない。
ピッチフィルタリングとは、オーディオ信号から、ピッチという時間周期を探してフィルタリングすることによって、符号化効率を高める方法を意味する。
本発明の一実施形態によるオーディオ符号化/復号方法及びその装置は、オーディオ信号の周波数変換係数の符号化/復号装置及びその方法にもなり、さらには、該装置及び該方法が適用されたオーディオ信号処理装置及びその方法にもなる。
また、本明細書においては、説明の便宜上、1つのウィンドウに係わるオーディオ符号化/復号方法及びその装置の動作を記述した場合がある。しかし、本発明の一実施形態によるオーディオ符号化/復号方法及びその装置は、オーディオ信号が分割された複数のウィンドウごとに、本明細書に記述された動作を反復することができる。
以下、添付された図面を参照し、本発明について詳細に説明する。
図1は、一般的なオーディオコーデックシステムのブロック図である。図1に図示されているように、一般的なオーディオコーデックシステム30は、オーディオ符号化装置10及びオーディオ復号装置20を含む。
オーディオ符号化装置10は、入力オーディオ信号を受信し、入力オーディオ信号を符号化する。オーディオ符号化装置10は、入力オーディオ信号を符号化することによって、圧縮されたオーディオビットストリームを生成する。オーディオ復号装置20は、圧縮されたオーディオビットストリームを受信し、圧縮されたオーディオビットストリームを復号する。オーディオ復号装置20は、圧縮されたオーディオビットストリームを復号することによって、出力オーディオ信号を生成する。
オーディオ符号化装置10は、入力オーディオ信号をフレーム単位で処理することができる。例えば、各フレームは、2.5msないし40ms範囲内のフレームサイズに対応するオーディオサンプルを含んでもよい。
オーディオ符号化装置10の符号化部15は、時間・ドメインオーディオ信号サンプルを、周波数・ドメイン変換係数に変換することができる。符号化部15は、周波数・ドメイン変換係数を量子化し、符号化しまたは圧縮することができる。符号化部15は、圧縮された周波数・ドメイン変換係数に対応するビットストリームを、オーディオ復号装置20に伝送するか、あるいは記録媒体に保存し、追ってオーディオ復号装置20に伝送することができる。
オーディオ復号装置20の復号部25は、圧縮されたオーディオビットストリームを復号することによって、量子化された変換係数を回復(recover)する。オーディオ復号装置20は、量子化された変換係数を、時間・ドメインオーディオ信号サンプルにさらに変えるために、逆変換を適用することができる。オーディオ復号装置20は、フレーム境界において、時間・ドメイン波形の不連続を滑らかにするために、オーバーラップアドオペレーション(overlap add operation)を行う。
オーディオ信号が周期的である場合、人間聴覚システムは、非常に小さい符号化歪曲をさらに敏感に認知する傾向がある。従って、周期的な音楽信号及び音声信号に対して目立って発生する符号化歪曲(coding distortion)を減少させるために、ピッチプリフィルタ11及びピッチポストフィルタ21が使用される。
ピッチプリフィルタ11及びピッチポストフィルタ21は、ハーモニック成分間のバレー(valley)に対して発生する量子化ノイズの大きさを減少させることができる。ピッチプリフィルタ11及びピッチポストフィルタ21は、一種のノイズシェーピング(noise shaping)の役割を行う。以下、ピッチプリフィルタ及びピッチポストフィルタと係わり、図2及び図3を参照して具体的に説明する。
図2は、ピッチプリフィルタリングを行う一般的なオーディオ符号化装置のブロック図である。
図2に図示されているように、オーディオ符号化装置10に含まれるピッチプリフィルタ11は、プリエンファシス(pre-emphasis)部12、ピッチ検出部13及びコムフィルタ(comb-filter)14を含んでもよい。図2の符号化部15は、図1の符号化部15に対応するが、重複説明は省略する。
プリエンファシス部12は、信号内の重要な周波数成分(frequency components)を強調する処理を行うことができる。プリエンファシス部12は、所定帯域内の周波数成分の大きさ(magnitude)を他の周波数成分の大きさより増大させるか、あるいは所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングすることにより、所定帯域内の周波数成分を強調する処理を行うことができる。
オーディオ信号の低周波成分の場合、経時的変化が相対的に小さい。従って、オーディオ信号の処理において、ピッチ成分を抽出するためには、経時的変化が相対的に大きい高周波帯域の強調が必要である。オーディオ符号化装置10は、プリエンファシス部12としての高域通過フィルタを使用することにより、低周波帯域に含まれる成分を除去することができる。高域通過フィルタを含むプリエンファシス部12は、数式(1)のように示すことができる。
Figure 0006573887
数式(1)で、x[n]は、プリエンファシス部12への現在入力信号であり、x[n−1]は、プリエンファシス部12への過去入力信号であり、y[n]は、プリエンファシス部12の出力信号であり、αは、フィルタ係数であり、0.9から1までの値でもある。
ピッチ検出部13は、多様なピッチ検出アルゴリズムを利用してピッチを検出する。
コムフィルタ14は、検出されたピッチに基づいて、フィルタ係数を決定することができる。コムフィルタ14は、決定されたフィルタ係数を利用して、入力されたオーディオ信号に対して、コムフィルタリングを適用することができる。コムフィルタ14は、一例として、周波数・ドメインでのピッチハーモニック成分間のバレーを強化(boost)することができる。または、コムフィルタ14は、周波数・ドメイン内において、ピッチハーモニックピークを抑制することができる。
図3は、ピッチポストフィルタリングを行う一般的なオーディオ復号装置のブロック図である。
図3に図示されているように、オーディオ復号装置20に含まれるピッチポストフィルタ21は、コムフィルタ24、及びデエンファシス(de-emphasis)部22を含んでもよい。図3の復号部25は、図1の復号部25に対応するが、重複説明は省略する。
図3のコムフィルタ24は、図2のコムフィルタ14フィルタの逆フィルタ(inverse filter)でもある。従って、コムフィルタ24は、周波数・ドメインでのピッチハーモニック成分間のバレーを弱化(attenuate)することができる。または、コムフィルタ24は、周波数・ドメイン内において、ピッチハーモニックピークを強化することができる。
デエンファシス部22は、プリエンファシス部12の補完物(complement)であり、プリエンファシス部12の逆フィルタを使用することができる。デエンファシス部22は、オーディオ符号化装置10のプリエンファシス部12で強調された周波数成分を補償する。すなわち、デエンファシス部22は、所定帯域内の周波数成分の大きさ(magnitude)を、他の周波数成分の大きさより減少させることができる。
第1実施形態
図1ないし図3に図示されたオーディオコーデックシステム30に含まれるオーディオ符号化装置10は、正確なピッチ検出のために、プリエンファシス部12においてプリエンファシス処理された入力オーディオ信号に対して、ピッチを検出する。オーディオ符号化装置10は、検出されたピッチに基づいて、決定されたフィルタ係数を利用して、コムフィルタリングを行う。そして、オーディオ符号化装置10は、プリエンファシス部12においてプリエンファシス処理された入力オーディオ信号を、周波数・ドメイン符号化してビットストリームを出力する。
また、オーディオコーデックシステム30に含まれるオーディオ復号装置20は、入力されたビットストリームを周波数・ドメイン復号し、コムフィルタリングを行い、デエンファシス処理を行う。
一般的なオーディオコーデックシステム30によれば、プリエンファシス処理されたオーディオ信号がコムフィルタリングされ、コムフィルタリング処理された信号が、符号化過程、復号過程及びデエンファシス過程を経る。従って、オーディオコーデックシステム30を介して出力されるオーディオ信号には、プリエンファシス過程及びデエンファシス過程を経ながらエラーが累積される。
一般的なオーディオコーデックシステム30によれば、オーディオ信号が、オーディオ符号化装置10及びオーディオ復号装置20を経ながら、符号化エラーが発生する。従って、プリエンファシス処理過程、コムフィルタリング過程、符号化過程及び復号過程を経た信号は、符号化エラーを含むので、オーディオ符号化装置10に入力されたオーディオ信号とは違いが生じる。従って、オーディオ復号装置20に入力されたビットストリームが、デエンファシス部22においてデエンファシス処理されるとしても、オーディオ復号装置20は、正確な出力オーディオ信号を出力することができないという問題点がある。
本発明の一実施形態によるオーディオ符号化装置及びその方法、並びにオーディオ復号装置及びその方法は、オーディオ信号に対するプリエンファシス処理を選択的に適用することにより、前述の問題点を解決し、復元された音質を向上させることができる。
図4Aは、本発明の一実施形態の一例によるオーディオ符号化装置100のブロック図である。
図4Aに図示されているように、本発明の一実施形態の一例によるオーディオ符号化装置100は、フィルタリング部140及び符号化部150を含んでもよい。
フィルタリング部140は、周期的なオーディオ信号に対して発生する符号化歪曲を減少させるためのものである。フィルタリング部140は、ピッチ検出部120及び第2フィルタ130を含んでもよい。
ピッチ検出部120は、オーディオ信号からピッチを検出する。オーディオ信号のピッチを検出するということは、フレーム単位に分割されたオーディオ信号の各フレームから、ピッチに係わる情報を獲得するということを意味する。また、オーディオ信号のピッチを検出するということは、後述する第2フィルタ130のフィルタ係数を決定するということを意味する。例えば、ピッチ検出部120は、ピッチに係わる情報として、後述する第2フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップ(tap)のうち少なくとも一つを含むピッチに係わる情報をオーディオ信号から獲得することができる。
第2フィルタ130は、ピッチ検出部120で検出されたピッチを考慮し、フィルタ係数を決定する。第2フィルタ130は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第2フィルタリングを行う。ピッチ検出部120で検出されたピッチに係わる情報に基づいて、第2フィルタ130のゲインが決定される。例えば、第2フィルタ130は、オーディオ信号に対してコムフィルタリングを行うことができるが、本発明は、それに限定されるものではない。
例えば、第2フィルタ130が、オールゼロ(all-zero)コムフィルタである場合、第2フィルタ130の伝達関数Hpre(z)は、下記数式(2)のように示すことができる。
Figure 0006573887
このとき、pは、オーディオ信号から獲得されたピッチ周期であり、bは、オーディオ信号から獲得されたピッチタップである。bは、0より大きいか、あるいはそれと同じであり、1より小さい範囲内で選択される値であり、オーディオ信号内において、十分な周期性(periodicity)が検出されない場合、bは、0にもなる。オーディオ信号が周期的になるほど、bは、1に近くなる。
本発明の一実施形態によれば、オーディオ信号を符号化するために、第2フィルタ130が選択的に使用される。第2フィルタ130がユーザの選択によって選択的に使用される場合、別途のスイッチング部(図示せず)が提供される。第2フィルタ130が選択的に使用される場合には、後述するオーディオ復号装置200で対応する処理が行われるように、ピッチ検出部120は、第2フィルタ130の適用いかんを示すフラグを生成し、オーディオ復号装置200に伝送することができる。すなわち、ピッチ検出部120は、オーディオ信号に基づいて、第2フィルタ130において、オーディオ信号に対して、第2フィルタリングを行うか否かということを決定することができる。ピッチ検出部120は、決定された結果によっ、て第2フィルタ130の適用いかんを示すフラグを、オーディオ復号装置200に伝送することができる。例えば、第2フィルタの適用いかんを示すフラグは、ビットストリームのヘッダに含まれて伝送される。
符号化部150は、第2フィルタリングされたオーディオ信号を符号化する。符号化部150は、第2フィルタリングされたオーディオ信号を含むビットストリームを生成して出力することができる。
具体的には、符号化部150は、第2フィルタリングされたオーディオ信号が分割された各ウィンドウを、周波数変換することができる。符号化部150は、入力されるオーディオ信号に対して、時間・周波数変換、言い換えれば、時間・周波数マッピング(time to frequency mapping)というものを遂行し、周波数変換係数を生成することができる。このとき、ウィンドウの周波数変換は、QMF(quadrature mirror filterbank)、MDCT(modified discrete Fourier transform)、FFT(fast Fourier transform)、またはそれらと類似した方式で遂行されるが、本発明は、それらに限定されるものではない。
符号化部150は、ウィンドウの変換係数を量子化することができる。符号化部150は、量子化されたオーディオ信号を、無ノイズ符号化(noiseless coding)及びビットストリームパッキング(bitstream packing)のような過程を経て符号化されたビットストリームの形態に出力することができる。
符号化部150は、第2フィルタリングされたオーディオ信号とと共に、ピッチに係わる情報を含むビットストリームを生成して出力することができる。フィルタリング部140で行われるピッチフィルタリングは、オーディオ信号から、ピッチという時間周期を探してフィルタリングすることにより、符号化効率を高める方法である。従って、既存コーデックにおいてピッチフィルタリングを利用する場合、ピッチフィルタリングを利用するコーデックと、既存コーデックとの互換性を維持するための方法が必要である。本発明の一実施形態による符号化部150は、ピッチに係わる情報が、ビットストリームの補助領域(auxiliary area)に含まれるようにビットストリームを生成して出力することができる。
一方、オーディオ符号化時に発生する遅延によって、ピッチに係わる情報とオーディオ信号とが伝送されるフレームが異なりもする。従って、符号化部150は、復号されるフレームに適するように、ピッチに係わる情報を遅延させて出力することができる。例えば、オーディオ符号化装置100が50%オーバーラップウィンドウを使用する場合、符号化部150は、ピッチに係わる情報を1フレーム遅延させることができる。その場合、オーディオ符号化装置100は、第2フィルタリングされたオーディオ信号と、遅延されたピッチに係わる情報とを含むビットストリームを生成して出力することができる。遅延されたピッチに係わる情報を出力する具体的な方法と係わっては、追って図8ないし図13を参照して説明する。図8ないし図13は、本発明の第2実施形態と係わるが、本発明の第1実施形態にも適用される。
本発明の一実施形態の一例によれば、オーディオ符号化装置10においてプリエンファシス処理を行うことによって発生する複雑度を低減させることができる。本発明の一実施形態の他の例によれば、プリエンファシス処理されたオーディオ信号の代わりに、原本オーディオ信号を符号化することにより、符号化エラーを低減させることができる。
一方、本発明の一実施形態の他の例として、図4Bに図示されているように、フィルタリング部140は、第1フィルタ110をさらに含んでもよい。図4Bのピッチ検出部120、第2フィルタ130及び符号化部150は、図4Aのピッチ検出部120、第2フィルタ130及び符号化部150に対応するが、重複説明は省略する。
第1フィルタ110は、オーディオ信号を第1フィルタリングする。第1フィルタ110は、ピッチ検出に適するように、オーディオ信号を処理する。例えば、第1フィルタ110は、オーディオ信号の一部周波数帯域を強調するために、オーディオ信号をプリエンファシス処理することができる。プリエンファシス処理とは、オーディオ信号に含まれる所定帯域内の周波数成分の大きさを、他の周波数成分の大きさより増大させるか、あるいは所定帯域内の周波数成分を除いた他の周波数成分の大きさを減少させることを意味する。
第1フィルタ110がプリエンファシス処理を行う場合を例として挙げて説明すれば、本発明の一実施形態の他の例によるオーディオ符号化装置100は、プリエンファシス処理されたオーディオ信号からピッチを検出し、プリエンファシス処理されていない原本オーディオ信号を符号化することにより、ピッチ検出の正確度を高めると共に、符号化エラーを低減させることができる。
ピッチ検出部120は、第1フィルタ110において第1フィルタリングされたオーディオ信号からピッチを検出する。第2フィルタ130は、ピッチ検出部120で検出されたピッチを考慮し、フィルタ係数を決定する。第2フィルタ130は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第2フィルタリングを行う。
図5は、本発明の一実施形態によるオーディオ復号装置のブロック図である。図5に図示されているように、本発明の一実施形態によるオーディオ復号装置200は、復号部250及びフィルタ240を含む。
復号部250は、ビットストリームを受信し、受信されたビットストリームを復号する。受信されたビットストリームは、原本オーディオ信号からピッチを検出し、検出されたピッチを考慮し、原本オーディオ信号を第2フィルタリングし、第2フィルタリングされたオーディオ信号を符号化することによって生成されたビットストリームでもある。または、受信されたビットストリームは、原本オーディオ信号を第1フィルタリングし、第1フィルタリングされたオーディオ信号に対してピッチを検出し、検出されたピッチを考慮し、原本オーディオ信号を第2フィルタリングし、第2フィルタリングされたオーディオ信号を符号化することによって生成されたビットストリームでもある。また、受信されたビットストリームは、オーディオ符号化装置100のフィルタリング部140において、ピッチフィルタリング時に利用されたピッチに係わる情報を含んでもよい。
具体的には、復号部250は、受信されたビットストリームを逆量子化することにより、周波数変換係数を生成する。復号部250は、周波数・時間変換、言い換えれば、周波数・時間マッピング(frequency to time mapping)というものを行うことによって周波数変換係数を逆変換し、復号された信号を出力することができる。周波数・時間変換は、IQMF(inverse quadrature mirror filterbank)、IMDCT(inverse modified discrete Fourier transform)、IFFT(inverse fast Fourier transform)、またはそれらと類似した方式によって遂行されるが、本発明は、それらに限定されるものではない。
フィルタ240は、復号部250で復号された信号をフィルタリングする。フィルタ240は、復号された信号に対して、ビットストリームを生成するために行われた第2フィルタリングの逆フィルタリングを行うことができる。フィルタ240は、受信されたビットストリームからピッチに係わる情報を抽出し、受信されたビットストリーム内に含まれたピッチに係わる情報に基づいて、オーディオ符号化装置100で行われた第2フィルタリングに対応する処理を行うことができる。すなわち、フィルタ240は、ビットストリーム内に含まれるパラメータに基づいて、オーディオ符号化装置100において除去された周期的な成分を復元することができる。
フィルタ240において利用するピッチに係わる情報は、第2フィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
本発明の一実施形態によれば、オーディオ信号を復号するために、フィルタ240が選択的に使用される。フィルタ240は、ビットストリーム内に含まれる第2フィルタの適用いかんを示すフラグに基づいて、選択的に使用される。例えば、第2フィルタの適用いかんを示すフラグは、ビットストリームのヘッダに含まれて伝送される。フィルタ240は、第2フィルタの適用いかんを示すフラグに基づいて、オーディオ符号化装置100で行われた第2フィルタリングに対応する処理を行うことができる。従って、フィルタ240は、オーディオ符号化装置100においてオーディオ信号を符号化するために、第2フィルタ130が適用されたか否かということによって選択的に使用される。
フィルタ240は、復号された信号に対してコムフィルタリングを行うことができるが、本発明は、それに限定されるものではない。例えば、オーディオ符号化装置100の第2フィルタ130がオールゼロコムフィルタである場合、オーディオ復号装置200のフィルタ240の伝達関数Hpost(z)は、下記数式(3)のように示すことができる。
Figure 0006573887
このとき、pは、オーディオ信号から獲得されたピッチ周期であり、bは、オーディオ信号から獲得されたピッチタップである。bは、0より大きいか、あるいはそれと同じであり、1より小さい範囲内で選択される値であり、オーディオ信号内において十分な周期性が検出されない場合、bは、0にもなる。オーディオ信号が周期的になるほど、bは、1に近くなる。
前述のように、本発明の一実施形態によるオーディオ符号化装置100及びオーディオ復号装置200は、プリエンファシス過程及びデエンファシス過程を省略することにより、オーディオコーデックシステムの複雑度を低減させることができる。本発明の一実施形態によるオーディオ符号化装置100は、プリエンファシス処理されたオーディオ信号の代わりに、原本オーディオ信号をそのまま符号化することにより、符号化エラーを低減させ、結果的に、復元されたオーディオ信号の音質を向上させることができる。また、本発明の一実施形態の一例によるオーディオ符号化装置100は、ピッチ検出時には、プリエンファシス処理されたオーディオ信号を利用して、ピッチ検出の正確度を確保すると共に、符号化時には、原本オーディオ信号を利用することによって、復元されたオーディオ信号の音質を向上させることができる。
本発明の一実施形態の一例によるオーディオ符号化方法は、図4Aに図示されたオーディオ符号化装置100で処理される段階から構成される。
本発明の一実施形態の一例によるオーディオ符号化装置100は、オーディオ信号からピッチを検出し、検出されたピッチを考慮し、フィルタ係数を決定することができる。本発明の一実施形態の一例によるオーディオ符号化装置100は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第2フィルタリングを行い、第2フィルタリングされたオーディオ信号を符号化することができる。
一方、図6は、本発明の一実施形態の他の例によるオーディオ符号化方法について説明するためのフローチャートである。
図6を参照すれば、本発明の一実施形態の他の例によるオーディオ符号化方法は、図4Bに図示されたオーディオ符号化装置100で処理される段階から構成される。従って、以下で省略された内容であるとしても、図4Bに図示されたオーディオ符号化装置100について説明した内容は、図6のオーディオ符号化方法にも適用されるということが分かる。
段階S610において、本発明の一実施形態の他の例によるオーディオ符号化装置100は、オーディオ信号を第1フィルタリングすることができる。オーディオ符号化装置100は、オーディオ信号の一部周波数帯域を強調するプリエンファシス処理を行うことができる。すなわち、オーディオ符号化装置100は、オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分の大きさを減少させる処理を行うことができる。
段階S620において、オーディオ符号化装置100は、第1フィルタリングされたオーディオ信号に対してピッチを検出することができる。オーディオ符号化装置100は、フレーム単位に分割されたオーディオ信号の各フレームから、ピッチに係わる情報を獲得することができる。オーディオ符号化装置100は、第2フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含むピッチに係わる情報を、前記オーディオ信号から獲得することができる。
段階S630において、オーディオ符号化装置100は、検出されたピッチを考慮し、フィルタ係数を決定することができる。
段階S640において、オーディオ符号化装置100は、決定されたフィルタ係数に基づいて、オーディオ信号に対して第2フィルタリングを行うことができる。例えば、オーディオ符号化装置100は、オーディオ信号に対して、コムフィルタリングを第2フィルタリングとして行うことができる。
段階S650において、オーディオ符号化装置100は、第2フィルタリングされたオーディオ信号を符号化することができる。オーディオ符号化装置100は、第2フィルタリングされたオーディオ信号、及びピッチに係わる情報を含むビットストリームを生成して出力することができる。このとき、オーディオ符号化装置100は、ピッチに係わる情報が、ビットストリームの補助領域に含まれるように、ビットストリームを生成して出力することができる。オーディオ符号化装置100は、ピッチに係わる情報を1フレーム遅延させて出力することができる。オーディオ符号化装置100は、第2フィルタリングされたオーディオ信号、及び遅延されたピッチに係わる情報を含むビットストリームを生成して出力することができる。
図7は、本発明の一実施形態によるオーディオ復号方法について説明するためのフローチャートである。
図7を参照すれば、本発明の一実施形態によるオーディオ復号方法は、図5に図示されたオーディオ復号装置200で処理される段階から構成される。従って、以下で省略された内容であるとしても、図5に図示されたオーディオ復号装置200について説明した内容は、図7のオーディオ復号方法にも適用されるということが分かる。
段階S710において、本発明の一実施形態によるオーディオ復号装置200は、符号化された信号を受信する。このとき、符号化された信号は、原本オーディオ信号からピッチを検出され、検出されたピッチを考慮し、原本オーディオ信号を第2フィルタリングし、第2フィルタリングされたオーディオ信号を符号化することによって生成された信号でもある。または、符号化された信号は、原本オーディオ信号を第1フィルタリングし、第1フィルタリングされたオーディオ信号からピッチを検出し、検出されたピッチを考慮し、原本オーディオ信号を第2フィルタリングし、第2フィルタリングされたオーディオ信号を符号化することによって生成された信号でもある。オーディオ復号装置200は、第1フィルタリングされたオーディオ信号から獲得されたピッチに係わる情報をさらに含む符号化された信号を受信することができる。
段階S720において、オーディオ復号装置200は、受信された信号を復号する。
段階S730において、オーディオ復号装置200は、復号された信号をフィルタリングする。このとき、オーディオ復号装置200は、符号化されたオーディオ信号の符号化時に行われた第2フィルタリングの逆フィルタリングを行うことができる。オーディオ復号装置200は、受信された信号からピッチに係わる情報を抽出することができる。オーディオ復号装置200は、ピッチに係わる情報に基づいて、復号された信号をフィルタリングするためのフィルタ係数を決定することができる。オーディオ復号装置200は、決定されたフィルタ係数に基づいて、復号された信号に対してフィルタリングを行うことができる。
第2実施形態
図1ないし図3に図示されたオーディオコーデックシステム30において、オーディオ符号化装置10は、ピッチに係わる情報を獲得した後、ロウオーバーラップウィンドウ(low overlap window)または50%オーバーラップウィンドウを利用して、ウィンドウイングを行い、周波数・ドメイン符号化を行うことができる。ウィンドウイングとは、周波数・ドメイン符号化を行うために、オーディオ信号を小さいセットに分けることを意味する。
図8Aないし図8Eは、一般的なオーディオコーデックシステムで発生する遅延について説明するための図面である。図8Aないし図8Eは、N−2,N−1,N及びN1+1フレームを含むオーディオ信号を符号化及び復号する場合を例として挙げて説明する。
図8Aは、オーディオ符号化装置10に入力されるオーディオ信号を図示している。図8Bは、ピッチプリフィルタ11によって行われるピッチの検出を図示している。図8Cは、符号化部15によって行われるオーディオ信号、及びピッチに係わる情報の符号化を図示している。
図8Bに図示されているように、ピッチプリフィルタ11は、現在フレーム801からピッチを検出する。ピッチプリフィルタ11は、現在フレーム801から、ピッチ情報N+1を獲得する。オーディオ符号化装置10は、オーディオ信号から、ピッチに係わる情報を獲得した後、オーディオ信号にウィンドウ804を適用した後、周波数変換を行い、周波数・ドメイン符号化を行う。従って、図8Cに図示されているように、オーディオ符号化装置10は、オーディオ復号装置20に、現在フレーム801と共にピッチ情報N+1を符号化して伝送する。
図1ないし図3に図示されたオーディオコーデックシステム30において、オーディオ復号装置10は、圧縮されたビットストリームに含まれる量子化された変換係数を逆変換し、復号された信号を出力する。
図8Dは、復号部25によって行われる復号を図示している。図8Eは、ピッチポストフィルタ21によって行われるフィルタリングを図示している。図8Dに図示されているように、オーディオ復号装置20は、オーディオ符号化装置10で適用されたウィンドウ804と同一サイズのウィンドウ805を利用して、オーディオ信号を復号することができる。オーディオ復号装置20は、現在フレーム802を逆変換するために、現在フレーム802とオーバーラップされる次のフレーム803を待たなければならない。すなわち、オーバーラップ区間によって時間遅延が発生する。例えば、図8Eに図示されているように、50%オーバーラップウィンドウを適用する場合、1フレーム遅延が発生する。
図8Aないし図8Eに図示されているように、オーディオ符号化装置10において、所定のフレームから抽出されたピッチに係わる情報は、当該フレームと共にオーディオ復号装置20に伝送される。しかし、オーディオ復号装置20は、当該フレームより以前のフレームを復号するために、前記ピッチに係わる情報を利用する。図8Eに図示されているように、オーディオ復号装置20は、現在フレーム802を復号するために、ピッチ情報N+1を利用する。ピッチ情報N+1 803は、オーディオ符号化装置10が、現在フレーム802の次のフレームであるフレームN+1 803から獲得した情報である。
図8Cに図示されているように、オーディオ符号化装置10が、ピッチに係わる情報を伝送するフレームと、周波数変換されたオーディオ信号を伝送するフレームとが同一である。しかし、周波数・ドメイン復号を行う場合、復号遅延が発生する。従って、オーディオコーデックシステム30によれば、オーディオ復号装置20で復号されるフレームに適用されるピッチに係わる情報は、復号されたフレームの以前フレームのオーディオ信号から獲得された情報である。
従って、復号されたオーディオ信号に対して、ピッチに係わる情報の適用において、復元されるオーディオ信号の音質を高めるためには、復号遅延を考慮し、ピッチに係わる情報を伝送する方法が必要である。すなわち、ピッチに係わる情報が抽出されたフレームが復号される時点において、前記ピッチに係わる情報が利用されるようにする方法が必要である。
本発明の一実施形態によるオーディオ符号化装置及びその方法、並びにオーディオ復号装置及びその方法は、ピッチに係わる情報を、対応するフレームが復号される時点を考慮して伝送することにより、前述の問題点を解決し、復元された音質を向上させることができる。
図9は、本発明の一実施形態によるオーディオ符号化装置のブロック図である。
図9に図示されているように、本発明の一実施形態によるオーディオ符号化装置500は、プリフィルタ510及び符号化部550を含む。
プリフィルタ510は、周期的なオーディオ信号の符号化過程内及び復号過程内において、目立って発生する符号化歪曲を低減させるためのものである。プリフィルタ510は、入力オーディオ信号から、ピッチに係わる情報を獲得する。プリフィルタ510は、ピッチに係わる情報を利用して、オーディオ信号をプリフィルタリングすることができる。例えば、プリフィルタリングとは、周波数・ドメインでのピッチハーモニック成分間のバレーを強化するか、あるいはピッチハーモニックピークを抑制する動作を意味する。
プリフィルタ510は、図1及び図2のピッチプリフィルタ11を含んでもよい。または、プリフィルタ510は、図4Aまたは図4Bのフィルタリング部140を含んでもよい。重複説明は省略する。
プリフィルタ510は、入力オーディオ信号を第1フィルタリングし、第1フィルタリングされたオーディオ信号から、ピッチに係わる情報を獲得することができる。プリフィルタ510は、フレーム単位に分割されたオーディオ信号の各フレームから、ピッチに係わる情報を獲得することができる。プリフィルタ510は、ピッチに係わる情報を考慮してフィルタ係数を決定し、決定されたフィルタ係数を利用して、オーディオ信号を第2フィルタリングすることができる。
符号化部550は、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、ピッチフィルタリングされたオーディオ信号に対して、ウィンドウイングを行うことができる。符号化部550は、ウィンドウのオーバーラップ区間を考慮し、ウィンドウイングが行われたオーディオ信号、及びピッチに係わる情報を符号化することができる。ウィンドウのオーバーラップ区間を考慮し、ピッチに係わる情報を符号化するというのは、ウィンドウのオーバーラップ区間に基づいて復号遅延を決定し、決定された復号遅延によって、ピッチに係わる情報を遅延させて符号化するということを意味する。符号化部550は、符号化されたオーディオ信号、及びピッチに係わる情報を含むビットストリームを生成して出力することができる。
本発明の一実施形態による符号化部550は、ウィンドウのオーバーラップ区間を考慮し、符号化遅延を決定することができる。符号化時に利用されるウィンドウと、復号時に利用されるウィンドウとの長さが同一であり、オーバーラップ区間の長さが同一である場合、符号化部550は、符号化時に利用されるウィンドウのオーバーラップ区間に基づいて、復号時に発生する遅延時間を計算することができる。
符号化部550は、決定された符号化遅延によって、ピッチに係わる情報を遅延させ、遅延されたピッチに係わる情報を出力することができる。そのために、符号化部550は、ピッチに係わる情報を復号遅延ほど保存した後で出力するバッファ(図示せず)を含んでもよい。一例として、オーバーラップ区間の長さが、ウィンドウの50%以上である場合、符号化部550は、オーバーラップ区間を考慮し、ピッチに係わる情報を1フレーム遅延させて出力することができる。他の例として、オーバーラップ区間の長さが、ウィンドウの50%未満である場合、符号化部550は、オーバーラップ区間を考慮し、1フレームより短い時間ほどピッチに係わる情報を遅延させて出力することができる。
図11Aないし図11Eは、本発明の一実施形態によるオーディオコーデックシステムにおいて、フレームの復号時点を考慮し、ピッチに係わる情報を伝送する方法について説明するための図面である。図11Aないし図11Eは、N−2,N−1,N及びN1+1フレームを含むオーディオ信号を符号化及び復号する場合を例として挙げて説明する
図11Aは、オーディオ符号化装置500に入力されるオーディオ信号を図示している。図11Bは、プリフィルタ510によって行われるピッチの検出を図示している。図11Cは、符号化部550によって遂行されるオーディオ信号、及びピッチに係わる情報の符号化を図示している。
図11Bに図示されているように、プリフィルタ510は、現在フレーム1101からピッチを検出する。プリフィルタ510は、現在フレーム1101からピッチ情報N+1を獲得する。
オーディオ符号化装置500は、オーディオ信号からピッチに係わる情報を獲得した後、オーディオ信号にウィンドウ1104を適用した後、周波数変換を行い、周波数・ドメイン符号化を行う。本発明の一実施形態による符号化部550は、ウィンドウのオーバーラップ区間に基づいて、復号遅延を決定し、決定された復号遅延によって、ピッチに係わる情報を遅延させて符号化する。図11Aないし図11Eに図示されているように、50%オーバーラップウィンドウを利用するオーディオコーデックシステムの場合、ピッチに係わる情報を1フレーム遅延させて出力することができる。図11Cに図示されているように、符号化部550は、現在フレーム1101を符号化し、符号化されたオーディオ信号を含むビットストリームの出力において、現在フレーム1101に対応するピッチに係わる情報であるピッチ情報N+1を、現在フレーム1101と共に出力する代わりに、1フレーム遅延されて出力されるピッチ情報Nを、現在フレーム1101と共に出力する。
本発明の一実施形態によるオーディオ符号化装置500は、ピッチに係わる情報を、ビットストリームに含めて出力するにあたり、復号遅延を考慮し、ピッチに係わる情報をバッファに保存し、遅延されたピッチに係わる情報を出力することができる。
一方、符号化部550は、既存オーディオコーデック(例えば、AAC(advanced audio coding)、MP3(MPEG−1 audio layer−3)、AACELD(advanced audio coding enhanced low delay)など)との互換性のために、ピッチに係わる情報が出力されるビットストリームの補助領域に含まれるように、ビットストリームを生成して出力することができる。
そのとき、ピッチに係わる情報は、プリフィルタの適用いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。プリフィルタの適用いかんを示すフラグは、後述するオーディオ復号装置600で対応する処理が行われるように、プリフィルタリング処理を行ったか否かということを示すフラグを意味する。
図14Aないし図14Eは、本発明の一実施形態による、ピッチに係わる情報を伝送するビットストリームの構造について説明するための図面である。
図14Aに図示されているように、一般的なビットストリームは、ヘッダ(header)1401、付加情報(side information)領域1402、ローデータ(raw data)領域1403及び補助(auxiliary)領域1404を含んでもよい。
例えば、図14Bに図示されているように、本発明の一実施形態による符号化部550は、ヘッダ1401の次に、ピッチに係わる情報1410を含むビットストリームを生成して出力することができる。または、図14Cに図示されているように、本発明の一実施形態による符号化部550は、付加情報領域1402の次に、ピッチに係わる情報1410を含むビットストリームを生成して出力することができる。または、図14Dに図示されているように、本発明の一実施形態による符号化部550は、ローデータ領域1403の次に、ピッチに係わる情報1410を含むビットストリームを生成して出力することができる。または、図14Eに図示されているように、本発明の一実施形態による符号化部550は、補助領域1404内に、ピッチに係わる情報1410を含むビットストリームを生成して出力することができる。
また、符号化部550は、プリフィルタの適用いかんを示すフラグが、ビットストリームのヘッダに含まれるようにビットストリームを生成し、プリフィルタの適用いかんを示すフラグを除いた残りのピッチに係わる情報は、図14Bないし図14Eに図示された領域内にピッチに係わる情報を含むビットストリームを生成して出力することができる。
すなわち、符号化部550は、プリフィルタの適用いかんを示すフラグを除いた残りのピッチに係わる情報が、ヘッダの次、付加情報の次、補助領域以前のうち少なくとも一つに位置するように、ビットストリームを生成して出力することができる。
図15Aは、AC−3コーデックで利用されるビットストリームの構造を図示し、図15Bは、E−AC3コーデックで利用されるビットストリームの構造を図示している。図15に図示された構造を有するビットストリームを利用するAC−3/E−AC3コーデックの場合、本発明の一実施形態による符号化部550は、BSIのaddbsi領域、AB0〜AB5のskipfld領域またはauxiliary領域に、ピッチに係わる情報を含むように、ビットストリームを生成して出力することができる。本発明の一実施形態によるオーディオ符号化装置500は、前述の例に限定されるものではなく、CELT(constrained energy lapped transform)、AAC、MP3、AACELD、AC−3、E−AC3など多様なコーデック間の互換性を維持するように、ビットストリームの所定領域に、ピッチに係わる情報を含むように、ビットストリームを生成して出力することができる。
図10は、本発明の一実施形態によるオーディオ復号装置のブロック図である。
図10に図示されているように、本発明の一実施形態によるオーディオ復号装置600は、復号部650及びポストフィルタ610を含む。
復号部650は、圧縮されたオーディオビットストリームを復号する。復号部650は、受信されたビットストリームから、周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する。復号部650は、周波数変換されたオーディオ信号を逆変換し、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、逆変換されたオーディオ信号に対して、ウィンドウイングを行う。復号部650は、オーディオ符号化装置500において、ウィンドウイングを行うために利用されたウィンドウと同一サイズのウィンドウを利用して、ウィンドウイングを行うことができる。
オーディオ復号装置600は、オーディオ符号化装置500のプリフィルタ510に対応するポストフィルタ610を使用することができる。ポストフィルタ610は、周期的なオーディオ信号の符号化過程内及び復号過程内で目立って発生する符号化歪曲を減少させるためのものである。ポストフィルタ610は、受信されたビットストリーム内に含まれたピッチに係わる情報に基づいて、オーディオ符号化装置500で行われたプリフィルタリングに対応する処理を行うことができる。すなわち、ポストフィルタ610は、ビットストリーム内に含まれるパラメータに基づいて、オーディオ符号化装置500で除去された周期的な成分を復元することができる。例えば、ピッチに係わる情報は、受信されたビットストリームの補助領域内に含まれる。
ピッチに係わる情報は、先にオーディオ符号化装置500と係わって説明したように、ウィンドウのオーバーラップ区間を考慮して決定された符号化遅延によって遅延されて出力されたものでもある。ピッチに係わる情報は、プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
ポストフィルタ610は、ピッチに係わる情報を利用して、ウィンドウイングが行われたオーディオ信号をポストフィルタリングすることができる。ポストフィルタ610は、ピッチに係わる情報を考慮し、フィルタ係数を決定することができる。ポストフィルタ610は、決定されたフィルタ係数に基づいて、復号されたオーディオ信号に対して、ポストフィルタリングを行うことができる。ポストフィルタリングとは、周波数・ドメインでのピッチハーモニック成分間のバレーを抑制するか、あるいはピッチハーモニックピークを強化する動作を意味する。
ポストフィルタリングは、符号化過程で行われたプリフィルタリングに対応するものでもある。従って、一例によれば、オーディオ復号装置600は、受信されたビットストリームのヘッダに含まれたプリフィルタリング処理いかんと係わるフラグを参照し、選択的にポストフィルタリングを行うことができる。
ポストフィルタ610は、図1及び図3のピッチポストフィルタ21を含んでもよい。または、ポストフィルタ610は、図5のフィルタ240を含んでもよい。重複説明は省略する。
図11Dは、復号部650によって行われる復号を図示している。図11Eは、ポストフィルタ610によって行われるフィルタリングを図示している。図11Dに図示されているように、オーディオ復号装置600は、オーディオ符号化装置500で適用されたウィンドウ1104と同一サイズのウィンドウ1105を利用して、オーディオ信号を復号することができる。オーディオ復号装置600は、現在フレーム1102を逆変換するために、現在フレーム1102とオーバーラップされる次のフレーム1103を待たなければならない。すなわち、オーバーラップ区間によって時間遅延が発生する。例えば、図11Aないし図11Eに図示されているように、50%オーバーラップウィンドウを適用する場合、1フレーム遅延が発生する。
従って、図11Eに図示されているように、オーディオ復号装置600は、現在フレーム1102を復号するために、復号される現在フレーム1102と対応するピッチ情報Nを利用する。ピッチ情報Nは、オーディオ符号化装置500がフレームNから獲得した情報である。
本発明の一実施形態によるオーディオ符号化装置500及びオーディオ復号装置600によれば、オーディオ復号装置600で復号されるフレームに正確に対応するピッチに係わる情報が利用される。従って、本発明の一実施形態によれば、復元されるオーディオ信号の音質が向上する。
前述のように、本発明の一実施形態によるオーディオコーデックシステムに含まれるオーディオ符号化装置500は、符号化遅延を考慮し、ピッチに係わる情報を伝送する。従って、オーディオ復号装置600は、オーディオ復号装置600で復号されるフレームに対応するピッチに係わる情報を、必要な時点、すなわち、当該フレームが復号される時点で提供される。従って、本発明の一実施形態によるオーディオコーデックシステムは、ランダムアクセス(random access)を支援することができる。また、パケットが損失された状況において、エラーが発生しないフレームに対して、正確なピッチに係わる情報を利用して復号を行うことができる。
図12は、本発明の一実施形態によるオーディオ符号化方法について説明するためのフローチャートである。
図12を参照すれば、本発明の第1実施形態の一例によるオーディオ符号化方法は、図9に図示されたオーディオ符号化装置500で処理される段階から構成される。従って、以下で省略された内容であるとしても、図9に図示されたオーディオ符号化装置500について説明した内容は、図12のオーディオ符号化方法にも適用されるということが分かる。
段階S1210において、本発明の一実施形態によるオーディオ符号化装置500は、オーディオ信号から獲得されたピッチに係わる情報を利用して、オーディオ信号をプリフィルタリングすることができる。本発明の一実施形態によるオーディオ符号化装置500は、本発明の一実施形態によるオーディオ符号化装置100と係わり、前述のように、入力オーディオ信号に対するプリエンファシス処理を選択的に行うことができる。
すなわち、オーディオ符号化装置500は、オーディオ信号を第1フィルタリングし、第1フィルタリングされたオーディオ信号からピッチに係わる情報を獲得することができる。第1フィルタリングは、オーディオ信号からピッチに係わる情報を獲得するために、所定の周波数帯域の信号を強調する動作を意味する。オーディオ符号化装置500は、獲得されたピッチに係わる情報を考慮してフィルタ係数を決定し、決定されたフィルタ係数を利用して設計された第2フィルタを利用して、オーディオ信号を第2フィルタリングすることができる。例えば、第2フィルタリングは、コムフィルタリングを含んでもよい。
また、オーディオ符号化装置500は、フレーム単位に分割されたオーディオ信号の各フレームからピッチに係わる情報を獲得することができる。
段階S1220において、本発明の一実施形態によるオーディオ符号化装置500は、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、プリフィルタリングされたオーディオ信号に対して、ウィンドウイングを行うことができる。
段階S1230において、本発明の一実施形態によるオーディオ符号化装置500は、オーバーラップ区間を考慮し、ウィンドウイングが行われたオーディオ信号、及びピッチに係わる情報を符号化することができる。オーディオ符号化装置500は、ウィンドウイングが行われたオーディオ信号、及びピッチに係わる情報を符号化することにより、ビットストリームを生成して出力することができる。
オーディオ符号化装置500は、オーバーラップ区間を考慮し、符号化遅延を決定し、決定された符号化遅延によって、ピッチに係わる情報を遅延させて出力することができる。例えば、オーバーラップ区間の長さが、ウィンドウの50%以上である場合、オーディオ符号化装置500は、ピッチに係わる情報を1フレーム遅延させて出力することができる。
また、オーディオ符号化装置500は、ピッチに係わる情報が、ビットストリームの補助領域に含まれるように、ビットストリームを生成して出力することができ、そのとき、ピッチに係わる情報は、プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。例えば、オーディオ符号化装置500は、プリフィルタリング遂行いかんを示すフラグをビットストリームのヘッダ内に含み、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つをビットストリームの補助領域内に含むビットストリームを生成して出力することができる。
図13は、本発明の一実施形態によるオーディオ復号方法について説明するためのフローチャートである。
図13を参照すれば、本発明の一実施形態によるオーディオ復号方法は、図10に図示されたオーディオ復号装置600で処理される段階から構成される。従って、以下で省略された内容であるとしても、図10に図示されたオーディオ復号装置600について説明した内容は、図13のオーディオ復号方法にも適用されるということが分かる。
段階S1310において、本発明の一実施形態によるオーディオ復号装置600は、受信されたビットストリームから、周波数変換されたオーディオ信号、及びピッチに係わる情報を獲得する。オーディオ復号装置600に受信されるピッチに係わる情報は、符号化時または復号時に適用されるウィンドウのオーバーラップ区間を考慮して遅延されて出力されたものでもある。
段階S1320において、オーディオ復号装置600は、周波数変換されたオーディオ信号を逆変換することにより、時間・ドメインオーディオ信号サンプルを獲得する。
段階S1330において、オーディオ復号装置600は、所定のオーバーラップ区間を有するように設計されるウィンドウを利用して、逆変換されたオーディオ信号に対してウィンドウイングを行う。
段階S1340において、オーディオ復号装置600は、ピッチに係わる情報を利用して、ウィンドウイングが行われたオーディオ信号をポストフィルタリングする。そのとき、オーディオ復号装置600で行われるポストフィルタリングは、オーディオ符号化装置500で行われたプリフィルタリングに対応する。ポストフィルタリングとプリフィルタリングとの対応とは、互いに逆フィルタリング関係であるということを意味する。オーディオ復号装置600は、受信されたビットストリームの補助領域内に含まれたピッチに係わる情報を獲得することができる。そのとき、ピッチに係わる情報は、プリフィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含んでもよい。
図16は、心理音響モデルを利用する、本発明の一実施形態によるオーディオ符号化装置のブロック図を図示している。
図16に図示されているように、本発明の一実施形態によるオーディオ符号化装置1600は、心理音響モデル部1650を含んでもよい。
図16のピッチプリフィルタ1610は、図4のフィルタリング部140、または図9のプリフィルタ510に対応する。従って、重複説明は省略する。
図16のウィンドウイング部1620、周波数変換部1630、量子化部1640、心理音響モデル部1650、エントロピー符号化部1660及びビットストリーム形成部1670は、図4の符号化部150、または図9の符号化部550に対応する。
ウィンドウイング部1620は、入力されたオーディオ信号をウィンドウ単位に分割することができる。ウィンドウのフレーム長は、オーディオ符号化装置1600に適用されるアプリケーションによって変更される。
周波数変換部1630は、オーディオ信号が分割された各ウィンドウを、時間・周波数変換することができる。周波数変換部1630は、ウィンドウを時間・周波数変換することによって、変換係数を生成することができる。そのとき、時間・周波数変換は、QMF(quadrature mirror filterbank)、MDCT(modified discrete Fourier transform)、FFT(fast Fourier transform)、またはそれらと類似の方式によって行われるが、本発明は、それに限定されるものではない。
心理音響モデル部1650は、入力オーディオ信号に対してマスキング効果を適用し、マスキング臨界値(masking threshold)を生成する。
マスキング効果とは、心理音響理論によるものであり、大きい信号に隣接した小さい信号は、大きい信号によって隠されるために、人間の聴覚構造がそれを十分に認知することができないという特性を利用するのである。例えば、騒がしいバスが通り過ぎるバス停留所のように騷音がはなはだしい空間では、静かな空間で聞こえる対話音声が聞こえなくなる。
マスキング臨界値とは、聴者が聞くことができる限界値を意味する。マスキング効果によれば、マスキング臨界値以下に位置したオーディオ信号は聴者が聞くことができない。
心理音響モデルの適用において、オーディオ信号が分割された1つのウィンドウに含まれる複数の周波数変換係数帯域(frequency scale factor band)には、エネルギーが最大である信号が中間に存在し、該信号よりはるかに小サイズの信号が周辺にいくつか存在する。ここで、最大の信号がマスカ(masker)になり、そのマスカを基準に、マスキングカーブ(masking curve)が描かれる。該マスキングカーブによって描かれる小さい信号は、マスキング信号(masked signal)またはマスキ(maskee)になる。該マスキングされた信号を除き、残りの信号のみを有効な信号として残しておくことをマスキングという。
量子化部1640は、心理音響モデル部1650で決定されたマスキング臨界値を利用して、周波数変換部1630で変換されたウィンドウの変換係数を量子化することができる。
量子化部1640が変換係数を量子化する過程において、ノイズが発生するが、量子化部1640は、発生する量子化ノイズがマスキング臨界値より小さいように、変換係数を量子化することができる。量子化ノイズがマスキング臨界値より小さいということは、量子化によるノイズのエネルギーが、マスキング効果によって隠れるということを意味する。言い替えれば、マスキング臨界値より小さい量子化ノイズは、聴取者が聞くことができない。
エントロピー符号化部1660は、量子化されたオーディオ信号に対して、エントロピー符号化を行うことができる。エントロピー符号化部1660は、例えば、ハフマン符号化(Huffman coding)、範囲符号化(range encoding)、算術符号化(arithmetic coding)、及びそれと類似した方式を利用して量子化されたオーディオ信号を符号化することができるが、それらに限定されるものではない。
ビットストリーム形成部1670は、エントロピー符号化部1660から出力された符号化されたオーディオ信号から、1またはそれ以上のビットストリームを生成して出力することができる。
本発明の一実施形態は、コンピュータによって実行されるプログラムモジュールのような、コンピュータによって実行可能な命令語を含む記録媒体の形態によっても具現される。コンピュータ判読可能媒体は、コンピュータによってアクセスされる任意の可用媒体でもあり、揮発性媒体及び不揮発性媒体、分離型及び非分離型の媒体をいずれも含む。また、コンピュータ判読可能媒体は、コンピュータ記録媒体及び通信媒体をいずれも含んでもよい。コンピュータ記録媒体は、コンピュータ判読可能命令語、データ構造、プログラムモジュールまたはその他データのような情報の保存のための任意の方法または技術によって具現された揮発性及び不揮発性、分離型及び非分離型の媒体をいずれも含む。該通信媒体は、典型的には、コンピュータ判読可能命令語、データ構造、プログラムモジュールまたは搬送波のような変調されたデータ信号のその他データ、またはその他伝送メカニズムを含み、任意の情報伝達媒体を含む。
前述の本発明の説明は、例示のためのものであり、本発明が属する技術分野の当業者であるならば、本発明の技術的思想や必須な特徴を変更せずにも、他の具体的な形態に容易に変形が可能であるということをを理解することができるであろう。従って、以上で記述した実施形態は、全ての面で例示的なものであり、限定的ではないということが理解されなければならない。例えば、単一型と説明されている各構成要素は、分散されて実施されもし、同様に、分散されていると説明されている構成要素も、結合された形態でも実施される。
本発明の範囲は、前述の詳細な説明よりは、特許請求の範囲によって示され、特許請求の範囲の意味、範囲及びその均等概念から導き出される全ての変更、または変形された形態は、本発明の範囲に含まれると解釈されなければならない。

Claims (10)

  1. オーディオ信号からピッチを検出する段階と、
    前記検出されたピッチを考慮してフィルタ係数を決定する段階と、
    前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第2フィルタリングを行う段階と、
    前記第2フィルタリングされたオーディオ信号を符号化する段階と、を含み、
    前記第2フィルタリングされたオーディオ信号を符号化する段階は、
    所定のオーバーラップ区間を有するように設計されるウィンドウを利用し、前記第2フィルタリングされたオーディオ信号に対してウィンドウイングを行う段階と、
    前記ウィンドウのオーバーラップ区間を基に符号化遅延を決定する段階と、
    前記決定された符号化遅延により、前記ピッチに係わる情報を遅延させて出力する段階と、
    前記第2フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力する段階と
    を含む、ことを特徴とするオーディオ符号化方法。
  2. 前記オーディオ信号を第1フィルタリングする段階をさらに含み、
    前記ピッチを検出する段階は、前記第1フィルタリングされたオーディオ信号からピッチを検出する段階を含むことを特徴とする請求項1に記載のオーディオ符号化方法。
  3. 前記第1フィルタリングする段階は、
    前記オーディオ信号に含まれる所定帯域内の周波数成分の大きさを他の周波数成分の大きさより増大させるか、あるいは前記所定帯域内の周波数成分を除いた他の周波数成分をフィルタリングするプリエンファシスを行う段階を含むことを特徴とする請求項2に記載のオーディオ符号化方法。
  4. 前記ピッチを検出する段階は、
    前記第2フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含む前記ピッチに係わる情報を、前記オーディオ信号から獲得する段階を含むことを特徴とする請求項1に記載のオーディオ符号化方法。
  5. 前記第2フィルタリングする段階は、
    前記オーディオ信号に対してコムフィルタリングを行う段階を含むことを特徴とする請求項1に記載のオーディオ符号化方法。
  6. 前記ピッチを検出する段階は、
    前記オーディオ信号から前記ピッチに係わる情報を獲得する段階を含み
    前記ピッチに係わる情報は、前記第2フィルタリング遂行いかんを示すフラグ、ピッチ周期、ピッチゲイン及びピッチタップのうち少なくとも一つを含むことを特徴とする請求項1に記載のオーディオ符号化方法。
  7. 前記ビットストリームを生成して出力する段階は、
    前記ピッチに係わる情報を前記ビットストリームの補助領域内に含む前記ビットストリームを生成して出力する段階を含むことを特徴とする請求項に記載のオーディオ符号化方法。
  8. 前記ピッチを検出する段階は、
    フレーム単位に分割された前記オーディオ信号の各フレームから、前記ピッチに係わる情報を獲得する段階を含み、
    前記決定された符号化遅延により、前記ピッチに係わる情報を遅延させて出力する段階は、
    前記ピッチに係わる情報を1フレーム遅延させて出力する段階と、
    前記第2フィルタリングされたオーディオ信号、及び前記遅延されたピッチに係わる情報を含むビットストリームを生成して出力する段階と、を含む、
    ことを特徴とする請求項1に記載のオーディオ符号化方法。
  9. オーディオ信号からピッチを検出するピッチ検出部と、
    前記検出されたピッチを考慮してフィルタ係数を決定し、前記決定されたフィルタ係数に基づいて、前記オーディオ信号に対して第2フィルタリングを行う第2フィルタと、
    前記第2フィルタリングされたオーディオ信号を符号化する符号化部と、を含み、
    前記符号化部は、
    所定のオーバーラップ区間を有するように設計されるウィンドウを利用し、前記第2フィルタリングされたオーディオ信号に対してウィンドウイングを行い、
    前記ウィンドウのオーバーラップ区間を基に符号化遅延を決定し、
    前記決定された符号化遅延により、前記ピッチに係わる情報を遅延させて出力し、
    前記第2フィルタリングされたオーディオ信号、及び前記ピッチに係わる情報を含むビットストリームを生成して出力する、
    ことを特徴とするオーディオ符号化装置。
  10. 請求項1ないしのうちいずれか1項に記載の方法を実行するためのプログラムを記録したコンピュータで判読可能な記録媒体。
JP2016540509A 2013-12-16 2014-11-25 オーディオ信号の符号化方法、復号方法及びその装置 Expired - Fee Related JP6573887B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020130156643A KR102251833B1 (ko) 2013-12-16 2013-12-16 오디오 신호의 부호화, 복호화 방법 및 장치
KR10-2013-0156643 2013-12-16
PCT/KR2014/011365 WO2015093742A1 (en) 2013-12-16 2014-11-25 Method and apparatus for encoding/decoding an audio signal

Publications (2)

Publication Number Publication Date
JP2017504054A JP2017504054A (ja) 2017-02-02
JP6573887B2 true JP6573887B2 (ja) 2019-09-11

Family

ID=53403046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016540509A Expired - Fee Related JP6573887B2 (ja) 2013-12-16 2014-11-25 オーディオ信号の符号化方法、復号方法及びその装置

Country Status (7)

Country Link
US (1) US10186273B2 (ja)
EP (1) EP3069337B1 (ja)
JP (1) JP6573887B2 (ja)
KR (1) KR102251833B1 (ja)
CN (1) CN106030704B (ja)
TW (1) TWI555010B (ja)
WO (1) WO2015093742A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN108550371B (zh) * 2018-03-30 2021-06-01 云知声智能科技股份有限公司 智能语音交互设备快速稳定的回声消除方法
CN108550369B (zh) * 2018-04-14 2020-08-11 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
US11405739B2 (en) * 2020-12-01 2022-08-02 Bose Corporation Dynamic audio headroom management system
CN112992161A (zh) * 2021-04-12 2021-06-18 北京世纪好未来教育科技有限公司 音频编码方法、音频解码方法、装置、介质及电子设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819213A (en) 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
JP2002515610A (ja) * 1998-05-11 2002-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相変化からの雑音寄与度の決定に基づく音声符号化
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
FI116992B (fi) 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
GB2357231B (en) * 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
DE07003891T1 (de) * 2001-08-31 2007-11-08 Kabushiki Kaisha Kenwood, Hachiouji Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale
JP4287637B2 (ja) * 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7844451B2 (en) * 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
US7418013B2 (en) 2004-09-22 2008-08-26 Intel Corporation Techniques to synchronize packet rate in voice over packet networks
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7769584B2 (en) 2004-11-05 2010-08-03 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
JP4599558B2 (ja) 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
WO2006137425A1 (ja) * 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
WO2007102782A2 (en) * 2006-03-07 2007-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for audio coding and decoding
US20100161323A1 (en) * 2006-04-27 2010-06-24 Panasonic Corporation Audio encoding device, audio decoding device, and their method
CN101000768B (zh) * 2006-06-21 2010-12-08 北京工业大学 嵌入式语音编解码的方法及编解码器
WO2008007699A1 (en) 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
KR20080034819A (ko) 2006-10-17 2008-04-22 엘지전자 주식회사 부호화/복호화 장치 및 방법
EP2099026A4 (en) * 2006-12-13 2011-02-23 Panasonic Corp POST-FILTER AND FILTERING METHOD
WO2009081568A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation 符号化装置、復号装置および符号化方法
ATE518224T1 (de) 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
US8738385B2 (en) * 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
WO2012159370A1 (zh) * 2011-08-05 2012-11-29 华为技术有限公司 语音增强方法和设备
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability

Also Published As

Publication number Publication date
EP3069337A4 (en) 2017-05-10
WO2015093742A1 (en) 2015-06-25
TWI555010B (zh) 2016-10-21
CN106030704B (zh) 2020-07-31
EP3069337B1 (en) 2019-01-02
US10186273B2 (en) 2019-01-22
KR102251833B1 (ko) 2021-05-13
US20170018280A1 (en) 2017-01-19
EP3069337A1 (en) 2016-09-21
JP2017504054A (ja) 2017-02-02
TW201539432A (zh) 2015-10-16
CN106030704A (zh) 2016-10-12
KR20150069919A (ko) 2015-06-24

Similar Documents

Publication Publication Date Title
US11631417B2 (en) Stereo audio encoder and decoder
US11094331B2 (en) Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
RU2449387C2 (ru) Способ и устройство для обработки сигнала
EP2224433A1 (en) An apparatus for processing an audio signal and method thereof
JP6573887B2 (ja) オーディオ信号の符号化方法、復号方法及びその装置
JP6457625B2 (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
CN110047500B (zh) 音频编码器、音频译码器及其方法
KR20150032614A (ko) 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
EP3080805B1 (en) Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
KR101108955B1 (ko) 오디오 신호 처리 방법 및 장치
Lin et al. Adaptive bandwidth extension of low bitrate compressed audio based on spectral correlation
RU2798009C2 (ru) Стереофонический кодер и декодер аудиосигналов
WO2010035972A2 (en) An apparatus for processing an audio signal and method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190814

R150 Certificate of patent or registration of utility model

Ref document number: 6573887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees