JP6170172B2

JP6170172B2 - 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置

Info

Publication number: JP6170172B2
Application number: JP2015542948A
Authority: JP
Inventors: チュー，キ−ヒョン; ビクトロビッチポロフ，アントン; セルゲイビッチオシポフ，コンスタンティン; リ，ナム−スク
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-11-13
Filing date: 2013-11-13
Publication date: 2017-07-26
Anticipated expiration: 2033-11-13
Also published as: MX2015006028A; TWI648730B; JP2017167569A; US11004458B2; US20140188465A1; CA2891413A1; PH12015501114A1; MX349196B; KR20210146443A; JP2015535099A; KR20220132662A; MY188080A; KR102331279B1; RU2680352C1; EP3933836A1; SG10201706626XA; CN107958670A; CN104919524A; CA2891413C; AU2017206243B2

Description

本発明は、オーディオ符号化及びオーディオ復号化に係り、さらに具体的には、オーディオ信号の特性に適するように符号化モードを決定しがら、頻繁な符号化モードスイッチングを防止して復元音質を向上させる符号化モード決定方法及び該装置、信号符号化方法及び該装置、並びに信号復号化方法及び該装置に関する。

音楽信号の場合、周波数ドメインでの符号化が効率的であり、音声信号の場合、時間ドメインでの符号化が効率的であるということが周知されている。従って、音楽信号及び音声信号が混合されたオーディオ信号についてタイプを分類し、分類されたタイプに対応して符号化モードを決定する技術が多様に提案されている。

しかし、頻繁な符号化モードのスイッチングによって、ディレイが発生するだけではなく、復元音質の劣化をもたらし、一次的に決定された符号化モードを修正する技術が提案されておらず、符号化モード決定時、エラーが存在する場合、復元音質の劣化が発生するという問題があった。

本発明の技術的課題は、オーディオ信号の特性に適するように符号化モードを決定し、復元音質を向上させることができる符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置を提供するところにある。

本発明の技術的課題は、オーディオ信号の特性に適するように符号化モードを決定しがら、符号化モードスイッチングによるディレイを低減させることができる符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置を提供するところにある。

一側面によれば、符号化モード決定方法は、オーディオ信号の特性に対応し、第１符号化モードと第２符号化モードとを含む複数の符号化モードのうち一つを、現在フレームの初期符号化モードとして決定する段階と、前記初期符号化モードに係わる決定にエラーが存在する場合、前記初期符号化モードを第３符号化モードに修正し、修正された符号化モードを生成する段階と、を含んでもよい。

一側面によれば、オーディオ符号化方法は、オーディオ信号の特性に対応し、第１符号化モードと第２符号化モードとを含む複数の符号化モードのうち一つを、現在フレームの初期符号化モードとして決定して、前記初期符号化モードに係わる決定にエラーが存在する場合、前記初期符号化モードを第３符号化モードに修正し、修正された符号化モードを生成する段階と、前記初期符号化モード、あるいは修正された符号化モードに対応し、オーディオ信号に対して互いに異なる符号化処理を行う段階と、を含んでもよい。

一側面によれば、オーディオ復号化方法は、オーディオ信号の特性に対応し、第１符号化モードと第２符号化モードとを含む複数の符号化モードのうち一つに決定された初期符号化モード、あるいは前記初期符号化モードに係わる決定にエラーが存在する場合、前記初期符号化モードから修正された第３符号化モードのうち一つを符号化モードとして含むビットストリームをパージングする段階と、前記符号化モードにより、ビットストリームに対して互いに異なる復号化処理を行う段階と、を含んでもよい。

初期符号化モードの修正、及びハングオーバー長に対応するフレームの符号化モードを参照し、現在フレームの最終符号化モードを決定することにより、オーディオ信号の特性に適応的な符号化モードを決定しがらも、フレーム間の頻繁な符号化モードのスイッチングを防止することができる。

一実施形態によるオーディオ符号化装置の構成を示したブロック図である。他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。一実施形態による符号化モード決定部の構成を示したブロック図である。一実施形態による初期符号化モード決定部の構成を示したブロック図である。一実施形態による特徴パラメータ抽出部の構成を示したブロック図である。一実施形態による線形予測ドメイン及びスペクトルドメイン符号化に係わる適応的スイッチング方法について説明する図面である。一実施形態による符号化モード修正部の動作について説明する図面である。一実施形態によるオーディオ復号化装置の構成を示したブロック図である。他の実施形態によるオーディオ復号化装置の構成を示したブロック図である。

以下、図面を参照し、本発明の実施形態について具体的に説明する。実施形態についての説明において、関連公知構成、または機能に係わる具体的な説明が、要旨を不明瞭にすると判断される場合には、その詳細な説明は省略する。

ある構成要素が他の構成要素に連結されていたり接続されていたりするというときには、その他の構成要素に、直接に連結されていたり接続されていたりすることもあるが、中間に、他の構成要素が存在することもあると理解されなければならない。

第１、第２のような用語は、多様な構成要素についての説明に使用されるが、前記構成要素は、前記用語によって限定されるものではない。前記用語は、１つの構成要素を他の構成要素から区別する目的のみに使用される。

実施形態に示される構成部は、互いに異なる特徴的な機能を示すために、独立して図示されることにより、各構成部が分離されたハードウェアや、１つのソフトウェア構成単位でなるということを意味しない。各構成部は、説明の便宜上、それぞれの構成部に並べられており、各構成部のうち少なくとも２つの構成部が合わさって１つの構成部からなるか、あるいは１つの構成部が複数個の構成部に分けられて機能を遂行することができる。

図１は、一実施形態によるオーディオ符号化装置の構成を示したブロック図である。図１に図示されたオーディオ符号化装置１００は、符号化モード決定部１１０、スイッチング部１２０、スペクトルドメイン符号化部１３０、線形予測ドメイン符号化部１４０及びビットストリーム生成部１５０を含んでもよい。ここで、線形予測ドメイン符号化部１４０は、時間ドメイン励起符号化部１４１と、周波数ドメイン励起符号化部１４３とを含んでもよく、２つの励起符号化部１４１，１４３のうち少なくとも一つによって具現されてもよい。ここで、各構成要素は、別途のハードウェアによって具現する必要がある場合を除いては、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）でもって具現される。ここで、オーディオ音楽またはオーディオ音声、あるいは音楽と音声との混合信号を意味する。

図１を参照すれば、符号化モード決定部１１０は、オーディオ信号の特性を分析してオーディオ信号のタイプを分類し、分類結果に対応して符号化モードを決定することができる。符号化モードは、スーパーフレーム単位、フレーム単位またはバンド単位で遂行される。または、複数のスーパーフレームグループ、複数のフレームグループ、複数のバンドグループ単位で遂行される。ここで、符号化モードの例としては、大きく分けて、スペクトルドメインと、時間ドメインまたは線形予測ドメインとの二つがあるが、それらに限定されるものではない。プロセッサの性能及び処理速度などが支援され、符号化モードスイッチングによるディレイが解決される場合、符号化モードをさらに細分化させることができ、符号化モードに対応し、符号化方式も細分化させることができる。一実施形態によれば、オーディオ信号を、スペクトルドメイン符号化モードと時間ドメイン符号化モードとのうち一つで初期符号化モードを決定することができる。他の実施形態によれば、オーディオ信号を、スペクトルドメイン符号化モード、時間ドメイン励起符号化モード及び周波数ドメイン励起符号化モードのうち一つで初期符号化モードを決定することができる。また、符号化モード決定部１１０は、初期符号化モードがスペクトルドメイン符号化モードに決定された場合、さらにスペクトルドメイン符号化モードと、周波数ドメイン励起符号化モードとのうち一つに修正することができる。符号化モード決定部１１０は、初期符号化モードが時間ドメイン符号化モード、すなわち、時間ドメイン励起符号化モードに決定された場合、さらに時間ドメイン（ＴＤ）励起符号化モードと周波数ドメイン（ＦＤ）励起符号化モードとのうち一つに修正することができる。ここで、初期符号化モードが時間ドメイン励起符号化モードに決定された場合、最終符号化モード決定過程は、選択的に遂行される。すなわち、時間ドメイン励起符号化モードである初期符号化モードがそのまま維持されてもよい。符号化モード決定部１１０は、ハングオーバー長に該当するフレーム数について符号化モードを判断し、現在フレームの最終符号化モードを決定することができる。一実施形態によれば、現在フレームの初期符号化モード、あるいは修正された符号化モードが複数個、例えば、７個の以前フレームの符号化モードと同一である場合、当該初期符号化モード、あるいは修正された符号化モードを、現在フレームの最終符号化モードとして決定することができる。一方、符号化モード決定部１１０は、現在フレームの初期符号化モード、あるいは修正された符号化モードが、複数個の以前フレームの符号化モードと同一ではない場合、直前フレームの符号化モードを、現在フレームの最終符号化モードとして決定することができる。

前述のように、初期符号化モードの修正、及びハングオーバー長に対応するフレームの符号化モードを参照し、現在フレームの最終符号化モードを決定することにより、オーディオ信号の特性に適応的な符号化モードを決定しがらも、フレーム間の頻繁な符号化モードのスイッチングを防止することができる。

一般的に、音声信号に分類された場合、時間ドメイン符号化、すなわち、時間ドメイン励起符号化が効率的であり、音楽信号に分類された場合、スペクトルドメイン符号化が効率的であり、ボーカル及び／またはハーモニック信号に分類された場合、周波数ドメイン励起符号化が効率的である。

スイッチング部１２０は、符号化モード決定部１１０で決定される符号化モードに対応し、オーディオ信号を、スペクトルドメイン符号化部１３０と、線形予測ドメイン符号化部１４０とのうち一つに提供することができる。線形予測ドメイン符号化部１４０が、時間ドメイン励起符号化部１４１で具現される場合には、スイッチング部１２０は、全体２個のブランチが存在し、時間ドメイン励起符号化部１４１と、周波数ドメイン励起符号化部１４３とによって具現される場合には、スイッチング部１２０は、全体３種のブランチが存在する。

スペクトルドメイン符号化部１３０は、オーディオ信号をスペクトルドメインで符号化することができる。スペクトルドメインは、周波数ドメインまたは変換ドメインを意味する。スペクトルドメイン符号化部１３０に適用される符号化方式としては、ＡＡＣ（advanced audio coding）方式またはＭＤＣＴ（modified discrete cosine transform）と、ＦＰＣ（factorial pulse coding）との結合方式を例として挙げることができるが、それに限定されるものではない。具体的には、ＦＰＣの代わりに、他の量子化方式及びエントロピー符号化方式を使用することができる。音楽信号の場合、スペクトルドメイン符号化部１３０で符号化されることが効率的である。

線形予測ドメイン（linear prediction domain）符号化部１４０は、オーディオ信号を線形予測ドメインで符号化することができる。線形予測ドメインは、励起ドメインまたは時間ドメインを意味する。線形予測ドメイン符号化部１４０は、時間ドメイン励起符号化部１４１によって具現されるか、あるいは時間ドメイン励起符号化部１４１と、周波数ドメイン励起符号化部１４３とを含んで具現される。時間ドメイン励起符号化部１４１に適用される符号化方式としては、ＣＥＬＰ（code excited linear prediction）方式またはＡＣＥＬＰ（algebraic ＣＥＬＰ）方式を例として挙げることができるが、それに限定されるものではない。周波数ドメイン励起符号化部１４３に適用される符号化方式としては、ＧＳＣ（general signal coding）方式またはＴＣＸ（transform coded excitation）方式を例として挙げることができるが、それに限定されるものではない。音声信号の場合、時間ドメイン励起符号化部１４１での符号化が効率的であり、ボーカル及び／またはハーモニック信号の場合、周波数ドメイン励起符号化部１４３での符号化が効率的である。

ビットストリーム生成部１５０は、符号化モード決定部１１０で提供される符号化モード、スペクトルドメイン符号化部１３０から提供される符号化結果、及び線形予測ドメイン符号化部１４０から提供される符号化結果を含み、ビットストリームを生成することができる。

図２は、他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。図２に図示されたオーディオ符号化装置２００は、共通前処理モジュール２０５、符号化モード決定部２１０、スイッチング部２２０、スペクトルドメイン符号化部２３０、線形予測ドメイン符号化部２４０及びビットストリーム生成部２５０を含んでもよい。ここで、線形予測ドメイン符号化部２４０は、時間ドメイン励起符号化部２４１と、周波数ドメイン励起符号化部２４３とを含んでもよく、２つの励起符号化部２４１，２４３のうち少なくとも一つによって具現される。図１に図示されたオーディオ符号化装置と比較し、共通前処理モジュール２０５がさらに付加したものであり、共通する構成要素に係わる動作説明は省略する。

図２を参照すれば、共通前処理モジュール２０５は、ジョイントステレオ処理（joint stereo processing）、サラウンド処理（surround processing）及び／または帯域幅拡張処理（bandwidth extension processing）を行うことができる。ここで、ジョイントステレオ処理、サラウンド処理及び帯域幅拡張処理は、特定標準方式、例えば、ＭＰＥＧ標準方式に採択されたものを適用することができるが、それに限定されるものではない。共通前処理モジュール２０５の出力は、モノチャネル、ステレオチャネルまたはマルチチャネルにもなる。共通前処理モジュール２０５から出力される信号のチャネル数により、スイッチング部２２０は、少なくとも１以上のスィッチで構成される。例えば、共通前処理モジュール２０５が２以上のチャネル出力、すなわち、ステレオチャネルまたはマルチチャネル信号を出力する場合、各チャネルに対応するスィッチが具備される。代表的には、ステレオ信号の最初のチャネルは、音声チャネルでもあり、ステレオ信号の２番目チャネルは、音楽チャネルでもあり、その場合、２つのスィッチに同時にオーディオ信号が提供される。共通前処理モジュール２０５で生成される付加情報は、ビットストリーム生成部２５０に提供され、ビットストリームに含まれる。ここで、付加情報は、復号化端において、ジョイントステレオ処理、サラウンド処理及び／または帯域幅拡張処理が行われるのに必要な情報であり、空間パラメータ、エンベロープ情報、エネルギー情報などを挙げることができるが、適用される処理技法によって多様な付加情報が存在する。

一実施形態によれば、共通前処理モジュール２０５内での帯域幅拡張処理は、符号化ドメインによって、互いに異なるように行われる。コア帯域のオーディオ信号は、時間ドメイン励起符号化方式または周波数ドメイン励起符号化方式を利用して処理され、帯域幅拡張帯域のオーディオ信号は、時間ドメインで処理される。時間ドメインでの帯域幅拡張処理モードは、有声音モードまたは無声音モードを含む複数のモードが存在する。一方、コア帯域のオーディオ信号は、スペクトルドメイン方式を利用して処理され、帯域幅拡張帯域のオーディオ信号は、周波数ドメインで処理される。周波数ドメインでの帯域幅拡張処理モードは、トランジェントモード、ノーマルモードまたはハーモニックモードを含む複数のモードが存在する。互いに異なるドメインでの帯域幅拡張処理のために、符号化モード決定部２１０で決定される符号化モードが、シグナリング情報として共通前処理モジュール２０５に提供される。一実施形態によれば、コア帯域の最後の部分と、帯域幅拡張帯域の開始部分は、オーバーラップされる。オーバーラップされる領域の位置及び大きさは、あらかじめ決定される。

図３は、一実施形態による符号化モード決定部の構成を示したブロック図である。図３に図示された符号化モード決定部３００は、初期符号化モード決定部３１０と、符号化モード修正部３３０とを含んでもよい。

図３を参照すれば、初期符号化モード決定部３１０は、オーディオ信号から抽出された特徴パラメータを利用して、音楽信号であるか音声信号であるか、そのタイプを分類することができる。音声信号に分類された場合、線形予測ドメイン符号化処理が望ましい。一方、音楽信号に分類された場合、スペクトルドメイン符号化処理が望ましい。初期符号化モード決定部３１０は、オーディオ信号から抽出された特徴パラメータを利用して、スペクトルドメイン処理が適するか、時間ドメイン励起処理が適するか、あるいは周波数ドメイン励起処理が適するか、そのタイプを分類することができる。オーディオ信号のタイプによって、対応する符号化モードが決定される。スイッチング部１２０（図１）のブランチが２個である場合、１ビットで、ブランチが３個である場合、２ビットで符号化モードを表現することができる。初期符号化モード決定部３１０での音楽信号または音声信号へのタイプ分類方式は、公知されたさまざまな方式を使用することができる。例えば、ＵＳＡＣ標準のエンコーダパートに記載されたＦＤ／ＬＰＤ分類またはＡＣＥＬＰ／ＴＣＸ分類や、ＡＭＲ標準で使用されるＡＣＥＬＰ／ＴＣＸ分類などがあるが、それらに限定されるものではない。要約すれば、初期符号化モードをいかように決定するかということについては、実施形態で記載された方式以外に、多様な方式を使用することができるということが自明である。

符号化モード修正部３３０は、初期符号化モード決定部３１０で決定された初期符号化モードを、修正パラメータを利用して修正し、修正された符号化モードを決定することができる。一実施形態によれば、初期符号化モードがスペクトルドメイン符号化モードに決定された場合、修正パラメータに基づいて、周波数ドメイン励起符号化モードに修正される。また、初期符号化モードが時間ドメイン符号化モードに決定された場合、修正パラメータに基づいて、周波数ドメイン励起符号化モードに修正される。すなわち、初期符号化モードの決定にエラーがあるか否かということを、修正パラメータを利用して判断し、初期符号化モードの決定にエラーがないと判断された場合には、そのまま維持する一方、エラーがあると判断された場合には、初期符号化モードを修正することができる。初期符号化モードの修正範囲は、スペクトルドメイン符号化モードから周波数ドメイン励起符号化モードにもなり、時間ドメイン励起符号化モードから周波数ドメイン励起符号化モードにもなる。

一方、初期符号化モード、あるいは修正された符号化モードは、現在フレームの一時的な符号化モードであり、現在フレームの一時的符号化モードを、あらかじめ決定されたハングオーバー長内の以前フレームの符号化モードと比較し、該比較結果によって、現在フレームの最終符号化モードを決定することができる。

図４は、一実施形態による初期符号化モード決定部の構成を示したブロック図である。図４に図示された初期符号化モード決定部４００は、特徴パラメータ抽出部４１０及び決定部４３０を含んでもよい。

図４を参照すれば、特徴パラメータ抽出部４１０は、オーディオ信号から、符号化モード決定に必要となる特徴パラメータを抽出することができる。抽出される特徴パラメータの例としては、ピッチパラメータ、ボイシングパラメータ、相関度パラメータ、線形予測エラーのうち少なくとも一つ、あるいは少なくとも２つの組み合わせを含んでもよいが、それらに限定されるものではない。特徴パラメータについて、さらに具体的に説明すれば、次の通りである。

まず、最初の特徴パラメータＦ１は、ピッチパラメータと係わるものであり、現在フレームと、少なくとも１以上の以前フレームとから検出されるＮ個のピッチ値を利用して、ピッチの行動（behavior of pitch）を把握することができる。ランダムな変動、あるいは誤って検出されたピッチ値からの影響を防止するために、Ｎ個ピッチ値の平均から、差が大きいＭ個のピッチ値を除去する。ここで、ＮとＭは、事前の実験またはシミュレーションを介して、最適の値を設定することができる。また、Ｎは、あらかじめ設定し、Ｎ個ピッチ値の平均から、どれほどの差以上のピッチ値を除去するかということについて、事前の実験またはシミュレーションを介して、最適の値を設定することができる。（Ｎ−Ｍ）個のピッチ値に係わる平均ｍｐ’と分散σｐ’とを利用して、最初の特徴パラメータＦ１は、次の数式（１）のように示される。

２番目の特徴パラメータＦ２も、ピッチパラメータと係わるものであり、現在フレームで検出されたピッチ値の信頼度を示される。現在フレーム内の２つのサブフレームＳＦ１，ＳＦ２でそれぞれ検出されたピッチ値の分散σ_ＳＦ１，σ_ＳＦ２を利用して、２番目の特徴パラメータＦ２は、次の数式（２）のように示される。

ここで、ｃｏｖ（ＳＦ_１，ＳＦ_２）は、サブフレームＳＦ１，ＳＦ２間の共分散を示す。すなわち、２番目の特徴パラメータＦ２は、２つのサーブフレーム間の相関度をピッチ距離で示すものである。一実施形態によれば、現在フレームは、２以上のサブフレームから構成され、サーブフレームの数によって、数学式（２）が変形される。

３番目の特徴パラメータＦ３は、ボイシングパラメータ（voicing）と相関度パラメータ（Ｃｏｒｒ）とから、次の数式（３）のように示される。

ここで、ボイシングパラメータ(voicing)は、音のボーカル特性と係わっており、公知の多様な方法によって得られ、相関度パラメータ（Ｃｏｒｒ）は、それぞれのバンド別フレーム間相関度の和で求められる。

４番目の特徴パラメータＦ４は、線形予測エラー（Ｅ_ＬＰＣ）と係わるものであり、次の数式（４）のように示される。

ここで、Ｍ（Ｅ_ＬＰＣ）は、Ｎ個の線形予測エラーの平均を示す。

決定部４３０は、特徴パラメータ抽出部４１０から提供される少なくとも一つ以上の特徴パラメータを利用して、オーディオ信号のタイプを分類し、分類されたタイプによって、初期符号化モードを決定することができる。決定部４３０は、望ましくは、軽判定（soft decision）方式を適用することができ、特徴パラメータ別に、少なくとも１つのミクスチャ（mixture）を形成することができる。一実施形態としては、ミクスチャ確率に基づいたＧＭＭ（Gaussian mixture model）を利用して、オーディオ信号のタイプを分類することができる。１つのミクスチャに係わる確率ｆ（ｘ）は、下記数式（５）によって算出される。

ここで、ｘは、特徴パラメータの入力ベクトルを示し、ｍは、ミクスチャを示し、Ｃｃは、共分散行列（covariance matrix）を示す。

決定部４３０は、音楽確率Ｐ_ｍ及び音声確率Ｐ_ｓを、次の数式（６）を利用して算出することができる。

ここで、音楽への分類にすぐれた特徴パラメータと係わるＭ個ミクスチャに係わる確率Ｐ_ｉをいずれも加算して音楽確率Ｐ_ｍを算出し、音声への分類にすぐれた特徴パラメータと係わるＳ個ミクスチャに係わる確率Ｐ_ｉをいずれも加算して音声確率Ｐ_ｓを算出する。

一方、正確度をさらに確保するために、音楽確率Ｐ_ｍ及び音声確率Ｐ_ｓを、次の数式（７）を利用して算出することができる。

ここで、

は、各ミクスチャに係わるエラー確率を示す。エラー確率は、クリーン音声信号とクリーン音楽信号とを含むトレーニングデータについて、各ミクスチャを利用して分類した結果、誤って分類された個数をチェックして得られるのである。

次に、決定されたハングオーバー長ほどの複数フレームについて、全てのフレームが音楽である確率Ｐ_ｍと、全てのフレームが音声である確率Ｐ_ｓとを、次の数式（８）を利用して算出することができる。ここで、ハングオーバー長は、８と設定するが、それに限定されるものではない。８個のフレームは、現在フレームと、７個の以前フレームとを含む。

次に、数式（５）または数式（６）を利用して求められた音楽確率及び音声確率を利用して、複数個の条件セット

を算出することができる。それについて、図６を参照してさらに具体的に説明すれば、次の通りである。ここで、各条件において、音楽である場合、１の値を有し、音声である場合、０の値を有するように設定する。

図６を参照すれば、６１０段階及び６２０段階においては、音楽確率Ｐ_ｍ及び音声確率Ｐ_ｓを利用して算出された複数個の条件セット

から、音楽条件の和Ｍと、音声条件の和Ｓとを求めることができる。すなわち、音楽条件の和Ｍと音声条件の和Ｓは、それぞれ次の数式（９）のように示される。

６３０段階においては、音楽条件の和Ｍを、所定のスレショルド値Ｔｍと比較し、比較の結果、ＭがＴｍより大きければ、現在フレームの符号化モードを音楽モード、すなわち、スペクトルドメインモードにスイッチングする。一方、６３０段階での比較結果、ＭがＴｍより小さいか、あるいはそれと同じであるならば、現在フレームの符号化モードを変更しない。

６４０段階においては、音声条件の和Ｓを所定のスレショルド値Ｔｓと比較し、比較の結果、ＳがＴｓより大きければ、現在フレームの符号化モードを音声モード、すなわち、線形予測ドメインモードにスイッチングする。一方、６４０段階での比較結果、ＳがＴｓより小さいか、あるいはそれと同じであるならば、現在フレームの符号化モードを変更しない。

６３０段階及び６４０段階で使用されるスレショルド値Ｔｍ及びＴｓは、事前の実験またはシミュレーションを介して、最適の値に設定される。

図５は、一実施形態による特徴パラメータ抽出部の構成を示したブロック図である。図５に図示された初期符号化モード決定部５００は、変換部５１０、スペクトルパラメータ抽出部５２０、時間パラメータ抽出部５３０及び決定部５４０を含んでもよい。

図５において、変換部５１０は、本来のオーディオ信号を、時間ドメインから周波数ドメインに変換することができる。ここで、変換部５１０は、時間表現のオーディオ信号をスペクトル表現で示す多様な変換方式を適用することができ、例として、ＦＦＴ（fast Fourier transform）、ＤＣＴ（discrete cosine transform）またはＭＤＣＴ（modified discrete cosine transform）を有することができるが、それらに限定されるものではない。

スペクトルパラメータ抽出部５２０は、変換部５１０から提供される周波数ドメインのオーディオ信号から、少なくとも一つ以上のスペクトルパラメータを抽出することができる。また、スペクトルパラメータを、短期特徴パラメータ及び長期特徴パラメータに分類して使用することもできる。短期特徴パラメータは、単一の現在フレームから得られ、長期特徴パラメータは、現在フレームと、少なくとも１つの過去フレームとを含む複数のフレームから得られる。

時間パラメータ抽出部５３０は、時間ドメインのオーディオ信号から、少なくとも一つ以上の時間パラメータを抽出することができる。また、時間パラメータを、短期特徴パラメータ及び長期特徴パラメータに分類して使用することもできる。同様に、短期特徴パラメータは、単一の現在フレームから得られ、長期特徴パラメータは、現在フレームと、少なくとも１つの過去フレームとを含む複数のフレームから得られる。

決定部４３０（図４）は、スペクトルパラメータ抽出部５２０から提供されるスペクトルパラメータと、時間パラメータ抽出部５３０から提供される時間パラメータとを利用して、オーディオ信号のタイプを分類し、分類されたタイプによって、初期符号化モードを決定することができる。決定部４３０（図４）は、望ましくは、軽判定方式を適用することができる。

図７は、一実施形態による符号化モード修正部の動作について説明する図面である。図７を参照すれば、７００段階においては、初期符号化モード決定部３１０で決定された初期符号化モードを受信し、時間ドメインモード、すなわち、時間ドメイン励起モードであるか、あるいはスペクトルドメインモードであるかということを判断することができる。

７０１段階においては、７００段階において、スペクトルドメインモードと判断された場合（state_ＴＳ＝＝１）、周波数ドメイン励起符号化が適するか否かということを示す指標state_ＴＴＳＳをチェックすることができる。周波数ドメイン励起符号化、例えば、ＧＳＣが適するか否かということを示す指標state_ＴＴＳＳは、互いに異なる周波数バンドのトーナリティを利用して得ることができる。それについて、さらに具体的に説明すれば、次の通りである。

低帯域信号のトーナリティは、与えられたバンドに対して、最小値を含む小さい値を有する複数個のスペクトル係数の和と、最大値であるスペクトル係数との比率として得られる。与えられたバンドが、それぞれ０〜１ｋＨｚ、１〜２ｋＨｚ、２〜４ｋＨｚである場合、各バンドのトーナリティｔ_０１，ｔ_１２，ｔ_２４と、低帯域信号、すなわち、コア帯域のトーナリティｔ_Ｌは、下記数式（１０）のように示される。

一方、線形予測エラーｅｒｒは、ＬＰＣフィルタを利用して得られ、強いトーナル成分を排除するために使用される。すなわち、強いトーナル成分は、周波数ドメイン励起符号化モードより、スペクトルドメイン符号化モードの方がさらに効率的である。

前述のように得られるトーナリティ及び線形予測エラーを利用して、周波数ドメイン励起符号化モードにスイッチングするための開始条件、すなわち、ｃｏｎｄ_frontは、次の数式（１１）のように示される。

ここで、ｔ_１２front、ｔ_２４front、_ｔＬfront、ｅｒｒ_frontは、それぞれ臨界値であり、事前の実験またはシミュレーションを介して、最適の値に設定される。

一方、前述のように得られるトーナリティ及び線形予測エラーを利用して、周波数ドメイン励起符号化モードを終えるための終了条件す、なわち、ｃｏｎｄ_backは、次の数式（１２）のように示される。

ここで、ｔ_１２back、ｔ_２４back、ｔ_Ｌbackは、それぞれ臨界値であり、事前の実験またはシミュレーションを介して、最適の値に設定される。

すなわち、前記数式（１１）の開始条件が成立するか、あるいは前記数式（１２）の終了条件が成立しないかということを確認することにより、７０１段階において、スペクトルドメイン符号化に比べ、周波数ドメイン励起符号化、例えば、ＧＳＣが適するか否かということを示す指標state_ＴＴＳＳが１であるか否かということがチェックされる。そのとき、前記数式（１２）の終了条件確認は、オプションで行われる。

７０２段階においては、７０１段階でのチェック結果、state_ＴＴＳＳが１である場合、周波数ドメイン励起符号化方式に決定することができる。その場合、初期符号化モードが、スペクトルドメインモードから周波数ドメイン励起モードに、最終符号化モードが修正されたのである。

７０５段階においては、７０１段階でのチェック結果、state_ＴＴＳＳが０である場合、強い音声であるか否かということを判断する指標state_ＳＳをチェックすることができる。もしスペクトルドメイン符号化モードに係わる決定エラーが存在する場合、スペクトルドメイン符号化モードの代わりに、周波数ドメイン励起符号化モードが効率的である。強い音声であるか否かということを判断する指標state_ＳＳは、ボイシングパラメータと相関度パラメータとの差値ｖｃを利用して得ることができる。

ボイシングパラメータと相関度パラメータとの差値ｖｃを利用して、強い音声モードにスイッチングするための開始条件、すなわち、ｃｏｎｄ_frontは、次の数式（１３）のように示される。

ここで、ｖｃ_frontは臨界値であり、事前の実験またはシミュレーションを介して、最適の値に設定される。

一方、ボイシングパラメータと相関度パラメータとの差値ｖｃを利用して、強い音声モードを終わらせるための終了条件、すなわち、ｃｏｎｄ_backは、次の数式（１４）のように示される。

ここで、ｖｃ_backは臨界値であり、事前の実験またはシミュレーションを介して、最適の値に設定される。

すなわち、前記数式（１３）の開始条件が成立するか、あるいは前記数式（１４）の終了条件が成立しないかということを確認することにより、７０５段階において、スペクトルドメイン符号化に比べ、周波数ドメイン励起符号化、例えば、ＧＳＣが適するか否かということを示す指標state_ＳＳが１であるか否かということがチェックされる。そのとき、前記数式（１４）の終了条件確認は、オプションで行われる。

７０６段階においては、７０５段階でのチェック結果、state_ＳＳが０である場合、すなわち、強い音声ではないと判断される場合、スペクトルドメイン符号化方式に決定することができる。その場合、スペクトルドメインモードである初期符号化モードが、最終符号化モードに維持されたのである。

７０７段階においては、７０５段階でのチェック結果、state_ＳＳが１である場合、すなわち、強い音声であると判断される場合、周波数ドメイン励起符号化方式に決定することができる。その場合、初期符号化モードがスペクトルドメインモードから周波数ドメイン励起モードに、最終符号化モードが修正されたのである。

７００段階、７０１段階及び７０５段階を介して、初期符号化モードの決定時、スペクトルドメイン符号化モードに係わる決定エラーを修正することができる。具体的には、初期符号化モードが、スペクトルドメインモードから、スペクトルドメインモードまたは周波数ドメイン励起モードに最終符号化モードが変更される。

一方、７００段階において、線形予測ドメインモードと判断された場合（state_ＴＳ＝＝０）、７０９段階において、強い音楽であるか否かということ判断する指標state_ＳＭをチェックすることができる。もし線形予測ドメイン符号化モード、すなわち、時間ドメイン励起符号化モードに係わる決定エラーが存在する場合、時間ドメイン励起符号化モードの代わりに、周波数ドメイン励起符号化モードが効率的である。強い音楽であるか否かということを判断する指標state_ＳＭは、１から、ボイシングパラメータと相関度パラメータとの差値ｖｃを減算した値（１−ｖｃ）を利用して得ることができる。

１から、ボイシングパラメータと相関度パラメータとの差値ｖｃを減算した値（１−ｖｃ）を利用して、強い音楽モードにスイッチングするための開始条件、すなわち、ｃｏｎｄ_frontは、次の数式（１５）のように示される。

ここで、ｖｃｍ_frontは、臨界値であり、事前の実験またはシミュレーションを介して、最適の値に設定される。

一方、１から、ボイシングパラメータと相関度パラメータとの差値ｖｃを減算した値（１−ｖｃ）を利用して、強い音楽モードを終わらせるための終了条件、すなわち、ｃｏｎｄ_backは、次の数式（１６）のように示される。

ここで、ｖｃｍ_backは、臨界値であり、事前の実験またはシミュレーションを介して、最適の値に設定される。

すなわち、前記数式（１５）の開始条件が成立するか、あるいは前記数式（１６）の終了条件が成立しないかということをを確認することにより、７０９段階において、時間ドメイン励起符号化に比べ、周波数ドメイン励起符号化、例えば、ＧＳＣが適するか否かということを示す指標state_ＳＭが１であるか否かということがチェックされる。そのとき、前記数式（１６）の終了条件確認は、オプションで行われる。

７１０段階においては、７０９段階でのチェック結果、state_ＳＭが０である場合、すなわち、強い音楽ではないと判断される場合、時間ドメイン励起符号化方式に決定することができる。その場合、線形予測ドメインモードである初期符号化モードが、時間ドメイン励起モードである最終符号化モードに修正されたのである。一実施形態によれば、線形予測ドメインモードが、時間ドメイン励起モードである場合、修正なしに維持されたと見ることができる。

７０７段階においては、７０９段階でのチェック結果、state_ＳＭが１である場合、すなわち、強い音楽であると判断される場合、周波数ドメイン励起符号化方式に決定することができる。その場合、線形予測ドメインモードである初期符号化モードが、周波数ドメイン励起モードである最終符号化モードに修正されたのである。

７００段階及び７０９段階を介して、初期符号化モード判断時のエラーを修正することができる。具体的には、初期符号化モードが、線形予測ドメインモード、例えば、時間ドメイン励起モードから、時間ドメイン励起モードまたは周波数ドメイン励起モードに最終符号化モードが変更される。

一実施形態によれば、線形予測ドメインモードに係わる符号化モード決定エラーを修正するための強い音楽判定段階である７０９段階は、オプションで遂行される。

他の実施形態によれば、強い音声判定段階である７０５段階と、周波数ドメイン励起モード判定段階である７０１段階は、先後関係が変わることもある。すなわち、７００段階後、７０５段階をまず遂行した後、７０１段階を遂行することもできる。その場合、必要によっては、各判定段階において使用されるパラメータが変更される。

図８は、本発明の一実施形態によるオーディオ復号化装置の構成を示したブロック図である。

図８に図示されたオーディオ復号化装置８００は、ビットストリーム・パージング部８１０、スペクトルドメイン復号化部８２０、線形予測ドメイン復号化部８３０及びスイッチング部８４０を含んでもよい。ここで、線形予測ドメイン復号化部８３０は、時間ドメイン励起復号化部８３１と周波数ドメイン励起復号化部８３３を含んでもよく、２つの励起復号化部８３１，８３３のうち少なくとも一つによって具現される。ここで、各構成要素は、別途のハードウェアによって具現する必要がある場合を除いては、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）でもって具現される。

図８を参照すれば、ビットストリーム・パージング部８１０は、受信されたビットストリームをパージングし、符号化モードに係わる情報と、符号化されたデータとを分離することができる。符号化モードは、オーディオ信号の特性に対応し、第１符号化モードと第２符号化モードとを含む複数の符号化モードのうち一つを初期符号化モードとして決定し、初期符号化モードに係わる決定にエラーが存在する場合、初期符号化モードを第３符号化モードに修正して決定された最終符号化モードに該当する。

スペクトルドメイン復号化部８２０は、分離された符号化データのうち、スペクトルドメインで符号化されたデータを復号化することができる。

線形予測ドメイン復号化部８３０は、分離された符号化データのうち、線形予測ドメインで符号化されたデータを復号化することができる。線形予測ドメイン復号化部８３０が、時間ドメイン励起復号化部８３１と、周波数ドメイン励起復号化部８３３とから構成される場合、分離された符号化データについて、時間ドメイン励起復号化または周波数ドメイン励起復号化を行うことができる。

スイッチング部８４０は、スペクトルドメイン復号化部８２０から復元された信号と、線形予測ドメイン復号化部８３０から復元された信号とのうち一つをスイッチングし、最終復元された信号として提供することができる。

図９は、本発明の他の実施形態によるオーディオ復号化装置の構成を示したブロック図である。

図９に図示されたオーディオ復号化装置９００は、ビットストリーム・パージング部９１０、スペクトルドメイン復号化部９２０、線形予測ドメイン復号化部９３０、スイッチング部９４０及び共通後処理モジュール９５０を含んでもよい。ここで、線形予測ドメイン復号化部９３０は、時間ドメイン励起符号化部９３１と、周波数ドメイン励起符号化部９３３とを含んでもよく、２つの励起符号化部９３１，９３３のうち少なくとも一つによって具現される。ここで、各構成要素は、別途のハードウェアによって具現する必要がある場合を除いては、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）でもって具現される。図８に図示されたオーディオ符号化装置と比べ、共通後処理モジュール９５０がさらに付加されたものであり、共通する構成要素に係わる動作説明は省略する。

図９を参照すれば、共通後処理モジュール９５０は、共通前処理モジュール２０５（図２）に対応し、ジョイントステレオ処理、サラウンド処理及び／または帯域幅拡張処理を行うことができる。

前記実施形態による方法は、コンピュータで実行されるプログラムで作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令またはデータファイルは、コンピュータで読み取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体（magnetic media）；ＣＤ（compact disc）−ＲＯＭ（read only memory）、ＤＶＤ（digital versatile disc）のような光記録媒体（optical media）；フロプティカルディスク（floptical disk）のような磁気−光媒体（magneto-optical media）；及びＲＯＭ、ＲＡＭ（random access memory）、フラッシュメモリのようなプログラム命令を保存して遂行するように特別に構成されたハードウェア装置；が含まれる。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。

以上のように、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたにしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それは、本発明が属する分野で当業者であるならば、そのような記載から多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的変形は、いずれも本発明の技術的思想の範疇に属するものである。

Claims

オーディオ信号の特性に基づいて、音楽クラスと音声クラスとを含む複数のクラスから現在フレームのクラスを決定する段階と、
前記現在フレームを含む複数のフレームに基づいて、トーナリティと線形予測エラーとを含む特徴パラメータを取得する段階と、
前記特徴パラメータに基づいて、前記現在フレームについて決定されたクラスにエラーが存在するかを判断する段階と、
前記現在フレームについて決定されたクラスにエラーが存在し、前記現在フレームについて決定されたクラスが、前記音楽クラスである場合、前記現在フレームについて決定されたクラスを、前記音声クラスに訂正する段階と、
前記現在フレームについて決定されたクラスにエラーが存在し、前記現在フレームについて決定されたクラスが、前記音声クラスである場合、前記現在フレームについて決定されたクラスを、前記音楽クラスに訂正する段階と、
を含む符号化モード決定方法。
前記特徴パラメータはボイシングパラメータと相関度パラメータとの差値とをさらに含むことを特徴とする請求項１に記載の符号化モード決定方法。
ハングオーバー長に該当するフレーム数についてクラスを判断し、前記現在フレームの最終クラスを決定する段階を含むことを特徴とする請求項１または２に記載の符号化モード決定方法。
オーディオ信号の特性に基づいて、音楽クラスと音声クラスとを含む複数のクラスから現在フレームのクラスを決定する段階と、
前記現在フレームを含む複数のフレームに基づいて、トーナリティと線形予測エラーとを含む特徴パラメータを取得する段階と、
前記特徴パラメータに基づいて、前記現在フレームについて決定されたクラスにエラーが存在するかを判断する段階と、
前記現在フレームについて決定されたクラスにエラーが存在し、前記現在フレームについて決定されたクラスが、前記音楽クラスである場合、前記現在フレームについて決定されたクラスを、前記音声クラスに訂正する段階と、
前記現在フレームについて決定されたクラスにエラーが存在し、前記現在フレームについて決定されたクラスが、前記音声クラスである場合、前記現在フレームについて決定されたクラスを、前記音楽クラスに訂正する段階と、
前記現在フレームについて決定されたクラス、あるいは変更されたクラスにより、前記現在フレームに対して互いに異なる符号化処理を行う段階と、
を含むオーディオ符号化方法。