JP6235725B2

JP6235725B2 - マルチ・チャンネル・オーディオ信号分類器

Info

Publication number: JP6235725B2
Application number: JP2016546482A
Authority: JP
Inventors: バシラケアドリアナ; ユハニラークソネンラッセ; サカリラモアンッシ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2017-11-22
Anticipated expiration: 2034-01-13
Also published as: EP3095117A4; KR101841380B1; US9911423B2; WO2015104447A1; CN106104684A; KR20160110447A; JP2017503214A; EP3095117A1; RU2016131192A; US20160329056A1; EP3095117B1; RU2648632C2

Description

本出願は、オーディオ・エンコーダのためのマルチ・チャンネルまたはステレオ・オーディオ信号の分類に関するものであり、特に、排他的ではないが携帯型装置で使用するマルチ・チャンネルまたはステレオのオーディオ信号エンコーダに関する。

音声や音楽などのオーディオ信号は、オーディオ信号の例えば効果的な伝送または格納を可能にするために符号化される。

オーディオ・エンコーダおよびデコーダ（コーデックとしても知られている）は、例えば音楽や周囲の音（音声符号化用語ではバックグラウンドノイズと呼ぶこともある）などのオーディオベース信号を表わすために使用される。

オーディオ・コーデックはまた、様々なビットレートで作動するように構成することができる。低ビットレートでは、このようなオーディオ・コーデックは、純粋な音声コーデックと同等の符号化速度でオーディオ信号と共に動作するように最適化されることができる。より高いビットレートでは、オーディオ・コーデックは、高い品質と性能をもって、音楽、バックグラウンドノイズおよび音声を含む任意の信号を符号化することができる。可変レートのオーディオ・コーデックはまた、追加ビット（特定量のビットは往々にして「レイヤ」とも呼ばれる）が低レートでの符号化を改善しつつ、高いレートのビット・ストリームが低レート符号化のビット・ストリームを得るために切り捨てられることがあり得るような、埋め込みスケーラブル符号化構造およびビット・ストリームも実現することができる。このようなオーディオ・コーデックは、コアレイヤや最下位ビットレート符号化として、純粋にオーディオ信号のために設計されたコーデックを利用することができる。

オーディオ・コーデックは、圧縮率を向上しつつ高い（知覚）品質を維持するように設計される。このため、オーディオ・コーデックにとって、入力されたオーディオ信号を符号化するためにマルチモードアプローチを採用するのが一般的であり、ここでは入力されたオーディオ信号のチャンネル構成に従って、特定の符号化モードが選択されている。

オーディオ・コーデックは、マルチ・チャンネルの入力オーディオ信号であって、具体的には２チャンネルの入力オーディオ信号で動作するように構成することができる。そのような２チャンネル構成の１つは、それぞれが異なる位相と音圧レベルを持つような２つの類似したオーディオ信号からなるステレオ・オーディオ信号であることができる。これらの違いは、適当な距離を隔てて置かれた２つの無指向性マイクによって得されたステレオ信号に起因することができる。また、別の２チャンネル構成として、比較的分離が短い２つの無指向性マイクによって取得されることで、ステレオ信号とは区別されるバイノーラル信号であることがあり得る。一般的に、バイノーラル信号を取得する際の分離の距離は、典型的な人間の頭の左右の耳間距離に釣り合うように、数センチメートルのオーダーである。

本出願によれば、マルチ・チャンネル・オーディオ信号のためのエントロピー値を推定し、そのエントロピー値からマルチ・チャンネル・オーディオ信号のチャンネル構成を決定し、そして前記マルチ・チャンネル・オーディオ信号を符号化する方法であって、その符号化モードは前記チャンネル構成に依存する方法が提供される。

マルチ・チャンネル・オーディオ信号は、少なくとも第１オーディオ・チャンネル信号と第２オーディオ・チャンネル信号を有し、前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定することは、前記第１オーディオ・チャンネル信号と第２オーディオ・チャンネルをそれぞれ、複数の周波数帯域を有する周波数領域オーディオ信号に変換すること、前記第２オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第１オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定すること、および前記相対的オーディオ信号レベルから前記エントロピー値を決定すること、を有することができる。

前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定することは、前記エントロピー値を閾値と比較すること、前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第１タイプのチャンネル構成として分類すること、および前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類すること、を有することができる。

前記相対的オーディオ信号レベルから前記エントロピー値を決定することは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定することを有することができる。

あるいは、前記相対的オーディオ信号レベルから前記エントロピー値を決定することは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによって、同じ値を有する２つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定することを有することができる。

前記マルチ・チャンネル・オーディオ信号は２チャンネル・オーディオ信号を有し、前記第１タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、かつ前記第２タイプのチャンネル構成はステレオ・オーディオ・チャンネルであることができる。

前記オーディオ信号レベルは、周波数帯域におけるオーディオ信号の大きさを有することができる。

前記相対的オーディオ信号レベルは両耳間のレベル差であることができる。

第２の態様によれば、マルチ・チャンネル・オーディオ信号のエントロピー値を推定し、前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定し、そして前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化するように構成された装置が提供される。

前記マルチ・チャンネル・オーディオ信号は、少なくとも第１オーディオ・チャンネル信号と、第２オーディオ・チャンネル信号とを有することができ、前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定するように構成された前記装置は更に、前記第１オーディオ・チャンネル信号と第２オーディオ・チャンネルをそれぞれ、複数の周波数帯域を有する周波数領域オーディオ信号に変換し、前記第２オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第１オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定し、そして前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成されることができる。

前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定するように構成された前記装置は更に、前記エントロピー値を閾値と比較し、前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第１タイプのチャンネル構成として分類し、そして前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類するように構成されることができる。

前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定するように構成されることができる。

あるいは、前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによって、同じ値を有する２つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定するように構成されることができる。

前記マルチ・チャンネル・オーディオ信号は２チャンネル・オーディオ信号を有し、前記第１タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、前記第２タイプのチャンネル構成はステレオ・オーディオ・チャンネルであることができる。

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータ・コードを備えた少なくとも１つのメモリとを有する装置であって、前記少なくとも１つのメモリと前記コンピュータ・コードは、前記少なくとも１つのプロセッサを伴い、前記装置に、マルチ・チャンネル・オーディオ信号のエントロピー値を推定させ、前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定させ、そして前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化させるように構成された装置が提供される。

前記マルチ・チャンネル・オーディオ信号は、少なくとも第１オーディオ・チャンネル信号と、第２オーディオ・チャンネル信号とを有し、前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定させられる前記装置は更に、前記第１オーディオ・チャンネル信号と第２オーディオ・チャンネルをそれぞれ、複数の周波数帯域を有する周波数領域オーディオ信号に変換させられ、前記第２オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第１オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定させられ、そして前記相対的オーディオ信号レベルから前記エントロピー値を決定させられるようにすることができる。

前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定させられる前記装置は更に、前記エントロピー値を閾値と比較させられ、前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第１タイプのチャンネル構成として分類させられ、そして前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類させられるようにすることができる。

前記相対的オーディオ信号レベルから前記エントロピー値を決定されられる前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定させられるようにすることができる。

あるいは、前記相対的オーディオ信号レベルから前記エントロピー値を決定させられる前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによって、同じ値を有する２つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定させられるようにすることができる。

前記マルチ・チャンネル・オーディオ信号は２チャンネル・オーディオ信号を有すると共に、前記第１タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、前記第２タイプのチャンネル構成はステレオ・オーディオ・チャンネルであることができる。

第４の態様によれば、プロセッサによって実行された際に、以下の各処理を実現するコンピュータ・プログラム・コードであって、前記各処理は、マルチ・チャンネル・オーディオ信号のエントロピー値を推定すること、前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定すること、および前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化すること、であるコンピュータ・プログラム・コードが提供される。

電子デバイスは、以上に記載されたような装置を有することができる。

チップセットは、以上に記載されたような装置を有することができる。

本発明およびその実行方法をより良く理解するため、一例として、以下の添付図面を参照する。
いくつかの実施形態を用いる電子機器の概略図である。いくつかの実施形態によるオーディオ・コーデック・システムの概略図である。いくつかの実施形態による、図２に示したエンコーダの概略図である。いくつかの実施形態による、図３に示したオーディオ信号分類器を更に詳細に示す概略図である。いくつかの実施形態による、図３に示したエンコーダの動作を説明するフロー図である。いくつかの実施形態による、図４に示したオーディオ信号分類器の動作を説明するフロー図である。

以下、マルチモード・オーディオ・コーデックを含み、実行可能なステレオおよびマルチ・チャンネルの音声オーディオ・コーデックをより詳細に説明する。

マルチモード・オーディオ・コーデックによっては、バイノーラル・オーディオ信号と違ってステレオ・オーディオ信号を符号化するように構成されることがあり得え、これら２種類のマルチ・チャンネル・オーディオ信号のどちらがコーデックに提供されるのかという事前知識なしに、コーデックは最良な符号化モードを事前に選択することができない。このことは、入力されたマルチ・チャンネル・オーディオ信号が最良な動作モードで符号化されるのを確実にするために、オーディオ・コーデックは、入力された２チャンネルのオーディオ信号（あるいはバイノーラル・オーディオ信号）を、ステレオ動作モードとバイノーラル動作モードの双方で符号化しなければならないといった問題を生じる可能性がある。

入力オーディオ信号がステレオ信号とバイノーラル信号の間で頻繁に切り替わるような場合には、コーデックにとっては、入力オーディオ信号が最適モードで符号化されるのを確実にするために、２つの動作モードで継続的に符号化することが求められることにもなり、この問題がさらに悪化する可能性がある。

本願明細書に記載される実施形態の概念は、バイノーラルおよびステレオ信号のある特徴が、それぞれの信号が取得された際のマイク間の物理的隔たりに違いがあることで異なってくる場合があるという点に由来することができる。これらの特徴は、一方の信号を他のものから区別する際に使用されることができる。このことにより、マルチモード・オーディオコーダに事前分類ステージを組み込ませることが可能になり、このステージでは特定の入力オーディオ信号が最初に認識できることで、オーディオ信号の符号化を開始する前に最良モードの符号化が選ばれるようになる。

これに関し、まず始めに、本発明の一実施形態によるコーデックを組み込むことができる例示的電子デバイス、または装置１０の概略的ブロック図を示す図１を参照する。

装置１０は、例えばワイヤレス無線通信システムのモバイル端末やユーザ機器であることができる。また、他の実施形態として、装置１０は、ビデオカメラのようなオーディオコービデオ装置、テレビ（ＴＶ）受信機、ＭＰ３レコーダ／プレーヤのようなオーディオ・レコーダ／プレーヤ、メディアレコーダ（ＭＰ４レコーダ／プレーヤとしても知られる）、その他オーディオ信号の処理に適した任意のコンピュータであることができる。

いくつかの実施形態では、電子デバイスまたは装置１０は、アナログ‐デジタル変換器（ＡＤＣ）１４を介してプロセッサ２１に接続されたマイクロフォン１を有している。プロセッサ２１は更に、デジタル‐アナログ変換器（ＤＡＣ）３２を介してスピーカ３３に接続される。プロセッサ２１は更に、送受信機（ＲＸ／ＴＸ）１３や、ユーザ・インタフェース（ＵＩ）１５や、メモリ２２に接続される。

いくつかの実施形態において、プロセッサ２１は、様々なプログラム・コードを実行するように構成することもできる。いくつかの実施形態では、実行プログラム・コードは、本願明細書に記載されたようなマルチ・チャンネルまたはステレオ符号化または復号化コードを有する。いくつかの実施形態において、実行プログラム・コード２３は、必要なときはいつでもプロセッサ２１による検索のために、例えばメモリ２２に格納することができる。メモリ２２は更に、データ（例えば、用途に応じて符号化されたデータ）を格納するセクション２４を提供することができる。

実施形態における符号化および復号化コードは、ハードウエアおよび／またはファームウエアで実行することができる。

ユーザ・インタフェース１５により、ユーザは、例えばキーパッドを介して電子デバイス１０に命令を入力することができたり、例えばディスプレイを介して、電子デバイス１０から情報を取得したりすることができる。いくつかの実施形態では、タッチスクリーンが、ユーザ・インタフェースとしての入力および出力機能の双方を提供することができる。いくつかの実施形態において、装置１０は、例えば無線通信ネットワークを介して他の装置との通信を実現するのに適した送受信機１３を有する。

また、装置１０の構造は、補完されたり、様々な形に変更されたりする場合があることを理解されたい。

例えば、装置１０のユーザは、マイクロフォン１１を用いて、いくつかの他の装置に送信されたり、メモリ２２のデータ部２４に格納されるような音声やその他のオーディオ信号を入力したりすることができる。この目的を達成するために、いくつかの実施形態では、対応するアプリケーションが、ユーザによりユーザ・インタフェース１５を介して起動されることができる。これらの実施形態では、このアプリケーションはプロセッサ２１によって実行することができ、プロセッサ２１をしてメモリ２２に格納された符号化コードを実行させることになる。

いくつかの実施形態では、アナログ‐デジタル変換器（ＡＤＣ）１４は、入力アナログオーディオ信号をデジタルオーディオ信号に変換し、プロセッサ２１にそのデジタルオーディオ信号を提供する。いくつかの実施形態では、マイクロフォン１１が、ＡＤＣ機能を一体化させたマイクロフォンからなり、デジタルオーディオ信号を直接プロセッサに提供して処理させることができる。

このような実施形態では、プロセッサ２１は次に、図２に示されたシステムと図３に示されたエンコーダを参照して説明したのと同じ方法でデジタルオーディオ信号を処理する。

いくつかの実施形態では、結果として生じたビット・ストリームを、他の装置への送信のための送受信機１３に提供することも可能である。あるいは、いくつかの実施形態では、符号化されたオーディオデータを、例えば、同一装置１０によるその後の送信やその後の表示のために、メモリ２２のデータ部２４に格納することができる。

いくつかの実施形態では、装置１０はまた、送受信機１３を介して他の装置から、対応した符号化データを伴うビット・ストリームを受信することも可能である。この例では、プロセッサ２１は、メモリ２２に格納された復号化プログラム・コードを実行することができる。このような実施形態では、プロセッサ２１は受信データを復号化し、デジタル‐アナログ変換器３２に復号化データを提供する。デジタル‐アナログ変換器３２はデジタル復号化データをアナログオーディオデータに変換し、いくつかの実施形態ではスピーカ３３を介してアナログオーディオを出力することができる。いくつかの実施形態において、復号化プログラム・コードの実行が、ユーザによりユーザ・インタフェース１５を介して呼び出されたアプリケーションによっても同様にトリガーされることができる。

いくつかの実施形態では、受信した符号化データはまた、スピーカ３３によって即時出力するのではなく、例えば、その後の復号化と提示のためや、復号化と他の装置への転送のためにメモリ２２のデータ部２４に格納することも可能である。

図１ないし図４に記載した概略的構造と図５および図６に示した方法のステップは、オーディオ・コーデックの動作の一部分だけしか示しておらず、具体的には、図１に示されたス装置で実行される例示のステレオ符号化装置または方法の一部だけを示していることが理解される。

実施形態で用いられるようなオーディオ・コーデックの一般的な動作を図２に示す。図２に概略的に示されているように、一般的なオーディオ符号化／復号化システムはエンコーダとデコーダの双方を有する。しかしながら、いくつかの実施形態ではエンコーダまたはデコーダのいずれか一方、あるいはエンコーダとデコーダの双方を実装する場合があることが理解されるであろう。図２に示したものは、エンコーダ１０４、特にステレオエンコーダ１５１、記憶装置またはメディアチャンネル１０６、およびデコーダ１０８を備えたシステム１０２である。上述したように、いくつかの実施形態は、エンコーダ１０４またはデコーダ１０８の一方、あるいはエンコーダ１０４とデコーダ１０８の双方を有したり、実装したりする場合があることが理解される。

エンコーダ１０４はビット・ストリーム１１２を生成する入力オーディオ信号１１０を圧縮し、いくつかの実施形態ではこのビット・ストリームを記憶したり、メディアチャンネル１０６を介して伝送したりすることができる。エンコーダ１０４は更に、全符号化操作の一部としてマルチ・チャンネルエンコーダ１５１を有することができる。このマルチ・チャンネルエンコーダは、エンコーダ１０４全体の一部であったり、あるいは別個の符号化モジュールであったりすることができることが理解される。

ビット・ストリーム１１２はデコーダ１０８内に受信することができる。デコーダ１０８はビット・ストリーム１１２を解凍して、出力オーディオ信号１１４を生成する。デコーダ１０８は、全復号化操作の一部としてマルチ・チャンネルデコーダを有することができる。マルチ・チャンネルデコーダは、デコーダ１０８全体の一部であったり、あるいは別個の復号化モジュールであったりすることができることが理解される。ビット・ストリーム１１２のビットレートと、入力信号１１０に関係した出力オーディオ信号１１４の品質は、符号化システム１０２の性能を決める主要な特徴である。

図３は、いくつかの実施形態によるエンコーダ１０４を概略的に示している。

図５は、いくつかの実施形態によるエンコーダ１０４の動作を、フロー図の形で概略的に示したものである。

本願明細書に記載される実施形態のコンセプトは、入力されたマルチ・チャンネル・オーディオ信号を符号化する前に分類することにある。その点に関し、図３はいくつかの実施形態による例示的なエンコーダ１０４を示している。更に図５については、エンコーダ１０４の動作がより詳細に示されている。

いくつかの実施形態において、エンコーダ１０４はオーディオ信号分類器３０１を有する。オーディオ信号分類器３０１は、マルチ・チャンネル・オーディオ信号を受信し、このオーディオ信号の周波数領域表示を生成するように構成されている。これらの周波数領域表示は、更なる処理と符号化のためにチャンネル・アナライザ／モノ・エンコーダ３０３に送ることができる。

オーディオ信号分類器３０１は、入力されたマルチ・チャンネル・オーディオ信号のオーディオ信号分類値を導くために、オーディオ信号の周波数領域表示を分析するように構成されている。導き出されたオーディオ信号分類値は、入力されたマルチ・チャンネル・オーディオ信号のチャンネル構成を示している。次いで、オーディオ信号分類値は、チャンネル・アナライザ／モノ・エンコーダ３０３とマルチ・チャンネルパラメータエンコーダ３０５に渡すことができ、これによりチャンネル・アナライザ／モノコーダ３０３とマルチ・チャンネルパラメータエンコーダ３０５のための特定の符号化モードを識別するために使用することができる。

第１の実施形態グループにおいては、エンコーダ１０４のオーディオ信号分類器３０１は、左右のチャンネルを持った少なくとも２チャンネルの入力オーディオ信号を有するマルチ・チャンネル・オーディオ信号を受けとるように構成されることができる。これらの実施形態では、オーディオ信号分類器３０１は、入力オーディオ信号がステレオかバイノーラルのどちらかの２チャンネル・オーディオ信号を有するか否かを示すオーディオ信号分類値を決定することができる。

図４には、いくつかの実施形態による例示的オーディオ信号分類器３０１が更に詳細に記載されている。更に、図６には、図４に示したようなオーディオ信号分類器３０１の動作が、いくつかの実施形態に従って示されている。

いくつかの実施形態では、オーディオ信号分類器２０１は、フレーム区分器／変換器４０１を有する。フレーム区分器／変換器４０１は、左右のチャンネル１１０のそれぞれからのオーディオ信号を、周波数領域変換に適したセクションやフレームへと区分または分割するように構成することができる。いくつかの実施形態でのフレーム区分器／変換器４０１は更に、左右のチャンネルからのオーディオ信号データのフレームまたはセクションを、任意の適切なウインドウ関数を伴ってウインドウ化するように構成することができる。例えば、フレーム区分器／変換器２０１は、１０ミリ秒毎に前後のフレームとオーバーラップする２０ミリ秒のフレームを生成するように構成することができる。

いくつかの実施形態では、フレーム区分器／変換器４０１は、左右チャンネルからのオーディオ信号に対し、何らかの適切な時間領域−周波数領域変換を実行するように構成することができる。例えば、時間領域から周波数領域への変換は、離散フーリエ変換（ＤＦＴ）であったり、高速フーリエ変換（ＦＦＴ）であったり、修正離散コサイン変換（ＭＤＣＴ）であったりすることができる。以下の例ではＦＦＴが使用されている。更に、時間領域‐周波数領域変換の出力を更に処理し、それぞれの入力チャンネル・オーディオ信号データの別々な周波数帯領域表示（サブバンド表示）を生成することができる。これらの帯域は、任意の適切な形に配置することが可能である。例えば、これらの帯域を直線的に離間させたり、知覚的または心理音響的に割り当てたりすることも可能である。

各オーディオ・チャンネルのオーディオ・フレームに対して周波数帯領域表示を生成する処理は、図６のステップ６０１で示される。

いくつかの実施形態では、周波数領域表示は、各サブバンド毎のチャンネル組間にある相対的オーディオ信号レベルや両耳間レベル（エネルギ）の差（ＩＬＤ）を決定するように構成された相対的オーディオ・エネルギ信号レベル決定器４０３に渡されます。サブバンドのための相対的オーディオ信号レベルは、第１のオーディオ・チャンネル信号の周波数帯域でのオーディオ信号レベルであって、第２のオーディオ・チャンネル信号のそれに対応した周波数帯域のオーディオ信号レベルに対する前記オーディオ信号レベルを見つけることによって決定することができる。

なお、以下の例では、１対の左・右チャンネルが解析・処理されることを理解されたい。

いくつかの実施形態では、バンド毎の相対的オーディオレベル（または、両耳間のレベル差）は、以下のコードを使用して計算することができる。

Ｆｏｒ（ｊ＝０、ｊ＜ＮＵＭ＿ＯＦＦ＿ＢＡＮＤ＿ＦＯＲ＿ＳＩＧＮＡＬ＿ＬＥＶＥＬＳ、ｊ＋＋）
｛
ｍａｇ＿ｌ＝０．０、
ｍａｇ＿ｒ＝０．０、
ｆｏｒ（ｋ＝ＢＡＮＤ＿ＳＴＡＲＴ［ｊ］、ｋ＜ＢＡＮＤ＿ＳＴＡＲＴ［ｊ＋１］、ｋ＋＋）
｛
ｍａｇ＿ｌ＋＝ｆｆｔ＿ｌ［ｋ］＊ｆｆｔ＿ｌ［ｋ］＋ｆｆｔ＿ｌ［Ｌ＿ＦＦＴ−ｋ］＊ｆｆｔ＿ｌ［Ｌ＿ＦＦＴ −ｋ］、
ｍａｇ＿ｒ＋＝ｆｆｔ＿ｒ［ｋ］＊ｆｆｔ＿ｒ［ｋ］＋ｆｆｔ＿ｒ［Ｌ＿ＦＦＴ −ｋ］＊ｆｆｔ＿ｒ［Ｌ＿ＦＦＴ −ｋ］、
｝
ｍａｇ［ｊ］＝１０．０ｆ＊ｌｏｇ１０（ｓｑｒｔ（（ｍａｇ＿ｌ＋ＥＰＳＩＬＯＮ）／（ｍａｇ＿ｒ＋ＥＰＳＩＬＯＮ）））、

ここで、Ｌ＿ＦＦＴはＦＦＴの長さであり、ＥＰＳＩＬＯＮはゼロ除算問題を防止するための０より大きな、小さい値である。このような実施形態では、相対的オーディオ・エネルギ信号レベル決定器は、各サブバンドにわたってチャンネル（ＬおよびＲ）毎のマグニチュード決定値を効果的に生成し、次いで一方のチャンネル値を他方のチャンネル値で割り、相対値を得る。

相対的オーディオ・エネルギ信号レベル（または両耳間レベル（エネルギ）差）を決定する処理は、図６のステップ６０３で示される。

いくつかの実施形態では、何らかの適切な両耳間レベル（エネルギ）差（ＩＬＤ）推定を行うことができる。例えば、各フレームに対しては、２つのウインドウを存在させることができ、それらに対して遅延とレベルが推定される。従って、各フレームが１０ミリ秒となるような例では、オーバーラップし合い、かつ互いに５ミリ秒遅延し得る２つのウインドウが存在することができる。言い換えれば、各フレームに対し、符号化のためにエンコーダに渡すことが可能な２つの別個のレベル差の値を決定することができる。

更に、いくつかの実施形態では、各ウインドウに対し、関連するサブバンド毎に差を推定することができる。いくつかの実施形態において、サブバンドの分割は任意の適切な方法に従って決定することができる。

例えば、いくつかの実施形態では、その後において両耳間レベル（エネルギ）差（ＩＬＤ）推定の数を決定するサブバンド分割を、選択された帯域幅の決定に応じて実行することができる。例えば、オーディオ信号の生成は、出力信号が広帯域（ＷＢ）、超広帯域（ＳＷＢ）またはフル帯域（ＦＢ）（そこでは、帯域幅要件が広帯域からフル帯域にかけて増加する）であると考えられるか否かに基づくことができる。考えられる帯域幅の選択として、いくつかの実施形態において、特定のサブバンド分割とすることができる。従って、例えば両耳間レベル（エネルギ）差推定に対してのＦＦＴ領域用サブバンド分割は、以下のものとすることができる、
広帯域（ＷＢ）用ＩＴＤサブバンド
ｃｏｎｓｔｓｈｏｒｔｓｃａｌｅ１０２４＿ＷＢ［］＝
｛１、５、８、１２、２０、３４、４８、５６、１２０、５１２｝、
超広帯域（ＳＷＢ）用ＩＴＤサブバンド
ｃｏｎｓｔｓｈｏｒｔｓｃａｌｅ１０２４＿ＳＷＢ［］＝
｛１、２、４、６、１０、１４、１７、２４、２８、６０、２５６、５１２｝、
フル帯域（ＦＢ）用ＩＴＤサブバンド
ｃｏｎｓｔｓｈｏｒｔｓｃａｌｅ１０２４＿ＦＢ［］＝
｛１、２、３、４、７、１１、１６、１９、４０、１７１、３４１、４４８／＊〜２１ｋＨｚ＊／｝、
広帯域（ＷＢ）用ＩＬＤサブバンド
ｃｏｎｓｔｓｈｏｒｔｓｃｆ＿ｂａｎｄ＿ＷＢ［］＝
｛１、８、２０、３２、４４、６０、９０、１１０、１７０、２１６、２９０、３９４、５１２｝、
超広帯域（ＳＷＢ）用ＩＬＤサブバンド
ｃｏｎｓｔｓｈｏｒｔｓｃｆ＿ｂａｎｄ＿ＳＷＢ［］＝
｛１、４、１０、１６、２２、３０、４５、６５、８５、１０８、１４５、１９７、２５６、３２２、４１２、５１２｝、
フル帯域（ＦＢ）用ＩＬＤサブバンド
ｃｏｎｓｔｓｈｏｒｔｓｃｆ＿ｂａｎｄ＿ＦＢ［］＝
｛１、３、７、１１、１５、２０、３０、４３、５７、７２、９７、１３１、１７１、２１５、２７５、３４１、３９１、４４８／＊〜２１ｋＨｚ＊／｝、

言い換えると、いくつかの実施形態において、レベル差に対し、様々なサブバンドが存在し得るということである。

相対的オーディオ・エネルギ信号レベル決定器４０３は、サブバンドや周波数ビン毎に、相対的オーディオ・エネルギ信号レベルをエントロピー推定器４０５に出力するように構成することができる。

いくつかの実施形態では、エントロピー推定器４０３は、受けとった相対的オーディオ・エネルギ信号レベルに対して、ゼロ次のエントロピー推定値を決定するように構成されている。その際、エントロピー推定器は、受けとった相対的オーディオ・エネルギレベルのエントロピー値を用いて、入力信号１１０として運ばれたマルチ・チャンネル・オーディオ信号の構成やタイプを決定することができる。

いくつかの実施形態において、左右のオーディオ・チャンネル構成を有するマルチ・チャンネル・オーディオ信号に対しての相対的オーディオ・エネルギ信号レベル（ＩＬＤｓ）から決定されたエントロピー値は、左右のオーディオ・チャンネルがステレオタイプかバイノーラルタイプのいずれかであるか否かを決定するために使用することができる。

また、ステレオ・オーディオ信号は、その信号が取得された際のマイクロフォン間の物理的隔たりによってバイノーラル・オーディオ信号から区別できることが理解される。更に、この違いは、各オーディオ信号に対する相対的オーディオ・エネルギ信号レベル（ＩＬＤｓ）値のエントロピーに反映することができる。

いくつかの実施形態では、左右チャンネルのオーディオ信号の相対的オーディオ・エネルギ信号レベル（ＩＬＤｓ）のエントロピーは、通常、以下の式で与えることができ、

ここで、Ｘは考えられるＩＬＤ値のアルファベットを表わし、Ｈ（Ｘ_ＩＬＤ）はＩＬＤ値のエントロピー、Ｐ（Ｘ_ＩＬＤｉ）は特定ＩＬＤ値の確率、ｎはＩＬＤ値の組が起こり得る結果の数である。

エントロピーＨ（Ｘ_ＩＬＤ）は、ＩＬＤ値の範囲に対して考えられる有限数の値ｎについて決定することができる。いくつかの実施形態では、この決定は、エントロピー値Ｈ（Ｘ_ＩＬＤ）が決定される前に、考えられるｎ個の量子化レベルの１つに対してＩＬＤ値をスカラー量子化することで達成されることができる。

相対的オーディオ・エネルギ信号レベルや両耳間レベル（エネルギ）差（ＩＬＤ）をスカラー量子化する処理は、図６のステップ６０５に示される。

いくつかの実施形態において、エントロピー値Ｈ（Ｘ_ＩＬＤ）は、以下のコードを使ったヒストグラムベースの方法を用いて決定することができる。

ｖｏｉｄ
ｅｎｔｒｏｐｙ＿ｅｓｔｉｍ＿ｈｉｓｔ（ｓｈｏｒｔ＊ｓｃａｌｅ，ｓｈｏｒｔｎｏ＿ｓｃａｌｅｓ，ｆｌｏａｔ＊Ｈ０，ｓｈｏｒｔｍａｘ＿ｖａｌｕｅ）
｛
ｆｌｏａｔｈ０，ｈｉｓｔ０［２＊（２＊ＭＡＸ＿ＳＴ＿ＳＣＡＬＥ＋１），ｓｕｍ、
ｓｈｏｒｔｉ、
ｓｅｔ＿ｆ（ｈｉｓｔ０，０．０ｆ，２＊ｍａｘ＿Ｖａｌｕｅ＋１）、

ｆｏｒ（ｉ＝０、ｉ＜ｎｏ＿ｓｃａｌｅ、ｉ＋＋）
｛
ｈｉｓｔ０［ｓｃａｌｅ［ｉ］］＋＝１．０ｆ、
｝
ｓｕｍ＝０．０、
ｆｏｒ（ｉ＝０、ｉ＜＝２＊ｍａｘ＿ｖａｌｕｅ、ｉ＋＋）
｛
ｈｉｓｔ０［ｉ］＋＝０．０１ｆ、
ｓｕｍ＋＝ｈｉｓｔ０［ｉ］、
｝
ｓｕｍ＝１．０ｆ／ｓｕｍ、
ｈ０＝０．０ｆ、
ｆｏｒ（ｉ＝０、ｉ＜＝２＊ｍａｘ＿ｖａｌｕｅ、ｉ＋＋）
｛
ｈｉｓｔ０［ｉ］＊＝ｓｕｍ、
ｈ０ −＝ｈｉｓｔ０［ｉ］＊ｌｏｇｆ（ｈｉｓｔ０［ｉ］）、
｝
＊Ｈ０／ｌｏｇｆ（２．０ｆ）
｝

ここで、２＊ｍａｘ＿Ｖａｌｕｅ＋１は、上式のｎに対応することができるＩＬＤ値に対し予想される量子化レベルの数であり、ｓｃａｌｅは、エントロピー値Ｈ（Ｘ_ＩＬＤ）が決定されることになる量子化ＩＬＤ値を含む列である。そのような実施形態では、エントロピー推定器４０５は、特定の量子化ＩＬＤ値Ｐ（ｘ_ＩＬＤｉ）を、エントロピー値が計算されることになる量子化ＩＬＤ値のデータ組における前記特定量子化ＩＬＤの出現の頻度を決定することで効果的に決定する。実際には、エントロピー推定器４０５は、各量子化ＩＬＤ値の確率を、有限の量子化ＩＬＤ値の組に渡るそのヒストグラムを決めることにより決定する。エントロピー値Ｈ（Ｘ_ＩＬＤ）は、上記コードでのパラメータｈ０に対応している。更に、上記コードは、エントロピー値をビット単位で返す。

要約すると、実施形態においてエントロピーの決定は、マルチ・チャンネル・オーディオ信号のオーディオ・フレームから、複数の相対的オーディオ信号レベルのヒストグラムを決定することによって、相対的オーディオ信号レベルの確率を決定するステップを有することができるということである。

他の実施形態では、エントロピー値は、エントロピー値を決定するためのシンボルとしても知られる特定の量子化ＩＬＤ値のコインシデンスを検知することで、エントロピーを推定するようなコインシデンス検出法を用いて決定することができる。

この方法では、最初に、量子化ＩＬＤ値（またはシンボル）のコインシデンス間における量子化ＩＬＤ値の平均数の推定値が決定される。

これは、量子化ＩＬＤ値のストリームを観察し、同じ量子化ＩＬＤ値の特定のコインシデンスの間の量子化ＩＬＤ値の数を記録することによって実行されることができる。

例えば、仮に、シンボルのストリームの始まりが、［ａｇｂｚｄｇｈｂａｚａ…］という値であるならば、シンボルの最初のコインシデンスはシンボルｇで起こり、コインシデンスＤ_１の間のシンボルの数は６として与えられる。シンボルの２番目のコインシデンスはシンボルａで起こり、この場合、コインシデンスＤ_２の間のシンボルの数は５として与えられる。これは、そのストリームの更なるシンボルに対して繰り返されることができる。

シンボル

のコインシデンスに対しての量子化ＩＬＤ値（またはシンボル）の平均数の推定値は、その際、以下の式で与えられることができる。

ここで、仮にＫが無記憶ランダムソースの等確率シンボルを表すものとした場合、ビット単位のエントロピーはｌｏｇ_２（Ｋ）として与えられる。

次に、仮に

を等確率シンボル（またはＩＬＤ値）の数の近似値とすると、

は以下に示す関係による

の関数として表すことができる。

なお、上式でａ，ｂ，ｃにはそれぞれ、０．６３６６，−０．８４９３，０．１２７２が与えられる。

言い換えるならば、相対的オーディオ・エネルギ信号レベル（ＩＬＤｓ）のエントロピーは、最初に、上の例で示したようにコインシデンスに対する量子化ＩＬＤ値を連続して観察することで

を決定し、そして２番目に、上式に従って

を計算することによって推定することができる。最終的に、エントロピーは、

として推定することができる。

なお、上の例で使用される各値は、データセットのエントロピーを決定するためのコインシデンス法の基本原理を説明するのに用いたに過ぎず、この方法を適用することができる真の量子化ＩＬＤ値を反映するものではないということを理解されたい。

要約すると、他の実施形態では、同じ値を持った同一の相対的オーディ信号レベル値の内の２つのコインシデンス間での相対的オーディオ信号レベル値の平均数を最初に推定し、マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによってエントロピーを決定することができる。次に、エントロピーは、推定された相対的オーディオ信号レベル値の平均数に関して言えば、二次多項式の形で与えられることができる。

また、データセットのエントロピーを決定するコインシデンス法の詳細については、それを参照することにより本願明細書に組み込まれる、引用文献Ｊ．ＭｏｎｙａｌｖａｏとＤ．Ｇ．ＳｏｌｖａとＲ．Ａｔｔｕｘによる「小データセットのための簡単なエントロピー推定器」、エレクトロニクスレターズ４８巻Ｎｏ．１７で見ることができる。

いくつかの実施形態では、エントロピーＨ（Ｘ_ＩＬＤ）は、エントロピー値がビット数で与えられるようにするために、ｌｏｇ_２に従って決定することができる。

量子化された相対的オーディオ・エネルギ信号レベルまたは両耳間レベル（エネルギ）差（ＩＬＤ）ためのエントロピー値を決定する処理は、図６のステップ６０７に示されている。

実施形態では、エントロピー値は、入力オーディオ信号の各フレームに対応する量子化ＩＬＤ値に対して決定することが可能なことを理解されたい。

実施形態では、チャンネル構成値は、その後、所定のエントロピー判定閾値に対してエントロピー値の値を比較することによって決定されることができる。

特に、いくつかの実施形態では、入力されたオーディオ信号が少なくとも２チャンネル・オーディオ信号を有する際には、ステレオ・オーディオ信号とバイノーラル・オーディオ信号を区別するためにエントロピー値を使用することができる。

１つの特別な例示的実施形態では、２．５ビットの所定のエントロピー判定閾値が、バイノーラル・オーディオ信号とステレオ・オーディオ信号との間の十分な区別をもたらすことが見出された。言い換えるならば、仮に２チャンネルの入力オーディオ信号のエントロピーが前記所定エントロピー判定閾値以下であると判定された場合、入力されたオーディオ信号をバイノーラル・オーディオ信号として分類することができる。仮に、２チャンネルの入力オーディオ信号のエントロピーが前記所定エントロピー判定閾値よりも大きいと判定された場合、入力されたオーディオ信号はステレオ・オーディオ信号として分類することができる。

エントロピーの値を所定の閾値と比較することによってマルチ・チャンネル入力オーディオ信号分類値を生成する処理は、図６のステップ６０９に示される。

入力マルチ・チャンネル・オーディオ信号を分類するエンコーダ１０４による全動作は、図５のステップ５０１に示される。

エントロピー推定器４０５からの出力は、マルチ・チャンネル入力オーディオ信号１１０のチャンネル構成を示すオーディオ信号分類値とすることができる。具体的には、いくつかの実施形態において、入力されたオーディオ信号が少なくとも２チャンネル入力オーディオ信号を有するオーディオ・チャンネルの構成を有するとき、入力されたオーディオ信号分類値は、前記２チャンネル入力オーディオ信号がバイノーラルタイプまたはステレオタイプであるか否かを示すことができる。

エントロピー推定器４０５からのオーディオ信号分類値は、オーディオ信号分類器３０１からの出力の１つを形成することができる。加えて、オーディオ信号分類器３０１はまた、相対的オーディオ・エネルギ信号レベル決定器４０３から相対的オーディオ・エネルギ信号レベル（または、ＩＬＤｓ）と、フレーム区分器／変換器４０１から入力オーディオ信号の周波数領域表示とを出力するようにし、これらをその後のオーディオ符号化処理で使用するようにすることができる。

図３を参照するに、分類器３０１からの出力は、それらがチャンネル・アナライザ／モノ・エンコーダ３０３に渡されるように配置することができる。

いくつかの実施形態では、エンコーダ１０４は、チャンネル・アナライザ／モノ・エンコーダ３０３を有することができる。チャンネル・アナライザ／モノ・エンコーダ３０３は、オーディオ信号分類値を入力マルチ・チャンネル・オーディオ信号の周波数領域表示と共に受け取ると共に、それに対応した相対的音声エネルギ信号レベルを受け取るように構成することができる。

他の実施形態として、チャンネル・アナライザ／モノ・エンコーダ３０３は、単にオーディオ信号分類器３０１からオーディオ信号分類値を受けとれることを理解されたい。これらの特定実施形態では、入力マルチ・チャンネル・オーディオ信号の周波数領域表示をチャンネル・アナライザ／モノ・エンコーダ３０３内で生成することも可能である。

チャンネル・アナライザ／モノ・エンコーダ３０３は、マルチ・チャンネル入力オーディオ信号の周波数領域表示を分析し、２チャンネルまたはマルチ・チャンネルのオーディオ信号差に関し、各サブバンドに関連するパラメータを決定するように構成することができる。

実施形態では、その周波数領域表示の分析とパラメータ化は、分類器３０１によって決定されるオーディオ信号分類値に依存することができる。特に、いくつかの実施形態では、周波数領域表示の分析とパラメータ化の形式は、オーディオ信号分類値が、「入力されたオーディオ信号がバイノーラルまたはステレオ信号タイプのどちらかである」ということを示したものであるか否かによって決めることができる。分析結果は、入力オーディオ信号のサブバンド毎の２チャンネル（より一般的には、マルチ・チャンネル）の特性を表すパラメータであることができる。

チャンネル・アナライザ／モノ・エンコーダ３０３は、各サブバンドに関連するパラメータを使って、マルチ・チャンネル・オーディオ信号をダウンミックスし、何らかの適切な符号化スキームに従って符号化可能なモノチャンネルを生成することができる。

いくつかの実施形態において、生成されたモノチャンネル・オーディオ信号（または、チャンネル数を少なくした符号化信号）は、何らかの適切な符号化フォーマットを使用して符号化することができる。例えば、いくつかの実施形態では、適応マルチレート広帯域（ＡＭＲ−ＷＢ）コーデックのビット・ストリーム相互運用可能バージョンを含むことができるエンハンスト・ボイスサービス（ＥＶＳ）のモノチャンネル符号化フォームを使用して、モノチャンネル・オーディオ信号を符号化することができる。

モノチャンネル（または減少したチャンネル数）を生成し、符号化する処理は、図５のステップ５０３に示される。

次いで、符号化されたモノチャンネル信号をすることができる。いくつかの実施形態では、符号化されたモノチャンネル信号はマルチプレクサに出力され、単一のストリームや出力を形成するために、マルチ・チャンネルパラメータエンコーダ３０５の出力と組み合わされることになる。いくつかの実施形態では、符号化されたモノチャンネル信号は、マルチ・チャンネルパラメータエンコーダ３０５とは別に出力される。

いくつかの実施形態において、エンコーダ１０４はマルチ・チャンネルパラメータエンコーダを有する。いくつかの実施形態では、マルチ・チャンネルパラメータエンコーダは２チャンネルパラメータエンコーダ３０５、あるいは、マルチ・チャンネルパラメータを符号化するための適切な手段を有する。マルチ・チャンネルパラメータエンコーダ３０５は、チャンネル・アナライザ／モノ・エンコーダ３０３によって決定された、例えばステレオまたはバイノーラル（差）パラメータなどのマルチ・チャンネルパラメータを受け取るように構成することができる。また、いくつかの実施形態では、マルチ・チャンネルパラメータエンコーダ３０５は、それらのパラメータに量子化を実行すると共に、それらを出力できるように（装置に格納する、あるいは、別の装置に受け渡すために）パラメータを符号化するように構成することも可能である。

いくつかの実施形態では、マルチ・チャンネルパラメータエンコーダ３０５はまた、更なる入力としてオーディオ信号分類値を受け取ることで、マルチ・チャンネルパラメータの量子化および符号化を前記オーディオ信号分類値の値に依存させるようにすることができる。

量子化されたマルチ・チャンネルパラメータを量子化および符号化する処理は、図５のステップ５０５に示される。

その他の実施形態において、エンコーダ１０４、チャンネル・アナライザおよびマルチ・チャンネルパラメータの符号化ステージの符号化は、モノチャンネル信号が形成される前に、１つのコーディングエンティティで実行されるようにすることができる。

このような実施形態では、エンコーダ１０４は、最初に、マルチ・チャンネル入力オーディオ信号の周波数領域表示を分析し、２チャンネルやマルチ・チャンネルのオーディオ信号の差に関して各サブバンドに関連するパラメータを決定し、次いでマルチ・チャンネルパラメータに量子化と符号化を実行することができる。これらの実施形態では、モノオーディオ信号は、その後、各サブバンドに関連したパラメータを用いることでマルチ・チャンネル・オーディオ信号をダウンミックスするように形成されることができる。結果として得られたモノチャンネルは、その後、上述したような任意の適切な符号化スキームに従って符号化することができる。

従って、実施形態の少なくとも１つには、マルチ・チャンネル・オーディオ信号のエントロピーの値を推定する手段と、そのエントロピー値からマルチ・チャンネル・オーディオ信号のチャンネル構成を決定する手段と、そのチャンネル構成に依存した符号化モードを以て前記マルチ・チャンネル・オーディオ信号を符号化する手段とを有する装置が存在し得る。

上記の例は、装置１０内のコーデック内で動作する本発明の実施形態を記述しているが、以下に記載されるように本発明は、任意の可変レート／適応レートオーディオ（または音声）コーデックを含む任意のオーディオ（または音声）コーデックの一部として実行される場合があることが理解される。従って、例えば、本発明の実施形態は、固定または有線通信経路に渡ってオーディオ符号化を実行可能なオーディオ・コーデックで実現可能である。

従って、ユーザ装置には、例えば上記発明の実施形態に記載されているようなオーディオ・コーデックが含まれる可能性がある。

なお、「ユーザ装置」という用語は、例えば、携帯電話やポータブルデータ処理装置やポータブルウェブブラウザ等の任意の適切なタイプの無線ユーザ装置を網羅することを目的としていることが理解される。

更に、公衆地上移動体通信網（ＰＬＭＮ）の要素もまた、上述したようなオーディオ・コーデックを有することができる。

一般に、本願発明の様々な実施形態は、ハードウエアや専用回路、ソフトウエア、ロジックやそれらの任意の組み合わせにおいて実現されることができる。本発明はこれに限定されるものではないが、例えば、ある特徴をハードウエアに実装しつつ、他の特徴についてはコントローラやマイクロプロセッサ、あるいはその他のコンピュータ・デバイスによって具現化できるファームウエアやソフトウエアに実装することができる。本発明の様々な特徴は、ブロック図やフローチャート、あるいはその他何らかの画像表示を用いて図解し記述することができるが、本願明細書に記載したこれらのブロックや装置、システム、技術あるいは方法は、非限定的な例として、ハードウエア、ソフトウエア、ファームウエア、特殊目的回路やロジック、汎用ハードウエアやコントローラやその他のコンピュータ・デバイス、あるいはそれらを組み合わせた形で実現可能であることが十分理解されよう。

本発明の実施形態は、例えばプロセッサ・エンティティのように、モバイル機器のデータプロセッサにより実行可能なコンピュータソフトウエアやハードウエアにより、あるいはソフトウエアとハードウエアの組み合わせにより実現可能である。また、この点に関しては、図に示したロジックフローの任意のブロックが、プログラムのステップや、相互に接続された論理回路とブロックと機能、あるいはプログラムステップと論理回路とブロックと機能の組み合わせを表わし得ることに留意されたい。

メモリは、ローカルな技術環境に適した如何なるタイプのものであっても良く、例えば半導体ベースのメモリデバイス、磁気メモリデバイスとシステム、光メモリデバイスとシステム、固定メモリおよび取り外し可能メモリ等、任意の適切なデータ格納技術を使用して実施することができる。データプロセッサは、ローカルな技術環境に適した如何なるタイプのものであっても良く、非限定的な例として、汎用コンピュータ、特殊目的コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰｓ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコア・プロセッサアーキテクチャに基づいたプロセッサの内の１つ、またはそれ以上を含んでも良い。

本発明の実施形態は、集積回路モジュール等の様々な構成要素で実施することができる。集積回路の設計は、全般的に見て高度な自動化工程である。複雑かつ強力なソフトウエア・ツールは、論理レベル設計を、エッチングされて半導体基板上に形成される半導体回路の設計に変換するのに利用することができる。

例えば、カリフォルニア州サンノゼにあるマウンテンビュー・カリフォルニア＆ケイデンス・デザインのシノプシス社が提供するようなプログラムは、十分に確立された設計ルールや、予め記憶された設計モジュールのライブラリを使って半導体チップ上に自動的にコンダクタをルーテイングし、かつ構成部品を配置する。ひとたび半導体回路の設計が完了したならば、結果として得られたデザインは、標準化された電子フォーマット（例えば、オーパス、ＧＤＳＩＩ等）の形で半導体加工施設または製造「ｆａｂ」に送ることができる。

本願明細書で使用した「回路」なる用語は、以下に掲げたものの全てを参照する。
（ａ）ハードウエアだけの回路実装（例えば、アナログおよび／またはデジタル回路だけの実装）、および
（ｂ）回路とソフトウエア（および／またはファームウエア）の組合わせ、例えば、（ｉ）プロセッサの組み合わせ、または（ｉｉ）一緒に作動し、携帯電話やサーバのような装置に様々な機能を実行させるプロセッサ／ソフトウエア（含む、デジタル信号プロセッサ）、ソフトウエアおよびメモリの部分、および
（ｃ）ソフトウエアやファームウエアが物理的に存在しなくとも、動作のためにソフトウエアやファームウエアを必要とする、例えばマイクロプロセッサまたはマイクロプロセッサの一部のような回路

「回路」のこの定義は、特許請求の範囲を含む本願明細書でのこの用語のすべての使用に適用する。更なる例として、本願明細書で使用されたように、用語「回路」はまた、ただ単にプロセッサ（または複数プロセッサ）やプロセッサの一部、およびそれに（またはそれらに）付随するソフトウエアおよび／またはファームウエアの実装をも網羅することになるだろう。また、用語「回路」は、例えば仮に特定の請求項要素に適用できるならば、携帯電話のためのベースバンド集積回路やアプリケーションプロセッサ集積回路、あるいはサーバやセルラ・ネットワーク・デバイスやその他のネットワーク・デバイスにおける同様の集積回路をも網羅することになるだろう。

前述の説明は、例示的かつ非限定的な例として、本発明の例示的的実施形態の完全かつ有益な解説を与えるものである。しかしながら、以上の説明を添付図面と添付の特許請求の範囲と併せて読んだとき、当業者にとっては様々な変更や適用は、明らかになる。しかしながら、本願発明の教示のもの、および、その類似の変更は、すべて、添付した特許請求の範囲で定めた本願発明の範囲に入るものである。

Claims

マルチ・チャンネル・オーディオ信号のエントロピー値を推定するステップと、
前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定するステップと、
前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化するステップと、
を含む方法。
前記マルチ・チャンネル・オーディオ信号は、少なくとも第１オーディオ・チャンネル信号と、第２オーディオ・チャンネル信号とを含み、
前記マルチ・チャンネル・オーディオ信号の前記エントロピー値を推定するステップは、
前記第１オーディオ・チャンネル信号と第２オーディオ・チャンネルとをそれぞれ、複数の周波数帯域を含む周波数領域オーディオ信号に変換するステップと、
前記第２オーディオ・チャンネル信号の周波数帯域におけるオーディオ信号レベルに対する前記第１オーディオ・チャンネル信号の周波数帯域におけるオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定するステップと、
前記相対的オーディオ信号レベルから前記エントロピー値を決定するステップと、
を含む、請求項１に記載の方法。
前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定するステップは、
前記エントロピー値を閾値と比較するステップと、
前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第１タイプのチャンネル構成として分類するステップと、
前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類するステップと、
を含む、請求項１または２に記載の方法。
前記相対的オーディオ信号レベルから前記エントロピー値を決定するステップは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定するステップを含む、請求項２に記載の方法。
前記相対的オーディオ信号レベルから前記エントロピー値を決定するステップは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの相対的オーディオ信号レベル値のシーケンスを連続して観察することによって、同じ値を有する２つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定するステップを含む、請求項２に記載の方法。
前記マルチ・チャンネル・オーディオ信号は、２チャンネル・オーディオ信号を含み、
前記第１タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、
前記第２タイプのチャンネル構成はステレオ・オーディオ・チャンネルである、
請求項３に記載の方法。
前記オーディオ信号レベルは、前記周波数帯域におけるオーディオ信号の大きさを含む、請求項２、４、５のいずれか１項に記載の方法。
前記相対的オーディオ信号レベルは両耳間のレベル差である、請求項２、４、５、７のいずれか１項に記載の方法。
マルチ・チャンネル・オーディオ信号のエントロピー値を推定し、
前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定し、
前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化するように構成された装置。
前記マルチ・チャンネル・オーディオ信号は、少なくとも第１オーディオ・チャンネル信号と、第２オーディオ・チャンネル信号とを含み、
前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定するように構成された前記装置は、
前記第１オーディオ・チャンネル信号と第２オーディオ・チャンネルをそれぞれ、複数の周波数帯域を含む周波数領域オーディオ信号に変換し、
前記第２オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第１オーディオ・チャンネル信号の周波数帯域におけるオーディオ信号レベルを決定するように構成された前記装置によって相対的オーディオ信号レベルを決定し、
前記相対的オーディオ信号レベルから前記エントロピー値を決定するように更に構成される、請求項９に記載の装置。
前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定するように構成された前記装置は、
前記エントロピー値を閾値と比較し、
前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第１タイプのチャンネル構成として分類し、
前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類するように更に構成される、
請求項９または請求項１０に記載の装置。
前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの複数の相対的オーディオ信号レベルのヒストグラムを決定するように構成することによって、前記相対的オーディオ信号レベルの確率を決定するように更に構成される、
請求項１０に記載の装置。
前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は、
前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの相対的オーディオ信号レベル値のシーケンスを連続して観察することによって、同じ値を有する２つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定するように更に構成される、
請求項１０に記載の装置。
前記マルチ・チャンネル・オーディオ信号は、２チャンネル・オーディオ信号を含み、
前記第１タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、
前記第２タイプのチャンネル構成はステレオ・オーディオ・チャンネルである、
請求項１１に記載の装置。
前記オーディオ信号レベルは、前記周波数帯域におけるオーディオ信号の大きさを含む、請求項１０、１２、または、１３に記載の装置。
前記相対的オーディオ信号レベルは両耳間のレベル差である、請求項１０、１２、１３、または、１５に記載の装置。
１つ以上のプロセッサによって実行されるとき、装置に、エントロピー値を閾値と比較させ、
前記エントロピー値が前記閾値以下の場合、チャンネル構成を第１タイプのチャンネル構成として分類させ、
前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類させる命令のセットを備えるコンピュータ・プログラム。
マルチ・チャンネル・オーディオ信号は、少なくとも第１オーディオ・チャンネル信号と、第２オーディオ・チャンネル信号とを含み、
前記装置に前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定させる前記コンピュータ・プログラムは、
前記装置に、更に、
前記第１オーディオ・チャンネル信号と第２オーディオ・チャンネルをそれぞれ、複数の周波数帯域を含む周波数領域オーディオ信号に変換させ、
前記第２オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第１オーディオ・チャンネル信号の周波数帯域におけるオーディオ信号レベルを決定するようにされた前記装置によって相対的オーディオ信号レベルを決定させ、
前記相対的オーディオ信号レベルから前記エントロピー値を決定させる、
請求項１７に記載のコンピュータ・プログラム。
前記装置にマルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定させる前記コンピュータ・プログラムは、
前記装置に、更に、
前記エントロピー値を閾値と比較させ、
前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第１タイプのチャンネル構成として分類させ、
前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第２タイプのチャンネル構成として分類させる、
請求項１７または１８に記載のコンピュータ・プログラム。
前記装置に前記相対的オーディオ信号レベルから前記エントロピー値を決定させる前記コンピュータ・プログラムは、
前記装置に、更に、
前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの複数の相対的オーディオ信号レベルのヒストグラムを決定するようにさせることによって前記相対的オーディオ信号レベルの確率を決定させる、請求項１８に記載のコンピュータ・プログラム。
前記装置に前記相対的オーディオ信号レベルから前記エントロピー値を決定させる前記コンピュータ・プログラムは、
前記装置に、更に、
前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの相対的オーディオ信号レベル値のシーケンスを連続して観察することによって、同じ値を有する２つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定させる、請求項１８に記載のコンピュータ・プログラム。
前記マルチ・チャンネル・オーディオ信号は、２チャンネル・オーディオ信号を含み、
前記第１タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、
前記第２タイプのチャンネル構成はステレオ・オーディオ・チャンネルである、
請求項１８ないし２１のいずれか１項に記載のコンピュータ・プログラム。
前記オーディオ信号レベルは、前記周波数帯域におけるオーディオ信号の大きさを含む、請求項１８に記載のコンピュータ・プログラム。
前記相対的オーディオ信号レベルは両耳間のレベル差である、請求項１８、２０、２１または２３に記載のコンピュータ・プログラム。