JP5646699B2

JP5646699B2 - マルチチャネル・パラメータ変換のための装置および方法

Info

Publication number: JP5646699B2
Application number: JP2013140421A
Authority: JP
Inventors: ジョーハンヒルペアト; カルステンリンツマイアー; ユールゲンヘレ; ラルフスペルシュナイダー; アンドレーアスヘルツァー; ラルスヴィレモエス; ヨナスエングデガルド; ハイコプルンハーゲン; クリストファークジュルリング; イェルーンブレーバールト; ウェルナーオーメン
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2006-10-16
Filing date: 2013-07-04
Publication date: 2014-12-24
Anticipated expiration: 2027-10-05
Also published as: KR20090053958A; CA2673624A1; EP2437257B1; TWI359620B; CA2673624C; BRPI0715312A2; WO2008046530A2; EP2082397B1; MY144273A; KR101120909B1; HK1128548A1; AU2007312597A1; ATE539434T1; CN101529504B; JP2013257569A; AU2007312597B2; EP2437257A1; WO2008046530A3; BRPI0715312B1; RU2009109125A

Description

本発明は、マルチチャネル・パラメータの変換に関し、特に、空間音声場面のオブジェクト・パラメータ・ベースの表現に基づく２つの音声信号の間の空間特性を示すコヒーレンス・パラメータおよびレベル・パラメータの生成に関する。

例えば、「パラメトリック・ステレオ（ＰＳ）」、「ナチュラル・レンダリングのためのバイノーラルキュー符号化（ＢＣＣ）」および「ＭＰＥＧサラウンド」といったマルチチャンネル音声信号のパラメトリック符号化のためのいくつかの方法がある。それらは、モノラルでもあり得たかまたはいくつかのチャンネルを含むダウンミックス信号および空間防音スタジオを特徴付けているパラメトリックサイド情報（「空間音響情報（ＳｐａｔｉａｌＣｕｅ）」）の手段によってマルチチャンネル音声信号を表現することを目的とする。

それらの技術は、チャンネル・ベースであると言われ、すなわち、ビットレートの効率化の方法ですでに存在するか生成されるマルチチャンネル信号を送信する技術である。つまり、空間音声場面は、予め定められたスピーカのセットアップにマッチするために信号の伝送前にチャンネルの予め定められた数までミックスされ、そして、それらの技術は、個々のスピーカに関連する音声チャンネルの圧縮を目指す。

パラメトリック符号化技術は、パラメータとともにオーディオ・コンテンツを持つダウンミックス・チャンネルに依存する。そのパラメータは、元の空間音声場面の空間特性を記載して、そして、マルチチャンネル信号または空間音声場面を再構築するために受信側において使用される。

例えば、フレキシブルなレンダリングのためのＢＣＣである、密接に関連したグループの技術は、インタラクティブにそれらを任意に空間ポジションにレンダリングし、そして、先験的な符号器の知識のない単一のオブジェクトをインタラクティブに増幅するかまたは抑制することのために、同じマルチチャンネルのチャンネルというよりむしろ個々の音声オブジェクトの効果的な符号化のために設計される。（符号器から復号器まで音声チャンネル信号のセットを与える伝達をする）共通のパラメトリック・マルチチャンネル音声符号化技術とは対照的に、この種のオブジェクト符号化技術は、いかなる再現セットアップにも、復号化オブジェクトのレンダリングを許す。すなわち、復号化する側におけるユーザは、そのユーザの好みによる再現セットアップ（例えば、ステレオ、５．１サラウンド）を選択するために自由である。

オブジェクト符号化の概念を受けて、パラメータは、受信側のフレキシブルなレンダリングを考慮にいれるように、空間において音声オブジェクトの位置を定めるように定義する。受信側でのレンダリングは、非理想のスピーカ・セットアップまたは任意のスピーカのセットアップでさえ、高品質の空間音声場面を再現するために使用できる利点を有する。加えて、例えば、個々のオブジェクトに関連した音声チャンネルのダウンミックスのような音声信号は、受信側において再現の元となるように送信されなければならない。

両方で述べられた方法は、元の空間音声場面の空間印象の高品質な再現を考慮するために、受信側においてマルチチャンネル・スピーカ・セットアップに依存する。

前に概説されたように、空間音像を再生することができるマルチチャンネル音声信号のパラメータ符号化のいくつかの最高水準の技術がある。そして、それは、−利用できるデータレートに依存しており−元のマルチチャンネル・オーディオ・コンテンツのそれと多少類似している。

しかしながら、いくらかのプレ符号化音声材料（すなわち、所定の数の再現チャンネル信号によって記載されている空間音）を考えると、この種のコーデックは、リスナーの好みによって、いかなる手段も単一の音声オブジェクトの経験に基づいたおよびインタラクティブ・レンダリングに対しても提供しない。他方では、後の目的のために特別に設計されている空間音声オブジェクト技術がある、しかし、この種のシステムにおいて使用するパラメトリックの表示が、マルチチャンネル音声信号に対するものと異なるので、この場合に平行に両方の技術から利益を得たい場合に備えて、別々の復号器が必要である。この状況から生じる欠点は、与えられるスピーカのセットにおける空間音声場面のレンダリングである同じタスクを両システムのバックエンドが成し遂げるにもかかわらず、それらが、冗長に行わなければならない。すなわち、２つの別々の復号器は、両方の機能を提供する必要がある。

従来技術のオブジェクト符号化技術の他の制限は、下位互換性の方法におけるプレレンダリングされた空間音声オブジェクト場面の格納および／または送信するための手段の欠如である。空間音声オブジェクト符号化のパラダイムによって提供された単一の音声オブジェクトのインタラクティブ・ポジショニングを可能にすることの特徴は、直ちにレンダリングされた音声場面の同一の再現を生じる場合に、欠点であることがわかる。

要約すると、マルチチャンネル再生環境が上記の方法の１つをインプリメントすることを提示するにもかかわらず、さらなる再生環境が、第２の方法をインプリメントすることを必要とする。より長い歴史によれば、チャンネル・ベースの方式が、例えば、ＤＶＤまたはそれに同等のものに保存される有名な５．１または７．１／７．２のマルチチャンネル信号等よりはるかに一般的である。

すなわち、ユーザが、オブジェクト・ベースの符号化音声データを再生したい場合、マルチチャンネル音声復号器および関連した再生装置（増幅段およびスピーカ）が存在する場合であっても、ユーザは、追加的な完全なセットアップ、言い換えれば、少なくとも音声復号器を必要とする。通常は、マルチチャンネル音声復号器は、増幅段に直接関連し、そして、ユーザは、スピーカを駆動するために使用される増幅段に直接アクセスされない。これは、例えば、一般に入手可能なマルチチャンネル音声またはマルチメディアの受信機の事例である。既存の家電に基づいて、両方のアプローチによって符号化されるオーディオ・コンテンツを聴くことが可能なことを望んでいるユーザは、実に一式の二次アンプを必要とし、そして、それはもちろん、満足感の得られない状況である。

従って、システムの複雑さを減少するための方法を提供することを可能なことが望ましい。そして、それは、パラメータ的に符号化空間音声オブジェクト・ストリームと同様にパラメータのマルチチャンネル音声ストリームの両方の復号化ができる。

本発明の実施例は、マルチチャンネル空間音声信号の表現の第１音声信号と第２音声信号とのエネルギー関係を示しているレベル・パラメータを生成するためのマルチチャンネル・パラメータ変換器であって、音声オブジェクトに関連するオブジェクト音声信号に依存しているダウンミックス・チャンネルに関連する複数の音声オブジェクトのためにオブジェクト・パラメータを提供するためのオブジェクト・パラメータ・プロバイダであって、前記オブジェクト・パラメータは、前記オブジェクト音声信号のエネルギー情報を示している各音声オブジェクトのためのエネルギー・パラメータを含む、オブジェクト・パラメータ・プロバイダと、前記エネルギー・パラメータとレンダリングの構成に関連したオブジェクト・レンダリング・パラメータとを合成することによって前記レベル・パラメータを導き出すためのパラメータ・ジェネレータとを含む。

本発明の他の実施例によれば、パラメータ変換器が、相関またはコヒーレンスならびにマルチチャンネルのスピーカの構成に関連するマルチチャンネル音声信号の第１および第２音声信号のエネルギー関係を示している、コヒーレンス・パラメータおよびレベル・パラメータを生成する。相関およびレベル・パラメータは、ダウンミックス・チャンネルに関連する少なくとも１つの音声オブジェクトのための提供されたオブジェクト・パラメータに基づいて生成する。そして、それは、音声オブジェクトに関連するオブジェクト音声信号を使用してそれ自体を生成する。オブジェクト・パラメータは、オブジェクト音声信号のエネルギーを示しているエネルギー・パラメータを含む。コヒーレンスおよびレベル・パラメータを導き出すために、再生構成によって影響を与える、エネルギー・パラメータとさらなるオブジェクト・レンダリング・パラメータを合成するパラメータ・ジェネレータが使用される。いくつかの実施例によれば、オブジェクト・レンダリング・パラメータは、リスニング位置に対して再生スピーカの位置を示しているスピーカ・パラメータを含む。いくつかの実施例によれば、オブジェクト・レンダリング・パラメータは、リスニング位置に対してオブジェクトの位置を示しているオブジェクト位置パラメータを含む。この目的を達成するために、パラメータ・ジェネレータは、両方の空間音声符号化のパラダイムから生じている相乗効果を利用する。

本発明のさらなる実施例によれば、マルチチャンネル・パラメータ変換器は、ＭＰＥＧサラウンドに準拠したコヒーレンスおよびレベル・パラメータ（ＩＣＣおよびＣＬＤ）を導き出すために作動する。そして、それは、さらに、ＭＰＥＧサラウンド復号器を駆動するために使用することができる。内部チャンネルコヒーレンス／相互相関（ＩＣＣ）は、２つの入力チャンネルの間のコヒーレンスまたは相互相関を表わすことに注意されたい。時間差が含まれない場合は、コヒーレンスおよび相関は同じである。言い換えれば、内部チャンネル時間差または内部チャンネル位相差が使用されない場合、両方の条件は、同じ特性を示している。

このようにして、標準ＭＰＥＧサラウンド変換器とともにマルチチャンネル・パラメータ変換器は、オブジェクト・ベースの符号化された音声信号を再現するために使用することができる。これは、追加のパラメータ変換器が必要である、空間音声オブジェクト符号化（ＳＡＯＣ）音声信号を受信し、そしてオブジェクト・パラメータを変換するような利点を有し、それらは、既存の再生装置を介してマルチチャンネル音声信号を再現するために、標準ＭＰＥＧサラウンド復号器によって使用される。従って、一般の再生装置は、空間音声オブジェクト符号化のコンテンツを再現するために、大きな修正なしで使用される。

本発明の他の実施例によれば、生成されたコヒーレンスおよびレベル・パラメータは、ＭＰＥＧサラウンドに準拠するビットストリームに、関連するダウンミックス・チャンネルによって多重送信される。この種のビットストリームは、既存の再生環境にいかなる更なる修正も必要とすることのない標準ＭＰＥＧサラウンド復号器に供給することができる。

本発明の他の実施例によれば、生成されたコヒーレンスおよびレベル・パラメータは、わずかに修正されたＭＰＥＧサラウンド復号器に直接発信される。その結果、マルチチャンネル・パラメータ変換器の計算の複雑性は、低く保たれる。

本発明の他の実施例によれば、生成されたマルチチャンネル・パラメータ（コヒーレンス・パラメータおよびレベル・パラメータ）が、生成の後に格納される。その結果、マルチチャンネル・パラメータ変換器は、場面のレンダリングの間、得られる空間情報を保存するための手段として使用できる。信号を生成するとともに、この種の場面のレンダリングは、例えば、音楽スタジオで実行できる。その結果、マルチチャンネルに準拠した信号は、以下の段落において更に詳細に記載されるようなマルチチャンネル・パラメータ変換器を使用して、いかなる追加的な作動なしでも生成することができる。従って、プレレンダリングされた場面は、従来の装置を使用して再現することができる。

本発明のいくつかの実施例のより詳細な説明の前に、マルチチャネル音声符号化およびオブジェクト音声符号化の技術ならびに空間音声オブジェクト符号化の技術が、簡潔に概説される。この目的を達成するために、参照は、添付された図面にもなされる。

図１ａは、既知の発明であるマルチチャネル音声方法を示す。図１ｂは、既知の発明であるオブジェクト符号化方法を示す。図２は、空間音声オブジェクト符号化方法を示す。図３は、マルチチャネル・パラメータ変換器の実施例を示す。図４は、空間オーディオ・コンテンツの再生のためのマルチチャネルのスピーカの構成のための実施例を示す。図５は、空間オーディオ・コンテンツの考えられるマルチチャネル・パラメータ表現のための実施例を示す。図６ａは、空間音声オブジェクト符号化コンテンツのためのアプリケーション・シナリオを示す。図６ｂは、空間音声オブジェクト符号化コンテンツのためのアプリケーション・シナリオを示す。図７は、マルチチャネル・パラメータ変換器の実施例を示す。図８は、コヒーレンス・パラメータおよび相関パラメータを生成する方法の実施例を示す。

図１ａはマルチチャネル音声符号化および復号化方法の概略図を示すが、図１ｂは従来の音声オブジェクト・符号化システムの概略図を示す。マルチチャンネル符号化方法は、多くの提供された音声チャンネル、すなわち、スピーカの所定数に適合するようにすでにミックスされた音声チャンネルを使用する。マルチチャンネル符号器４（ＳＡＣ）は、音声チャンネル２ａ〜２ｄを使用して生成された音声信号であるダウンミックス信号６を生成する。このダウンミックス信号６は、例えば、モノラル音声信号または２つの音声チャンネル、すなわちステレオ信号である。ダウンミックスの間、部分的に情報の損失を補償するために、マルチチャンネル符号器４は、音声チャンネル２ａ〜２ｄの信号の空間的相互関係を記述しているマルチチャンネル・パラメータを抽出する。サイド情報８と呼ばれるこの情報は、ダウンミックス信号６とともにマルチチャンネル復号器１０に送信される。マルチチャンネル復号器１０は、できるだけ正確にチャンネル２ａ〜２ｄを再構成する目的でチャンネル１２ａ〜１２ｄを作るためにサイド情報８のマルチチャンネル・パラメータを利用する。これは、例えば、元の音声チャンネル２ａと２ｄのチャンネル対の個々のチャンネルのエネルギー関係を記載し、そして、音声チャンネル２ａ〜２ｄのチャンネル対の間の相関度を提供する、レベル・パラメータおよび相関パラメータを送信することによって達成することができる。

復号化するとき、この情報は、再構成された音声チャンネル１２ａ〜１２ｄにダウンミックス信号に含まれる音声チャンネルを再分配するために用いることができる。一般のマルチチャンネル音声方法は、マルチチャンネル音声符号器４に入力する元の音声チャンネル２ａ〜２ｄの数として、同じ数の再構成されたチャンネル１２ａ〜１２ｄを再現するために実装されることに留意すべきである。しかしながら、他の復号化方法は、元の音声チャンネル２ａ〜２ｄの数よりも多いか、または少ないチャンネルで再生するように実装することもできる。

見方によれば、図１ａにおいて図式的に描かれたマルチチャンネル音声技術（例えば、最近標準化されたＭＰＥＧ空間的音声符号化方法、すなわち、ＭＰＥＧサラウンド）は、マルチチャンネル音声／サラウンド・サウンドの方の既存の音声分配の基礎構造のビットレートの効率化および互換性をもつ拡張として理解することができる。

図１ｂは、オブジェクト・ベース音声符号化への既知の発明のアプローチを詳述する。例えば、音声オブジェクトの符号化および「コンテンツベースの双方向性」の能力は、ＭＰＥＧ−４の概念の一部である。図１ｂにおいて図式的に描かれた通常の音声オブジェクト符号化技術は、異なるアプローチに従う。それは、既に多くの既存の音声チャンネルを送信するが、むしろ、スペースにおいて分配された複数の音声オブジェクト２２ａ〜２２ｄを有する完全な音声場面を送信しない。この目的を達成するために、標準となる音声オブジェクト・コーダ２０は、複数の音声オブジェクト２２ａ〜２２ｄをエレメンタリーストリーム２４ａ〜２４ｄに符号化するために使用される。各音声オブジェクトは、関連したエレメンタリーストリームを有する。音声オブジェクト２２ａ〜２２ｂ（音源）は、例えば、場面における音声オブジェクトに関して音声オブジェクトの相対レベルを示している、モノラル音声チャンネルおよび関連したエネルギー・パラメータによって表現することができる。もちろん、より高度な実装において、音声オブジェクトは、モノラル音声チャンネルによって表現するために制限されない。代わりに、例えば、ステレオ音声オブジェクトまたはマルチチャンネル音声オブジェクトが符号化される。

通常の音声オブジェクト復号器２８は、再構成された音声オブジェクト２８ａ〜２８ｄを導き出すために、音声オブジェクト２２ａ〜２２ｄの再生を目指す。通常の音声オブジェクト復号器に含まれるシーン・コンポーザ３０は、再構成された音声オブジェクト２８ａ〜２８ｄの別々のポジショニングおよび様々なスピーカ・セットアップの適応を考慮にいれる。場面は、シーン記述３４および関連した音声オブジェクトによって完全に定義される。いくつかの通常のシーン・コンポーザ３０は、標準化された言語（例えばＢＩＦＳ（シーン記述のためのバイナリーフォーマット））におけるシーン記述を予期する。復号器側で、任意のスピーカ・セットアップが存在してもよく、および音声場面における完全な情報が、復号器側において利用可能であるとき、復号器は、音声場面の再構成に合わせて最適に調整される、個々のスピーカに音声チャンネル３２ａ〜３２ｅを提供する。例えば、バイノーラル・レンダリングは、ヘッドホンを介して聴かれる場合に、空間的な印象を提供するために生成した２つの音声チャンネルを得ることを可能にする。

シーン・コンポーザ３０に対する任意のユーザインタラクションは、再現側における個々の音声オブジェクトの再配置／リパニングを可能にする。加えて、会議において異なる話し手に関連した周辺雑音オブジェクトまたは他の音声オブジェクトは、レベルにおいて減少するように抑制される場合、特に選択された音声オブジェクトの位置またはレベルは、話す人の理解度を増加させるように修正される。

言い換えれば、通常の音声オブジェクト・コーダは、多くの音声オブジェクトをエレメンタリーストリームに符号化する。各ストリームは、ある単一の音声オブジェクトと関連する。通常の復号器は、これらのストリームを復号化し、シーン記述（ＢＩＦＳ）の制御の元でおよび任意にユーザインタラクションに基づいて音声場面を構成する。実用化に関して、このアプローチは、いくつかの不利点を持つ。

各個々の音声（音）オブジェクトの別々の符号化のため、全ての場面の送信のために必要なビットレートは、圧縮された音声のモノラル／ステレオ送信のために使用されるレートよりも著しく高い。明らかに、必要なビットレートは、送信された音声オブジェクトの数によって、言い換えれば、音声場面の複雑さによって、比例しておよそ増大する。

従って、各音声オブジェクトの別々の復号化のため、復号化するプロセスのための計算の複雑性は、規則的なモノラル／ステレオ音声復号器の１つのそれをおおきく上回る。復号化のための必要な計算の複雑性は、（低い複雑性の構成手順であると仮定した場合）さらに送信されたオブジェクトの数によって比例しておよそ増大する。高度な構成能力を使用する場合、すなわち、異なる計算のノードを使用する場合、これらの不利点は、対応する音声ノードの同期および構造化された音声エンジンを実行する際の全体に関連した複雑性によって、さらに増加する。

さらに、全体のシステムが、いくつかの音声復号器の構成要素およびＢＩＦＳに基づく構成単位を必要とするので、必要な構造の複雑さは、現実のアプリケーションの実装に対する障害になる。高度な構成能力は、さらに、上述の複雑さを有する構造化された音声エンジンの実装を必要とする。

図２は、非常に効果的な音声オブジェクト符号化を考慮し、記述の不利点を回避している、本発明の空間音声オブジェクト符号化の概念の実施例を示す。

それが、下記の図３に関する議論から明らかになる場合、その概念は、既存のＭＰＥＧサラウンドの構造を修正することによって実装することができる。しかしながら、他の一般のマルチチャンネル符号化／復号化のフレームワークは、発明の概念を実装するために使用することもできるので、ＭＰＥＧサラウンド−フレームワークの使用は、義務的ではない。

ＭＰＥＧサラウンドのような既存のマルチチャンネル音声符号化構造を利用して、発明の概念は、オブジェクト・ベースの表現を使用する能力の方へ、既存の音声分布の基礎構造のビットレートの効率化および互換性を有する拡張に発展する。音声オブジェクト符号化（ＡＯＣ）および空間音声符号化（マルチチャンネル音声符号化）の従来のアプローチと区別するために、以下の本発明の実施例が、ターム空間音声オブジェクト符号化またはその略語であるＳＡＯＣを使用することにゆだねられる。

図２に示される空間音声オブジェクト符号化方法は、個別の入力音声オブジェクト５０ａ〜５０ｄに使用する。空間音声オブジェクト符号器５２は、元の音声場面の特性の情報を有するサイド情報５５とともに、１以上のダウンミックス信号５４（例えば、モノラルまたはステレオ信号）を導き出す。

ＳＡＯＣ復号器５６は、サイド情報５５とともにダウンミックス信号５４を受信する。ダウンミックス信号５４およびサイド情報５５に基づいて、空間音声オブジェクト復号器５６は、一組の音声オブジェクト５８ａ〜５８ｄを再構成する。再構成された音声オブジェクト５８ａ〜５８ｄは、通常、再生のために使用することを目的とするマルチチャンネル・スピーカのセットアップに対応する所望の出力チャンネル６２ａおよび６２ｂを生成するために、個々の音声オブジェクト５８ａ〜５８ｄのオーディオ・コンテンツをミックスするミキサー／レンダリング段６０に入力される。

任意には、ミキサー／レンダラー６０のパラメータは、インタラクティブな音声構成を考慮して、このように音声オブジェクト符号化の高い柔軟性を維持するために、ユーザインタラクションまたは制御６４によって影響される。

図２に示される空間音声オブジェクト符号化の概念は、他のマルチチャンネル再構成シナリオと比較して、いくつかの大きな効果を有する。

送信は、ダウンミックス信号および付随のオブジェクト・パラメータの使用の理由から極度なビットレートの効率化である。すなわち、サイド情報に基づくオブジェクトは、個々の音声オブジェクトに関連する音声オブジェクトから成るダウンミックス信号とともに送信される。従って、ビットレートの要求は、アプローチと比較した場合、著しく減少する、ここで、各個別の音声オブジェクトは、別々に符号化され、送信される。さらに、概念は、すでに既存の送信構造に下位互換性をもつ。従来の装置は、単に、ダウンミックス信号をレンダー（構成）する。

再構成された音声オブジェクト５８ａ〜５８ｄは、直接的にミキサー／レンダラー６０（シーン・コンポーザ）に運ばれる。一般に、再構成された音声オブジェクト５８ａ〜５８ｄは、本発明の概念が、すでに既存の再生環境に容易に行う事ができるように、いくつかの外部のミキシングデバイス（ミキサー／レンダラー６０）に接続される。個別の音声オブジェクト５８ａ〜５８ｄは、それらが、通常、高品質の単独の再現として役立つことを意図しないにもかかわらず、単独の再現、すなわち、単一の音声ストリームとして再現するとして主に使用される。

別々のＳＡＯＣの復号化および次のミキシングとは対照的に、合成されたＳＡＯＣ復号器およびミキサー／レンダラーは、非常に魅力がある。なぜなら、大変低いインプリメンテーションの複雑さに至るからである。直通信号方式アプローチと比較すると、中間表現として、オブジェクト５８ａ〜５８ｄの完全な復号化／再構成は、回避される。必要な計算は、主に、所望の出力のレンダリング・チャンネル６２ａおよび６２ｂの数に関連がある。図２から明らかになるように、ＳＡＯＣ復号器に関連するミキサー／レンダラー６０は、原則として、単一の音声オブジェクトを場面に合成することで、すなわち、マルチチャンネル・スピーカ・セットアップの個別のスピーカに関連する出力音声チャンネル６２ａおよび６２ｂを生成するのに適切な、いかなるアルゴリズムでもありえる。例えば、これは、振幅パニング（または振幅および遅延パニング）、振幅パニング（ＶＢＡＰ方式）に基づくベクトルおよびバイノーラル・レンダリング、すなわち、２つのスピーカまたはヘッドホンだけを利用している空間リスニング体験を提供することを目的とするレンダリングを実行しているミキサーを含むことができる。例えば、ＭＰＥＧサラウンドは、そのようなバイノーラル・レンダリング・アプローチを採用する。

一般に、対応する音声オブジェクト情報５５に関連した送信ダウンミックス信号５４は、例えば、パラメトリック・ステレオ、キュー符号化またはＭＰＥＧサラウンドのような、任意のマルチチャンネル音声符号化方法と合成される。

図３は、本発明の実施例を示す。ここで、オブジェクト・パラメータは、ダウンミックス信号とともに送信される。ＳＡＯＣ復号器の構成１２０において、ＭＰＥＧサラウンド復号器は、受信された音声オブジェクトを使用してＭＰＥＧパラメータを生成するマルチチャンネル・パラメータ変換器とともに用いられる。この合成は、極めて低い複雑さを有する空間音声オブジェクト復号器１２０を結果として得る。言い換えれば、この特定の実施例は、各音声オブジェクトに関連する（空間音声）オブジェクト・パラメータおよびパニング情報を標準対応ＭＰＥＧサラウンド・ビットストリームに変える方法を提案する。このように、マルチチャンネル・オーディオ・コンテンツを再生することから空間音声オブジェクト符号化場面のインタラクティブ・レンダリングの方へ、従来のＭＰＥＧサラウンド復号器の使用を延長する。これは、修正をＭＰＥＧサラウンド復号器自体に適用することなしに達成される。

図３に示した実施例は、ＭＰＥＧサラウンド復号器とともにマルチチャンネル・パラメータ変換器を使用することによって、従来の技術の欠点を回避する。ＭＰＥＧサラウンド復号器が、共通に利用できる技術である一方、マルチチャンネル・パラメータ変換器は、ＳＡＯＣからＭＰＥＧサラウンドまで、トランスコーディングの機能を提供する。これらは、以下のパラグラフにおいて詳述される。そして、それは、加えて、図４および図５に言及し、そして、複合技術の特定の態様を例示する。

図３において、ＳＡＯＣ復号器１２０は、オーディオ・コンテンツを有するダウンミックス信号１０２を受信するＭＰＥＧサラウンド復号器１００を有する。ダウンミックス信号は、サンプル方法によって各音声オブジェクトの音声オブジェクト信号をサンプルに合成（加算）することによって、符号器側のダウン・ミキサーによって生成する。あるいは、合成動作は、スペクトル領域またはフィルターバンク領域において生じさせることもできる。ダウンミックス・チャンネルは、パラメータ・ビットストリーム１２２から分離するか、またはパラメータ・ビットストリームとして同じビットストリームにおいてありえる。

加えて、ＭＰＥＧサラウンド復号器１００は、コヒーレンス・パラメータＩＣＣおよびレベル・パラメータＣＬＤのような、ＭＰＥＧサラウンド符号化／復号化の方法の範囲内での２つの音声信号の間に信号の特性を表わして、ＭＰＥＧサラウンド・ビットストリームの空間音響情報１０４を受信する。そして、それは、図５において示され、そして、それは以下において更に詳細に説明される。

マルチチャンネル・パラメータ変換器１０６は、ダウンッミックス信号１０２の範囲内に含まれる付随する音声信号の特性を示す音声オブジェクトと関連付けたＳＡＯＣパラメータ（オブジェクト・パラメータ）を受信する。さらにまた、変換器１０６は、オブジェクト・レンダリング・パラメータ入力を介してオブジェクト・レンダリング・パラメータを受信する。これらのパラメータは、レンダリング・マトリックスのパラメータでありえるか、またはレンダリング・シナリオへの音声オブジェクトをマッピングするために役立つパラメータでありえる。ユーザによって調整され、そしてブロック１２に入力される見本となるオブジェクト位置に依存して、レンダリング・マトリックスは、ブロック１１２によって計算される。それから、ブロック１１２の出力は、ブロック１０６に入力され、特に、空間音声パラメータを計算するために、パラメータ・ジェネレータ１０８に入力される。スピーカの構成が変化するとき、レンダリング・マトリックス、または、一般に少なくともオブジェクト・レンダリング・パラメータのいくつかは、同様に変化する。このように、レンダリング・パラメータは、スピーカの構成／再生の構成または送信され若しくはユーザにより選択されたオブジェクト位置を含むレンダリングの構成に依存する。そして、その両方は、ブロック１１２に入力される。

パラメータ・ジェネレータ１０８は、オブジェクト・パラメータ・プロバイダ（ＳＡＯＣパーサー）によって提供されたオブジェクト・パラメータに基づいてＭＰＥＧサラウンドの空間音響情報１０４を導き出す。パラメータ・ジェネレータ１０８は、加えて、重み係数ジェネレータ１１２によって提供されるレンダリング・パラメータを利用する。いくつかまたは全てのレンダリング・パラメータは、空間音声オブジェクト復号器１２０によって生成されるチャンネルにダウンミックス信号１０２を含む音声オブジェクトの寄与を記述している重みパラメータである。例えば、重みパラメータは、マトリックスにおいて体系化される。その理由は、これらは、再生のために使用されるマルチチャンネル・スピーカ・セットアップの個々のスピーカに関連する、Ｎ個の音声オブジェクトをＭ個の音声チャンネルにマッピングするための役割を果たすためである。２種類の入力データが、マルチチャンネル・パラメータ変換器（ＳＡＯＣ２ＭＰＳトランスコーダ）にある。第１入力は、個々の音声オブジェクトに関連するオブジェクト・パラメータを有するＳＡＯＣビットストリーム１２２である。そして、それは、送信されたマルチ・オブジェクト音声場面に関連する音声オブジェクトの空間特性（例えば、エネルギー情報）を示す。第２入力は、Ｎ個のオブジェクトをＭ個の音声チャンネルにマッピングするために使用されるレンダリング・パラメータ（重みパラメータ）１２４である。

前述のように、ＳＡＯＣビットストリーム１２２は、ＭＰＥＧサラウンド復号器１００に入力されるダウンミックス信号１０２を生成するためにともにミックスされた音声オブジェクトについてのパラメータ情報を含む。ＳＡＯＣビットストリーム１２２のオブジェクト・パラメータが、ダウンミックス・チャンネル１０２に関連する少なくとも１つの音声オブジェクトのために提供される。ＳＡＯＣビットストリーム１２２のオブジェクト・パラメータは、少なくとも音声オブジェクトに関連するオブジェクト音声信号を使用して順に生成されたダウンミックス・チャンネル１０２に関連する少なくとも１つの音声オブジェクトに提供される。例えば、適切なパラメータは、すなわち、ダウンミックス信号に対するオブジェクト音声信号の貢献の強さである、オブジェクト音声信号のエネルギーを示しているエネルギー・パラメータである。ステレオ・ダウンミックスが用いられる場合において、方向パラメータは、ステレオ・ダウンミックスの範囲内での音声オブジェクトの位置を示して提供される。しかしながら、他のオブジェクト・パラメータは、明らかに適していても、それゆえに、実装のために用いられる。

送信されたダウンミックスが、必ずしも、モノラル信号である必要があるわけではない。例えば、それは、ステレオ信号でもありえる。その場合、２つのエネルギー・パラメータは、ステレオ信号の２つのチャンネルのうちの１つに貢献する各オブジェクトを示している各パラメータであるオブジェクト・パラメータとして送信される。すなわち、例えば、もし、２０個の音声オブジェクトが、ステレオ・ダウンミックス信号の生成のために使用される場合、４０個のエネルギー・パラメータが、オブジェクト・パラメータとして送信されるだろう。

ＳＡＯＣビットストリーム１２２は、ＳＡＯＣ構文解析ブロック、すなわち、パラメータ情報を取り戻す、オブジェクト・パラメータ・プロバイダ１１０に入れられる。そして、後者は、取り扱われる複数の実際の音声オブジェクトの他に、現在、各々の音声オブジェクトの時間的に変化するスペクトル・エンベロープを記載する、主にレベル・エンベロープ（ＯＬＥ）・パラメータを含む。

例えば、特定のオブジェクトが出てきて、または、他が場面から去る場合、それらが、情報を移動する場合、マルチチャンネル音声場面が時間とともに変化する方法に関しては、ＳＡＯＣパラメータは、一般に強く時間に依存している。反対に、レンダリング・マトリックスの重みパラメータは、強い時間または周波数依存を有さない。もちろん、もし、オブジェクトが、場面に入るか去る場合、場面の音声オブジェクトの数に合致するように、必要パラメータの数は急に変化する。さらにまた、インタラクティブなユーザ制御を有するアプリケーションにおいて、それらが、ユーザの実際の入力に依存する場合、マトリックス要素は、時間により変化する。

本発明の更なる実施例において、重みパラメータまたはオブジェクト・レンダリング・パラメータ若しくは時間依存性のオブジェクト・レンダリング・パラメータ（重みパラメータ）自身の変化を導くパラメータが、レンダリング・マトリックス１２４の変化を引き起こすように、ＳＡＯＣビットストリームに伝達される。もし、（例えば、特定のオブジェクトの周波数選択ゲインが要求される場合に）周波数依存のレンダリング特性が要求される場合、重み係数またはレンダリング・マトリックスの要素は、周波数に依存する。

図３の実施例において、レンダリング・マトリックスは、再生の構成（すなわち、シーン記述）に関する情報に基づいて、重み係数ジェネレータ１１２（レンダリング・マトリックス生成ブロック）によって生成（計算）される。一方では、これは、例えば、再生のために使用されるマルチチャンネル・スピーカの構成のスピーカの多くの個々のスピーカの位置または空間ポジショニングを示しているスピーカ・パラメータのような再生の構成情報である。レンダリング・マトリックスは、さらにまた、例えば、音声オブジェクトの値を示している、及び、音声オブジェクトの信号の増幅または減衰を示している情報におけるオブジェクト・レンダリング・パラメータに基づいて計算される。一方、もし、マルチチャンネル音声場面の現実の再現が要求される場合、オブジェクト・レンダリング・パラメータは、ＳＡＯＣビットストリームの範囲内において提供される。オブジェクト・レンダリング・パラメータ（例えば、位置パラメータおよび増幅情報（パニング・パラメータ））は、ユーザ・インターフェースを介して、代わりにインタラクティブに提供される。当然、所望のレンダリング・マトリックス、すなわち、所望の重みパラメータも、復号器側においてインタラクティブのレンダリングのための出発点として音声場面の自然な音の再現から始めるために、オブジェクトとともに送信される。

パラメータ・ジェネレータ（場面レンダリングエンジン）１０８は、Ｎ個の音声オブジェクトをＭ個の出力チャンネルにマッピングする計算をするために、重み係数およびオブジェクト・パラメータ（例えば、エネルギー・パラメータＯＬＥ）の両方を受信する。ここで、Ｍは、Ｎより大きいか、小さいか、または等しく、そして、時間とともに変化する。標準のＭＰＥＧサラウンド復号器１００を使用する場合、結果として得られる空間音響情報（例えば、コヒーレンスおよびレベル・パラメータ）は、ＳＡＯＣビットストリームとともに送信されるダウンミックス信号にマッチしている標準対応サラウンド・ビットストリームの手段によって、ＭＰＥＧ復号器１００に送信される。

前述したように、マルチチャンネル・パラメータ変換器１０６を使用することは、与えられたスピーカを介して音声場面の再構成を再生するために、ダウンミックス信号とパラメータ変換器１０６によって提供される送信されたパラメータを処理するための標準のＭＰＥＧサラウンド復号器を使用することを考慮する。すなわち、再生側における本格的なユーザインタラクションを許容することによって、これは、音声オブジェクト符号化方法の高い柔軟性によって達成される。

マルチチャンネル・スピーカ・セットアップの再生に代わるものとして、ＭＰＥＧサラウンド復号器のバイノーラルを復号化しているモードは、ヘッドホンを介して信号を再生するために利用される。

しかしながら、もし、ＭＰＥＧサラウンド復号器１００に対する軽微な修正が、例えば、ソフトウェアを実装する範囲内で受け入れられる場合、ＭＰＥＧサラウンド復号器への空間音響情報の送信は、パラメータ領域において直接的に実行もされる。すなわち、ＭＰＥＧサラウンドの互換性ビットストリームにパラメータを多重送信する計算の効果は、省略される。計算の複雑性の減少とは別に、さらなる効果は、ＭＰＥＧに合致するパラメータ量子化によって取り込まれる品質悪化を回避することである。その理由は、生成された空間音響情報のこの種の量子化は、この場合、もはや必要ではないからである。すでに述べたように、この利点は、より柔軟なＭＰＥＧサラウンド復号器の実装を必要とする。そして、ピュアなビットストリームの供給よりむしろ直接のパラメータの供給の可能性を提供する。

本発明の他の実施例において、ＭＰＥＧサラウンドの互換性ビットストリームは、生成された空間音響情報およびダウンミックス信号を多重送信することによって作成される。このように、従来の装置を介した再生の可能性を提供する。マルチチャンネル・パラメータ変換器１０６は、このように符号器側で、音声オブジェクト符号化データをマルチチャンネル符号化データに変換する目的を果たす。本発明のさらなる実施例は、図３のマルチチャンネル・パラメータ変換器に基づいて、特定のオブジェクト音声およびマルチチャンネルの実装について記載されている。これらの実装の重要な態様は、図４および図５において例示される。

オブジェクト・レンダリング・パラメータとして方向（位置）パラメータとオブジェクト・パラメータとしてエネルギー・パラメータとを使用して、図４は、１つの特定の実装に基づいて、振幅パニングを実行するための方法を例示する。オブジェクト・レンダリング・パラメータは、音声オブジェクトの位置を示す。以下のパラグラフにおいて、角度α_i１５０が、リスニング位置１５４に関して音声オブジェクトの元の方向を記載するオブジェクト・レンダリング（位置）パラメータとして使用される。以下の実施例において、簡略化した二次元のケースは、１つの単一のパラメータ、すなわち、角度は、音声オブジェクトに関連した音声信号の元の方向をパラメータ化するために、明白に使用される。しかしながら、それは、一般の三次元のケースが、大きな変更を適用するために有することはなく実装されるのは言うまでもない。すなわち、三次元空間に例示されて有するベクトルは、空間音声場面の範囲内で音声オブジェクトの位置を示すために使用される。ＭＰＥＧサラウンド復号器は、以下において発明の概念を実装するために使用するとおり、図４は、加えて、５チャンネルのマルチチャンネル・スピーカの構成のスピーカの位置を示す。中心のスピーカ１５６ａ（Ｃ）の位置が、０度と定義した場合、右前スピーカ１５６ｂは３０度に位置し、右サラウンドスピーカ１５６ｃは１１０度に位置し、左サラウンドスピーカは−１１０度に位置し、左前スピーカ１５６ｅは−３０度に位置する。

以下の実施例は、さらに、ＭＰＥＧサラウンド標準における特定のマルチチャンネル音声信号の５．１チャンネル再生に基づく。そして、それは、図５において示されるツリー構造によって視覚化できるように、２つの可能なパラメータ化を定義する。

モノラル・ダウンミックス１６０の送信の場合には、ＭＰＥＧサラウンド復号器が、ツリー構造のパラメータ化を使用する。ツリーは、第１のパラメータ化に対して、いわゆるＯＴＴエレメント（ボックス）１６２ａ〜１６２ｅによって、及び第２のパラメータ化に対して、１６４ａ〜１６４ｂによってデータを読み込まれる。

各ＯＴＴエレメントは、モノラル入力を２つの出力音声信号にアップミックスする。アップミックスを実行するために、各ＯＴＴエレメントは、各ＯＴＴエレメントの出力信号の間の所望の相互相関を記載しているＩＣＣパラメータ、及び２つの出力信号の間の相対レベル差を記載しているＣＬＤパラメータ使用する。

構造的に類似的な場合であっても、図５の２つのパラメータ化は、音声チャンネル・コンテンツが、モノラル・ダウンミックス１６０から分配される方法において異なる。例えば、左のツリー構造において、第１ＯＴＴエレメント１６２ａは、第１出力チャンネル１６６ａおよび第２出力チャンネル１６６ｂを生成する。図５の視覚化によれば、第１出力チャンネル１６６ａは、左前、右前、中央および低音特性強化チャンネルの音声チャンネルにおける情報を含む。第２出力信号１６６ｂは、サラウンドチャンネル、すなわち、左サラウンドおよび右サラウンドチャンネルの情報のみを含む。第２の実装と比較したとき、第１ＯＴＴエレメントの出力は、含まれる音声チャンネルに関連して著しく異なる。

しかしながら、マルチチャンネル・パラメータ変換器は、２つの実装のいずれかに基づいても実装することができる。発明の概念が理解されると、以下に説明したより別のマルチチャンネルの構成にも適用される。簡潔性のために、以下の発明の実施例は、大部分の損失なしに、図５の左のパラメータ化に焦点をあわせる。図５が、ＭＰＥＧ音声概念の適切な視覚化として役立つだけであることが、そして、計算が、図５の視覚化によって確信するように導かれるように、順次的に実行されない。通常、計算は、平行して実行される。すなわち、出力チャンネルは、単一の計算のステップにおいて導き出される。

短時間に以下のパラグラフで述べられる実施例において、ＳＡＯＣビットストリームは、（例えば、フィルターバンクまたは時間−周波数変換を使用している周波数領域のフレームワークの範囲内における共通に実施されるように、別々の時間−周波数タイル毎に）ダウンミックス信号における各音声オブジェクトの（相関的な）レベルを含む。

さらにまた、本発明は、オブジェクトの特定のレベル表現に限定されない。以下の記載は、ＳＡＯＣオブジェクトのパラメータ化から導き出されるオブジェクト・パワー・指標に基づくＭＰＥＧサラウンド・ビットストリームから空間音響情報を算出するための方法を例示したにすぎない。

それが、見られえる場合、ＯＴＴエレメント１６２ａの第１出力信号１６６ａは、さらに、ＯＴＴエレメント１６２ｂ，１６２ｃおよび１６２ｄによって処理される。そして、最終的に、出力チャンネルＬＦ，ＲＦ，ＣおよびＬＦＥを結果として得る。第２出力チャンネル１６６ｂは、さらに、ＯＴＴエレメント１６２ｅによって処理される。そして、出力チャンネルＬＳおよびＲＳを結果として得る。単一のレンダリング・マトリックスＷとともに図５のＯＴＴエレメントを置換することは、以下のマトリックスＷを使用することによって実行される。

Ｎが変化する音声オブジェクトの数である場合、マトリックスＷのＮ個の列は、固定されない。

クロスパワーＲ₀は、以下によって与えられる：

図５の左部分が考慮された場合、上記に示すように決定されるｐ_0,1およびｐ_0,2に対する両方の信号は、仮想信号である。なぜなら、これらの信号は、スピーカ信号の合成を表わし、実際に発生している音声信号を構成しないからである。この時点で、図５におけるツリー構造が信号の生成のために用いられないと強調される。これは、ＭＰＥＧサラウンド復号器において、１対２ボックスの間のいかなる信号も存在しないことを意味する。その代わりに、多かれ少なかれスピーカ信号を直接的に生成するために、ダウンミックスおよび異なるパラメータを使用している大きなアップミックス・マトリックスがある。

下記に、グループ化または図５の左の構成のためのチャンネルの識別が記載される。

ボックス１６２ａに関して、第１仮想信号は、スピーカ信号ｌｆ，ｒｆ，ｃ，ｌｆｅの合成を表わしている信号である。第２仮想信号は、ｌｓおよびｒｓの合成を表わしている仮想信号である。

ボックス１６２ｂに関して、第１音声信号は仮想信号であり、左前チャンネルおよび右前チャンネルを含んでいるグループを表わし、そして、第２音声信号は仮想信号であり、中央チャンネルおよび低音特性強化チャンネルを含んでいるグループを表わす。

ボックス１６２ｅに関して、第１音声信号は左サラウンドチャンネルに対するスピーカ信号であり、そして、第２音声信号は右サラウンドチャンネルに対するスピーカ信号である。

ボックス１６２ｃに関して、第１音声信号は左前チャンネルに対するスピーカ信号であり、そして、第２音声チャンネルは右前チャンネルに対するスピーカ信号である。

ボックス１６２ｄに関して、第１音声信号は中央チャンネルに対するスピーカ信号であり、そして、第２音声信号は低音特性強化チャンネルに対するスピーカ信号である。

これらのボックスにおいて、後ほど概説されるように、第１音声信号または第２音声信号のための重みパラメータは、第１音声信号または第２音声信号によって表わされるチャンネルに関連するオブジェクト・レンダリング・パラメータを合成することによって導き出される。

下記に、グループ化または図５の右の構成のためのチャンネルの識別が記載される。

ボックス１６４ａに関して、第１音声信号は仮想信号であり、左前チャンネル、左サラウンドチャンネル、右前チャンネルおよび右サラウンドチャンネルを含んでいるグループを表わし、そして、第２音声信号は仮想信号であり、中央チャンネルおよび低音特性強化チャンネルを含んでいるグループを表わす。

ボックス１６４ｂに関して、第１音声信号は仮想信号であり、左前チャンネルおよび左サラウンドチャンネルを含んでいるグループを表わし、第２音声信号は仮想信号であり、右前チャンネルおよび右サラウンドチャンネルを含んでいるグループを表わす。

ボックス１６４ｅに関して、第１音声信号は中央チャンネルに対するスピーカ信号であり、そして、第２音声信号は低音特性強化チャンネルに対するスピーカ信号である。

ボックス１６４ｃに関して、第１音声信号は左前チャンネルに対するスピーカ信号であり、そして、第２音声信号は左サラウンドチャンネルに対するスピーカ信号である。

ボックス１６４ｄに関して、第１音声信号は右前チャンネルのためのスピーカ信号であり、そして、第２音声信号は右サラウンドチャンネルに対するスピーカ信号である。

ボックス１６２ｂに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６２ｅに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６２ｃに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６２ｄに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

図５における右の構成に関して、事情は以下の通りである：

ボックス１６４ａに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６４ｂに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６４ｅに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６４ｃに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

ボックス１６４ｄに関して、サブ・レンダリング・マトリックスは、以下のように定義される。

前述のように、ＣＬＤおよびＩＣＣパラメータの計算は、マルチチャンネル・スピーカの構成のスピーカに関連するオブジェクト音声信号の一部のエネルギーを示している重みパラメータを利用する。これらの重み係数は、場面データおよび再生・構造データ、すなわち、音声オブジェクトの相対的位置およびマルチチャンネル・スピーカ・セットアップのスピーカに、一般的に依存する。以下のパラグラフは、各音声オブジェクトに関連するオブジェクト・パラメータとして、アジマス角および利得測定を用いて、図４において導入されたオブジェクト音声パラメータ化に基づき、重みパラメータを導き出すための１つの可能性を提供する。

上記の方程式に関して、２次元の場合において、空間音声場面の音声オブジェクトに関連するオブジェクト音声信号は、音声オブジェクトに近い最も近いマルチチャンネル・スピーカの構成の２つのスピーカの間で分布される点に留意すべきである。しかしながら、上記の実装のために選択されるオブジェクト・パラメータは、本発明のさらなる実施例を実施するために使用される唯一のオブジェクト・パラメータではない。例えば、３次元の場合において、スピーカ、または音声オブジェクトの位置を示しているオブジェクト・パラメータは、３次元ベクトルでもよい。一般的に、位置が、明白に定められる場合、２つのパラメータは、２次元の場合に対して必要であり、そして、３つのパラメータは、３次元の場合に対して必要である。しかしながら、２次元の場合でさえ、例えば、直交座標系において２つの座標を送信するように使用される。１〜２の範囲の中にある任意のパニング・ルール・パラメータｐが、再現システム／空間の空間音響特性を反映するように設定され、そして、本発明の若干の実施例に従って、追加的に適用される任意のパニング・ルール・パラメータである。パニング重みＶ_1,iおよびＶ_2,iが、上述の方程式によって導き出された後に、最後に、重みパラメータｗ_s,iは、以下の公式に従って導き出される。マトリックス・エレメントは、以下の方程式によって最後に与えられる：

各音声オブジェクトに任意に関連する、前に導かれたゲイン係数ｇ_iは、個々のオブジェクトを強調するかまたは抑制するために使用される。これは、例えば、個々に選ばれた音声オブジェクトの了解度を改良するために、受信側、すなわち復号器において、実行される。

図４の音声オブジェクト１５２の以下の例は、上記の方程式のアプリケーションを明らかにするのに再び役立つ。実施例は、前述されている３／２チャンネルのセットアップに合致しているＩＴＵ−ＲＢＳ．７７５−１を利用する。１（すなわち、０ｄＢ）の任意のパニング・ゲインｇ_iを有するアジマス角α_i＝６０度によって特徴付けられる音声オブジェクトｉの所望のパニング方向を導き出すことが目的である。この実施例において、再生空間は、若干の残響を示す。そして、パニング・ルール・パラメータｐ＝２によって、パラメータ化される。図４によると、最も近いスピーカは、右前スピーカ１５６ｂと右サラウンドスピーカ１５６ｃであることは、明らかである。従って、パニング重みは、以下の方程式を解析することによって求められる：

多少の計算の後、これは解答に至る：

従って、上記の指示によれば、方向α_iに位置する特定の音声オブジェクトに関連する重みパラメータ（マトリックス・エレメント）は、以下のように導き出される：

ｗ１＝ｗ２＝ｗ３＝０；ｗ４＝０．８３７４；ｗ５＝０．５４６６．

上記のパラグラフは、モノラル信号、すなわち、点状のソースによって表わされる、音声オブジェクトのみを利用している本発明の実施例を詳述する。しかしながら、フレキシブルな概念は、モノラルの音声ソースを有するアプリケーションに制限されない。それとは反対に、空間的に「拡散」として考慮される１つ以上のオブジェクトが、本発明の概念によく合っている。点状でないソースまたは音声オブジェクトが、表わされる場合、マルチチャンネル・パラメータは、適切な方法において、導き出されなければならない。１つ以上の音声オブジェクトの間に拡散の量を定量化する適切な計測は、オブジェクトに関連する相互相関パラメータＩＣＣである。

今まで述べられたＳＡＯＣシステムにおいて、すべての音声オブジェクトは、点状のソース、すなわち、いかなる空間的広がりのない対毎（ｐａｉｒ−ｗｉｓｅ）の非相関のモノラルサウンドソースであるように仮定された。しかしながら、ある程度の対毎の（非）相関を提示している、ただ１つ以上の音声チャンネルを含む音声オブジェクトを考慮することが望ましいアプリケーション・シナリオもある。これらの最もシンプルな、およびおそらく最も重要な場合は、ステレオ・オブジェクト、すなわち、一緒に帰属する２つの多少相関されたチャンネルからなるオブジェクトによって、表わされる。例えば、そのようなオブジェクトは、交響楽団によって作り出される空間的な画像を表わす。

ステレオ・オブジェクトの正確なレンダリングのために、ＳＡＯＣ復号器は、ステレオ・オブジェクトのレンダリングにおいて加わるそれらの再生チャンネル間の正確な相関を定めるための手段を提供する必要がある。その結果、それぞれのチャンネルに対するステレオ・オブジェクトの貢献は、対応するＩＣＣ_i,jパラメータによって請求されるように相関を示す。順に、ステレオ・オブジェクトを扱うことができるＭＰＥＧサラウンド・トランスコーダに対するＳＡＯＣは、関連した再生信号を再生することを必要とするＯＴＴボックスのためのＩＣＣパラメータを導き出す必要がある。その結果、ＭＰＥＧサラウンド復号器の出力チャンネル間の非相関性の量は、この条件を満たす。

そうするために、この文章の前のセクションにおいて挙げられる実施例と比較して、パワーｐ_0,1およびｐ_0,2ならびにクロスパワーＲ₀が変化する必要がある。２つの音声オブジェクトのインデックスを仮定することが、以下の方法において、ｉ₁およびｉ₂の式変形であるステレオ・オブジェクトをともに構築する。

ステレオ・オブジェクトを使用する能力を有することは、点ソース以外の音声ソースが適切に処理された場合に、空間音声場面の再現品質が非常に強化されるという、明らかに効果がある。さらにまた、多くの音声オブジェクトに対して広く利用できる使用前にミックスされたステレオ信号を使用する能力を有する場合、空間音声場面の生成は、より効率的に実行される。

以下の考慮すべき問題は、発明の概念が、「固有の」拡散を有する点のようなソースの集積化を考慮に入れることをさらに示す。点のソースを再生しているオブジェクトの代わりに、前の実施例におけるように、１以上のオブジェクトは、空間的な「拡散」として考えることもできる。拡散の量は、オブジェクトに関連する相互相関パラメータＩＣＣ_i,jによって特徴付けられる。ＩＣＣ_i,j＝１に対して、オブジェクトｉは、点のソースを表わし、その一方で、ＩＣＣ_i,j＝０に対して、オブジェクトは、最大限に拡散される。オブジェクトに依存する拡散は、正確なＩＣＣ_i,j値を満たすことによって、上記に与えられる方程式において集積される。

ステレオ・オブジェクトが利用される場合、マトリックスＭの重み係数の導出が適応される必要がある。しかしながら、ステレオ・オブジェクトの処理に関しては、（ステレオ・オブジェクトの左および右の「エッジ」のアジマス値を表わしている）２つのアジマス位置が、レンダリング・マトリックスの要素に変換する場合、その適応は、発明の技術なしで実行されえる。

すでに述べたように、使用する音声オブジェクトのタイプに関係なく、レンダリング・マトリックスの要素は、通常、異なる時間／周波数タイルのために個々に定義され、一般に各々は異なる。例えば、時間を通じての変化は、ユーザインタラクションを反映することができる。そして、それによって、あらゆる個々のオブジェクトのためのパニング角度およびゲイン値が、時間とともに任意に修正される。例えば、同様に、周波数を通じての変化は、音声場面の空間知覚に影響している異なる特徴を考慮に入れる。

マルチチャンネル・パラメータ変換器を使用している発明概念の実施をすることは、以前には実現できなかった、多くの完全に新規なアプリケーションを考慮に入れる。一般的な意味では、ＳＡＯＣの機能性は、効果的な符号化および音声オブジェクトのインタラクティブ・レンダリングとして特徴付けられる場合、インタラクティブな音声を必要としている多数のアプリケーションは、発明の概念、すなわち、発明のマルチチャンネル・パラメータ変換器の実装、またはマルチチャンネル・パラメータ変換のための発明の方法から利益を得る。

例えば、完全に新しいインタラクティブなテレビ会議シナリオが可能になる。現在の遠隔通信基盤（電話、テレビ会議等）は、モノラルである。すなわち、音声オブジェクトにつき１つの基本のストリームの伝送が送信される必要があるので、古典的オブジェクト音声符号化は、適用できない。しかしながら、これらの従来の伝送チャンネルは、単一のダウンミックス・チャンネルを有するＳＡＯＣを導くことによって、それらの機能性において拡張することができる。主にマルチチャンネル・パラメータ変換器、または発明のオブジェクト・パラメータ・トランスコーダである、ＳＡＯＣ拡張を有する遠隔通信端末は、いくつかの音源（オブジェクト）を拾って、それらを既存のコーダ（例えば、音声コーダ）を使用することによって、互換性を有する方法で送信される単一のモノラル・ダウンミックス信号にミックスすることが可能である。サイド情報（空間音声オブジェクト・パラメータまたはオブジェクト・パラメータ）は、秘密に下位互換性を有する方法で伝達されえる。そのような高度な端末は、いくつかの音声オブジェクトを含んでいる出力オブジェクト・ストリームを生成する一方、従来の端末が、ダウンミックス信号を再現する。逆に言えば、従来の端末（すなわち、ダウンミックス信号のみ）によって生成される出力は、単一の音声オブジェクトとして、ＳＡＯＣトランスコーダによって考慮される。

原理は、図６ａにおいて例示される。第１のテレビ会議サイト２００において、Ａオブジェクト（話し手）が存在し、第２のテレビ会議サイト２０２において、Ｂオブジェクト（話し手）が存在する。ＳＡＯＣによれば、オブジェクト・パラメータは、関連するダウンミックス信号２０４と共にテレビ会議サイト２００から送信され、第２のテレビ会議サイト２０２においてＢオブジェクトの各々ための音声オブジェクト・パラメータによって関連する、ダウンミックス信号２０６は、第２のテレビ会議サイト２０２から第１のテレビ会議サイト２００に送信される。これは、複数の話し手の出力が、ただ１つの単一のダウンミックス・チャンネルを使用して送信され、個々の話し手に関連した追加の音声オブジェクト・パラメータについて、ダウンミックス信号に関連して送信された場合、さらに、追加の話し手が受信しているサイトで強調されるといった、多大な効果がある。

これは、例えば、ユーザが、オブジェクトに関連するゲイン値ｇ_iを適用することによって興味のある１つの特定の話し手を強調することができる。したがって、残りの話し手は、ほとんど聞こえなくさせる。これらは、選択された音声オブジェクトを強調するためにユーザインタラクションの許可する可能性なしで、できるだけ、自然に元の空間音声場面を再現しようとするので、これは、従来のマルチチャンネル音声技術の場合、可能ではない。

図６ｂは、より複雑なシナリオを例示する。ここで、テレビ会議は、３つのテレビ会議サイト２００，２０２および２０８の間で実行される。各サイトは、１つの音声信号を送受信することができるだけであるので、基礎構造は、いわゆる多地点制御装置ＭＣＵ２１０を使用する。各サイト２００，２０２および２０８は、ＭＣＵ２１０に接続している。各サイトからＭＣＵ２１０に、単一のアップストリームが各サイトからの信号を含む。各サイトのためのダウンストリームは、全ての他のサイトの信号の混合である。そして、場合により、サイト自身の信号（いわゆる、Ｎ−１信号）を通さない。

先に述べた概念および発明のパラメータ・トランスコーダによれば、ＳＡＯＣビットストリーム・フォーマットは、２以上のオブジェクト・ストリーム、すなわち、ダウンミックス・チャンネルおよび関連する音声オブジェクト・パラメータを有する２つのストリームを計算機的に効率的な方法、すなわち、送信サイトの空間音声場面の以前の完全な再構成を必要としない方法の単一のストリームに合成するために能力をサポートする。そのような合成は、本発明によるオブジェクトの復号化／再符号化なしにサポートされる。低遅延ＭＰＥＧ通信コーダ、例えば、低遅延のＡＣＣを使用する場合、そのような空間的な音声オブジェクト符号化シナリオが、特に魅力的である。

発明の概念のために関心がある他の分野は、ゲームなどのためのインタラクティブな音声である。特定のレンダリング・セットアップからのその低い計算の複雑性および独立性のため、ＳＡＯＣは、例えば、ゲーム・アプリケーションのようなインタラクティブな音声のための音を表わすことに理想的に適している。音声は、出力端子の能力に依存して、さらにレンダリングされる。例えば、ユーザ／プレイヤは、現在の音声場面のレンダリング／ミキシングに直接影響を与える。仮想場面においてあちこち移動することは、レンダリング・パラメータの適合によって反映される。ＳＡＯＣのシーケンス／ビットストリームの適応性のあるセットを使用することは、ユーザインタラクションによって制御される非線形なゲームのストーリーの再現を可能にする。

本発明の他の実施例によれば、本発明のＳＡＯＣ符号化は、ユーザが、同じ仮想世界／場面の他のプレイヤと相互に作用するようなマルチ・プレイヤ・ゲームの範囲内で適用される。ユーザ毎に、ビデオおよび音声場面は、仮想世界における彼の位置および位置確認に基づいており、彼のローカル端末に適応してレンダリングされる。一般のゲーム・パラメータおよび特定のユーザデータ（位置、個々の音声；チャットその他）は、共通のゲーム・サーバを使用している異なるプレイヤの間で交換される。従来の技術については、ゲーム・シーンにおける各クライアント・ゲーム・デバイス（特に、ユーザ・チャット、特別な音声効果）上の不履行によって入手不可能なあらゆる個々の音源は、符号化される必要があり、個々の音声ストリームとしてゲーム・シーンの各プレイヤに送られる必要がある。ＳＡＯＣを使用して、プレイヤ毎の関連した音声ストリームが、ゲーム・サーバにおいて容易に構成され／合成され、プレイヤ（すべてに関連したオブジェクトを含む）に単一の音声ストリームとして送信され、そして、音声オブジェクト（他のゲーム・プレイヤの音声）毎に、正確な空間位置においてレンダリングされる。

さらに、本発明の他の実施例によれば、ＳＡＯＣは、リスナーの好みに従って計測器の相対レベル、空間的な位置および聴度を調節するための可能性を使用しているマルチチャンネル・ミキシング・デスクのそれと類似の制御を有するオブジェクト・サウンドトラックを再生するために使用される。
そのような、ユーザは、
−（カラオケ・タイプのアプリケーション）を協力するためのある機器を抑制し／減らす。
−それらの選択（例えば、ダンス・パーティに対するドラム音が大きく、弦楽器音が小さいか、リラクセーション音楽に対するドラム音が小さく、ボーカルが大きい）を反映するために元のミックスを修正する。
−それらの選択にしたがって、異なるボーカル・トラック（弾性のリード・ボーカルを介した女性のリード・ボーカル）の間で選択する。

上記例が示したように、発明の概念のアプリケーションが、以前に実行不可能なアプリケーションのための新規の多種多様な分野を開く。図７の発明のマルチチャンネル・パラメータ変換器を使用する場合、または図８に示されるように、第１および第２音声信号の間の相関を示しているコヒーレンス・パラメータおよびレベル・パラメータを生成するための方法を実装する場合に、これらのアプリケーションは、可能になる。

図７は、本発明のさらなる実施例を示す。マルチチャンネル・パラメータ変換器３００は、音声オブジェクトに関連するオブジェクト音声信号を使用して生成されたダウンミックス・チャンネルに関連する少なくとも１つの音声オブジェクトのためのオブジェクト・パラメータを提供するためのオブジェクト・パラメータ・プロバイダ３０２を含む。さらに、マルチチャンネル・パラメータ変換器３００は、コヒーレンス・パラメータおよびレベル・パラメータを導き出すためのパラメータ・ジェネレータ３０４を含み、コヒーレンス・パラメータは、マルチチャンネル・スピーカの構成に関連するマルチチャンネル音声信号の表現の第１および第２音声信号の間の相関を示しており、レベル・パラメータは、音声信号の間のエネルギー関係を示している。マルチチャンネル・パラメータは、オブジェクト・パラメータおよび再生のために使用されるマルチチャンネル・スピーカの構成のスピーカの位置を示している追加のスピーカ・パラメータを使用することにより生成される。

図８は、マルチチャンネル・スピーカの構成に関連するマルチチャンネル音声信号の表現の第１および第２音声信号の間の相関を示しているコヒーレンス・パラメータを生成するための、ならびに音声信号の間のエネルギー関係を示しているレベル・パラメータを生成するための発明の方法の実施形態の実施例を示す。提供するステップ３１０において、音声オブジェクトに関連するオブジェクト音声信号を使用して生成されたダウンミックス信号に関連する少なくとも１つの音声オブジェクトのためのオブジェクト・パラメータ、音声オブジェクトの位置を示している方向パラメータを含んでいるオブジェクト・パラメータ、およびオブジェクト音声信号のエネルギーを示しているエネルギー・パラメータが提供される。

変換ステップ３１２において、コヒーレンス・パラメータおよびレベル・パラメータが、再生のために使用されることを目的とするマルチチャンネル・スピーカの構成のスピーカの位置を示している追加のスピーカ・パラメータとともに方向パラメータおよびエネルギー・パラメータを合成して導き出される。

更なる実施例は、マルチチャンネル・スピーカの構成に関連するマルチチャンネル音声信号の表現の２つの音声信号の間の相関を示しているコヒーレンス・パラメータを生成するために、および空間的な音声オブジェクトの符号化したビットストリームに基づく２つの音声信号の間におけるエネルギー関係を示しているレベル・パラメータを生成するためのオブジェクト・パラメータ・トランスコーダを含む。この装置は、前述のように、空間的な音声オブジェクトの符号化したビットストリームからダウンミックス・チャンネルおよび関連したオブジェクト・パラメータを抽出するためのビットストリーム・デコンポーザならびにマルチチャンネル・パラメータ変換器を含む。

あるいは、またはさらに、オブジェクト・パラメータ・トランスコーダは、マルチチャンネル信号のマルチチャンネル表現を導き出すためのダウンミックス・チャンネル、コヒーレンス・パラメータおよびレベル・パラメータを合成するためのマルチチャンネル・ビットストリーム・ジェネレータ、または、量子化および／またはエントロピー符号化なしにレベル・パラメータおよびコヒーレンス・パラメータを直接出力するための出力インターフェースを含む。

他のオブジェクト・パラメータ・トランスコーダは、コヒーレンス・パラメータおよびレベル・パラメータに関連してダウンミックス・チャンネルを出力するためにさらに作用している出力インターフェースを有するか、または記憶媒体においてレベル・パラメータおよびコヒーレンス・パラメータを記憶するための出力インターフェースに接続される記憶インターフェースを有する。

さらにまた、オブジェクト・パラメータ・トランスコーダは、前述のようにマルチチャンネル・パラメータ変換器を有する。そして、それは、マルチチャンネル・スピーカの構成の異なるスピーカを表現している音声信号の異なる対のための複数のコヒーレンス・パラメータおよびレベル・パラメータ対を導き出すために作用する。

進歩的な本方法の実施要件によっては、本方法は、ハードウェアまたはソフトウェアにおいて実施することができる。本実施は、電子的に読み出し可能な制御信号を記憶するデジタル記憶媒体、特にディスク、ＤＶＤまたはＣＤを使用して行うことができ、進歩的な本方法が行われるようなプログラム可能なコンピュータシステムと共に動作する。したがって、一般的に、本発明は、機械読み出し可能な担体上に記憶されたプログラム・コードを伴うコンピュータ・プログラム製品であって、プログラム・コードは、コンピュータ・プログラム製品がコンピュータ上で実行される場合に、進歩的な本方法を行うために動作する。したがって、言い換えれば、進歩的な本方法は、コンピュータ・プログラムがコンピュータ上で実行される場合に、本方法の少なくとも１つが実行させるためのプログラム・コードを有するコンピュータ・プログラムである。

前述の内容が特にその特定の実施例に関して開示されると共に記載される一方、形態および詳細のさまざまな他の変化が、その趣旨および範囲から逸脱することなくなされることが、当業者には分かる。さまざまな変化が本願明細書において開示された上位概念から逸脱することなく、異なる実施例に適応され、以下の請求項によって理解されることが分かる。

Claims

前記パラメータ・ジェネレータは、以下の方程式に基づきｋ番目に対するＯＴＴエレメントに対する前記レベル・パラメータＣＬＤ_kを導き出すために適用される、請求項１に記載のマルチチャンネル・パラメータ変換器。
前記パラメータ・ジェネレータは、以下の方程式に基づきｋ番目に対する前記コヒーレンス・パラメータＩＣＣ_kを導き出すために作動する、請求項１または請求項２に記載のマルチチャンネル・パラメータ変換器。
コンピュータに、請求項４に記載の方法を実行するためのコンピュータ・プログラムを記録した、コンピュータに読み取り可能な記録媒体。