JP2015509212A

JP2015509212A - 空間オーディオ・レンダリング及び符号化

Info

Publication number: JP2015509212A
Application number: JP2014552731A
Authority: JP
Inventors: ヘラルデュスヘンリキュスコッペンス，イェルーン; ホザイニュスペトリュススハイエルス，エリック; ウェルネルヨーハネスオーメン，アルノルデュス; デケルクホフ，レオンマリアファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-01-19
Filing date: 2013-01-17
Publication date: 2015-03-26
Also published as: BR112014017457A8; EP2805326A1; EP2805326B1; WO2013108200A1; CN104054126B; US20140358567A1; US9584912B2; US20170125030A1; CN104054126A; BR112014017457A2; RU2014133903A

Abstract

符号化器は、第１のダウンミックスとオーディオ・オブジェクトを特徴付けるデータによりオーディオ・シーンを表すデータを生成する。さらに、残留ダウンミックスが、オーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応する場合の、残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータが提供される。レンダリング装置は、符号化器からデータを受け取る受信機を備える。回路は、オーディオ・オブジェクトから空間スピーカ構成の信号を生成する。変圧器は、第１の変換を残留ダウンミックスに加えることにより空間スピーカ構成の非拡散音信号を生成し、別の変圧器は、相関除去を残留ダウンミックスに適用することにより第２の変換を残留ダウンミックスに加えることによって空間スピーカ構成の信号を生成する。変換は、指向性依存の拡散性パラメータに依存する。信号は、出力信号を生成するように組み合わされる。

Description

本発明は、空間オーディオ・レンダリング及び／又は符号化に関する。より詳細には、ただし排他的にではなく、異なる空間スピーカ構成をもつ空間オーディオ・レンダリング・システムに関する。

デジタル信号表現及び通信が、だんだんアナログ表現及び通信に取って代わってきたことに伴い、最近の十年にわたり様々な音源信号のデジタル符号化が、ますます重要になってきている。例えば、音声や音楽などのオーディオ・コンテンツは、デジタル・コンテンツ符号化にますます基づいている。

ますます能力が高く、多様で、柔軟性のあるオーディオ・サービスを提供するためのオーディオ符号化形式が、開発されてきている。具体的には、空間オーディオ・サービスをサポートするオーディオ符号化形式が開発されてきている。

ＤＴＳやドルビー・デジタルなどの周知の音声符号化技術により、聴取者の周りの固定位置に設置された、いくつかのチャンネルとして空間イメージを表す符号化マルチチャンネル・オーディオ信号が作り出される。マルチチャンネル信号に対応するセットアップとは異なるスピーカ・セットアップの場合、空間イメージは最適以下のものとなってしまう。また、このようなチャンネル・ベースのオーディオ符号化システムは、典型的には、異なる数のスピーカに対処することができない。

ＭＰＥＧサラウンドは、既存のモノ・ベース（ｍｏｎｏ）又はステレオ（ｓｔｅｒｅｏ）・ベースの符号化器のマルチチャンネル・オーディオ用途への拡大を可能にするマルチチャンネル・オーディオ符号化ツールを提供する。図１は、ＭＰＥＧサラウンド・システムの要素の一つの実施例を示す。オリジナルのマルチチャンネル入力の分析によって得られた空間パラメータを使用して、ＭＰＥＧサラウンド復号化器は、マルチチャンネル出力信号を得るために、モノ又はステレオ信号のアップミックスの制御によって空間イメージを再現することができる。

マルチチャンネル入力信号の空間イメージがパラメータ化されるので、ＭＰＥＧサラウンドは、マルチチャンネル・スピーカのセットアップを使用しないデバイスをレンダリングすることによって同じマルチチャンネル・ビットストリームの復号化を可能にする。一つの実施例は、ＭＰＥＧサラウンド両耳復号化プロセスと呼ばれる、ヘッドホンによる仮想サラウンド再生である。このモードにおいて、通常のヘッドホンを使用しながら、現実的なサラウンド体験を得ることができる。別の一つの実施例は、高次のマルチチャンネルの出力、例えば、７．１チャンネルを、低次のセットアップ、例えば５．１チャンネルへ低減することである。

より柔軟性のあるオーディオの表現をもたらすために、ＭＰＥＧは、「空間オーディオ・オブジェクト符号化」（ＭＰＥＧ−ＤＳＡＯＣ）として知られるフォーマットを標準化した。ＤＴＳやドルビー・デジタル、ＭＰＥＧサラウンドなどのマルチチャンネル・オーディオ符号化システムと対照的に、ＳＡＯＣは、オーディオ・チャンネルよりも個々のオーディオ・オブジェクトの効率的な符号化を可能にする。ＭＰＥＧサラウンドにおいて、各スピーカ・チャンネルは異なるサウンド・オブジェクトのミックスから生じるとみなすことができるが、ＳＡＯＣは、個々のサウンド・オブジェクトを復号化器側で図２に示す対話式操作に利用可能にする。ＳＡＯＣにおいて、複数のサウンド・オブジェクトは、サウンド・オブジェクトをレンダリング側で抽出可能にするパラメトリック・データと共にモノ又はステレオ・ダウンミックスに符号化され、それにより、個々のオーディオ・オブジェクトが例えば、エンドユーザによって、操作に利用可能になる。

実際、ＭＰＥＧサラウンドと同様に、ＳＡＯＣもモノ又はステレオ・ダウンミックスを作り出す。さらに、オブジェクト・パラメータが計算され、含まれる。復号化器側では、ユーザが、このようなパラメータを操作して、位置やレベル、等化などの個々のオブジェクトの様々な特徴を制御することができ、又はリバーブなどの効果を加えることさえもできる。図３は、ユーザがＳＡＯＣビットストリームに含まれている個々のオブジェクトを制御することを可能にする対話型インターフェースを示す。レンダリング・マトリックスにより、個々のサウンド・オブジェクトは、スピーカ・チャンネルにマッピングされる。

実際に、空間サウンドをレンダリングするために使用されるレンダリング構成における種類及び柔軟性は、ますます多くの再生形式が主流の消費者に利用可能になるにつれ、近年、大幅に増大してきた。これにより、オーディオの柔軟性のある表現が必要になっている。ＭＰＥＧサラウンド符号復号化器の導入に伴い、重要なステップが取られている。それにもかかわらず、オーディはまだ生産され、特定のスピーカのセットアップ用に伝送される。異なるセットアップにおける及び非標準（即ち、柔軟性のある、又はユーザ定義の）スピーカ・セットアップにおける再生は、規定されていない。

この問題は、再生チャンネルの代わりにオーディオ・オブジェクトを伝送するＳＡＯＣによって部分的に解決することができる。これにより、復号化器側では、空間が十分にスピーカによってカバーされていることを条件に、空間における任意の位置にオーディオ・オブジェクトを配置することが可能である。このようにして、伝送されるオーディオと再生セットアップとの間には何も関係がなく、従って、任意のスピーカ・セットアップを使用することができる。このことは、例えば、スピーカが意図された位置にほぼない、典型的な居間におけるホーム・シネマのセットアップに有利である。ＳＡＯＣにおいて、オブジェクトをサウンド・シーンのどこに配置するかは復号化器側で決定されるが、それは、芸術的観点からは、しばしば所望されない。ＳＡＯＣ規格は、ビットストリームにおけるデフォルト・レンダリング・マトリックスを伝送する方法を提供し、復号化器の責任を排除する。しかし、提供された方法は、固定された再生セットアップ又は指定のないシンタックスのどちらかを利用する。従って、ＳＡＯＣは、スピーカ・セットアップから独立してオーディオ・シーンを伝送する規範的な手段は提供しない。さらに重要なことには、ＳＡＯＣは、拡散信号成分の忠実なレンダリングに対する態勢が十分に整っていない。拡散サウンドを捕捉するいわゆるマルチチャンネル・バックグラウンド・オブジェクトを含む可能性があるが、このオブジェクトは、１つの特定のスピーカ構成に拘束されている。

３Ｄオーディオ用オーディオ形式の別の仕様は、ＳＲＳ（ＳｏｕｎｄＲｅｔｒｉｅｖａｌＳｙｓｔｅｍ）Ｌａｂｓによって始められた業界提携である３Ｄオーディオ・アライアンス（３ＤＡＡ）によって開発されている。３ＤＡＡは、「現在のスピーカ・フィード・パラダイムから柔軟性のあるオブジェクト・ベース方式への移行を促進する」３Ｄオーディオの伝送のための標準を開発することに専念している。３ＤＡＡでは、個々のサウンド・オブジェクトと共に、古く従来のものであるマルチチャンネル・ダウンミックスの伝送を可能にする、ビットストリーム形式が、定義されることになっている。さらに、オブジェクト位置決めデータが含まれる。３ＤＡＡオーディオ・ストリームを生成する原理を図４に示す。

３ＤＡＡ方式では、サウンド・オブジェクトは、拡張ストリーム内で別々に受け取られ、マルチチャンネル・ダウンミックスから抽出することができる。その結果得られたマルチチャンネル・ダウンミックスは、個々に入手可能なオブジェクトと共にレンダリングされる。

オブジェクトは、いわゆるステムからなり得る。このようなステムは、基本的にグループ化された（ダウンミックスされた）トラック又はオブジェクトである。従って、オブジェクトは、システムにパックされた複数のサブオブジェクトから成ることができる。３ＤＡＡにおいて、マルチチャンネル・レファレンス・ミックスを選択されたオーディオ・オブジェクトと共に伝送することができる。３ＤＡＡは、オブジェクト毎に３Ｄ位置決めデータを伝送する。オブジェクトは、次いで、３Ｄ位置決めデータを使用して抽出され得る。或いは、オブジェクトとレファレンス・ミックスとの間の関係を記述した、逆ミックス・マトリックスを伝送することができる。

３ＤＡＡの記述から、各オブジェクトに角度と距離を割り当てて、例えば、デフォルトの順方向に対してオブジェクトをどこに配置すべきかを指示することにより、サウンド・シーン情報が、伝送されそうである。このことは、点音源には有用であるが、広い音源（例えば、合唱団や拍手など）を記述しない、又は音場（雰囲気など）を拡散してしまう。すべての点音源がレファレンス・ミックスから抽出されると、周囲のマルチチャンネル・ミックスが残る。ＳＡＯＣと同様に、３ＤＡＡにおける残留は、特定のスピーカ・セットアップに固定される。

従って、ＳＡＯＣ及び３ＤＡＡの両方の方式は、復号化器側で個々に操作できる個々のオーディオ・オブジェクトの伝送を組み込む。２つの方式の相違は、ＳＡＯＣがダウンミックスに対してオブジェクトを特徴付けるパラメータを提供することによって（即ち、オーディオ・オブジェクトが復号化器側でダウンミックスから生成されるように）オーディオ・オブジェクトに関する情報を提供するのに対して、３ＤＡＡが完全かつ個々のオーディオ・オブジェクト（即ち、復号化器側でダウンミックスから独立して生成できる）としてオーディオ・オブジェクトを提供することである。

典型的なオーディオ・シーンは、様々な種類のサウンドを含む。具体的には、オーディオ・シーンは、しばしば、いくつかの特定かつ空間的に明瞭な音源を含む。さらに、オーディオ・シーンは、典型的には、一般的な周囲オーディオ環境を表す拡散音成分を含むことができる。このような拡散音は、例えば、残響効果や無指向性雑音などを含むことがある。

重大な問題は、このような異なるオーディオの種類をどのように処理するか、具体的には、異なるスピーカ構成におけるこのような異なるオーディオの種類をどのように処理するかということである。ＳＡＯＣや３ＤＡＡなどの形式は、点音源を柔軟にレンダリングすることができる。しかし、このような方式は、チャンネル・ベースの方式においては有利であり得るが、異なるスピーカ構成における拡散音源のレンダリングは、最適以下のものとなる。

点音源及び拡散音のレンダリングを区別する異なる方式は、「ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ」ｂｙＶｉｌｌｅＰｕｌｋｋｉ、ＪｏｕｒｎａｌＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ、Ｖｏｌ．５５、Ｎｏ．６、Ｊｕｎｅ２００７という論文で提案されている。この論文は、ダウンミックスが合成側で空間像の再現を可能にするパラメータと共に伝送される、ＤｉｒＡＣ（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ：方向オーディオ符号化）と呼ばれる方式を提案している。ＤｉｒＡＣで伝達されるパラメータは、方向と拡散性の分析によって得られる。具体的には、ＤｉｒＡＣは、音源の方位角及び仰角を伝達することに加えて、拡散性の指示も伝達されるものとしている。合成の間、ダウンミックスは、１つが非拡散音に対応し、別の１つが拡散音に対応する、２つのストリームに動的に分けられる。非拡散音ストリームは、点状音源をねらった技法により再現され、拡散音ストリームは、目立つ方向を欠く音の知覚をねらった技法によってレンダリングされる。

論文に記載されているダウンミックスは、ダウンミックスのモノ又はＢ形式の種類のいずれかである。モノ・ダウンミックスの場合、拡散スピーカ信号が、各スピーカ位置に対して別個の相関除去器を使用してダウンミックスを相関除去することによって得られる。Ｂ形式ダウンミックスの場合、仮想マイクロホン信号が、スピーカ位置毎に、再生スピーカの方向にＢ形式モデリング・カージオイドから抽出される。このような信号は、指向性音源を表す部分と、拡散音源を表す部分とに分割される。拡散成分の場合、「仮想信号」の相関除去バージョンが、スピーカ位置毎に、得られた点音源の寄与に追加される。

しかし、ＤｉｒＡＣは、空間的に定義された音源及び拡散音の別個の処理を考慮しない一部のシステムにおけるオーディオ品質を改善することができる方式を提供するが、最適以下の音質を提供する傾向がある。具体的には、システムを異なるスピーカ構成に適合させるとき、比較的単純なダウンミックス信号の分割だけに基づいて拡散音を拡散／非拡散成分に特定のレンダリングをすると、拡散音の理想的なレンダリングに達しない結果になる傾向がある。ＤｉｒＡＣにおいて、拡散信号成分のエネルギーは、入力信号に存在する点音源によって直接決まる。従って、例えば、点音源の存在下で真の拡散信号を生成することは可能ではない。

従って、方式の改善が有利となり、具体的には、柔軟性の増大、オーディオ品質の改善、異なるレンダリング構成への適合の改善、サウンド・シーンの拡散音及び／若しくは点音源のレンダリングの改善並びに／又は性能の改善を可能にする方式が有利となる。

「ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ」ｂｙＶｉｌｌｅＰｕｌｋｋｉ、ＪｏｕｒｎａｌＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ、Ｖｏｌ．５５、Ｎｏ．６、Ｊｕｎｅ２００７

従って、本発明は、好ましくは、上記の不利な点の１つ又は複数を一つずつ、又は任意の組合せで、軽減し、緩和し、又は除外することを求める。

本発明の一態様によれば、残留ダウンミックスと少なくとも１つのオーディオ・オブジェクトを特徴付けるデータとを提供する回路であって、残留ダウンミックスが、少なくとも１つのオーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応する回路と、残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るための受信機と、第１の変換を残留ダウンミックスに加えることによって空間スピーカ構成のための第１の組の信号を生成するための第１の変圧器であって、第１の変換が拡散性パラメータに依存する第１の変圧器と、第２の変換を残留ダウンミックスに加えることによって空間スピーカ構成の第２の組の信号を生成するための第２の変圧器であって、第２の変換が拡散性パラメータに依存し、残留ダウンミックスの少なくとも１つのチャンネルの相関除去を含む、第２の変圧器と、少なくとも１つのオーディオ・オブジェクトを特徴付けるデータから空間スピーカ構成のための第３の組の信号を生成するための回路と、第１、第２及び第３の組の信号を組み合わせることにより空間スピーカ構成の出力の組の信号を生成するための出力回路と、を備え、拡散性パラメータが方向依存性である、空間オーディオ・レンダリング装置が提供される。

本発明は、改善されたオーディオ・レンダリングを提供することができる。具体的には、本発明は、多くの実施形態において、並びに多くの異なるオーディオ・シーン及びレンダリング・セットアップに対して、改善されたオーディオ品質及びユーザ体験を提供することができる。多くのシナリオにおいて、本方式は、具体的には、残留ダウンミックスの異なるオーディオ成分の空間特性の改善された考察により、残留ダウンミックスの改善されたレンダリングを提供することができる。

本発明の発明者らは、改善された性能が２種類のオーディオ成分を考察しないことだけによってしばしば実施できることを理解している。実際、従来の方式と対照的に、本発明者らは、少なくとも３種類のオーディ成分、即ち、オーディオ・オブジェクトによって表され、それに応じて抽出することができる特定のオーディオ源、オーディオ・オブジェクトによって表されず、それに応じて、ダウンミックスから抽出できない、特定の空間的に配置されたオーディオ源（例えば、点音源）、及び拡散音源を含むために残留ダウンミックスを引き出すダウンミックスを考察することが有利であることを理解している。従って、本発明者らは、空間的に特定の音声成分及び拡散音成分の両方をレンダリングするために残留ダウンミックスを処理することが有利であり得ることを理解している。本発明者らは、さらに、空間的により特定の音声成分とは別個に拡散音成分をレンダリングすることにより、改善されたオーディオ・レンダリングが提供できることを理解している。本発明者らは、音声成分によっては、拡散でありながらしかも空間特性も示し得ること、及びこのような部分的に拡散音源の改善された空間レンダリングが改善された音質を提供することも理解している。

方向依存性の拡散性パラメータを使用することにより、例えば、復号化器が、残留ダウンミックスの改善されたレンダリングを提供するレンダリング側の処理を制御することが可能になり、（特に）拡散又は部分的拡散音声成分のレンダリングが様々な空間スピーカ構成に適合することが、特に、可能になり得る。

実際、方式は、多くのシナリオにおいて、レンダリングが残留信号における点音源及び（部分的に）拡散音成分の両方の適当な処理を提供する、柔軟なスピーカ位置に対する残留音場の改善されたレンダリングを提供することができる。例えば、点状音源は、パニングを使用して所与の構成に適合することができ、拡散成分は、均一の非指向性再現を提供するために、利用可能なスピーカに配分することができる。音場は、部分的拡散音成分、即ち、一部拡散成分と一部非拡散成分とをもつ音源から成ることもできる。以下において、拡散信号成分への参照は、それに応じて、部分的拡散信号成分への参照を含むことも意図されている。

本方式において、残留ダウンミックスは、非拡散音成分に適したレンダリングと、拡散音成分に適したレンダリングの両方を提供するために並行して処理される。具体的には、第１の組の信号は、非拡散音成分を表すことができ、第２の組の信号は拡散音成分を表すことができる。具体的には、方式は、特定の音源に適した方式（例えば、パニング）により残留ダウンミックスの空間的に特定の音源をレンダリングする第１の組の信号もたらし、第２の組の信号が拡散音に適した拡散音レンダリングを提供することを可能にする。さらに、復号化器側で生成できる指向性依存の拡散性パラメータに応答するこのような処理により、両方の種類のオーディオ成分の適当な、及び、改善されたレンダリングが実施できる。さらに、方式において、特定のオーディオ源を、オーディオ・オブジェクト処理及び操作を使用してレンダリングすることができる。従って、この方式により、オーディオ・シーンにおける３種類の音声成分の効率的なレンダリングが可能となり、それにより、改善されたユーザ体験を提供することができる。

第２の変圧器による相関除去の適用によって、拡散音成分の改善された知覚がもたらされ、具体的には、空間的により一層定義された音声成分として再現される残留ダウンミックスの部分から区別することが可能になる（即ち、第２の組の信号からのレンダリングされた音声が、第１の組の信号からのレンダリングされた音声から知覚的に区別することが可能になる）。相関除去は、特に、残留ダウンミックスに想定された位置と、空間スピーカ構成の実際の位置との間にスピーカ位置の不整合があるとき、改善された拡散音の知覚を提供することができる。実際、並列経路における処理により、例えば、残留ダウンミックス内の点音源に対する空間特性を維持しながら、相関除去は、システム内で適用することができる拡散性の改善された知覚を提供する。拡散／非拡散レンダリングの相対的な重み付けは、残留ダウンミックスにおける拡散音と非拡散音との間の実際の関係に依存することができる。このことは、復号化器側で求めることができ、レンダリング側に拡散パラメータを介して伝達することができる。レンダリング側は、それに応じて、例えば、残留ダウンミックスにおける拡散音対非拡散音の比率によりその処理を適合させることができる。従って、システムは、改善されたレンダリングを提供することができ、具体的には、残留ダウンミックスに関連した空間レンダリングの仮定と、レンダリング側で使用される実際の空間スピーカ構成との間の差に対してよりずっと強固であり得る。これにより、特に、多くの異なるレンダリング・スピーカ・セットアップへの改善された適合を実施することができるシステムを提供することができる。

残留ダウンミックスを提供するための回路は、具体的に、残留ダウンミックスを受け取る又は生成することができ得る。例えば、残留ダウンミックスを、外部又は内部の音源から受け取ることができる。いくつかの実施例においては、残留ダウンミックスは、復号化器から生成し、受け取ることができる。他の実施形態においては、残留ダウンミックスは、オーディオ・レンダリング装置によって、例えば、受け取ったダウンミックス及びオーディオ・オブジェクトを特徴付けるデータから生成することができる。

残留ダウンミックスは、特定の空間構成に関連し得る。空間構成は、レンダリング・スピーカ（現実又は仮想のスピーカであり得る）の位置の基準、参照、又は仮定の空間構成など、レンダリング・スピーカ構成であり得る。いくつかのシナリオにおいて、残留ダウンミックスの空間構成は、残留ダウンミックスの音声成分をもたらすマイクロホン構成などの、音声（音場）捕捉構成に関連することができる。このような構成の一つの実施例は、残留ダウンミックスの表現として使用することができるＢ形式表現である。

空間スピーカ構成は、現実又は仮想の音響変換器の空間構成でよい。具体的には、出力の組の信号の各信号／チャンネルは、所与の空間位置に関連することができる。信号は、次に、聴取者にこの位置から届くようにみえるようにレンダリングされる。

オーディオ・オブジェクトを特徴付けるデータは、相対的な特徴付け（例えば、ダウンミックス（復号化器から受け取ることもできる）に相対的な）によりオーディオ・オブジェクトを特徴付けることができ、或いはオーディオ・オブジェクトの絶対的な及び／又は完全な特徴付け（完全な符号化オーディオ信号などの）であり得る。具体的には、オーディオ・オブジェクトを特徴付けるデータは、どのようにオーディオ・オブジェクトがダウンミックスから生成されるかを記述した空間パラメータでよく（ＳＡＯＣにおける場合など）、又はオーディオ・オブジェクトの独立した表現でよい（３ＤＡＡにおける場合など）。

オーディオ・オブジェクトは、表現されるオーディオ環境における単一音源に対応するオーディオ信号成分でよい。具体的には、オーディオ・オブジェクトは、オーディオ環境における１つの位置だけからのオーディオを含むことができる。オーディオ・オブジェクトは、関連する位置を有することができるが、任意の特定のレンダリング音源構成に関連しなくてよく、具体的には、任意の特定のスピーカ構成に関連しなくてよい。

本発明の任意選択の特徴により、拡散性パラメータは、残留ダウンミックスの異なるチャンネルに対して個々の拡散性の値を含む。

このことは、多くの実施形態において特定の有利なオーディオ・レンダリングを提供することができる。特に、マルチチャンネル・ダウンミックスの各チャンネルは、空間構成（例えば、現実の又は仮想のスピーカ・セットアップ）に関連することができ、指向性依存の拡散性パラメータは、このようなチャンネル／指向性の各々に対して個々の拡散性の値を提供することができる。具体的には、拡散性パラメータは、各ダウンミックス・チャンネルにおける非拡散性に対する拡散性の重み／比率を指示することができる。これにより、レンダリングを個々のダウンミックス・チャンネルの特定の特性に適合させることができ得る。

いくつかの実施例においては、拡散性パラメータは、周波数依存であってよい。これにより、多くの実施形態及びシナリオにおいて改善されたレンダリングが可能となる。

本発明の任意選択の特徴により、出力信号における第１の変換の寄与に対して第２の変換の寄与は、増加された拡散性（残留ダウンミックスの少なくとも１つのチャンネル）を指示する拡散性パラメータに対して増加する。

このことは、オーディオ・シーンの改善されたレンダリングを提供することができる。各ダウンミックス・チャンネルの無相関及び相関除去レンダリングの重み付けは、拡散性パラメータに基づき適合させることができ、それにより、レンダリングがオーディオ・シーンの特定の特性に適合することが可能になる。増加した拡散性は、残留ダウンミックスの特定チャンネルから生じる第１の組の信号の成分のエネルギーを増加させ、残留ダウンミックスの特定チャンネルから生じる第２の組の信号の成分のエネルギーを増加させる。

いくつかの実施例において、第１の変換の残留ダウンミックスのチャンネルに対する第１の重みは、増加した拡散性を指示する拡散性パラメータに対して減少し、第２の変換の残留ダウンミックスのチャンネルに対する第２の重みは、増加した拡散性を指示する拡散性パラメータに対して増加する。

本発明の任意選択の特徴により、第１の組の信号及び第２の組の信号の組合せエネルギーは、拡散性パラメータから実質的に独立している。

信号独立値は、残留ダウンミックスのどんな特性からも独立することができる。具体的には、信号独立値は、固定及び／又は規定の値であってよい。この方式は、特に、第１及び第２の組の信号におけるダウンミックス・チャンネルの相対エネルギー・レベルを維持することができる。効果的に、各ダウンミックス・チャンネルは、拡散性パラメータに依存するが他のダウンミックス・チャンネルに対してダウンミックス・チャンネルの全エネルギー・レベルを変化させない分布で、第１の変換及び第２の変換にわたって配分され得る。

本発明の任意選択の特徴により、第２の変圧器は、第１の信号に関連したスピーカ位置から第２の組の信号の異なる信号に関連した少なくとも１つの隣接するスピーカ位置までの距離に応じて、第２の組の信号の第１の信号のオーディオ・レベルを調整するように構成される。

このことは、改善されたレンダリングを提供することができ、具体的には、残留ダウンミックスの拡散音成分の改善されたレンダリングを可能にすることができる。この近接は、角度近接及び／又は最近接スピーカ若しくはいくつかのスピーカまでの距離であり得る。いくつかの実施例において、第１のチャンネルのオーディオ・レベルは、第１のチャンネルに対応するスピーカが最も近いスピーカである聴取位置からの角度間隔に応じて調整することができる。

いくつかの実施例において、空間スピーカ構成は、残留ダウンミックスにおけるいくつかのチャンネルに対応するいくつかのチャンネルを含むことができ、第２の変圧器は、残留ダウンミックスに関連した空間情報に応じて、残留ダウンミックスのチャンネルを空間レンダリング構成のスピーカ位置にマッピングするように構成することができる。

このことは、いくつかの実施例において改善されたレンダリングを提供することができる。具体的には、各ダウンミックス・チャンネルは、基準、参照、又は仮定の空間位置に関連することができ、このことは、これに最も一致するレンダリング構成のスピーカ位置に整合させることができる。

本発明の任意選択の特徴により、残留ダウンミックスは、空間スピーカ構成のいくつかのスピーカ位置より少ないチャンネルを含み、第２の変圧器は、複数の相関除去を残留ダウンミックスの少なくとも第１のチャンネルに適用することにより、第２の組の信号の複数の信号を生成するように構成される。

このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。

本発明の任意選択の特徴により、第２の変圧器は、複数の相関除去を残留ダウンミックスの第２のチャンネルに適用することにより、第２の組の信号のさらに複数の信号を生成するように構成され、第２のチャンネルは、少なくともいくつかの第１のチャンネルのうちの１つのチャンネルではない。

このことは、拡散音の特に有利なレンダリングを提供することができ、改善されたユーザ体験を提供することができる。具体的には、追加の拡散音信号を生成するために、複数のダウンミックス・チャンネルを使用することにより、及び多くの実施形態においてすべてのダウンミックス・チャンネルを使用することにより、特に有利な拡散音レンダリングを提供することができる。具体的には、それにより、チャンネル間の相関除去を増大させることができ、従って、拡散性の知覚を上げることができる。

いくつかの実施例において、同じ相関除去を、第１及び第２のチャンネルに適用することができ、それにより、複雑性を低減でき、相関除去され、従って拡散音として知覚される音声信号をそれでも生成することができる。このことは、まだ、相関除去器への入力信号が相関除去される条件で、相関除去された信号を提供することができる。

本発明の任意選択の特徴により、第２の組の信号は、空間スピーカ構成におけるスピーカ位置の数より少ない信号を含む。

いくつかの実施例において、拡散信号は、空間スピーカ構成の１サブセットのスピーカからのみレンダリングすることができる。このことは、多くのシナリオにおいて、拡散音の改善された知覚をもたらすことができる。

いくつかの実施例において、残留ダウンミックスは、空間スピーカ構成のスピーカ位置の数より多いチャンネルを含み、第２の変圧器は、第２の組の信号を生成するとき、残留ダウンミックスの少なくとも１つのチャンネルを無視するように構成される。

本発明の任意選択の特徴により、残留ダウンミックスは、空間スピーカ構成のスピーカ位置の数より多いチャンネルを含み、第２の変圧器は、第２の組の信号を生成するとき、残留ダウンミックスの少なくとも２つのチャンネルを組み合わせるように構成される。

本発明の任意選択の特徴により、第２の変圧器は、第２の組の信号からオーディオの横方向のレンダリングに対応する第２の組の信号を生成するように構成される。

本発明の任意選択の特徴により、受信機は、オーディオ・オブジェクトを含む受け取られたダウンミックスを受け取るように構成され、残留ダウンミックスを提供するための回路は、データ・オブジェクトを特徴付けるデータに応じて少なくとも１つのオーディオ・オブジェクトを生成するように、及び受け取られたダウンミックスから少なくとも１つのオーディオ・オブジェクトを抽出することにより残留ダウンミックスを生成するように構成される。

このことは、多くの実施形態において特に有利な方式を提供することができる。

本発明の任意選択の特徴により、空間スピーカ構成は、残留ダウンミックスの空間音声表現とは異なる。

本発明は、特定の（残留）ダウンミックスを異なるスピーカ構成に適合させるのに特に適切であり得る。この方式は、異なるスピーカ・セットアップへの改善された及び柔軟な適合を可能にするシステムを提供することができる。

本発明の第１の態様によれば、第１のダウンミックスと少なくとも１つのオーディオ・オブジェクトを特徴付けるデータとによってオーディオ・シーンを表す符号化データを生成するための回路と、残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するための回路であって、残留ダウンミックスが、少なくとも１つのオーディオ・オブジェクトが抽出される、オーディオ・シーンのオーディオ成分のダウンミックスに対応する、回路と、第１のダウンミックス、少なくとも１つのオーディオ・オブジェクトを特徴付けるデータ、及び指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するための出力回路とを備える空間オーディオ符号化装置が提供される。

第１のダウンミックスは、残留ダウンミックスでよい。いくつかの実施例において、第１のダウンミックスは、オーディオ・シーンのオーディオ成分を含むダウンミックでよく、具体的には、少なくとも１つのオーディオ・オブジェクトを含むダウンミックスでよい、

本発明の一態様によれば、空間オーディオ出力信号を生成する方法が提供され、方法は、残留ダウンミックスと少なくとも１つのオーディオ・オブジェクトを特徴付けるデータとを提供するステップであって、残留ダウンミックスが、少なくとも１つのオーディオ・オブジェクトが抽出されるオーディオ・シーンのオーディオ成分のダウンミックスに対応する、ステップと、残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るステップと、第１の変換を残留ダウンミックスに加えることにより空間スピーカ構成の第１の組の信号を生成するステップであって、第１の変換が拡散性パラメータに依存するステップと、第２の変換を残留ダウンミックスに加えることにより空間スピーカ構成の第２の組の信号を生成するステップであって、第２の変換が拡散性パラメータに依存し、残留ダウンミックスの少なくとも１つのチャンネルの相関除去を含むステップと、少なくとも１つのオーディオ・オブジェクトを特徴付けるデータから空間スピーカ構成の第３の組の信号を生成するステップと、第１、第２及び第３の組の信号を組み合わせることにより空間スピーカ構成の出力の組の信号を生成するステップと、を含み、拡散性パラメータが指向性依存である。

本発明の一態様によれば、第１のダウンミックスと少なくとも１つのオーディオ・オブジェクトを特徴付けるデータとによりオーディオ・シーンを表す符号化データを生成するステップと、残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するステップであって、残留ダウンミックスが、少なくとも１つのオーディオ・オブジェクトが抽出されるオーディオ・シーンのオーディオ成分のダウンミックスに対応するステップと、第１のダウンミックス、少なくとも１つのオーディオ・オブジェクトを特徴付けるデータ、及び指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するステップと、を含む空間オーディオ符号化の方法が提供される。

本発明のこのような、及び、他の態様、特徴及び利点は、本明細書において以下に説明する実施形態（複数可）から明らかであり、実施形態（複数可）を参照することにより明らかである。

本発明の諸実施形態を図面を参照して、例示としてのみ説明する。

先行技術による、ＭＰＥＧサラウンド・システムのいくつかの要素の一つの実施例を示す図である。ＭＰＥＧＳＡＯＣで可能なオーディオ・オブジェクトの操作を例示する図である。ＳＡＯＣビットストリームに含まれる個々のオブジェクトをユーザが制御することが可能になる対話型インターフェースを示す図である。先行技術による、３ＤＡＡのオーディオ符号化の原理の一つの実施例を示す図である。本発明のいくつかの実施例による、オーディオ・レンダリング・システムの一つの実施例を示す図である。本発明のいくつかの実施例による、空間オーディオ符号化デバイスの一つの実施例を示す図である。本発明のいくつかの実施例による、空間オーディオ・レンダリング・デバイスの一つの実施例を示す図である。空間スピーカ構成の一つの実施例を示す図である。

図５は、本発明のいくつかの実施例による、オーディオ・レンダリング・システムの一つの実施例を示す。システムは、符号化されるオーディオ情報を受け取る空間オーディオ符号化デバイス５０１を備える。符号化されたオーディオ・データは、適切な通信媒体５０５を介して空間オーディオ・レンダリング・デバイス５０３に伝送される。空間オーディオ・レンダリング・デバイス５０３は、さらに所与の空間スピーカ構成に関連する１組のスピーカに結合される。

空間オーディオ符号化デバイス５０１に提供されるオーディオ・データは、異なる形式で提供され、異なる方法で生成され得る。例えば、オーディオ・データは、マイクロホンからオーディオ捕捉することができ、及び／又は、例えばコンピュータ・ゲーム用途向けなど合成的に生成されたオーディオでもよい。オーディオ・データは、例えば、特定の合成的に生成されたオーディオ・オブジェクトなど個々のオーディオ・オブジェクトとして符号化され得るいくつかの構成要素、又は例えば単一の楽器など、特定のオーディオ源を捕捉するように構成されたマイクロホンを含むことができる。

各オーディオ・オブジェクトは、典型的には、単一の音源に対応する。従って、オーディオ・チャンネルとは対照的に、特に従来の空間マルチチャンネル信号の特定のオーディオ・チャンネルとは対照的に、オーディオ・オブジェクトは、実質的に異なる位置を有することができる複数の音源からの構成要素を含まない。同様に、各オーディオ・オブジェクトは、音源の全面的表現を提供する。各オーディオ・オブジェクトは、従って、典型的には単一の音源のみに対して空間位置データに関連する。具体的には、各オーディオ・オブジェクトは、音源の単一の及び完全な表現とみなすことができ、単一の空間位置に関連することができる。

さらに、オーディオ・オブジェクトは、どの特定のレンダリング構成とも関連せず、具体的には、音響変換器のどの特定の空間構成とも関連しない。従って、具体的にはサラウンド音響セットアップなど、典型的には特定の空間スピーカ・セットアップに関連する従来の空間音声チャンネルとは対照的に、オーディオ・オブジェクトは、どんな特定の空間レンダリング構成に対しても定義されない。

空間オーディオ符号化デバイス５０１は、ダウンミックスと１つ又は複数のオーディオ・オブジェクトを特徴付けるデータとを含む符号化信号を生成するように構成される。ダウンミックスは、いくつかの実施例において、オーディオ・シーンの表現に対応するが、オーディオ・オブジェクト・データによって表されるオーディオ・オブジェクトなしの残留ダウンミックスでよい。しかし、しばしば、伝送されたダウンミックスは、ダウンミックスの直接レンダリングがサウンド・シーンのすべてのオーディオ源のレンダリングをもたらすように、オーディオ・オブジェクトを含む。このことは、後方互換性を提供することができる。

符号化オーディオ・ストリームは、直接通信又はブロードキャスト・リンクを含むどんな適切な通信媒体を通しても伝達することができる。例えば、通信は、インターネット、データ網、無線ブロードキャストなどを介してもよい。通信媒体は、代替的または追加的に、ＣＤ、Ｂｌｕｅ−Ｒａｙ（登録商標）ディスク、メモリ・カードなどの物理的記憶媒体を介してもよい。

空間オーディオ・レンダリング・デバイス５０３の出力は、空間スピーカ構成に整合するように構成される。空間スピーカ構成は、基準、参照、又は仮定の空間スピーカ構成でよい。従って、オーディオ信号のレンダリングに使用される実際のスピーカ位置は、典型的にはユーザが空間スピーカ構成と実際のスピーカ位置との間の相関を実現可能な限り近くなるように努力するが、空間スピーカ構成から変わることがある。

また、いくつかの実施例においても、空間スピーカ構成は、仮想スピーカを表すことができる。例えば、両耳空間レンダリング・システム（例えば頭部伝達関数に基づく）の場合、オーディオ出力のレンダリングは、例えばサラウンド音響セットアップをエミュレートするヘッドホンを介してもよい。或いは、仮想スピーカの数は、オーディオ・オブジェクトをレンダリングするためにより高い空間分解能を提供する典型的なスピーカ・セットアップよりずっと多くすることができる。

図５のシステムは、従って、オーディオ・オブジェクトをサポートし、具体的にはＳＡＯＣ及び３ＤＡＡからの周知の方式を使用することができる、符号化方式を使用する。

図５のシステムは、従って、オーディオ・オブジェクトを特徴付ける特定のデータによって表される特定のオーディオ・オブジェクトとして一部の音声成分を符号化することによりオーディオ・シーンにおける異なる種類の音声成分の間の第１の区別を提供するのを見ることができ、他の音声成分は、ダウンミックス内で符号化されるだけであり、即ち、このような他の音声成分のために、複数の音源は、典型的にはダウンミックスのチャンネル（複数可）内で共に符号化される。典型的には、この方式は、組合せダウンミックスとしてより多くの拡散音成分を符号化する一方で、特定の位置にパニングすることができるオーディオ・オブジェクトとして特定の点状音源を符号化するのに適している。しかし、本発明の発明者らは、拡散及び非拡散への（具体的にはオーディオ・オブジェクト及び拡散音への）単純な区別は最適以下であると理解している。実際、サウンド・シーンは、典型的には４つの異なる種類の音声成分を含むことができることが理解されている。
１．個々のオーディオ・オブジェクト（以下にＯで参照されることがある）として伝送されている空間的に特定の（点状）音源、
２．個々のオーディオ・オブジェクト（以下にＯ_１で参照されることがある）として伝送されていない空間的に特定の（点）音源、
３．例えば小さな合唱団用など（以下にＯ_２で参照されることがある）、特定の空間発生領域を有する拡散音源、及び
４．無指向性拡散音場、例えば、周囲雑音又は残響（以下にＯ_３で参照されることがある）。

従来のシステムは、拡散音成分と非拡散音成分とを区別することを単に求めるだけである。例えば、３ＤＡＡは、オーディオ成分が抽出されている残留ダウンミックスの区別されていないレンダリングにより後者の３つのカテゴリーの音声成分のすべてをレンダリングする。しかし、残留ダウンミックスは、一部の空間特性をもつオーディオ源（例えば、点音源、合唱団や拡散信号など一部の指向性をもつ拡散音源）並びに、実質的に空間特性をもたないオーディオ源（雰囲気や残響など）に関係する信号成分を未だに含むので、組み合わせたレンダリングは、最適以下のレンダリングを生じてしまう。

図５のシステムにおいて、情報は、後者のカテゴリーの区別されたレンダリングも可能にする復号化器から提供される。具体的には、拡散性パラメータは、残留ダウンミックスの拡散性の程度を表す復号化器において生成される。これにより、復号化器／レンダラ（ｒｅｎｄｅｒｅｒ）は、残留ダウンミックスを点状音源に適当であるとしてレンダリングすることができる部分と、拡散音に適当であるとしてレンダリングすることができる部分とに分割することが可能になる。拡散性パラメータは、具体的には、それぞれ点音源として及び拡散音としてレンダリングすべき各ダウンミックス・チャンネルの比率がどのくらい大きいかを指示することができる。拡散性パラメータは、２つの種類のオーディオ成分をうまく分けることを可能にするパラメータであり得る。例えば、拡散性パラメータは、復号化器において異なるオーディオ成分をどのようにレンダリングすることができるかを特徴付けるフィルタ・パラメータを含むことができる。

さらに、拡散性パラメータは、指向性依存であり、それにより、空間特性を拡散音に再現することが可能になる。例えば、拡散性パラメータは、ダウンミックスの各チャンネルが異なる空間レンダリング位置に関連したダウンミックスの異なるチャンネルに点音源と拡散音との異なる部分を指示することができる。このことは、各ダウンミックス・チャンネルの異なる比率をそれぞれ非拡散音と拡散音とにレンダリングする空間オーディオ・レンダリング・デバイス５０３によって使用され得る。具体的には、第２の種類（Ｏ２）の音源の拡散性及び指向性の量により、これらは、点音源（Ｏ１）又は拡散音（Ｏ３）のいずれかとして部分的にレンダリングすることができる。

指向性依存の拡散性パラメータは、改善された適合を様々なレンダリング・スピーカ構成に提供することもできる。この方式は、再生セットアップから独立した拡散音場の特徴付けを使用する。空間オーディオ符号化デバイス５０１から伝送されたデータ・ストリームは、空間オーディオ符号化デバイス５０１によって、所与のスピーカ・セットアップ用のスピーカ信号に変換され得る。

図５のシステムにおいて、空間オーディオ符号化デバイス５０１に提供されるオーディオ・データは、ダウンミックス・マトリックス（Ｄ）を使用してダウンミックス（古く従来のものであるサラウンド音響レンダリング機器によって容易にレンダリングすることができる５．１チャンネル・ダウンミックスなど）を作り出すのに使用される。いくつかのオーディオ・オブジェクト（Ｏ）は、互換性のあるダウンミックスと共に伝送される。オブジェクト選択プロセスの一部として、拡散性パラメータΨ_ｃ，ｆが、例において、各ダウンミックス・チャンネル（指数ｃ）及び（任意選択で）周波数帯（指数ｆ）に提供される特定の値により決定される。

空間オーディオ・レンダリング・デバイス５０３において、オーディオ・オブジェクト（Ｏ）が抽出された受け取られたダウンミックスに対応する残留ダウンミックス（従って、Ｏ_１＋Ｏ_２＋Ｏ_３を含む残留ダウンミックス）は、ダウンミックス・マトリックスＤを使用して決定される。残留ダウンミックスは、次に、拡散性パラメータΨ_ｃ，ｆに基づいてレンダリングされる。

例えば、拡散信号成分は、拡散性パラメータΨ_ｃ，ｆを使用して点音源成分から分離することができる。その結果得られた点音源成分は、次いで、現在のレンダリング構成のスピーカ位置までパニングすることができる。拡散信号成分は、まず、相関除去され、次いで、例えば、対応するダウンミックス信号の意図されたスピーカ位置の位置に最も近いスピーカ位置からレンダリングされる。拡散成分と直接成分との間の空間不一致により、相関除去は改善されたオーディオ品質を提供することができる。拡散しているが、空間特性を有する音声成分の分布は、拡散音成分として及び分離が拡散性パラメータΨ_ｃ，ｆに基づく空間的に特定の音声成分として一部がレンダリングされる。従って、空間オーディオ符号化デバイス５０１によって生成された拡散性パラメータΨ_ｃ，ｆは、空間オーディオ・レンダリング・デバイス５０３を、これがオリジナルのオーディオ・シーンにより近く対応するように、残留ダウンミックスの区別されたレンダリングを実施することを可能にする残留ダウンミックスの特性に基づく情報を提供する。或いは、拡散信号は、パニングを使用し、その後に相関除去により、スピーカ構成の意図された位置にレンダリングすることができる。相関除去は、パニングにより導入された相関を除去する。この方式は、空間特性をもつ拡散成分において特に有益である。

図６は、空間オーディオ符号化デバイス５０１の一部の要素をより詳細に示す。空間オーディオ符号化デバイス５０１は、オーディオ・シーンを記述するオーディオ・データを受け取る符号化器６０１を備える。実施例において、オーディオ・シーンは、全４種類の音声Ｏ、Ｏ_１、Ｏ_２、Ｏ_３の音声成分を含む。オーディオ・シーンを表すオーディオ・データは、個々のサウンドの種類の各々を特徴付ける離散及び個々のデータとして提供することができる。例えば、合成オーディオ・シーンを生成することができ、各オーディオ源に対するデータを個々の及び別個の組のオーディオ・データとして提供することができる。別の一つの実施例として、オーディオ・データは、例えば、オーディオ環境において音声を捕捉する複数のマイクロホンによって生成されるオーディオ信号で表すことができる。いくつかのシナリオにおいては、別個のマイクロホン信号をオーディオ源毎に提供することができる。代替的または追加的に、個々の音源の一部又はすべてを組み合わせて、マイクロホン信号の１つ又は複数にすることができる。いくつかの実施例において、個々の音声成分は、例えば、オーディオ・ビームフォーミングなどにより、組み合わせたマイクロホン信号から引き出すことができる。

符号化器６０１は、受け取ったオーディオ・データからオーディオ・シーンを表す符号化オーディオ・データを生成することに進む。符号化器６０１は、ダウンミックス及びいくつかの個々のオーディオ・オブジェクトによってオーディオを表す。

例えば、符号化器６０１は、入力オーディオ・データによって表されるオーディオ成分をミキシングして適切なダウンミックスにするミキシング動作を実施することができる。ダウンミックスは、例えば、モノ・ダウンミックス、Ｂ形式表現・ダウンミックス、ステレオ・ダウンミックス、又は５．１ダウンミックスでもよい。このダウンミックスは、古く従来のものである（非オーディオ・オブジェクト対応）機器によって使用することができる。例えば、５．１空間音響レンダリング・システムは、５．１互換ダウンミックスを直接使用することができる。ダウンミキシングは、任意の適切な方式により実施される。具体的に、ダウンミックスは、空間オーディオ・レンダリング・デバイス５０３に伝達することもできるダウンミックス・マトリックスＤを使用して実施することができる。

ダウンミックスは、ミキシング技術者によって作り出すこともできる。

符号化器は、さらに、いくつかのオーディオ・オブジェクト（Ｏ）を特徴付けるオーディオ・データを生成する。このようなオーディオ・オブジェクトは、典型的には、コンサートの捕捉において最も支配的な楽器など、オーディオ・シーンの音源のように最重要点である。このプロセスは、最大許容ビット・レートによって制御することもできる。その意味において、ビット・レート・スケーラブルの解決策が実現される。それらを個々のオーディオ・オブジェクトとして表すことにより、それらは、例えば、エンドユーザが各オーディオ・オブジェクトのオーディオ・レベルを個々にフィルタリングし、位置決めし、及び設定することを可能にするなど、レンダリング側において個々に処理することができる。オーディオ・オブジェクト（Ｏ）は、別々のデータとして、即ち、オーディオ・オブジェクトを完全に特徴付けるオーディオ・オブジェクト・データにより（３ＤＡＡを使用して可能なように）符号化することができ、又は、例えば、ダウンミックスからオーディオ・オブジェクトをどのように生成するかを記述したパラメータを提供することにより（ＳＡＯＣでなされるように）、ダウンミックスに対して符号化することができる。

符号化器は、典型的には、意図されたオーディオ・シーンの記述も生成する。例えば、各オーディオ・オブジェクトの空間位置は、空間レンダリング・デバイス（５０３）が改善されたオーディオ品質を提供することを可能にする。

実施例において、生成されたダウンミックスは、従って、すべての音声成分Ｏ、Ｏ_１、Ｏ_２、Ｏ_３を含むオーディオ・シーン全体を表す。これにより、ダウンミックスは、いかなる複雑な又は一層の処理もする必要がなく、直接レンダリングされることが可能になる。しかし、オーディオ・オブジェクトが抽出され、個々にレンダリングされるシナリオにおいて、レンダラは、ダウンミックス全体をレンダリングすべきでないが、オーディオ・オブジェクトが抽出された後の残りの成分（即ち、Ｏ_１、Ｏ_２、Ｏ_３）だけをレンダリングすべきである。オーディオ・オブジェクトが抽出された音声段のダウンミックスは、残留ダウンミックスと呼ばれ、オーディオ・オブジェクトが除去されるに伴い個々に符号化される音声成分をもつオーディオ・シーンを表す。

多くの実施形態において、符号化器６０１は、すべてのオーディオ成分（Ｏ、Ｏ_１、Ｏ_２、Ｏ_３）を含むダウンミックス、即ち、別々に符号化されたオーディオ・オブジェクト（Ｏ）も含むダウンミックスを生成することができる。このダウンミックスは、オーディオ・オブジェクトを特徴付けるデータと共に伝達することができる。他の実施形態において、符号化器６０１は、別々に符号化されたオーディオ・オブジェクト（Ｏ）を含まないが、別々でなく符号化されたオーディオ・オブジェクトだけを含むダウンミックスを生成することができる。従って、いくつかの実施例において、符号化器６０１は、例えば、関連する音声成分（Ｏ_１、Ｏ_２、Ｏ_３）だけをミキシングし、個々のオーディオ・オブジェクトとして符号化される音声成分を無視することにより、残留ダウンミックスだけを生成することができる。

符号化器６０１は、さらに、ダウンミックスが供給される拡散性プロセッサ６０３に結合される。拡散性プロセッサ６０３は、残留ダウンミックスの拡散性の程度／レベルを示す指向性依存の拡散性パラメータを生成するように構成される。

いくつかの実施例において、拡散性パラメータは、（非残留）ダウンミックスの拡散性の程度／レベルを示すことができる。具体的には、それは符号化器５０１から伝送される全部のダウンミックスの拡散性の程度を示すことができる。このような場合、復号化器５０３は、受け取った拡散性パラメータから残留ダウンミックスにおける拡散性の程度を示す拡散性パラメータを生成することができる。実際、いくつかの実施例において、同じパラメータ値を直接使用することができる。他の実施形態において、パラメータ値は、例えば、抽出されたオーディオ・オブジェクトなどのエネルギーを補償することができる。従って、全部の（非残留）ダウンミックスを記述する拡散性パラメータは、本質的に、残留ダウンミックスも記述し、示す。

いくつかの実施例において、拡散性プロセッサ６０３は、オーディオ・オブジェクトＯを含むダウンミックスを受け取り、そのダウンミックスからオブジェクトＯを抽出することにより残留ダウンミックスを生成することができる。符号化器６０１が残留ダウンミックスを直接生成する諸実施形態において、拡散性プロセッサ６０３は、残留ダウンミックスを直接受け取ることができる。

拡散性プロセッサ６０３は、あらゆる適切な方法において、指向性依存の拡散性パラメータを生成することができる。例えば、拡散性プロセッサ６０３は、残留ダウンミックスの各チャンネルを評価して、そのチャンネルの拡散性パラメータを決定することができる。このことは、例えば、残留ダウンミックスのチャンネルにおける、代替的または追加的に、時間における共通のエネルギー・レベル評価することによって行うことができる。その後、拡散成分は、典型的に指向性依存の特性を有する。或いは、残留ダウンミックス・チャンネルに対する成分Ｏ_２及びＯ_３の相対的寄与を評価して、拡散性パラメータを引き出すことができる。

いくつかの実施例において、拡散性プロセッサ６０３は、入力オーディオ・データ及びダウンミックス・マトリックス（Ｄ）を直接受け取ることができ、それらから拡散性パラメータを生成することができる。例えば、入力データは、個々の音声成分が拡散なのか又は点状なのかを特徴付けることができ、拡散性プロセッサ６０３は、ダウンミックスのチャンネル毎に、点状音源から発生した比率に対して拡散音源から発生したチャンネルのエネルギーの比率を指示する拡散性値を生成することができる。

拡散性プロセッサ６０３は、従って、ダウンミックスのチャンネル毎に拡散音に対応するチャンネルの信号の比率がどのくらい大きいか、及び非拡散音にどのくらい対応するかを指示する、指向性依存の拡散性パラメータを生成する。

拡散性パラメータは、さらに、周波数依存であってよく、具体的には、拡散性パラメータの値の決定は、個々の周波数帯で実施することができる。典型的には、周波数帯は、知覚関係分布を確実にするために全周波数範囲にわたって対数的に分割することができる。

符号化器６０１及び拡散性プロセッサ６０３は、符号化器６０１によって生成されたダウンミックス（即ち、残留ダウンミックス又は全オーディオ・シーン・ダウンミックスのいずれか）と、特徴付けるデータと、オーディオ・オブジェクトと、指向性依存の拡散性パラメータとを含む符号化データ・ストリームを生成する出力回路６０５に結合される。

図７は、空間オーディオ・レンダリング・デバイス５０３の諸要素の一つの実施例を示す。空間オーディオ・レンダリング・デバイス５０３は、空間オーディオ符号化デバイス５０１から符号化オーディオ・ストリームを受け取る受信機を備える。従って、空間オーディオ・レンダリング・デバイス５０３は、オーディオ・オブジェクトによって表される音声成分Ｏ並びにダウンミックスによって表される音声成分Ｏ_１、Ｏ_２、Ｏ_３及び場合によりＯの形でオーディオ・シーンの表現を含む符号化オーディオ・ストリームを受け取る。

受信機７０１は、オーディオ・オブジェクト・データを抽出し、それらをオーディオ・オブジェクトＯを再生するように構成されたオーディオ・オブジェクト復号化器７０３に供給するように構成される。オーディオ・オブジェクトを再生するための従来の方式を使用することができ、ユーザ固有の空間的位置決め、フィルタリング、又はミキシングなど、ローカル・レンダリング側の操作を加えることができることが明らかであろう。オーディオ・オブジェクトは、空間オーディオ・レンダリング・デバイス５０３によって使用される所与のスピーカ・セットアップに整合するように再生される。オーディオ・オブジェクト復号化器７０３は、従って、符号化オーディオ・シーンを再現するために空間オーディオ・レンダリング・デバイス５０３によって使用される特定の空間スピーカ構成に整合する１組の信号を生成する

図７の例において、符号化オーディオ・ストリームは、オーディオ・シーンの全部のダウンミックスを含む。従って、オーディオ・オブジェクトが、図７の例におけるように、明確にレンダリングされるとき、ダウンミックスのレンダリングは、オーディオ・オブジェクトを含むべきでないが、その代わりに、オーディオ・オブジェクトを含まない残留ダウンミックスに基づくべきである。従って、図７の空間オーディオ・レンダリング・デバイス５０３は、受信機７０１及びオーディオ・オブジェクト復号化器７０３に結合された残留プロセッサ７０５を備える。残留プロセッサ７０５は、全部のダウンミックス及びオーディオ・オブジェクト情報を受け取り、次いで、残留ダウンミックスを生成するためにダウンミックスからオーディオ・オブジェクトを抽出することに進む。抽出プロセスは、符号化器６０１においてダウンミックスにどのようにそれらを含めたのかを補足するオーディオ・オブジェクトを抽出しなければならない。このことは、符号化器側でダウンミックスを生成するのに使用されたオーディオ・オブジェクトに同じミックス・マトリックス動作を加えることによって実施することができ、従って、このマトリックス（Ｄ）は、符号化オーディオ・ストリームで伝達され得る。

図７の例において、残留プロセッサ７０５は、従って、残留ダウンミックスを生成するが、残留ダウンミックスが符号化オーディオ・ストリームに符号化されている実施形態において、これを直接使用できることが理解されよう。

残留ダウンミックスは、拡散音プロセッサ７０７及び非拡散音プロセッサ７０９に供給される。拡散音プロセッサ７０７は、拡散音に適切であるレンダリング方式／技法を使用してダウンミックス信号（の少なくとも一部）をレンダリングすることに進み、非拡散音プロセッサ７０９は、非拡散音に適切であり、具体的には、点状音源に適切であるレンダリング方式／技法を使用してダウンミックス信号（の少なくとも一部）をレンダリングすることに進む。従って、２つの異なるレンダリング・プロセスは、ダウンミックスに並行して適用され、区別されたレンダリングを提供する。さらに、拡散音プロセッサ７０７及び非拡散音プロセッサ７０９は、拡散性パラメータが供給され、拡散性パラメータに応じてそれらの処理を適合させる。

低複雑度の例として、それぞれ拡散音プロセッサ７０７及び非拡散音プロセッサ７０９の利得を、拡散性パラメータに応じて変えることができる。具体的には、拡散音プロセッサ７０７の利得を、拡散性パラメータの増加した値に対して増加させることができ、非拡散音プロセッサ７０９の利得を、拡散性パラメータの増加した値に対して減少させることができる。従って、拡散性パラメータの値は、拡散レンダリングを非拡散レンダリングに対してどのくらい重み付けするかを制御する。

拡散音プロセッサ７０７及び非拡散音プロセッサ７０９は、両方とも、特定のシナリオで使用される空間スピーカ構成によってレンダリングに適切な１組の信号に残留ダウンミックスを変換する残留ダウンミックスに対して変換を加える。

その結果、オーディオ・オブジェクト復号化器７０３、拡散音プロセッサ７０７、及び、非拡散音プロセッサ７０９から得られる信号は、出力ドライバ７０９に供給され、それらを組み合わせて１組の出力信号にする。具体的には、オーディオ・オブジェクト復号化器７０３、拡散音プロセッサ７０７、及び、非拡散音プロセッサ７０９の各々は、空間スピーカ構成の各スピーカの信号を生成することができ、出力ドライバ７０９は、各スピーカの信号を組み合わせてそのスピーカの単一の駆動信号にすることができる。具体的には、信号は単純に合計することができるが、いくつかの実施例おいて、組合せは、例えば、ユーザ調整可能とすることができる（例えば、ユーザが非拡散音に対する拡散音の知覚された比率を変更することを可能とする）。

拡散音プロセッサ７０７は、拡散信号の組の生成において相関除去プロセスを含む。例えば、ダウンミックスのチャンネル毎に、拡散音プロセッサ７０７は、非拡散音プロセッサ７０９によって提供される信号に対して相関除去されるオーディオの生成をもたらす相関除去器を適用することができる。これにより、拡散音プロセッサ７０７によって生成された音声成分は、実際に、特定の位置から発生する音としてよりも拡散音として知覚されることが確実になる。

図７の空間オーディオ・レンダリング・デバイス５０３は、従って、レンダリングされた音声の知覚された拡散性に対して各経路が異なる特性を提供する、３つの並列経路によって生成された音声成分の組合せとして出力信号を生成する。各経路の重み付けは、レンダリングされたオーディオ段に対して所望の拡散性特性を提供するように変えることができる。さらに、この重み付けは、符号化器によって提供されたオーディオ・シーンにおける拡散性の情報に基づいて調整することができる。さらに、指向性依存の拡散性パラメータの使用により、拡散音はいくつかの空間特性でレンダリングすることが可能になる。さらに、システムは、空間オーディオ・レンダリング・デバイス５０３が受け取られた符号化オーディオ信号を多くの異なる空間スピーカ構成でレンダリングするように適用することを可能にする。

図７の空間オーディオ・レンダリング・デバイス５０３において、拡散音プロセッサ７０７及び非拡散音プロセッサ７０９からの信号の相対的寄与は、拡散性パラメータの増加する値（即ち、増加する拡散性を示す）が非拡散音プロセッサ７０９の寄与に対して出力信号における拡散音プロセッサ７０７の寄与を増加させるように、重み付けされる。従って、符号化器によって指示された増加する拡散性は、ダウンミックスから生成された非拡散音に比率較してダウンミックスから生成された拡散音のより高い比率を含む出力信号をもたらす。

具体的には、残留ダウンミックスの所与のチャンネルに対して、非拡散音プロセッサ７０９の第１の重み又は利得は、増加する拡散性パラメータの値に対して減少させることができる。同時に、拡散音プロセッサ７０７の第２の重み又は利得は、増加する拡散性パラメータの値に対して増加させることができる。

さらに、いくつかの実施例において、第１の重み及び第２の重みは、２つの重みの組合せが実質的に信号依存の値を有するように決定することができる。具体的には、第１の重み及び第２の重みは、拡散音プロセッサ７０７及び非拡散音プロセッサ７０９によって生成された信号の組合せエネルギーが実質的に拡散性パラメータの値から独立するように決定することができる。これにより、ダウンミックスから生成された出力信号の成分のエネルギー・レベルが、ダウンミックスに対応することが可能となる。従って、拡散性パラメータの値の変動は、音量の変化として知覚されないが、音声の拡散性特性の変化としてのみ知覚される。

この点において、２つの重みは、７０７及び７０９からの２つの経路間の相互相関における適合に応じて異なって生成することが必要であり得る。例えば、拡散成分（Ｏ_２＋Ｏ_３）が相関除去器によって処理される場合、エネルギーは、非拡散成分（Ｏ_１）と組み合わせたとき、減少させることができる。このことは、例えば、非拡散成分のより高い利得を使用することにより補償することができる。或いは、出力段（７１１）における重みは、それに応じて決定することができる。

特定の一つの実施例として、拡散音プロセッサ７０７及び非拡散音プロセッサ７０９の処理は、残留ダウンミックスの各チャンネルの単一の利得設定を除けば、拡散性パラメータから独立することができる。

例えば、残留ダウンミックス・チャンネル信号は、拡散音プロセッサ７０７及び非拡散音プロセッサ７０９に供給することができる。拡散音プロセッサ７０７は、信号を

（外１）

倍することができ、次いで拡散音パラメータに依存しない処理（相関除去を含む）を加えることを継続することができる。非拡散音プロセッサ７０９は、対照的に、信号を

（外２）

倍し、次いで、拡散音パラメータに依存しない処理（相関除去がない）を加えることを継続する。

或いは、拡散性パラメータに依存する係数による拡散信号の乗算は、拡散音プロセッサ７０７による処理の後又は拡散音プロセッサ７０７における最後の若しくは中間のステップとして、適用することができる。同様の方式を非拡散音プロセッサ７０９に適用することができる。

システムにおいて、拡散性パラメータは、ダウンミックス・チャンネル毎に別個の値を設け（複数のチャンネルの場合）、従って、乗算係数（利得）は、異なるチャンネルに対して異なり、それにより、拡散音と非拡散音との間の空間的に区別された分離が可能になるであろう。このことは、改善されたユーザ体験を提供することができ、具体的には、合唱団など、一部の空間特性をもつ拡散音へのレンダリングを改善することができる。

いくつかの実施例において、拡散性パラメータは、周波数依存であってよい。例えば、別個の値を１組の周波数の間隔（例えばＥＲＢ又はＢＡＲＫ帯）毎に設けることができる。残留ダウンミックスは、周波数帯に変換することができ（又はすでに周波数帯表現であってよく）、拡散性パラメータ依存のスケーリングがその周波数帯で実施される。実際、残りの処理も、周波数領域で実施することもでき、時間領域への変換は、例えば、３つの並列経路の信号が組み合わされた後でしか実施することができない。

拡散音プロセッサ７０７及び非拡散音プロセッサ７０９によって加えられる特定の処理は、特定の諸実施形態の特定の好み及び要件に依存することができることが理解されよう。

非拡散音プロセッサ７０９の処理は、典型的には、処理信号（例えば拡散性パラメータ依存の重み付けの後の残留ダウンミックス）が点状音声成分を含むとの仮定に基づく。従って、それは、残留ダウンミックスのチャンネルに関連した所与の空間位置から空間スピーカ構成の特定の位置におけるスピーカへの信号に変換するパニング技法を使用することができる。

一つの実施例として、非拡散音プロセッサ７０９は、空間スピーカ構成に対する点状音声成分の位置決めを改善するためにダウンミックス・チャンネルにパニングを適用することができる。拡散成分と対照的に、パニングされた点音源の寄与は、２つ以上のスピーカの間のファントム音源を得るために相関されねばならない。

対照的に、拡散音プロセッサ７０７の動作は、典型的には、ダウンミックス・チャンネルのチャンネルの空間特性を維持することを求めず、空間特性が除去されるようにチャンネル間に音声を配分しようとする。さらに、相関除去により、音声は、非拡散音プロセッサ７０９から生じる音声とは区別されるように、またレンダリング・スピーカの空間位置と想定された空間位置との間の相違の影響が軽減するように、知覚されることが確実になる。拡散音プロセッサ７０７が異なる空間スピーカ構成に対してレンダリング信号をどのように生成できるかを示すいくつかの例を説明する。

説明されたシステムの方式は、符号化オーディオ・ストリームを異なる空間レンダリング構成に適合させるのに特に適している。例えば、異なるエンドユーザは、異なる空間スピーカ構成で（即ち、異なる現実の又は仮想のオーディオ変換器の位置で）、同じ符号化オーディオ信号を使用することができる。例えば、エンドユーザによっては、５つの空間チャンネル・スピーカを有することがあり、他のユーザは、７つの空間チャンネル・スピーカなどを有することがある。また、所与の数のスピーカ位置は、異なるセットアップ間で又は実際に同じセットアップに対して時間と共に実質的に変化することがある。

図５のシステムは、従って、Ｎ空間チャンネルを使用する残留ダウンミックス表現から、Ｍ現実又は仮想スピーカ位置をもつ空間レンダリング構成に変換することができる。以下の説明は、異なる空間スピーカ構成を使用していかに拡散音をレンダリングすることができるかということに焦点を当てている。

拡散音プロセッサ７０７は、まず、相関除去をチャンネルの信号に適用すること（及び拡散性パラメータに従ってスケーリングすること）によりダウンミックスの各チャンネルから１つの拡散信号を生成することができ、それにより、Ｎ拡散信号を生成することができる。

さらなるオペレーションは、ダウンミックスに対して空間スピーカ構成の特性に、及び具体的には各々の空間チャンネルの相対数に（即ち、残留ダウンミックス／生成された拡散音信号におけるチャンネルの数Ｎ及び空間スピーカ構成における現実の又は仮想のスピーカの数Ｍに）依存してよい。

まず、空間スピーカ構成は、聴取環境において等距離で配分することができないことが留意される。例えば、図８に示すように、スピーカの集中は、しばしば、側面また後面方向よりも前面方向のほうが高くなることがある。

このことは図５のシステムによって考慮することができる。具体的には、拡散音プロセッサ７０７は、スピーカ間の近接度により、生成された拡散信号のオーディオ・レベル／利得を調整するように構成することができる。例えば、所与のチャンネルのレベル／利得は、そのチャンネルのスピーカ位置及び拡散レンダリングにも使用される最も近いスピーカ位置又はいくつかの位置からの距離に依存してよい。この距離は、角距離でよい。このような方式は、スピーカが典型的には等しく配分されていないことに対処することができる。従って、拡散音信号が生成された後、個々のスピーカにおける出力は、均一な拡散音場を提供するように調整される。或いは、拡散性には、個々のスピーカにおける出力を調整することにより、空間成分を与えることができる。

均一な音場を提供するように出力を調整するための１つの方式は、円（又は３Ｄの場合の球）を単一のスピーカ（図８に示すように）によって表されるいくつかの区域に分割することである。相対的出力分布は、次に、次式で求めることができる。

（外３）

ここで、θ_ｋは、スピーカｋに対応する区域の角度幅を表す。同様に、３Ｄの場合、相対的出力分布は、スピーカによって表される球上の相対的表面によって求めることができる。

いくつかの実施例において、最初の生成された拡散信号の数（ダウンミックスにおけるチャンネルの数に対応する）は、空間スピーカ構成におけるスピーカ位置の数に一致してよい。即ち、ＮはＭに等しくすることができる。

いくつかの実施例において、空間スピーカ構成が残留ダウンミックスにおけるチャンネルの数に対応するいくつかのチャンネルを備える場合、拡散音プロセッサ７０７は、残留ダウンミックスに関連した空間情報に応じて残留ダウンミックスのチャンネルを空間レンダリング構成のスピーカ位置にマッピングするように構成することができる。代替的または追加的に、それらは単純に無作為にマッピングすることができる。従って、Ｎ＝Ｍの場合、拡散信号は、残留ダウンミックス・チャンネルの空間情報により又は無作為にマッピングすることができる。

具体的には、システムは、生成されたＮ拡散音信号の角度（符号化器に伝送されたとき）とスピーカ位置の角度との間の最良の一致を見出すように努めることによりこれを行うことができる。このような情報が利用できない場合、信号は任意の順序で表すことができる。

多くのシナリオにおいて、残留ダウンミックスのチャンネルの数、従って最初に生成された拡散チャンネルの数は、空間オーディオ・レンダリング・デバイス５０３によって出力された空間チャンネルの数よりも少なくすることができる。即ち、空間スピーカ構成におけるスピーカ位置の数は、残留ダウンミックス・チャンネルの数より少なく、Ｎ＜Ｍであってよい。

このようなシナリオにおいて、１つ以上の相関除去は、残留ダウンミックスのチャンネルの少なくとも１つに適用することができる。従って、２つ以上の相関除去されたオーディオ信号は、単一の残留ダウンミックス・チャンネルから生成される２つ以上の拡散音信号をもたらす単一のダウンミックス・チャンネルから生成することができる。２つの異なる相関除去を同じチャンネルに適用することにより、結果として得られる信号は、互いに相関除去されるように生成することもでき、それにより、拡散音を提供することができる。

残留ダウンミックスが２つ以上のチャンネルを含み、２つ以上の追加の出力チャンネルが生成されるシナリオにおいて、１つより多い残留ダウンミックス・チャンネルを使用することが典型的には有利であろう。例えば、２つの新しい拡散音信号が生成され、残留ダウンミックスがステレオ信号である場合、一方の新しい拡散音信号は、相関除去をステレオ・ダウンミックス・チャンネルの１つに適用することにより生成することができ、他方の新しい拡散音信号は、相関除去を他方のステレオ・ダウンミックス・チャンネルに適用することにより生成することができる。実際、２つのステレオ・ダウンミックス・チャンネルの拡散音は、典型的には、強く相関除去されるので、同じ相関除去を２つのステレオ・ダウンミックス・チャンネルに順次適用して、２つの新しい拡散音信号を生成することができ、その信号は、残留ダウンミックス・チャンネルの拡散音に対して相関除去されるだけでなく、互いに対しても相関除去される。

相関除去された信号を生成するとき、空間スピーカ構成を考慮することは有利であり得る。例えば、残留ダウンミックス・チャンネルの拡散音は、対応するダウンミックス・チャンネルの意図された空間位置に空間的に最も近い構成でスピーカにマッピングすることができる。相関除去された信号は、最も近いダウンミックス・チャンネルを相関除去器への入力として使用して、残りのスピーカに供給することができる。

従って、スピーカ・セットアップにおけるスピーカの数が残留ダウンミックスにおけるチャンネルの数より大きい一実施形態において、追加の拡散音信号を生成する必要があり得る。

例えば、モノラルの残留ダウンミックスを受け取った場合、それらに相関除去を適用することにより追加の拡散音信号を生成することができる。異なる相関除去をモノラルの残留ダウンミックスなどに適用することにより第３の拡散音信号を生成することができる。

この方式は、さらに個々の相関除去の適当なスケーリングを導入して拡散音へのエネルギー保存を提供できることが理解されよう。従って、拡散音場信号生成に関与する処理は、拡散音源の総エネルギーが確実に同じままであるようにするために、単に相関除去を適用するステップ及び任意選択のスケーリングをするステップから成ることができる。

残留ダウンミックスの１つ以上のチャンネルが存在する、即ち、Ｎ＞１である場合、残留ダウンミックが実用であり得る限り多くのチャンネルを使用して、バランスのとれた方法で、追加の拡散音信号を引き出すことは、典型的には有利である。例えば、残留ダウンミックスの２つのチャンネルが伝送され、４つの拡散音信号が必要である場合、３つ又は４つの相関除去を残留ダウンミックス・チャンネルの１つに適用するよりも、２つの相関除去を２つの残留ダウンミックス・チャンネルの各々に有利に適用することができる。

多くの場合、残留ダウンミックスから拡散音信号を使用し、１つ又は複数の相関除去器を使用して欠落信号だけを生成することは有利であり得る。

追加の拡散音信号を生成する相関除去は、残留ダウンミックスの信号に直接適用する必要はないが、すでに相関除去された信号に適用することはできることが理解されよう。例えば、第１の拡散音信号が残留ダウンミックスの信号に相関除去を適用することにより生成される。その結果得られる信号は、直接レンダリングされる。さらに、第２の拡散音信号が第１の拡散音信号に第２の相関除去を適用することにより生成される。この第２の拡散音信号は、次いで、直接レンダリングされる。この方式は、２つの異なる相関除去を直接残留ダウンミックスの信号に適用することに等しく、その場合、第２の拡散音信号の相関除去全体は、第１及び第２の相関除去の組合せに対応する。

追加の拡散音信号を生成する相関除去は、拡散音プロセッサ７０７によって拡散成分の推定がなされた後にも適用できることが理解されよう。このことは、相関除去に入力された信号がより適切な性質をもち、それによりオーディオ品質を向上させるという利点がある。

このような方式は、第２の相関除去ステップが複数の第１の相関に、即ち複数の残留ダウンミックス・チャンネルに再使用できるので、多くの実施形態において特に効率的であり得る。

いくつかのシナリオにおいて、拡散音プロセッサ７０７は、空間スピーカ構成のスピーカ位置よりも少ない拡散音信号を生成するように構成することができる。実際、いくつかのシナリオにおいて、それは改善された拡散音の知覚を提供して、１サブセットのスピーカ位置だけから拡散音をレンダリングすることができる。拡散音場を測定すること（例えば、音場マイクロホンのマイクロホン信号が強く相関される）又は相互に相関除去された拡散音信号を効率的に合成することは、いずれも、しばしば困難である。多数のスピーカを用いて、全スピーカに対する追加されたレンダリング拡散信号の値は限定され、場合によっては、相関除去器の使用は、より大きな悪影響があり得る。従って、いくつかのシナリオにおいて、スピーカへの少数の拡散音信号だけをレンダリングすることは、好ましくあり得る。スピーカ信号が相互に相関される場合、このことは、小さな最適聴取場所を結果として生じる。

いくつかの実施例又はシナリオにおいて、残留ダウンミックスのチャンネルの数は、空間スピーカ構成におけるスピーカの数を超える、即ちＮ＞Ｍであり得る。この例において、残留ダウンミックスのチャンネル（具体的にはＮ−Ｍチャンネル）の数は、単純に無視することができ、Ｍ拡散音信号だけを生成することができる。従って、この例において、１つの相関を残留ダウンミックスのＭチャンネルの各々に適用することができ、それにより、Ｍ拡散音信号を生成することができる。使用される残留ダウンミックス・チャンネルは、空間スピーカ構成のスピーカ位置に角度の点で最も近いものとして選択することができ、又は、例えば単純に無作為に選択することができる。

他の実施形態において、ダウンミックス・チャンネルは、相関除去の前後いずれかで組み合わせることができる。例えば、２つのダウンミックス・チャンネルを合計し、相関除去を合計信号に適用して拡散音信号を生成することができる。他の実施形態において、相関除去を２つのダウンミックス信号に適用することができ、その結果得られた相関除去された信号を合計することができる。このような方式は、すべての（拡散）音声成分が出力拡散信号に表されることを確実にすることができる。

いくつかの実施例において、拡散音プロセッサ７０７は、拡散音信号が空間スピーカ構成の（公称又は参照）聴取位置の横向きレンダリング（ｓｉｄｅｗａｙｓｒｅｎｄｅｒｉｎｇ）に対応するように、拡散音信号を生成するように構成することができる。例えば、２つの拡散チャンネルは、公称又は参照正面方向の対向側面（右及び左に対して７５°から１０５°の間）からレンダリングすることができる。

従って、相関除去プロセスを介して追加の信号を生成する低複雑度の代替として、拡散音場の合成は、対象の左側及び右側の位置に対して、即ち、前面聴取／鑑賞方向に対しておよそ＋／−９０°の角度で、少数の（仮想）拡散音信号を生成することによって行うことができる。例えば、Ｎ＝２であり、信号が正規の５．１セットアップ（−１１０°、−３０°、０°、＋３０°及び−１１０°）に対して生成される場合、２つの仮想拡散音信号は、第１の拡散音信号を左サラウンド（−１１０°）スピーカと左前面（−３０°）スピーカとの間に約−９０°でパニングすることにより生成することができ、第２の拡散音信号は、右前面（＋３０°）スピーカと右サラウンド（＋１１０°）スピーカとの間に約＋９０°でパニングすることができる。関連する複雑度は、典型的には、追加の相関除去を使用するときより低い。しかし、代償として、知覚された拡散音場の品質は、例えば、頭部を回転させた（相関が増大した）とき又は最適聴取場所の外側に移動した（先行音効果）とき、低下することがある。

モノ・ダウンミックス、ステレオ・ダウンミックス又はサラウンド音響５．１ダウンミックスとしての表現を含む、残留ダウンミックスのあらゆる適切な表現も使用され得ることが理解されよう。

いくつかの実施例において、残留ダウンミックスは、Ｂ形式信号表現を使用して記述することができる。この形式は、下記に対応する４つのマイクロホン信号を表す。
１．無指向性マイクロホン、
２．前後方向の８の字形マイクロホン、
３．左右方向の８の字形マイクロホン、及び
４．上下方向の８の字形マイクロホン。

最後のマイクロホン信号は省略されることがあり、それにより、水平面への記述が制限される。Ｂ形式表現は、しばしば、実際には、４面体の面上の４つのカージオイド・マイクロホンからの信号に対応するＡ形式表現から引き出されることがある。

拡散音場がＡ形式又はＢ形式の信号表現で記述される場合、例えば、拡散音場が音場マイクロホンを用いて録音されるとき、スピーカ信号はこの表現から引き出すことができる。Ａ形式はＢ形式に変換でき、それはコンテンツ生成に共通及びより容易に使用されるので、さらなる記述はＢ形式録音を想定する。

Ｂ形式表現の構成信号は、ミキシングして、指向性を制御できる別の仮想マイクロホン信号を表す異なる信号を作り出すことができる。これを行うことにより、意図されたスピーカ位置に向けた仮想マイクロホンを作り出し、対応するスピーカに直接送ることができる信号をもたらすことができる。

明確にするための上記の説明は、異なる機能回路、ユニット及びプロセッサに関して本発明の諸実施形態を説明してきたことが理解されよう。しかし、異なる機能回路、ユニット又はプロセッサの間の機能性のどんな適切な配分も、本発明から逸脱することなく使用できることが明らかであろう。例えば、別々のプロセッサ又は制御器によって実施される図示された機能性は、同じプロセッサ又は制御器によって実施することができる。従って、特定の機能ユニット又は回路への参照は、厳密に論理的又は物理的な構造又は組織を示すよりも、説明された機能性を提供するための適切な手段への参照としてのみ理解されるものである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含めて、どんな適切な形でも実施することができる。本発明は、１つ又は複数のデータ・プロセッサ及び／又はデジタル信号プロセッサで動作するコンピュータ・ソフトウェアとして少なくとも部分的に任意選択で実施することができる。本発明の一実施形態の諸要素及び諸構成要素は、どんな適切な方法でも、物理的、機能的及び論理的に実施することができる。実際、機能性は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの一部として実施することができる。従って、本発明は、単一のユニットにおいて実施することができ、又は、物理的に及び機能的に異なるユニット、回路及びプロセッサの間に配分することができる。

本発明は、いくつかの実施例に関連して説明されているが、本明細書に記載された特定の形に限定されることを意図していない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、特徴が特定の実施形態に関連して説明されているようにみえるが、説明された諸実施形態の様々な特徴が本発明により組み合わせることができることが当業者には認識されよう。特許請求の範囲において、含む、という用語は、他の諸要素又は諸ステップの存在を排除しない。

さらに、個々に列挙されているが、複数の手段、要素、回路又は方法ステップは、例えば、単一の回路、ユニット又はプロセッサによって実施することができる。さらに、個々の特徴を異なる請求項に含めることができるが、これらは場合により有利に組み合わせることもでき、異なる請求項への包含は、特徴の組合せが実現可能及び／又は有利ではないことを意味するものではない。また、請求項の１つのカテゴリーへの特徴の包含は、このカテゴリーへの限定を意味せず、特徴が必要に応じ他の請求項のカテゴリーに等しく適用可能であることを示す。さらに、請求項における特徴の順序は、特徴が作用しなければならない、どんな特定の順序も意味せず、具体的には方法の請求項において個々のステップの順序は、ステップがこの順序で実施されねばならないことを意味しない。むしろ、ステップは、どんな適切な順序でも実施することができる。さらに、単数への参照は、複数を排除しない。従って、「１つの」、「第１の」、「第２の」などへの参照は、複数を除外しない。特許請求の範囲における参照符号は、単に、明確にする一つの実施例として提供されるものであり、本特許請求の範囲を限定するものと解釈してはならない。

Claims

空間オーディオ・レンダリング装置であって：
残留ダウンミックスおよび少なくとも１つのオーディオ・オブジェクトを特徴付けるデータを提供するための回路であり、前記残留ダウンミックスは、前記少なくとも１つのオーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応している、回路と；
前記残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るための受信機と；
第１の変換を前記残留ダウンミックスに加えることにより空間スピーカ構成の第１の組の信号を生成するための第１の変圧器であり、前記第１の変換は、前記拡散性パラメータに依存している、第１の変圧器と；
第２の変換を前記残留ダウンミックスに加えることにより前記空間スピーカ構成の第２の組の信号を生成するための第２の変圧器であり、前記第２の変換は、前記拡散性パラメータに依存し、かつ、前記残留ダウンミックスの少なくとも１つのチャンネルの相関除去を含む、第２の変圧器と；
前記少なくとも１つのオーディオ・オブジェクトを特徴付ける前記データから前記空間スピーカ構成の第３の組の信号を生成するための回路と；
前記第１、前記第２、及び、前記第３の組の信号を組み合わせることにより、前記空間スピーカ構成に対する出力の組の信号を生成するための出力回路と；を含み、
前記拡散性パラメータは指向性依存である、装置。
前記拡散性パラメータは、前記残留ダウンミックスの異なるチャンネルに対する個々の拡散性の値を含む、
請求項１に記載の装置。
前記残留ダウンミックスの少なくとも１つのチャンネルに対して、前記出力信号における前記第１の変換の寄与に関する前記第２の変換の寄与が、増加した拡散性を指示する前記拡散性パラメータに対して増加する、
請求項１に記載の装置。
前記第１の組の信号および前記第２の組の信号を組み合わせたエネルギーが、前記拡散性パラメータとは実質的に独立している、
請求項１に記載の装置。
前記第２の変圧器は、前記第２の組の信号の異なる信号に関連する少なくとも１つの隣接するスピーカ位置に対する前記第１の信号に関連するスピーカ位置に係る距離に応じて、前記第２の組の信号の前記第１の信号のオーディオ・レベルを調整するように構成されている、
請求項１に記載の装置。
前記残留ダウンミックスは、前記空間スピーカ構成のスピーカ位置の数より少ないチャンネルを含み、
前記第２の変圧器は、前記残留ダウンミックスの少なくとも第１のチャンネルに対して複数の相関除去を適用することにより、前記第２の組の信号の複数の信号を生成するように構成されている、
請求項１に記載の装置。
前記第２の変圧器は、前記残留ダウンミックスの第２のチャンネルに対して複数の相関除去を適用することにより、前記第２の組の信号のさらに複数の信号を生成するように構成されており、
前記第２のチャンネルは、前記少なくとも第１のチャンネルのチャンネルではない、
請求項６に記載の装置。
前記第２の組の信号は、前記空間スピーカ構成におけるスピーカ位置の数よりも少ない信号を含む、
請求項１に記載の装置。
前記残留ダウンミックスは、前記空間スピーカ構成のスピーカ位置の数よりも多いチャンネルを含み、
前記第２の変圧器は、前記第２の組の信号を生成するときに、前記残留ダウンミックスの少なくとも２つのチャンネルを組み合わせるように構成されている、
請求項１に記載の装置。
前記第２の変圧器は、前記第２の組の信号からのオーディオの横方向のレンダリングに対応する前記第２の信号を生成するように構成されている、
請求項１に記載の装置。
前記受信機は、前記オーディオ・オブジェクトを含む受け取られたダウンミックスを受け取るように構成されており、
前記残留ダウンミックスを提供するための前記回路は、前記データ・オブジェクトを特徴付ける前記データに応答じて少なくとも１つのオーディオ・オブジェクトを生成し、かつ、前記受け取られたダウンミックスから前記少なくとも１つのオーディオ・オブジェクトを抽出することによって前記残留ダウンミックスを生成する、ように構成されている
請求項１に記載の装置。
前記空間スピーカ構成は、前記残留ダウンミックスの空間音声表現とは異なる、
請求項１に記載の装置。
空間オーディオ符号化装置であって：
第１のダウンミックスおよび少なくとも１つのオーディオ・オブジェクトを特徴付けるデータによって、オーディオ・シーンを表す符号化データを生成するための回路と；
残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するための回路でり、前記残留ダウンミックスは、前記少なくとも１つのオーディオ・オブジェクトが抽出された前記オーディオ・シーンのオーディオ成分のダウンミックスに対応している、回路と；
前記第１のダウンミックス、前記少なくとも１つのオーディオ・オブジェクトを特徴付ける前記データ、及び、前記指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するための出力回路と；
を含む、装置。
空間オーディオ出力信号を生成する方法であって：
残留ダウンミックスおよび少なくとも１つのオーディオ・オブジェクトを特徴付けるデータを提供するステップであり、前記残留ダウンミックスは、前記少なくとも１つのオーディオ・オブジェクトが抽出されたオーディオ・シーンのオーディオ成分のダウンミックスに対応している、ステップと；
前記残留ダウンミックスの拡散性の程度を示す拡散性パラメータを受け取るステップと；
第１の変換を前記残留ダウンミックスに加えることにより空間スピーカ構成の第１の組の信号を生成するステップであり、前記第１の変換は、前記拡散性パラメータに依存している、ステップと；
第２の変換を前記残留ダウンミックスに加えることにより前記空間スピーカ構成の第２の組の信号を生成するステップであり、前記第２の変換は、前記拡散性パラメータに依存し、かつ、前記残留ダウンミックスの少なくとも１つのチャンネルの相関除去を含む、ステップと；
前記少なくとも１つのオーディオ・オブジェクトを特徴付ける前記データから前記空間スピーカ構成の第３の組の信号を生成するステップと；
前記第１、前記第２、及び、前記第３の組の信号を組み合わせることにより、前記空間スピーカ構成に対する出力の組の信号を生成するステップと；を含み、
前記拡散性パラメータは指向性依存である、方法。
空間オーディオ符号化の方法であって：
第１のダウンミックスおよび少なくとも１つのオーディオ・オブジェクトを特徴付けるデータによって、オーディオ・シーンを表す符号化データを生成するステップと；
残留ダウンミックスの拡散性の程度を示す指向性依存の拡散性パラメータを生成するステップであり、前記残留ダウンミックスは、前記少なくとも１つのオーディオ・オブジェクトが抽出された前記オーディオ・シーンのオーディオ成分のダウンミックスに対応している、ステップと；
前記第１のダウンミックス、前記少なくとも１つのオーディオ・オブジェクトを特徴付ける前記データ、及び、前記指向性依存の拡散性パラメータを含む出力データ・ストリームを生成するステップと；
を含む、方法。