JP2015515800A

JP2015515800A - ２ｄまたは３ｄ会議シーンにおける語り手の配置

Info

Publication number: JP2015515800A
Application number: JP2015501908A
Authority: JP
Inventors: エッカート，マイケル; スピットル，ゲイリー; ピーホリアー，マイケル
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2012-03-23
Filing date: 2013-03-21
Publication date: 2015-05-28
Anticipated expiration: 2033-03-21
Also published as: JP2017060175A; JP6255076B2; JP6339997B2; EP2829051A1; EP2829051B1; CN104205790B; US9749473B2; US20150296086A1; WO2013142668A1; CN104205790A

Abstract

本稿は、オーディオ会議のために二次元または三次元シーンをセットアップし、管理することに関する。会議参加者に関連付けられた上流オーディオ信号（１２３、１７３）を、聴取者（２１１）に対してレンダリングされる2Dまたは3D会議シーン内で配置するよう構成された会議コントローラ（１１１、１７５）が記述される。前記会議シーン内で、X個の異なる空間的語り手位置（２１２）をもつX点会議シーンがセットアップされる。ここで、X個の語り手位置（２１２）は、聴取者（２１１）の頭部の前方の中央線（２１５）のまわりの円錐内に位置される。円錐の母線（２１６）と前記中央線（２１５）は、あらかじめ決定された最大円錐角以下の角度をなす。前記上流オーディオ信号（１２３、１７３）は前記語り手位置（２１２）の一つに割り当てられ、割り当てられた語り手位置（２１２）を同定するメタデータが生成され、それにより立体音響化されたオーディオ信号を可能にする。

Description

関連出願への相互参照
本願は2012年3月23日に出願された米国特許仮出願第61/614,592号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。

本稿はオーディオ会議に関する。詳細には、本稿はオーディオ会議のために二次元または三次元シーンをセットアップし、管理する方法およびシステムに関する。

現行の多者音声会議における欠点の一つは、音声が典型的にはみな聴取者に対してモノラル・オーディオ・ストリームとしてレンダリングされる――本質的には互いの上に重畳され、ヘッドホンが使われるときは通例、聴取者に対して「頭の中で」呈示される――ということである。たとえば異なるレンダリングされる位置から話す異なる人々をシミュレートするために使われる立体音響化（spatialization）技法は、音声会議において、特に発言している複数の人がいるときに、発話の了解性（intelligibility）を改善することができる。

本稿は、聴取者がオーディオ会議の異なる語り手を簡単に区別できるようにする、オーディオ会議のための適切な二次元（2D）または三次元（3D）シーンをデザインするという技術的問題に対処する。さらに、2Dまたは3D会議シーンに参加者および／またはシステム音（たとえば通知または背景音楽）を分布させるための諸方式であって、新しい参加者を追加するときおよび／または会議シーンにシステム音を挿入するときの進行中のオーディオ会議への影響を軽減できるようにするものが記述される。さらに、さまざまなレンダリング装置（ヘッドホンおよび／またはラウドスピーカー配位のような）上で会議シーンをレンダリングするための適切な方式が記述される。

ある側面によれば、会議参加者に関連付けられた上流オーディオ信号を、2Dまたは3D会議シーン内で配置するよう構成された会議コントローラが記述される。会議シーンは、聴取者に対してレンダリングされるものである。典型的には、聴取者は、会議シーンの中央位置に（たとえば、会議シーンが円または球としてモデル化される場合、円または球の中心に）位置される。上流オーディオ信号は、会議参加者の端末（たとえばコンピューティング装置または電話装置）において生成されたオーディオ信号であってもよい。よって、上流オーディオ信号は典型的には会議参加者の発話信号を含む。この理由により、上流オーディオ信号は語り手オーディオ信号と称されてもよい。会議コントローラは、（たとえばいわゆる中央集中式の会議アーキテクチャでは）通信ネットワーク内に（中央位置において）位置されてもよく、および／または会議コントローラは（たとえばいわゆる分散式の会議アーキテクチャでは）会議参加者の端末のところに位置されてもよい。会議コントローラは、2Dまたは3Dレンダリング・システムを使う場合、シーン・マネージャと称されてもよい。会議コントローラは、コンピューティング装置（たとえばサーバー）を使って実装されてもよい。

会議コントローラは、会議シーン内のX個の異なる空間的な語り手位置をもつX点会議シーンをセットアップするよう構成されていてもよい。Xは整数であり、X＞0である（たとえば、X＞1、特にX＝1,2,3,4,5,6,7,8または10）。このコンテキストにおいて、会議コントローラは、本稿に記載される会議シーン・デザイン・ルールの一つまたは複数に基づいてX個の異なる空間的語り手位置をもつX点会議シーンを計算するよう構成されていてもよい。一つのそのようなデザイン・ルールは、たとえば、X個の語り手位置は、聴取者の頭部の前方の中央線のまわりの円錐内に位置されるというものであってもよい。他のデザイン・ルールは、X個の語り手位置の角度的な分離に関係していてもよい。代替的または追加的に、会議コントローラは、X個の異なる空間的語り手位置をもつX点会議シーンを、あらかじめ決定された話者位置を含むあらかじめ決定された会議シーンの集合から選択するよう構成されていてもよい。例として、前記集合は、X個の異なるあらかじめ決定された空間的語り手位置をもつ一つまたは複数のあらかじめ決定されたX点会議シーンを含んでいてもよい。よって、X点会議シーンは、X個のあらかじめ決定された話者位置をもつあらかじめ決定されたX点会議シーンであってもよい。

会議コントローラは、種々の会議シーン（たとえば、異なる配置にされた語り手位置をもつ異なるX点会議シーンおよび／またはXの異なる値をもつ会議シーン）をセットアップするよう構成されていてもよい。X点会議シーンのX個の語り手位置は、聴取者の頭部の正面の中央線のまわりの円錐内に位置される。中央線は、聴取者の両耳の間の架空の線の中点に始まり、聴取者の両耳の間の前記架空の線に垂直に、聴取者の頭部の前方に延びる架空の直線であってもよい。円錐の母線と前記中央線は、あらかじめ決定された最大円錐角以下の角度（絶対値）をなす。最大円錐角は、円錐の分布数に依存して、好ましくは30°または20°またさらには15°などより狭い角であってもよい。

会議コントローラはさらに、上流オーディオ信号をX個の語り手位置の一つに割り当てるよう構成されている。上流オーディオ信号を会議シーン内の特定の語り手位置に割り当てることによって、会議コントローラは、レンダリング装置（たとえば会議シーンの聴取者の端末）が上流オーディオ信号を、あたかも該上流オーディオ信号がその特定の語り手位置から発しているかのようにレンダリングできるようにする。この目的のために、会議コントローラは、割り当てられた語り手位置を同定するメタデータを生成し、（聴取者の端末における）オーディオ処理ユニットが上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにするよう構成されている。立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚する。オーディオ処理ユニットは、聴取者の端末内に、あるいはオーディオ・ストリームを扱う中央オーディオ・サーバー内に位置されてもよい。立体音響化されたオーディオ信号はたとえば、聴取者の端末においてヘッドホンまたはラウドスピーカー上でレンダリングされるバイノーラル・オーディオ信号であってもよい。代替的または追加的に、立体音響化されたオーディオ信号は多チャネル（サラウンドサウンド）信号、たとえば5.1または7.1多チャネル信号であってもよい。

X個の語り手位置は、円または球状に配置されてもよく、該円または球の中心に聴取者が配置される。代替的な会議シーンは、楕円または楕円体上には位置される語り手位置を有していてもよい。聴取者は必ずしも中心に配置される必要はない。例として、テーブルのまわりの、会議参加者および聴取者を含む会合をシミュレートするために、聴取者は会議シーンをなす幾何学形状のエッジに、たとえば円または球または楕円または楕円体の端に位置されてもよい。後者の場合（および聴取者が楕円または楕円体の中心に位置される場合）、X個の語り手位置と聴取者の間の距離は語り手位置に依存して異なることになる。

X個の語り手位置のうち二つの隣接する語り手位置は、少なくともある最小の角距離だけ離間していてもよい。最小の角距離は5°またはそれ以上であってもよい。上述した条件は、X個の語り手位置の隣接する語り手位置のすべての対によって充足されてもよい。最小の角距離は、聴取者が、異なる語り手位置からレンダリングされる上流オーディオ信号を明瞭に区別できるようにする。X個の語り手位置のうちの隣り合う語り手位置の間の角距離は、異なる語り手位置については異なっていてもよい。例として、X個の語り手位置のうちの隣り合う語り手位置の間の角距離は、該隣り合う語り手位置の中央線からの距離が増すにつれて増大してもよい。こうすることによって、聴取者が異なる角度から到来する音の源を区別する能力の変化が考慮に入れられうる。

X個の語り手位置は中央線に対して非対称であってもよい。これは、会議シーンを聴取者に対してレンダリングするときに像形成〔イメージング〕効果を回避するために有益でありうる。しかしながら、Xが奇数の場合、X個の語り手位置は、該X個の語り手位置のうちの中央語り手位置に対して対称的であってもよい。ここで、中央語り手位置は、典型的には中央線上にはない。中央語り手位置に対する語り手位置の対称性を使うことにより、聴取者の左耳と右耳の間の会議シーンの均衡が達成できる。

Xが偶数であれば、X個の語り手位置の半分が中央線の一方の側または中央線を通る鉛直面の一方の側にあってもよく、X個の語り手位置の残りの半分が中央線の反対側または中央線を通る鉛直面の反対側にあってもよい。Xが奇数なら、X個の語り手位置のうち(X−1)/2個が一方の側にあり、(X＋1)/2個が前記中央線または前記鉛直面の反対側にあってもよい。この条件は、均衡した会議シーンを目標とする。

X個の語り手位置は、聴取者の頭部からのX本の射線上に位置されてもよい。X本の射線はそれぞれ中央線とともにX個の語り手角をなす。中央線からある方向の諸語り手角は正であってもよく、中央線から反対方向の諸語り手角は負であってもよい。X個の語り手角の和は0と異なっていてもよい。しかしながら、語り手角の和は2°以下であってもよい。よって、会議シーンは、会議シーンの中央線に対してわずかに非対称的であり、同時に十分均衡していてもよい。

会議シーンの負荷はわずかに不均衡であってもよく、中央線のどちら側が最初に分布させられるかに依存して、シーンの一方の側に（すなわち、聴取者の頭部の正面の中央線から一方の方向に）「傾く」傾向があってもよいことを注意しておくべきである。聴取者が電話通話のために自然に使うであろう側でシーンに分布させるのを開始するのがより自然であることがある。この側は、典型的には、聴取者が書くときに使う手と反対側である。たとえば、右利きの人は電話を左手で保持し、左側で（左側の耳を用いて）モノ・ストリームを聞くことに慣れている。ユーザー選好がシーン・マネージャ（たとえば、端末またはエンドポイントに位置される）に通知するために使われてもよい。さらに、聴取者の利き手を決定するために、追加的なアクセサリーが問い合わせされることができる。たとえば、コンピュータのマウス設定である。

よって、会議コントローラは、聴取者の好まれる側を決定するよう構成されていてもよい。ここで、好まれる側は、聴取者の頭部の正面の中央線から左側または右側であってもよい。この目的のために、会議コントローラは、聴取者の端末から前記好まれる側に関する指示を受領するよう構成されていてもよい。前記好まれる側に関する指示は、聴取者の端末における選好設定（たとえばマウス設定）に基づいていてもよい。聴取者の前記好まれる側は、聴取者の左利き／右利きと相関付けられてもよい。上記のように、左利きの聴取者は典型的には好まれる右側をもち、右利きの聴取者は典型的には好まれる左側をもつ。会議コントローラは、到来するオーディオ信号を、X個の語り手位置のうち聴取者の前記好まれる側にある一つに、たとえば、聴取者の前記好まれる側の最も中央寄りの語り手位置に割り当てるよう構成されていてもよい。

ある実施形態では、X＝3であり、X個の語り手位置は中央線から実質的に−2°、＋6°および−10°の語り手角のところに位置される。あるさらなる実施形態では、X＝6であり、X個の語り手位置は、中央線から実質的に−2°、＋3°、−7°、＋8°、−12°および＋13°の語り手角のところに位置される。ある好ましい実施形態では、X＝6であり、X個の語り手位置は中央線から実質的に＋2°、−5°、＋9°、−12°、＋16°および−19°の語り手角のところに位置される。

典型的には、会議コントローラは、複数の会議参加者に関連付けられた複数の上流オーディオ信号をX点会議シーン内に配置するよう構成されている。よって、会議シーンの聴取者は、会議シーン内の異なる（X個までの異なる）空間的位置から到来する前記複数の上流オーディオ信号を知覚することができるようにされてもよい。会議コントローラは、前記複数の上流オーディオ信号を、前記複数の上流オーディオ信号のある逐次順に従って、前記X個の語り手位置に割り当てるよう構成されていてもよい。前記逐次順は、上流オーディオ信号を会議内に配置するための会議コントローラの待ち行列を参照してもよい。代替的または追加的に、前記複数の上流オーディオ信号の前記逐次順は、会議コントローラによる前記複数の上流オーディオ信号の検出の順序に基づいていてもよい。換言すれば、前記複数の上流オーディオ信号の前記逐次順は、異なる会議参加者がオーディオ会議にダイヤルしてきて、それにより対応する上流オーディオ信号が会議コントローラによって検出される逐次順に影響する順序に関連していてもよい。第一の、最も中央の位置は、源エンドポイントからの（すなわち、会合まとめ役または司会者の端末からの）メタデータを通じて識別される、当該会議通話の会合まとめ役または司会者のために予約されていてもよい。したがって、たとえ他の会議参加者が司会者より前に会合に到着するとしても、それらの会議参加者はシーン内のプレミアム位置に割り振られなくてもよい。よって、会議コントローラは、ある特定の端末から（たとえば、まとめ役／司会者の端末から）到来する特定の上流オーディオ信号について、X個の語り手位置のうちの一つを予約するよう構成されていてもよい。予約される語り手位置は、最も中央寄りの語り手位置であってもよい。

会議コントローラは、中央線からの絶対的な角距離が増す順にX個の語り手位置を割り当てるよう構成されていてもよい。換言すれば、会議コントローラは第一の上流オーディオ信号を最も中央寄りの語り手位置に割り当て、第二の上流オーディオ信号を二番目に中央寄りの語り手位置に割り当てる、などとして最も外側の語り手位置に到達するまで続けてもよい。前記複数の上流オーディオ信号からの上流オーディオ信号を、前記X個の語り手位置のうちからの最も外側の語り手位置に割り当てることを受けて、会議コントローラは、前記複数の上流オーディオ信号のうちからの次の上流オーディオ信号を、前記X個の語り手位置のうちからの最も内側の（最も中央寄りとも称される）語り手位置に割り当てるよう構成されていてもよい。

よって、会議コントローラは、前記複数の上流オーディオ信号のうちからの複数の上流オーディオ信号を、前記X個の語り手位置のうちの少なくとも一つに割り当てるよう構成されていてもよい。会議コントローラは、特に、会議シーン内に配置されるべき上流オーディオ信号の数（M−1）が語り手位置の数Xよりも多い場合にそうするよう構成されていてもよい。円錐の分布数がX個の語り手位置を超過する場合、3D会議シーン（および聴取者の端末における3Dレンダリング・エンジン）が使われているならば、語り手の追加的な鉛直方向の諸層がシーン内に配置されてもよい。たとえば、最初の6人の参加者は仰角0度（耳の水準）にある6個の語り手位置に割り当てられてもよく、次の6人の参加者は最初の6人の参加者と同じ方位角だがたとえば8°の仰角に割り当てられてもよい。数Mはアクティブな会議参加者の総数であってもよく、そのうち1人は特定の会議シーンの聴取者であり、他の(M−1)人はX点会議シーン内でX個の語り手位置に配置されるべき語り手である。複数の上流オーディオ信号が同じ語り手位置に割り当てられる場合、会議コントローラは、その同じ語り手位置に割り当てられた複数の上流オーディオ信号の混合を開始するよう構成されていてもよい。それにより、その語り手位置においてレンダリングされる混合されたオーディオ信号が生成される。上流オーディオ信号の実際の混合は、（たとえばデジタル信号プロセッサを有する）オーディオ・サーバーによって、あるいは聴取者のエンドポイントにおける（すなわち端末における）オーディオ・レンダリング・エンジン内で実行されてもよい。オーディオ・サーバーは、会議コントローラとは別個であってもよい。

特に、会議シーン内に配置される上流オーディオ信号の数（M−1）がXより小さい場合、会議コントローラは、前記複数の上流オーディオ信号のそれぞれを、前記X個の語り手位置のうちの異なる位置に割り当てるよう構成されていてもよい。典型的には、上流オーディオ信号は、前記X個の語り手位置のうちの単一の位置に割り当てられるのみである。場合によっては、空間的な広がりを作り出すために、単一のストリームが二つの隣接する語り手位置に割り当てられてもよい。

会議コントローラは、以下の配置ルールの一つまたは複数に従って前記複数の上流オーディオ信号を配置するよう構成されていてもよい。第一の配置ルールは、前記複数の上流オーディオ信号からの次の上流オーディオ信号を、前記X個の語り手位置のうちの、まだ割り当てられていない語り手位置であって、中央線にできるだけ近い語り手位置に割り当てるというものであってもよい。換言すれば、上流オーディオ信号に（すなわち、会議参加者に）専用の語り手位置を提供することが好ましい、および／または上流オーディオ信号を会議シーンの中央線のできるだけ近くに割り当てることが好ましい。第二の配置ルールは、割り当てられた諸語り手位置の、中央線に対するおよび／または前記X個の語り手位置のうち最も中央寄りの語り手位置に対する最大の均衡を保証するというものであってもよい。換言すれば、割り当てられた上流オーディオ信号が会議シーンの中央線のまわりに均衡した仕方で割り当てられることを保証することが好ましいことがありうる。第三の配置ルールは、前記X個の語り手位置のうちからの空の語り手位置を割り当て直すというものであってもよい。ここで、前記空の語り手位置は、前記複数の上流オーディオ信号のうちからのすでに割り当てられた上流オーディオ信号の中断によって空にされたものである。中断は、たとえば、会議参加者が会議シーンを去ったこと、あるいは該参加者が話していないまたは聞くだけの状態に後退したことであってもよい。これは、会議コントローラによって、会議シーンを去った会議参加者の端末から受領される適切な信号によって検出されてもよい。

会議コントローラは、立体音響化されたオーディオ信号をレンダリングするオーディオ・トランシーバのレンダリング特性を決定するよう構成されていてもよい。例として、会議コントローラは、聴取者の端末におけるオーディオ・トランシーバが、バイノーラル・オーディオ信号、ステレオ・オーディオ信号またはサラウンドサウンド・オーディオ信号またはモノ信号のみをレンダリングできることを判別するよう構成されていてもよい。会議コントローラは、下流オーディオ信号の組と、聴取者の端末におけるオーディオ・トランシーバが会議シーンを適切にレンダリングできるようにする適切なメタデータとを生成するよう構成されていてもよい。下流オーディオ信号の組は典型的には前記上流オーディオ信号または前記複数の上流オーディオ信号を含む。メタデータは典型的には、前記上流オーディオ信号または前記複数の上流オーディオ信号の、X点会議シーン内のその配置に従った立体音響化されたレンダリングを許容する情報を含む。

例として、会議コントローラは、オーディオ・トランシーバのレンダリング特性に依存して前記複数の上流オーディオ信号の一つまたは複数の混合を開始するよう構成されていてもよい。特に、会議コントローラは、レンダリング特性がオーディオ・トランシーバがモノ・オーディオ信号のレンダリングに限定されていることを示す場合には、会議シーンに配置されるべき前記複数の上流オーディオ信号の全部の混合を開始するよう構成されていてもよい。オーディオ信号の実際の混合は、たとえばデジタル信号プロセッサを有するオーディオ・サーバーによって実行されてもよい。

本稿で概説された諸側面は、2D会議シーンおよび／または3D会議シーンに関係していてもよい。よって、語り手位置の角度配列に関する諸側面は、方位角および／または傾斜角に関係していてもよい。方位角は、中央線を含む水平面内で定義されてもよい。傾斜角は、中央線を含む鉛直面内で定義されてもよい。2D会議シーンでは、X個の異なる空間的語り手位置は、中央線に対して異なる方位角のところに位置されてもよい。3D会議シーンでは、X個の異なる空間的語り手位置の少なくともいくつかは、中央線に対して異なる方位角および／または傾斜角のところに位置されてもよい。

3D会議シーンでは、X個の異なる空間的語り手位置は、異なる傾斜角にある複数の層に配列されてもよい。各層は、前記X個の空間的語り手位置のうちからの、異なる方位角にある複数の異なる空間的語り手位置を含んでいてもよい。特に、第一の層における異なる空間的語り手位置と第二の層における異なる空間的語り手位置は対応する方位角を有していてもよく、それにより規則的な層構成にされた構造を作り出してもよい。

会議コントローラは、上流オーディオ信号の地位〔ステータス〕に関する情報を受領するよう構成されていてもよい。地位は、上流オーディオ信号に関連したメタデータとして伝送されてもよい。地位は、たとえば、その上流オーディオ信号が会議の司会者またはまとめ役に対応することを指示してもよい。換言すれば、地位は、その上流オーディオ信号が司会者またはまとめ役の発話信号を含むことを示してもよい。代替的または追加的に、地位は、プレミアムまたは基本地位（たとえば、異なる会議参加者によって支払われる異なる料金に関係する）に関係してもよい。

会議コントローラは、上流オーディオ信号を、該上流オーディオ信号の地位に基づいて、空間的語り手位置に割り当てるよう構成されていてもよい。例として、地位は、会議のまとめ役の上流オーディオ信号を示してもよく、その上流オーディオ信号が割り当てられる空間的語り手位置は、最も中央寄りの空間的語り手位置であってもよい。もう一つの例では、地位は、基本地位（すなわち、基本的な会議参加者）を示してもよい。基本的な会議参加者は、それほど顕著でない語り手位置（たとえば、最も外側の語り手位置または異なる層の語り手位置）に割り当てられてもよい。

会議コントローラは、あらかじめ決定された地位をもつ上流オーディオ信号のために前記X個の空間的語り手位置のうちの一つまたは複数を予約するよう構成されていてもよい。例として、最も中央寄りの語り手位置が、会議のまとめ役のために、あるいはプレミアム地位をもつ会議参加者のために予約されてもよい。

あるさらなる側面によれば、オーディオ会議システムが記述される。本オーディオ会議システムは、（たとえばマイクロホンを使って会議参加者の発話信号を記録することによって）会議参加者に関連付けられた上流オーディオ信号を生成するよう構成された語り手端末を有する。本システムはさらに、本稿で概説される諸側面のいずれかに基づく会議コントローラを有する。会議コントローラは、2Dまたは3D会議シーン内の語り手位置に上流オーディオ信号を割り当てるよう構成されている。さらに、会議コントローラは、割り当てられた語り手位置を同定するメタデータを生成するよう構成されている。さらに、本システムは、メタデータを使ってオーディオ会議の聴取者に上流オーディオ信号をレンダリングするよう構成された聴取者端末を有する。レンダリングは、聴取者が上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚するように実行されてもよい。

もう一つの側面によれば、会議参加者に関連する上流オーディオ信号を、聴取者に対してレンダリングされるべき2Dまたは3D会議シーン内で配置する方法が記述される。本方法は、会議シーン内でX個の異なる空間的語り手位置をもつX点会議シーンをセットアップすることを含む。Xは整数であり、X＞0である。X個の語り手位置は、聴取者の頭部の前方の中央線のまわりの円錐内に位置される。円錐の母線と前記中央線が、あらかじめ決定された最大円錐角以下の角度をなす。さらに、本方法は、上流オーディオ信号をX個の語り手位置の一つに割り当てることを含む。さらに、本方法は、割り当てられた語り手位置を同定するメタデータを生成し、オーディオ処理ユニットが上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにすることを含む。立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は、上流オーディオ信号が、割り当てられた語り手位置から到来するものとして知覚する。

あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために、該プロセッサで実行されたときに本稿で概説される方法段階を実行するために適応されていてもよい。

もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために、コンピューティング装置上で実行されたときに本稿で概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。

あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を有していてもよい。

本特許出願において概説される好ましい実施形態を含む方法およびシステムは単独で、または本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのあらゆる側面は任意に組み合わされうる。特に、請求項の特徴は、互いに、任意の仕方で組み合わされうる。

本発明について、付属の図面を参照しつつ例示的な仕方で以下に説明する。
ａは、例示的な中央集中式のオーディオ会議システムのブロック図であり、ｂは、例示的な分散式のオーディオ会議システムのブロック図である。オーディオ会議システムのシーン・マネージャのための例示的なグラフィカル・ユーザー・インターフェース（GUI）を示す図である。例示的なオーディオ会議シーンを示す図である。例示的なオーディオ会議シーンを示す図である。オーディオ会議シーンの例示的なクラスターを示す図である。

導入部で概説したように、現行の多者オーディオ会議システムは典型的にはオーディオ会議に参加している複数の当事者のオーディオ信号をモノラル・オーディオ信号に重畳してしまい、それが各参加者に対して単一のオーディオ・ストリームとして与えられる。このため、参加者にとって（聞いているとき）、（他の複数の当事者が話しているとき）他の参加者を互いに区別することが難しくなる。本稿では、オーディオ会議の複数の当事者の空間化を許容する多者オーディオ会議システムであって、オーディオ会議の異なる参加者を、二次元（2D）または三次元（3D）オーディオ・シーン内の異なる空間的位置に配置することを許容するものが記述される。結果として、聴取者は、他の参加者を、異なるそれぞれの空間的位置から話しているものとして知覚する。それにより、聴取者は他の参加者をよりよく区別できるようになる。

図１のａは、中央集中式のアーキテクチャをもつ例示的な多者オーディオ会議システム１００を示している。中央集中式の会議サーバー１１０が、複数の上流オーディオ信号１２３をそれぞれの複数の端末１２０から受領する。上流オーディオ信号１２３は典型的にはオーディオ・ストリーム、たとえばビットストリームとして伝送される。例として、上流オーディオ信号１２３はG.711、G722.2（AMR-WB）、MPEG2またはMPEG4オーディオ・ビットストリームとしてエンコードされてもよい。典型的には、上流オーディオ信号１２３はモノ・オーディオ信号である。よって、中央集中式会議サーバー１１０（たとえば会議サーバー１１０内に含まれる諸オーディオ・サーバー１１２）は、（上流オーディオ信号１２３を表わす）上流オーディオ・ストリームをデコードし、上流オーディオ・ストリームに付随する任意的なメタデータを抽出するよう構成されていてもよい。

会議サーバー１１０はたとえば、遠隔通信ネットワーク内のオーディオ会議サービス・プロバイダーのアプリケーション・サーバーであってもよい。端末１２０はたとえば、ラップトップ・コンピュータ、デスクトップ・コンピュータ、タブレット・コンピュータおよび／またはスマートフォンといったコンピューティング装置や、携帯電話、コードレス電話、デスクトップ・ハンドセットなどといった電話であってもよい。会議サーバー１１０は、オーディオ会議への／からの複数の上流オーディオ信号１２３を組み合わせるよう構成されている中央会議コントローラ１１１を有する。中央会議コントローラ１１１は、複数の上流オーディオ信号１２３を2Dまたは3D会議シーン内の特定の諸位置に配置し、会議シーン内での前記複数の上流オーディオ信号１２３の配列（すなわち諸位置）に関する情報を生成するよう構成されていてもよい。

さらに、会議サーバー１１０は、それぞれ前記複数の端末１２０のための複数のオーディオ・サーバー１１２を有する。前記複数のオーディオ・サーバー１１２は単一のコンピューティング装置／デジタル信号プロセッサ内に設けられてもよいことを注意しておくべきである。複数のオーディオ・サーバー１１２はたとえば、それぞれの複数の端末１２０のためのオーディオ信号にサービスするための、前記サーバー内の専用の処理モジュールまたは専用のソフトウェア・スレッドであってもよい。よって、オーディオ・サーバー１１２は、それぞれの端末１２０の必要性に従ってオーディオ信号を処理する「論理的な」エンティティであってもよい。オーディオ・サーバー１１２（または組み合わされたサーバー内の等価な処理モジュールまたはスレッド）は（たとえばオーディオ・ストリームの形の）複数の上流オーディオ信号１２３の一部または全部ならびに会議シーン内での前記複数の上流オーディオ信号１２３の配列に関する前記情報を受領する。会議シーン内での前記複数の上流オーディオ信号１２３の配列に関する前記情報は、典型的には、会議コントローラ１１１によって与えられる。それにより会議コントローラ１１１はオーディオ・サーバー１１２（または処理モジュール／スレッド）に、オーディオ信号をどのように処理すべきかについて通知する。この情報を使って、オーディオ・サーバー１１２は、一組の下流オーディオ信号１２４および対応するメタデータを生成し、それが、それぞれの端末１２０に伝送される。それぞれの端末１２０が参加者のオーディオ信号を、会議コントローラ１１１内で確立された会議シーンに従ってレンダリングできるようにするためである。前記一組の下流オーディオ信号１２４は典型的には、一組の下流オーディオ・ストリーム、たとえばビットストリームとして伝送される。例として、前記一組の下流オーディオ信号１２４は、G.711、G722.2（AMR-WB）、MPEG2またはMPEG4または独自のオーディオ・ビットストリームとしてエンコードされてもよい。会議シーン内の下流オーディオ信号１２４の配置に関する前記情報は、たとえば前記一組の下流オーディオ・ストリーム内で、メタデータとしてエンコードされてもよい。よって、会議サーバー１１０（特にオーディオ・サーバー１１２）は、前記一組の下流オーディオ信号１２４を、端末１２０において会議シーンをレンダリングするためのメタデータを含む一組の下流オーディオ・ストリームにエンコードするよう構成されていてもよい。メタデータは別個のストリームとして、たとえば下流オーディオ・ストリームとの同期のためのタイムスタンプとともに、端末１２０に送られてもよいことは注意しておくべきである。これは、メタデータを必要としないまたはどのようにメタデータをデコードすべきかを知らない端末１２０でも基本的な下流オーディオ・ストリームを処理できる（そしてオーディオ信号を端末１２０のところにいる聴取者に対してレンダリングできる）ということを意味する。換言すれば、前記一組の下流オーディオ信号１２４および前記メタデータは、2Dまたは3D会議シーンのレンダリングに対応していない端末１２０でも（たとえば混合形式の）下流オーディオ信号をレンダリングするために使用されうるよう、後方互換な仕方でエンコードされてもよい。

よって、オーディオ・サーバー１１２は、複数の下流オーディオ・ストリームおよび／または複数の下流オーディオ信号ならびに会議シーンを記述するメタデータを生成するために、複数の上流オーディオ・ストリームおよび／または複数の上流オーディオ信号の（たとえばデジタル信号プロセッサを使った）実際の信号処理を実行するよう構成されていてもよい。オーディオ・サーバー１１２は、（図１のａに示されるように）対応する端末１２０の専用であってもよい。あるいはまた、オーディオ・サーバー１１２は、複数の端末１２０のために、たとえば全部の端末１２０のために信号処理を実行するよう構成されていてもよい。

端末１２０の上流オーディオ信号１２３は、端末１２０のところで話している、たとえば端末１２０のマイクロホンに話している会議参加者によって生成されるオーディオ信号を含むので、語り手オーディオ信号１２３と称されてもよいことを注意しておくべきである。同様に、端末１２０に送られる一組の下流のオーディオ信号１２４は、一組の聞き手オーディオ信号１２４と称されてもよい。該組１２４は、端末１２０のところにいる参加者がたとえばヘッドホンまたはラウドスピーカーを使って聞く複数のオーディオ信号を含むからである。

ある特定の端末のための一組の下流オーディオ信号１２４は、前記複数の上流オーディオ信号１２３から中央会議コントローラ１１１およびオーディオ・サーバー１１２、たとえばその特定の端末１２０のためのオーディオ・サーバー１１２（または処理モジュールまたはソフトウェア・スレッド）を使って生成される。中央会議コントローラ１１１およびオーディオ・サーバー１１２は、その特定の端末１２０のところにいる会議参加者によって知覚されるべきように2Dまたは3D会議シーンの像を生成する。オーディオ会議のM人の参加者がいれば、すなわち会議サーバー１１０に接続されたM個の端末１２０があれば、会議サーバー１１０は、(M−1)個の上流オーディオ信号１２３のグループM個を、M個の2Dまたは3D会議シーン内に配列するよう構成されていてもよい（MはM＞2である整数であり、たとえばM＞3,4,5,6,7,8,9,10）。より精密には、会議サーバー１１０は、M個の端末１２０についてM個の会議シーンを生成するよう構成されていてもよい。ここで、各端末１２０について、残りの(M−1)個の他の上流オーディオ信号１２３が2Dまたは3D会議シーン内に配列される。

例として、会議サーバー１１０は、2Dまたは3Dの空間的配列内でのM人の会議参加者の配列を記述するマスター会議シーンを利用してもよい。会議サーバー１１０は、M人の会議参加者について（すなわち、M人の会議参加者それぞれのM個の端末１２０について）マスター会議シーンの異なる観点を生成するよう構成されていてもよい。そうすることによって、会議参加者全員が、他の会議参加者がどこに配置されているかの同じ相対的なビューをもつことが保証できる。これは、M人の会議参加者が「テーブルのまわりに」（たとえば円）位置されている場合およびM個の「個々の」会議シーンにおける聴取者が「テーブル」の端に（たとえばその円上に）位置されている場合に特にそうである。

もう一つの例として、会議サーバー１１０は、会議シーンへの会議参加者の逐次的な到着に従って会議シーンの語り手位置を割り当ててもよい。語り手位置は、本稿で記述されるように、最も内側の語り手位置から最も外側の語り手位置へと割り当てられてもよい。そのような逐次順の結果、会議参加者は、異なる聴取者のために予定されている諸会議シーン内で、同じ語り手位置に配置されうる。会議サーバーは、計算量を節約するために、諸会議シーンのこの類似性（または同一性）を利用してもよい。

さらなる例では、会議サーバー１１０は、M人の会議参加者全員について単一の会議シーンを利用し、M人の会議参加者全員を単一の会議シーン内のあらかじめ決定された語り手位置に配置してもよい。そのような場合、M人の会議参加者全員は同じ2Dまたは3D会議シーンを知覚することになる。特定の端末１２０にその単一の会議シーンを提供するとき（特定の会議参加者が聴取者となる）、その特定の会議参加者の語り手位置は空のままにされてもよい。この例は、会議サーバー１１０による単一の会議シーンの管理を要求するだけなので、実装するのが効率的でありうる。

M個の会議シーンは典型的には、M人の参加者が会議シーンの中心内に配置されるという点で異なっている。例として、第一の端末１２０のための会議シーンは典型的には、第一の端末１２０がその会議シーンの中心にあり、他の(M−1)個の端末が第一の端末１２０のまわりに配置されると想定する。よって、第一の端末１２０についてのオーディオ・サーバー１１２は、第一の端末１２０からの上流オーディオ信号１２３以外の(M−1)個の上流オーディオ信号１２３から、(M−1)個までの下流オーディオ信号１２４の組（および対応するメタデータ）を生成する。下流オーディオ信号１２４のこの端末固有の組は、第一の端末１２０についての会議シーンを記述する。ここで、第一の端末１２０は典型的にはその会議シーンの中心位置に配置される。同様に、他の端末１２０について下流オーディオ信号１２４の組が生成される。

ある実施形態では、中央会議コントローラ１１１はオーディオ会議の制御を受け持つ。ここで、諸オーディオ・サーバー１１２が上流オーディオ信号１２３を操作し、それらの対応する端末１２０のための下流オーディオ信号１２４の諸組を、中央会議コントローラ１１１の制御のもとで、生成する。例として、中央会議コントローラ１１１は、ベアラー情報（すなわち、上流オーディオ信号１２３内の実際のオーディオ・データ）を処理しなくてもよく、信号伝達情報（たとえば、呼び出される当事者および呼び出し側当事者のアドレッシング情報、端末１２０の機能など）を処理してもよい。中央会議コントローラ１１１は、オーディオ会議をセットアップするためにその信号伝達情報を使ってもよい。上流オーディオ信号１２３の実際の混合、下流オーディオ信号１２４の組の生成、端末固有の会議シーンを定義する適切なメタデータの生成およびオーディオ・ビットストリームからの／へのオーディオ信号のデコード／エンコードは、オーディオ・サーバー１１２によって、たとえばデジタル信号プロセッサを使って処理されてもよい。

端末１２０は、下流オーディオ信号１２４の端末固有の組（および対応するメタデータ）を受領し、該下流オーディオ信号１２４の組をオーディオ・トランシーバ１２２（たとえば、ヘッドホンまたはラウドスピーカー）を介してレンダリングする。この目的のために、端末１２０（たとえば、端末１２０内に含まれるオーディオ処理ユニット１２１）が、下流オーディオ信号および対応するメタデータを抽出するために、下流オーディオ・ビットストリームの組をデコードするよう構成されていてもよい。さらに、オーディオ処理ユニット１２１は、オーディオ・トランシーバ１２２によってレンダリングするための混合バイノーラル・オーディオ信号を生成するよう構成されていてもよい。ここで、混合バイノーラル・オーディオ信号は、この端末１２０について会議サーバー１１０においてデザインされた端末固有の会議シーンを反映する。換言すれば、オーディオ処理ユニット１２１は、受領されたメタデータを解析し、下流オーディオ信号１２４の受領された組を端末固有の会議シーン中に配置するよう構成されていてもよい。結果として、会議参加者はバイノーラル・オーディオ信号を知覚し、該バイノーラル・オーディオ信号は端末１２０における会議参加者に、他の参加者が会議シーン内の特定の諸位置に配置されているという印象を与える。

下流オーディオ信号１２４のそれぞれについてのバイノーラル・オーディオ信号の生成は、立体音響化アルゴリズムを通じて（モノ）下流オーディオ信号を処理することによって実行されてもよい。そのようなアルゴリズムは、左および右耳信号を与えるために、一対の頭部伝達関数（HRTF）を使ってその下流オーディオ信号のサンプルをフィルタリングすることであることができる。HRTFは、空間中の特定の位置に位置された（下流オーディオ信号の）音源と聴取者の耳との間で自然に生起したであろうフィルタリングを記述する。HRTFは、両耳間時間差、両耳間レベル差およびスペクトル手がかりといった、音のバイノーラル・レンダリングのためのあらゆる手がかりを含む。HRTFは、音源の位置に（すなわち、下流オーディオ信号の語り手位置に）依存する。会議シーン内の各特定の位置について、HRTFの異なる固有の対が使われてもよい。あるいはまた、特定の位置についてのフィルタリング特性は、HRTFが利用可能な隣り合う位置の間の補間によって生成されることができる。よって、端末１２０は、下流オーディオ信号の語り手位置を、付随するメタデータから識別するよう構成されていてもよい。さらに、端末１２０は、識別された語り手位置について適切なHRTFの対を決定するよう構成されていてもよい。さらに、端末１２０は、下流オーディオ信号にHRTFの対を適用し、それにより識別された語り手位置から到来するものとして知覚されるバイノーラル・オーディオ信号を与えるよう構成されていてもよい。端末１２０が下流オーディオ信号１２３の組内の二つ以上の下流オーディオ信号を受領する場合、上記の処理は、それらの下流オーディオ信号のそれぞれについて実行されてもよく、結果として得られるバイノーラル信号が重畳されて組み合わされたバイノーラル信号を与えてもよい。

混合バイノーラル・オーディオ信号の生成の代わりにまたはそれに加えて、端末１２０（たとえばオーディオ処理ユニット１２１）は、適切に配置されたラウドスピーカー１２２を使って端末１２０においてレンダリングされうるサラウンドサウンド（たとえば5.1または7.1サラウンドサウンド）信号を生成するよう構成されていてもよい。さらに、端末１２０は、モノ・ラウドスピーカー１２２を使ってレンダリングするために、下流オーディオ信号１２４の組から混合オーディオ信号を生成するよう構成されていてもよい。

単一の混合されたオーディオ信号が会議サーバーから端末に伝送される通常のモノラル・オーディオ会議システムとは対照的に、図１のａのオーディオ会議システム１００では、(M−1)個までの下流オーディオ信号１２４の組および対応するメタデータが、会議サーバー１１０から各端末１２０に（たとえばビットストリームとして）伝送される。基礎になる通信ネットワークの帯域幅制限に鑑み、下流オーディオ信号１２４の組内で伝送されるオーディオ信号（たとえばビットストリーム）の数を制限することが有益であることがある。以下では、Nは特定の端末１２０についての下流オーディオ信号１２４の組内の下流オーディオ信号１２４の数であるとする。ここで、Nは整数で、たとえばN＜Mである。Nは端末１２０および／または端末１２０と会議サーバー１１０との間の通信ネットワークに依存してもよいことを注意しておくべきである。すなわち、Nは、異なる端末１２０については異なっていてもよい。例として、端末１２０は会議サーバー１１０に無線ネットワークを介して接続される携帯電話であってもよい。そのような場合、その携帯電話に送信するための比較的少数、たとえばN＝1の下流オーディオ信号を選択する、あるいは下流のオーディオ・ストリームを生成するために使われるコーデックのパラメータを変更することが有益であることがある。

上記で概説したように、会議サーバー１１０は、2Dまたは3D会議シーン内に配置されるM個までの上流オーディオ信号１２３を受領する。会議サーバー１１０は、複数の一連の時点において（および／または複数の一連のフレームにおいて）M個の上流オーディオ信号１２３の語り手活動の度合いを決定および解析してもよい。上流オーディオ信号の語り手活動の度合いは、上流オーディオ信号のエネルギー（たとえば平均平方エネルギー）に基づいていてもよい。会議参加者（および対応する上流オーディオ信号）は、（ある特定の時点において）「アクティブな」語り手として（該特定の時点において）「非アクティブな」語り手として分類されうる。この分類は、時点によって変わりうる。会議サーバー１１０は次いで、語り手活動度を考慮に入れることによって、特定の会議参加者についての（すなわち特定の端末１２０についての）下流オーディオ信号１２４の組（および付随するメタデータ）を決定してもよい。下流オーディオ信号１２４の組に挿入される上流オーディオ信号１２３の選択は、時点によって（語り手活動度の関数として）変わりうる。例として、会議サーバー１１０は、下流オーディオ信号１２４の組のために、特定の時点における「アクティブな」語り手の上流オーディオ信号１２３のみを考慮するよう構成されていてもよい。

語り手活動度を考慮に入れる結果として、会議サーバー１１０は、下流オーディオ信号１２４の諸組を種々の端末１２０に送信するための必要とされる帯域幅を軽減するよう構成されていてもよい。単一のアクティブな語り手の場合、下流オーディオ信号１２４の組は、単一のオーディオ信号（すなわち、アクティブな語り手の上流オーディオ信号）を含むだけでもよく、それにより会議サーバー１１０と端末１２０の間の通信リンクに対する帯域幅を著しく軽減しうる。下流オーディオ信号１２４の組はそれでも、アクティブな語り手（単数または複数）の空間位置を示すメタデータを含んでいてもよい（あるいはかかるメタデータに関連付けられていてもよい）。よって、端末１２０はそれでも、アクティブな語り手のオーディオ信号を立体音響化された仕方でレンダリングできるようにされてもよい。メタデータは、語り手活動の変化に伴って、時点によって変わりうる。よって、メタデータは、各時点において、下流オーディオ信号１２４の組内に反映されるアクティブな語り手（単数または複数）の空間配列を示しうる。

帯域幅を軽減するさらなる方策として、源装置から（すなわち、端末１２０から）会議サーバー１１０への不連続的な伝送が使用されてもよい。例として、端末１２０は、端末１２０において記録されたオーディオ信号に基づいて、語り手活動度を決定するよう構成されていてもよい。語り手活動度が低い（たとえば、あらかじめ決定されたエネルギー閾値未満）場合、端末１２０は、端末１２０からサーバー１１０への上流オーディオ信号１２３の伝送を中断し、それにより必要とされる帯域幅を軽減するよう構成されていてもよい。よって、複数の語り手が、会議シーン内の同じ空間的位置に割り当てられてもよいが、それでも、衝突を引き起こすのはそれらの語り手が同時に話す場合のみであろう。

図１のａは、中央集中式のアーキテクチャをもつ2Dまたは3D会議システム１１０を示している。2Dまたは3Dオーディオ会議は、図１のｂの会議システム１５０によって示されるように、分散式のアーキテクチャを使って提供されてもよい。図示した例では、端末１７０は、会議参加者のオーディオ信号を混合する、および／またはオーディオ信号を会議シーン中に配置するよう構成されたローカル会議コントローラ１７５を有する。中央集中式の会議サーバー１１０の中央会議コントローラ１１１と同様に、ローカル会議コントローラ１７５は、会議シーンを生成するために受領されたオーディオ信号の信号伝達情報を解析することに限定されてもよい。オーディオ信号の実際の操作は、別個のオーディオ処理ユニット１７１によって実行されてもよい。

分散式のアーキテクチャでは、端末１７０は、その上流オーディオ信号１７３を（たとえばビットストリームとして）他の参加端末１７０に通信ネットワーク１６０を介して送るよう構成されている。この目的のために、端末１７０は、マルチキャスト方式および／または他の参加端末１７０の直接アドレッシング方式を使ってもよい。よって、M個の参加端末１７０の場合、各端末１７０は、(M−1)個の他の端末１７０の上流オーディオ信号１７３に対応する(M−1)個までの下流オーディオ信号１７４を（たとえばビットストリームとして）受領する。受信端末１７０のローカル会議コントローラ１７５は、受領された下流オーディオ信号１７４を2Dまたは3D会議シーン中に配置するよう構成されている。ここで、受信端末１７０は典型的にはその会議シーンの中央に配置される。受信端末１７０のオーディオ処理ユニット１７１は、受領された下流オーディオ信号１７４から混合バイノーラル信号を生成するよう構成されている。ここで、混合バイノーラル信号は、ローカル会議コントローラ１７５によってデザインされた2Dまたは3D会議シーンを反映する。混合バイノーラル信号は、その後、オーディオ・トランシーバ１２２によってレンダリングされる。

中央集中式の会議システム１００および分散式の会議システム１５０は組み合わされてハイブリッド・アーキテクチャーを形成してもよいことを注意しておくべきである。例として、（他のユーザーが端末１２０を使用しうる一方で）端末１７０が会議サーバー１１０との関連で使用されてもよい。ある例示的な実施形態では、端末１７０は下流オーディオ信号１２４の組（および対応するメタデータ）を会議サーバー１１０から受領する。端末１７０内のローカル会議コントローラ１７５は、会議サーバー１１０によって提供される会議シーンをデフォルト・シーンとしてセットアップしてもよい。加えて、端末１７０のユーザーは、会議サーバー１１０によって提供されるデフォルト・シーンを修正することができるようにされてもよい。

代替的または追加的に、会議サーバー１１０のコンポーネントは、たとえばオーディオ会議によって必要とされる帯域幅を軽減するために、ネットワーク内で分散されていてもよい。例として、中央会議コントローラ１１１が第一の位置（たとえば中央位置）に位置されてもよく、オーディオ・サーバー１１２はネットワーク内の一つまたは複数の他の位置に位置されてもよい。これは、オーディオ会議を扱うために必要とされる全体的なネットワーク容量を軽減する諸オーディオ・サーバー１１２の位置を選択するために有益であることがある。オーディオ会議の参加端末１２０の地域的分布に基づいてオーディオ・サーバー１１２を配置することがたとえば有益であることもある。オーディオ・サーバー１１２と中央会議コントローラ１１１との間の通信は、（実際のオーディオ・データを交換する必要なしに）信号伝達情報に限定されてもよい。

以下では、中央集中式の会議システム１００を参照する。しかしながら、本開示は分散式のアーキテクチャ１５０および任意のハイブリッド形式の会議システムにも適用可能であることを注意しておくべきである。

図２は、会議サーバー１１０および／または端末１２０において提供されてもよい会議シーンのグラフィカル・ユーザー・インターフェース（GUI）２００を示している。端末１２０において提供される場合、GUI ２００は、参加者が、端末１２０において知覚される会議シーンを修正できるようにしてもよい。ある実施形態では、GUI ２００は、オーディオ会議の司会者が、会議参加者を会議シーン内に配置できるようにする。GUI ２００は、オーディオ会議の参加者２０１を示してもよい。参加者２０１は、下流オーディオ信号の組内に含まれるオーディオ信号の発生元に対応してもよい。よって、GUI ２００は、(M−1)人までの参加者２０１を示してもよい。さらに、GUI ２００は、会議シーン２１０を示してもよい。図２では、2D（二次元）会議シーンが、たとえば円として示されている。GUI ２００は3D（三次元）会議シーンをたとえば球として示すよう適応されてもよいことを注意しておくべきである。聴取者２１１（すなわち、下流オーディオ信号１２４の端末固有の組を受領する端末１２０）は、デフォルトでシーン２１０の中心に配置されてもよい。GUI ２００は、聴取者２１１の位置の修正を許容するよう構成されていてもよい。さらに、GUI ２００は（図２において白丸２１２として示されている）複数の語り手位置２１２を提供する。複数の語り手位置２１２はあらかじめ決定されていてもよく、あるいはGUI ２００のユーザーによって選択されてもよい。語り手位置２１２は、会議参加者２０１の一つまたは複数に割り当てられてもよい。これは、（たとえば下流オーディオ信号１２４の組と一緒に受領されるメタデータに基づいて）自動的になされてもよい。代替的または追加的に、GUI ２００は、（たとえば、指示される参加者２０１の語り手位置２１２への「ドラッグアンドドロップ」操作を使って）ユーザー固有の割り当てを許容してもよい。参加者２０１および語り手位置２１２の割り当ては、たとえば、ポップアップ・ウインドー２１３を使って指示されてもよい。さらに、GUI ２００は、（図２では黒丸２１４で示されている）追加的な音位置２１４を指示および／または修正することを許容してもよい。そのような音位置２１４は、参加者のオーディオ信号（典型的には声の信号）以外の音、たとえば会議通知および／または音楽をレンダリングするために使われてもよい。

会議システム１００は、複数の配置ルールの一つまたは複数に基づいて会議シーン２１０の語り手位置２１２を自動的に決定するよう構成されていてもよい。これらの配置ルールは、語り手２０１が会議シーン２１０内の種々の位置２１２に配置され、聴取者２１１についての好まれるレンダリング位置２１２が決定された知覚試験に基づく。これらの知覚上の実験は以下のことを示した。

・聴取者２１１は典型的には、会議における語り手が聴取者２１１の頭部の正面に、好ましくは聴取者の頭部の背後でないところに、立体音響化されることを好む。

・より精密には、聴取者２１１は典型的には、語り手２０１が聴取者の頭部の正面の、聴取者２１１の正面の中心線２１５から約−30°ないし30°以内の円錐内に、好ましくはより狭い円錐内に、すなわち中心線２１５から±30°より小さな角度によって定義される円錐内に配置されることを好む。聴取者２１１にとって、語り手２０１に長い間傾聴することは、該語り手が大きく偏ったところに、たとえば中心線２１５から20°よりも著しく大きな角度のところに配置される場合には、快適ではないことがあることが観察された。よって、語り手位置２１２が聴取者２１１の頭部の前方の円錐内に位置されるよう語り手位置２１２を選択することが有益でありうる。円錐は、該円錐の中心軸２１５と該円錐の母線２１６との間の角度があらかじめ決定された最大円錐角、たとえば15°、20°または30°より小さいようなものであってもよい。本稿で言及される角度は、聴取者２１１の頭部の前方における中心線２１５に対する角度をいう。負の角度は、反時計方向の角度を指し、正の角度は中心線２１５から時計方向の角度を指す。

・語り手２０１を互いから分離する能力は、典型的にはいくらかの角度分離を必要とし、語り手識別および了解性を補助するためには約5°以上の角度の角度分離を必要とする。よって、二つの隣り合う語り手位置２１２の間の角度分離がたとえば5°の最小角距離より大きいように語り手位置２１２を選択することが有益であることがある。

・中央線２１５（中心線とも称される）のまわりの完全に対称的なレンダリングは好まれない。その理由は、対称的なレンダリングは、時に、たとえば中央線２１５に対して対称的な点２１２に配置された二人の語り手２０１の間で会話が起こるときに、聴取者２１１の真正面での像形成効果につながることがあるということである。よって、語り手位置２１２を中心線２１５に対して非対称な仕方で配列することが有益であることがある。

・非対称なレンダリングは、オーディオ会議に加わる追加的な参加者２０１のためにシーン２１０に語り手２０１が追加されるときに比較的「均衡した」シーン２１０を与えるというさらなる利点をもつ。例として、中央線２１５のまわりに対称的な仕方で配列された最大6個のあらかじめ定義された語り手位置２１２を含むデフォルト会議シーン２１０は、1、3または5の語り手２０１だけがシーン内に配置される場合（すなわち、6個のあらかじめ定義された語り手位置がまだ実際の語り手２０１で満たされていないとき）には、中央線２１５を横断して著しく不均衡である。

上述したルールの一部または全部が、デフォルト語り手位置２１２をもつデフォルト・シーン２１０を定義するために使われてもよい。さらに、これらのルールの一部または全部が、自動シーン・マネージャ（たとえば、中央会議コントローラ１１１および／またはローカル会議コントローラ１７５によって具現される）の決定論的な振る舞いを指定するために使用されてもよい。シーン・マネージャは、参加者２０１が会議シーン２１０にはいるにつれて、参加者２０１を会議シーン２１０中に自動的に配置するよう構成されていてもよい。換言すれば、シーン・マネージャ（中央会議コントローラ１１１および／またはローカル会議コントローラ１７５上で実行される）は、新しい会議参加者２０１の語り手位置２１２を、デフォルト会議シーン２１０に基づいてかつ会議シーン２１０内ですでに配置されている参加者２０１に基づいて、自動的に決定するよう構成されていてもよい。

以下では、例示的な三点シーン・マネージャ（デフォルトの三点会議シーンに分布させる）および例示的な六点シーン・マネージャ（デフォルトの六点会議シーンに分布させる）が記述される。本稿で記述される配置ルールを使って、一般的なX点シーンおよび対応するX点シーン・マネージャが規定されうることを注意しておくべきである（Xは整数で、X=1,2,3,4,5,6,7,8,9,10などであり、異なる空間位置に配置されるM人の会議参加者がいる会議についてはたとえばX＝M−1）。

図３ａは、例示的な三点シーン３００を示しており、中央語り手位置３０３が中央線３０１から2°オフセットされ、両側の対である語り手位置３０２、３０４は中心語り手位置３０３からそれぞれ±8°オフセットされている。図示した例では、各音源、すなわち各語り手位置３０２、３０３、３０４は、聴取者２１１から同じ知覚される動径方向距離をもつ。

より一般的な表現では、三点シーンは以下の特性をもつ。

・三点シーンのある好ましい実装では、会議参加者２０１は三つの固定した語り手位置３０２、３０３、３０４の一つに割り当てられる。会議参加者２０１が割り当てられる実際の語り手位置は、会議参加者２０１がオーディオ会議に加わる逐次順に依存してもよい。

・中心語り手位置３０３（シーンの中心点）は、シーン３００の中央線３０１のまわりの−5°ないし5°の中心角のところに配置される。好ましい実装は、中心角0°のところではなく、中心角1°ないし5°または−1°ないし−5°のところである。中心語り手位置３００を中央線３０１から外れた位置にする結果として、全体的な会議シーンが中央線３０１に対して非対称的になりうる。

・シーンの他の二つの点（すなわち、他の語り手位置３０２、３０３）は、−30°から30°の間に任意のところで当人の正面の円錐内に配置されることができる。他の語り手位置３０２、３０３の好ましい実装は−15°から15°の間の円錐内である。

・他の二つの語り手位置３０２、３０３は、中心語り手位置３０３のそれぞれの側に配置され、語り手位置３０２、３０３の中心点から少なくとも5°の角度だけ離間されるべきである。

・語り手位置の好ましい間隔は、中央線３０１に対して非対称であるべきである。これは、他の語り手位置３０２、３０４を中心点３０３に対して対称的な仕方で配置することによって達成できる（中心点３０３が0°に配置されているのではないとして）。

図３ｂは、例示的な六点シーン３１０を示しており、各語り手２０１は互いに5°離間され、シーン３１０全体は中央線３０１に対して固定角2°だけ回転されている。換言すれば、六点シーン３１０の語り手位置３１１、３１２、３１３、３１４、３１５、３１６は2°の角度だけ回転された中央線に対して対称的である。各音源、すなわち各語り手位置３１１、３１２、３１３、４１４、３１５、３１６は、聴取者２１１から同じ知覚される動径方向距離をもつ。六点シーン３１０は語り手が、六つの異なる固定点３１１、３１２、３１３、３１４、３１５、３１６に割り当てられることを許容する。本稿で与えられる配置ルールを使って六点シーン３１０の他の構成が指定されてもよいことを注意しておくべきである。

図３ａおよび図３ｂは、語り手位置が互いから固定角だけ離間して配置され、語り手位置の配列が中央線３０１から固定角だけ回転されているシーン３００、３１０を示している。しかしながら、最小角がある最小の好ましい角またはある最小の角距離、たとえば5°より大きい限り、語り手位置は互いから固定角のところに配置される必要はないことを注意しておくべきである。また、隣り合う語り手位置の間の動径方向距離は、追加的な距離手がかりを与えるために変化してもよい。

シーン・マネージャ（たとえば、中央またはローカル会議コントローラ）は、各語り手が会議にはいる際に語り手を会議シーンに配置するために、あらかじめ決定されたX点シーン（たとえば、それぞれ図３ａおよび図３ｂに示した三点シーン３００および／または六点シーン３１０）を使ってもよい。合計M人の会議参加者をもつ会議について、M人の会議参加者のそれぞれが異なる語り手位置に割り当てられうるよう、X＝(M−1)のX点シーンが使われてもよい。

典型的には、オーディオ会議における語り手の実際の数は、会議が始まるときには既知ではない。よって、シーン・マネージャは、会議参加者がコールしてきたときにあらかじめ決定されたX点シーンに会議参加者を追加するよう構成されていてもよい。特に、シーン・マネージャは、あらかじめ決定されたX点シーン内の特定の位置を加わってくる参加者に割り当てるよう構成されていてもよい。この目的のために、シーン・マネージャは、会議参加者をあらかじめ決定されたX点シーン中に追加する（または除去する）ための一組のルールを使ってもよい。例示的な配置ルールは次のようなものであってもよい：
・新たな会議参加者を、X点シーンの中央線３０１にできるだけ近い利用可能な語り手位置に配置する；
・X点シーンの中央線３０１に対するおよび／またはX点シーンの中心位置３０３に対する、割り当てられた語り手位置の最大限の均衡を保証する；
・X点シーンを去った会議参加者によって空にされた空の語り手位置を充填する。

上述した配置ルールは、新たな参加者をX点シーンに配置するために、単独でまたは組み合わせて使用されうる。よって、新たな参加者はX点シーンの内側の諸点から外向きに、および／またはX点シーンの中心の語り手位置３０３またはシーンの中央線３０１のまわりの均衡を最大にするような仕方で、会議シーンに追加されてもよい。会議シーン内の語り手の数(M−1)がX点シーンの語り手位置の数Xを超える場合は、シーン・マネージャは複数の語り手を同じ語り手位置に割り当てるよう構成されていてもよい。図３ａに示される三点シーン３００については、上流の参加者はシーン・マネージャによって次のように配置されることができる：
・参加者１：−2°のところに（すなわち語り手位置３０３に）配置、
・参加者２：6°のところに（すなわち語り手位置３０４に）配置、
・参加者３：−10°のところに（すなわち語り手位置３０２に）配置、
・参加者４：−2°のところに（すなわち語り手位置３０３に）配置、
・参加者５：6°のところに（すなわち語り手位置３０４に）配置、
・以下同様。

本稿では、角度の値は記号「°」、用語「度」または可能性としては両方によって表わされることを注意しておく。六点シーン３１０については、新たな会議参加者は次のようにシーンに加わることができる（図３ｂを参照として使う）。
・参加者１：−2°のところに（すなわち語り手位置３１３に）配置、
・参加者２：3°のところに（すなわち語り手位置３１４に）配置、
・参加者３：−7°のところに（すなわち語り手位置３１２に）配置、
・参加者４：8°のところに（すなわち語り手位置３１５に）配置、
・参加者５：−12°のところに（すなわち語り手位置３１１に）配置、
・参加者６：13°のところに（すなわち語り手位置３１６に）配置、
・参加者７：−2°のところに（すなわち語り手位置３１３に）配置、
・以下同様。

聴取者２１１が異なる語り手位置３１１、３１２、３１３、３１４、３１５、３１６に配置された異なる参加者を区別する能力に関して特に良好な性質をもつことが示された特定の六点シーン３１０は、語り手位置３１１、３１２、３１３、３１４、３１５、３１６について以下の角度を利用する。この特定の六点シーンは、隣り合う語り手位置の間の最小離間の制約条件を満たし、±20°の円錐内に留まり、中央線３０１に対してわずかに非対称である：
・語り手位置３１４（たとえば第一の参加者について）は中央線３０１から2°のところ；
・語り手位置３１３（たとえば第二の参加者について）は中央線３０１から−5°のところ；
・語り手位置３１５（たとえば第三の参加者について）は中央線３０１から9°のところ；
・語り手位置３１２（たとえば第四の参加者について）は中央線３０１から−12°のところ；
・語り手位置３１６（たとえば第五の参加者について）は中央線３０１から16°のところ；
・語り手位置３１１（たとえば第六の参加者について）は中央線３０１から−19°のところ；
デフォルト・シーンの上述した記述は、例示的な三点および例示的な六点シーン３００、３１０に限られていた。二点シーン・マネージャから(M−1)点シーンまで（M人の参加者の会議の場合）、シーン内の点の他の数も可能であることを注意しておくべきである。シーン内の点の数は典型的には、本稿に記述されるデザインおよび配置ルールによって制限されるのみである。さらに、角度の指示された値は単に例であることを注意しておくべきである。選択される角度値は±1度または±2度だけ変化してもよい。よって、本稿に記述される角度値は近似的な指示として理解されるべきである。

（語り手の数(M−1)が語り手位置の数Xを超えるために）同じ語り手位置に複数の語り手を割り当てることの代わりにまたはそれに加えて、シーン・マネージャは、会議シーンをより多数の語り手位置をもつ会議シーンに（たとえば三点シーンから六点シーンに）アップグレードするよう構成されていてもよい。例として、シーン・マネージャ（たとえば会議サーバー１１０）は、（端末１２０の一つに位置している）オーディオ会議のまとめ役に、会議シーンがアップグレードされるべきかどうかを促してもよい。承認されたら、シーン・マネージャは会議参加者をアップグレードされた会議シーンに移してもよい。こうすることにより、会議シーンのサイズが会議参加者の実際の数に合わせて柔軟に適応できる。さらに、種々のサイズをもつ会議シーンが会議サービス・プロバイダーによって、付加価値サービスとして提供されてもよい。

会議シーン内での語り手の水平方向の分布の代わりにまたはそれに加えて、会議シーンは、特にエンドポイントが3Dレンダリングの機能をもつ場合、垂直方向に拡張されてもよいことを注意しておくべきである。たとえば、異なる語り手位置の間で同じ方位角の角度離間が、ただしたとえば10度の仰角離間をもって使われてもよい。このようにして、語り手の複数の層を作り出すことができ、それによりさらに会議内の異なる語り手の空間的な分離の可能性を高める。より一般的な表現では、会議シーン内の複数の語り手位置は方位角φ（聴取者２１１の頭部の前方の、中央線２１５を含む水平面での）および傾斜角θ（聴取者の頭部の前方の、中央線２１５を含む鉛直面内での）によって記述されてもよい。会議シーンは複数列の語り手位置を有していてもよく（列内の各語り手位置は異なる方位角φおよび同じ傾斜角θによって記述される）、各列は異なる傾斜角θに位置される。

以下では、オーディオ会議のための必要とされるネットワーク資源を軽減するためのさまざまな方式が概説される。上記で論じたように、本稿で記述されるオーディオ会議システムは、オーディオ会議の端末１２０における会議シーンのバイノーラル・レンダリング（またはマルチチャネル・レンダリング）を許容することに向けられる。バイノーラル・レンダリングは、2Dまたは3D空間内の会議シーンにおける語り手の配置を許容するべきである。これは、二つの（モノ）オーディオ信号を単一の（モノ）信号に混合する（すなわち加算する）こと（これは二つのオーディオ信号の空間的分離は許容しない）とは対照的である。会議シーンにおける語り手のバイノーラル・レンダリングは、会議システム内のさまざまな位置において実装されることができる。図１のａの例示的な会議システム１００は、中央集中式の会議サーバー１１０を利用し、該サーバー１１０は、特定の会議シーンを形成するために、下流オーディオ信号１２４の対応する組がどのように組み合わされるべきかを指定するメタデータを生成する。その特定の会議シーンを反映するバイノーラル信号がそれぞれの端末１２０において決定され、それによりバイノーラル・レンダリングが端末１２０（エンドポイントとも称される）におけるオーディオ・トランシーバ１２２のレンダリング特性に柔軟に適応することを許容する。典型的には、バイノーラル信号の生成は、下流オーディオ信号１２４の組に基づきかつメタデータ内に含まれる配置情報に基づく。さらに、バイノーラル信号の生成は、オーディオ・トランシーバ１２２（たとえばラウドスピーカーまたはヘッドホン）の型に依存してもよい。中央集中式の会議サーバー１１０は、端末１２０において使用されるオーディオ・トランシーバ１２２の型を知らなくてもよく、したがって、バイノーラル信号の生成を端末１２０において実行することが有益であることがある。

例として、エンドポイント１２０はオーディオ会議の間に動的に適応する必要があることがある。たとえば、エンドポイント１２０における聴取者２１１は、バイノーラル・ヘッドセットを使うことによってオーディオ会議を開始してもよい。のちの段階になって、その部屋において聴取者２１１に第二の会議参加者が加わってもよく、よって二人とも参加できるよう彼らはバイノーラル・ヘッドセットを切断してエンドポイント・ラウドスピーカーおよびマイクロホンを使う。結果として、会議シーンのレンダリングは、ヘッドホンからラウドスピーカーに切り換えるために、適応される必要がある。よって、エンドポイント１２０は、2Dまたは3D会議シーンのレンダリングを、エンドポイント１２０において使用されるオーディオ・トランシーバ１２２に適応させるよう構成されていてもよい。

よって、(M−1)個までの個々の下流オーディオ信号（オーディオ会議内の(M−1)人の語り手に対応）および関連付けられたメタデータを端末１２０に送信することが有益であることがある。会議シーンがX個の語り手位置に制限されている場合、複数の語り手が同じ語り手位置に割り当てられたことがありうる。同じ語り手位置に割り当てられた語り手のオーディオ信号は、それぞれの語り手位置についての下流オーディオ信号を形成するよう、混合されてもよい。よって、X個までの下流オーディオ信号（X点会議シーンのX個の語り手位置に対応）の組および関連付けられたメタデータが端末１２０に送られてもよい。端末１２０は、下流オーディオ信号の組および関連付けられたメタデータを使って、2Dまたは3DのX点会議シーンをレンダリングするよう構成されていてもよい。さらに、端末１２０（たとえば端末１７０）は、ローカル会議コントローラ１７５を使って会議シーンを修正する（たとえば、語り手および語り手位置を入れ替える、会議シーンをシフトさせるなど）よう構成されていてもよい。しかしながら、端末１２０がX点会議シーンのバイノーラルまたは多チャネル・レンダリングを実行できるようにするために、X個までの個々の下流オーディオ信号の組および関連付けられたメタデータが端末１２０に伝送される必要がある。

あるいはまた、端末１２０のためのバイノーラル信号は、会議サーバー１１０において生成されてもよい。これは、会議サーバー１１０と端末１２０との間のリンク上での必要とされる帯域幅に関して有益であることがある。バイノーラル信号（すなわちステレオ信号）の送信は、(M−1)個までの下流オーディオ信号の組および対応するメタデータ（これは典型的にはビットストリーム、たとえばG.711、G722.2（AMR-WB: Adaptive Multi-Rate-Wide Band［適応マルチレート‐ワイドバンド］）、MPEG2またはMPEG4ビットストリームの形で送信される）の送信よりも、必要とされる帯域幅が少ないことがあるからである。他方、会議サーバー１１０においてバイノーラル信号を生成すると、宛先端末１２０において使用されるオーディオ・トランシーバ１２２に関しておよび／または宛先端末１２０（聴取者端末１２０とも称される）における会議シーンの操作に関して許容される柔軟性が低くなる。

（図１のａおよびｂのコンテキストにおいて概説したように）端末１２０においてバイノーラル信号の生成を実行するとき、下流オーディオ信号１２４の組のオーディオ信号の数は、最大N個の同時アクティブ・オーディオ信号に制限されてもよい（ここで、Nは参加者の数Mより小さく、たとえばN＜M−1であるおよび／またはNはX点シーン内の語り手位置の数Xより小さく、すなわちN＜Xである）。これは、会議サーバー１１０と端末１２０との間のリンクに対する帯域幅制限のためであってもよい。換言すれば、サーバー１１０とエンドポイント１２０との間の帯域幅を制限するために、サーバー１１０からエンドポイント１２０に送られる同時のアクティブなストリーム（すなわちオーディオ信号）の最大数を制限する必要があることがある。このように、たとえ会議参加者２０１が会議シーン２１０内で(M−1)個の離散的な点１２１に配置されたとしても（たとえばM＝7）、たとえ(M−1)点シーン３１０を実装しているときであっても、エンドポイント１２０に同時に送達されるストリームの数はN、たとえばN＝1,2または3個の同時のアクティブなストリームに制限されてもよい。たとえば、同時のアクティブなストリームの最大数Nは、多者会議の知覚的に快いレンダリングを提供しながら、サーバー１１０とエンドポイント１２０との間の必要とされる帯域幅を制限するために選択されてもよい。N＝1の場合、一つの下流オーディオ信号１２４だけが（たとえばオーディオ・ストリームとして）サーバー１１０からエンドポイント１２０に送られ、レンダリングまたは混合はサーバー１１０において実行されてもよい。この場合、端末１２０におけるレンダリングはモノ出力に制限されてもよい。N＝2については、最大二つの同時のオーディオ信号１２４が（たとえばオーディオ・ストリームとして）サーバー１１０からエンドポイント１２０にレンダリングのために送られてもよい。N＝3については、最大三個の同時のオーディオ信号１２４が（たとえばオーディオ・ストリームとして）サーバー１１０からエンドポイント１２０に送られてもよい。上記のそれぞれの場合において、サーバー１１０は、会議内の同時の語り手の数(M−1)があらかじめ定義された最大Nより大きい場合に、いくつかのストリームを混合してもよい。三点または六点シーン３００、３１０についてのある実施形態では、シーン・マネージャは、エンドポイント１２０に送られるストリームの数をN＝3個のストリームに制限するよう構成されていてもよい。換言すれば、下流オーディオ信号の組内のオーディオ信号の数はN＝3に制限されてもよい。

N個の下流オーディオ信号が対応するメタデータとともに提供されてもよいことを注意しておくべきである。よって、端末１２０は、立体音響化された仕方でN個の下流オーディオ信号をレンダリングできるようにされてもよい。例として、たとえN＝1であっても、単一の下流オーディオ信号は、その単一の下流オーディオ信号を2Dまたは3D空間的会議シーンにおいてどこに配置するかを示すメタデータとともに送信されてもよい。単一の語り手のみがアクティブである場合、下流オーディオ信号（単一のアクティブな語り手の上流オーディオ信号に対応する）は、その単一の語り手の語り手位置に配置されることができる。これは、通常のモノ・レンダリング（立体音響化なし）とは異なる。複数の語り手（かつN＝1）の場合にのみ、複数の語り手の単一の下流オーディオ信号への混合のために、複数の語り手の空間的な曖昧さ解消が失われる。

上記で概説したように、会議サーバー１１０は、中央会議コントローラ１１１および複数のオーディオ・サーバー１１２を有していてもよい。会議コントローラ１１１は、会議シーン内の会議参加者の配置を定義するよう構成されていてもよい。さらに、会議コントローラ１１１は、一または複数の会議参加者のオーディオ信号が混合される必要があるかどうか、どのオーディオ信号が混合されるべきかおよび混合操作の優先度を決定するよう構成されていてもよい。換言すれば、会議コントローラ１１１は以下の処理を実行するよう構成されていてもよい。

・一または複数の会議参加者のオーディオ信号を混合する必要性を決定する。この目的のために、会議参加者の数Mと下流オーディオ信号１２４の組内のオーディオ信号の最大数Nが比較されてもよい。

・どのオーディオ信号が混合されるべきかを決定する。このコンテキストにおいて、会議コントローラ１１１は、一つまたは複数の混合ルールを利用してもよい。たとえば、会議シーンの中央線３０１のより近くにレンダリングされている語り手よりも、会議シーン内でより大きな角度に配置されている語り手をより高い優先度をもって混合されるようにすることが好ましいことがありうる。換言すれば、聴取者２１１の前方に配置されている語り手の混合を回避することが有益であることがある。これは、聴取者２１１は典型的には、会議シーン内の動きを、より大きな角度のところで生起する動きに比べて動きが聴取者２１１の真正面で生起する場合に、より観察するという事実のためである。さらに、会議に加わる最初の人々が会議のまとめ役である可能性が高いことが想定されてもよい。上記で概説したように、シーン・マネージャは、会議シーン２１０内の語り手位置２１２を、会議に加わる順に従って、中心位置から外側位置に向かって分布させていくよう構成されていてもよい。よって、会議のまとめ役が中心位置に位置されると想定されてもよく、従って、会議のまとめ役に（他の会議参加者と混合されるリスクがより低い）優先的な分離を提供することが望ましいことがありうる。

・混合された語り手の配置を決定する。この目的のために、会議コントローラ１１１は、一つまたは複数の配置ルールを適用してもよい（たとえば、本稿で記述した一つまたは複数の配置ルール）。換言すれば、会議コントローラ１１１は、混合された語り手が会議シーンのどこに配置されるかのあらかじめ定義された方針を利用してもよい。例として、会議コントローラ１１１は、Xの異なる値をもつ複数のあらかじめ定義されたX点会議シーンを有していてもよい。許容されるオーディオ信号の数Nが、Mを会議参加者の数として、必要とされるオーディオ信号の数(M−1)より小さいことが判別されると、会議コントローラ１１１は、あらかじめ定義されたN点会議シーンに従って混合されたオーディオ信号を配置するよう構成されていてもよい。換言すれば、会議コントローラ１１１は、会議シーンを選択するよう構成されていてもよい。ここで、会議シーン内の語り手位置の数は、端末１２０に個々に送信されることのできるオーディオ信号の数Nに適応されてもよい。

このように、会議コントローラ１１１によって使用される混合方針に対して少なくとも二つの要素がある。これらの要素は、どの語り手が一緒に混合されるかを決定し、混合される語り手についての最終的な空間的位置が会議シーン内のどこにあるかを決定するものである。例として、六点シーンについて、会議コントローラ１１１は、混合のために、隣接して配置された角度（すなわち語り手位置）を同定するよう構成されていてもよい。これは、六点シーンから三点シーンへの低下を許容する（N＝3の場合）。これは、図４において、例示的な六点会議シーン４００において示されている。シーン４００において話している四人の人々しかいない場合、好ましい混合方針は、これらの位置４１０における語り手がアクティブである場合には、オーディオ信号の数を最大数N＝3に減らすために、クラスター１４０３および／またはクラスター２４０１を混合することでありうる。これが十分でない場合にのみ、クラスター３４０２内の語り手がサーバー１１０において混合されうる。下記でさらに詳細に概説するように、混合は典型的には、語り手活動の解析に基づいて実行される。これは、複数の時点のそれぞれにおいて、アクティブな上流オーディオ信号の数が決定されてもよいことを意味している。ある特定の時点におけるアクティブな上流オーディオ信号がNより大きい場合、アクティブな上流オーディオ信号の一部または全部が（本稿で記述する混合ルールに従って）混合されてもよい。

さらに別の言い方をすれば、会議コントローラ１１１は、会議内に存在しているストリームの数に基づいて、かつ許容可能なストリームの最大数に基づいて、オーディオ・ストリームを混合する（すなわち、オーディオ信号を混合する）よう構成されていてもよい。ストリームの数がNストリームを超える場合には、エンドポイント１２０に送信されるストリーム１２４の数を制限するために混合方針が適用される。混合方針は、偏りの大きなものを常に先に混合するという混合ルールを含んでいてもよい。さらに、会議コントローラ１１１は、混合ストリームを、混合されたストリームがもともと配置されていた二つ（以上）のあらかじめ定義された語り手位置の一つに配置するよう構成されていてもよい。あるいはまた、混合ストリームは、二つ（以上）のあらかじめ定義された語り手位置の中間のどこかに配置されてもよい。ある好ましい実装では、混合ストリームは、混合された諸ストリームの語り手位置の間の中間に配置される。会議コントローラ１１１は、最後の手段としてのみ（すなわち、低下した優先度で）、会議シーンの中央線３０１の近くに配置される語り手（たとえば、図４のクラスター３４０２）の混合を実行してもよい。

上記で論じたように、会議参加者のオーディオ信号の混合は典型的には、アクティブな語り手の数（すなわち、M人の参加者がいる会議についてはM−1）がオーディオ信号１２４の組内の許容されるオーディオ信号の最大数Nを超える場合および／またはアクティブな語り手の数（M−1）がX点シーン内の語り手位置２１２の数を超える場合（すなわち、M−1＞X）にのみ必要とされる。例として、六点シーン内での混合は、四人以上の語り手がいるときにのみ必要とされる。この例では、シーンは「混雑」しており、したがって音の小さな動きに気づくことは難しくなる。換言すれば、会議における参加者の数が増すにつれて、すなわち会議が「混雑」してくるにつれて、オーディオ信号の混合から帰結する音の空間的な移動は聴取者２１１によって知覚されにくくなる傾向がある。

オーディオ・サーバー１１２は、会議コントローラ１１１によって定義されるオーディオ信号の混合を実装するよう構成されていてもよい。換言すれば、オーディオ・サーバー１１２は、オーディオ信号を処理し、オーディオ信号のマージを実行してもよい。さらに別の言い方をすれば、パケット・ベースの通信ネットワークにおいて、オーディオ・サーバー１１２は、オーディオ信号のパケット毎に、ストリームの総数を減らすために混合を実装するかどうかを決定してもよい。例として、オーディオ・サーバー１１２は、複数の相続く時点のそれぞれにおいてM個の上流オーディオ信号の活動度を決定するよう構成されていてもよい（ここで、たとえば、それらの時点はオーディオ・ビットストリームのパケットと同時であってもよい）。会議コントローラは、活動度を解析し、下流オーディオ信号の総数を許容される最大Nまで低下させるための上流オーディオ信号の選択および／または混合について決定してもよい。さらに、会議コントローラは、N個の下流オーディオ信号に関する配置情報を提供してもよい。その際、実際の混合およびメタデータの生成は、オーディオ・サーバー１１２において、会議コントローラによって与えられる決定および配置情報に基づいて、実行されてもよい。

端末１２０に向かうオーディオ・ストリームの数を最大N個のオーディオ・ストリームに制限する上記の例は、端末１２０に伝送される（可能性としては混合された）オーディオ・ストリームの固定した選択に基づいている。典型的には、会議内でのアクティブな語り手の数は限られている。理想的できわめて整然としたオーディオ会議では、一人のアクティブな語り手のみがいて、その間、他の会議参加者は傾聴しているであろう。よって、そのようにきわめて整然としたオーディオ会議では、単一のオーディオ・ストリーム（すなわち、アクティブな語り手のオーディオ・ストリーム）を会議シーン内でのそのアクティブな語り手の配置を指示するメタデータとともに送信するだけで十分であることがある。異なる語り手位置に位置される別の参加者がアクティブな語り手になると、単一の送信されたオーディオ・ストリームは、新しい語り手位置を指示するメタデータを伴った、新しいアクティブな語り手に対応するオーディオ・ストリームに変更されうる。よって、単一のオーディオ・ストリーム（および関係したメタデータ）のみを送信しつつ、すべての異なる語り手が端末１２０においてそれぞれの語り手位置においてレンダリングされうる。

より一般的な表現では、会議参加者１１１は、X点会議シーン内に配置されるX個の（混合されたまたは混合されていない）オーディオ信号の語り手活動度に基づいて、N個の下流オーディオ信号１２４の組を動的に選択するよう構成されていてもよい。ある特定の時点において、会議コントローラ１１１は、端末１２０に向けた伝送のためのX個の（混合されたまたは混合されていない）オーディオ信号のうちN個の最もアクティブなものを（選択されたオーディオ信号を会議シーン内で配置するための関連するメタデータとともに）選択してもよい。端末１２０への送信のためのオーディオ信号の選択は、相続く時点について（たとえば1秒毎または100ms毎に）繰り返されてもよい。よって、端末１２０に送信されるオーディオ・ストリームの低下した数Nを提供しつつ、端末１２０においてレンダリングできる空間的位置の数Xは維持されうる。ある実施形態では、X個の（混合されたまたは混合されていない）オーディオ信号のうちの(N−1)個の最もアクティブなものが端末１２０への送信のために選択される。よって、(N−1)個の最もアクティブな語り手が端末１２０において立体音響化された仕方でレンダリングされうる。

本稿では、オーディオ会議の2Dまたは3Dシーンを管理するためのさまざまな側面が記述された。これらの側面は、音声会議システムの開発者または音声会議システムのユーザーが（種々の会議参加者から発する）音声信号および／または音信号（たとえば通知、音声プロンプト、音楽）の会議シーンへの配置を管理することを許容するために、API（アプリケーション・プログラミング・インターフェース）またはGUI（グラフィカル・ユーザー・インターフェース）のコンテキストにおいて与えられることがある。本稿は、あらかじめ決定されるX点シーンを定義するためおよび／または語り手を会議シーン内で自動的に位置決めするためにシーン・マネージャによって使用されうるルールおよび論理を提供する。シーン・マネージャは、シーンがヘッドホンによってレンダリングされているかラウドスピーカーによってレンダリングされているかに依存して異なりうる、装置固有の空間位置（たとえば、シーン内の端末固有の位置）および／または装置固有のX点シーンを使用するよう構成されていてもよい。

本稿で記述された方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されうる。ある種のコンポーネントはたとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で実行されるソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよび／または特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて出てくる信号は、ランダム・アクセス・メモリまたは光学式記憶媒体といった媒体に記憶されてもよい。そうした信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのような、ネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、ポータブル電子装置またはオーディオ信号を記憶および／またはレンダリングするために使用される他の消費者設備である。

Claims

会議参加者に関連付けられた上流オーディオ信号（１２３、１７３）を、聴取者（２１１）に対してレンダリングされる2Dまたは3D会議シーン内で配置するよう構成された会議コントローラ（１１１、１７５）であって：
・前記会議シーン内のX個の異なる空間的語り手位置（２１２）をもつX点会議シーンをセットアップする段階であって、Xは整数であり、X＞0であり、前記X個の語り手位置（２１２）は、聴取者の頭部の前方の中央線（２１５）のまわりの円錐内に位置され、前記円錐の母線（２１６）と前記中央線（２１５）は、あらかじめ決定された最大円錐角以下の角度をなす、段階と；
・前記上流オーディオ信号を前記X個の語り手位置の一つに割り当てる段階と；
・割り当てられた語り手位置を同定するメタデータを生成し、オーディオ処理ユニット（１２１、１７１）が前記上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにする段階であって、立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は前記上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚する、段階とを実行するよう構成されている、
会議コントローラ。
前記X個の語り手位置は円または球上に配置され、聴取者はその円または球の中心に配置される、請求項１記載の会議コントローラ。
・前記X個の語り手位置のうち二つの隣接する語り手位置は、少なくともある最小の角距離だけ離間しており、
・前記最小の角距離は5°またはそれ以上である、
請求項１または２記載の会議コントローラ。
前記X個の語り手位置のうちの隣り合う語り手位置の間の角距離が異なる語り手位置については異なる、請求項１ないし３のうちいずれか一項記載の会議コントローラ。
前記X個の語り手位置のうちの隣り合う語り手位置の間の角距離が、該隣り合う語り手位置の前記中央線からの距離が増すにつれて増大する、請求項４記載の会議コントローラ。
前記最大円錐角が30度である、請求項１ないし５のうちいずれか一項記載の会議コントローラ。
前記最大円錐角が20度である、請求項１ないし５のうちいずれか一項記載の会議コントローラ。
前記最大円錐角が15度である、請求項１ないし５のうちいずれか一項記載の会議コントローラ。
前記X個の語り手位置が前記中央線に対して非対称である、請求項１ないし８のうちいずれか一項記載の会議コントローラ。
Xが奇数の場合、前記X個の語り手位置は、該X個の語り手位置のうちの中央語り手位置に対して対称的である、請求項１ないし９のうちいずれか一項記載の会議コントローラ。
・Xが偶数の場合、前記X個の語り手位置の半分が前記中央線の一方の側または前記中央線を通る鉛直面の一方の側にあり、前記X個の語り手位置の残りの半分が前記中央線の反対側または前記中央線を通る前記鉛直面の反対側にある、および／または
・Xが奇数の場合、前記X個の語り手位置のうち(X−1)/2個が一方の側にあり、(X＋1)/2個が前記中央線または前記鉛直面の反対側にある、
請求項１ないし１０のうちいずれか一項記載の会議コントローラ。
・前記X個の語り手位置は、聴取者の頭部からのX本の射線上に位置され、前記中央線とX個の語り手角をなし；
・前記中央線からある方向の語り手角は正であり、前記中央線から反対方向の語り手角は負であり；
・前記X個の語り手角の和は0とは異なる、
請求項１ないし１１のうちいずれか一項記載の会議コントローラ。
語り手角の前記和は2度以下である、請求項１２記載の会議コントローラ。
X＝3であり、前記X個の語り手位置は、前記中央線から−2度、＋6度および−10度の語り手角のところに位置される、請求項１２または１３記載の会議コントローラ。
X＝6であり、前記X個の語り手位置は、前記中央線から−2度、＋3度、−7度、＋8度、−12度および＋13度の語り手角のところに位置される、請求項１２または１３記載の会議コントローラ。
X＝6であり、前記X個の語り手位置は、前記中央線から＋2度、−5度、＋9度、−12度、＋16度および−19度の語り手角のところに位置される、請求項１２または１３記載の会議コントローラ。
複数の会議参加者に関連付けられた複数の上流オーディオ信号を前記X点会議シーン内に配置するよう構成されている、請求項１ないし１６のうちいずれか一項記載の会議コントローラであって、当該会議コントローラは、前記複数の上流オーディオ信号を、前記複数の上流オーディオ信号のある逐次順に従って、前記X個の語り手位置に割り当てるよう構成されている、会議コントローラ。
前記複数の上流オーディオ信号の前記逐次順は、当該会議コントローラによる前記複数の上流オーディオ信号の検出の順序に基づいている、請求項１７記載の会議コントローラ。
当該会議コントローラは、前記中央線からの絶対的な角距離が増す順に前記X個の語り手位置を割り当てるよう構成されている、請求項１７または１８記載の会議コントローラ。
前記複数の上流オーディオ信号からの上流オーディオ信号を、前記X個の語り手位置のうちからの最も外側の語り手位置に割り当てることを受けて、当該会議コントローラは、前記複数の上流オーディオ信号のうちからの次の上流オーディオ信号を、前記X個の語り手位置のうちからの最も内側の語り手位置に割り当てるよう構成されている、請求項１９記載の会議コントローラ。
当該会議コントローラは、上流オーディオ信号の数が語り手位置の数Xより多い場合、前記複数の上流オーディオ信号のうちからのいくつかの上流オーディオ信号を、前記X個の語り手位置のうちの少なくとも一つに割り当てるよう構成されている、請求項１７ないし２０のうちいずれか一項記載の会議コントローラ。
同じ語り手位置に割り当てられた前記いくつかの上流オーディオ信号の混合を開始するよう構成されている、請求項２１記載の会議コントローラ。
前記複数の上流オーディオ信号のそれぞれが、前記X個の語り手位置のうちの単一の位置のみに割り当てられる、請求項１７ないし２２のうちいずれか一項記載の会議コントローラ。
・前記複数の上流オーディオ信号からの次の上流オーディオ信号を、前記X個の語り手位置のうちの、まだ割り当てられておらず、かつ、前記中央線にできるだけ近い語り手位置に割り当てる；
・割り当てられた諸語り手位置の、前記中央線に対するおよび／または前記X個の語り手位置のうち中心の語り手位置に対する最大の均衡を保証する；
・前記X個の語り手位置のうちからの、前記複数の上流オーディオ信号のうちからのすでに割り当てられた上流オーディオ信号の中断によって空にされた空の語り手位置を割り当て直す、
という配置ルールのうちの一つまたは複数に従って前記複数の上流オーディオ信号を配置するよう構成されている、
請求項１７ないし２３のうちいずれか一項記載の会議コントローラ。
・前記立体音響化されたオーディオ信号をレンダリングするオーディオ・トランシーバ（１２２）のレンダリング特性を判別し；
・前記オーディオ・トランシーバの前記レンダリング特性に依存して前記複数の上流オーディオ信号の一つまたは複数の混合を開始するよう構成されている、
請求項１７ないし２４のうちいずれか一項記載の会議コントローラ。
前記レンダリング特性が前記オーディオ・トランシーバがモノ・オーディオ信号のレンダリングに限定されていることを示す場合には、前記会議シーンに配置されるべき前記複数の上流オーディオ信号の全部の混合を開始するよう構成されている、請求項２５記載の会議コントローラ。
前記上流オーディオ信号が発話信号を含むことを判別するよう構成されている、請求項１ないし２６のうちいずれか一項記載の会議コントローラ。
・聴取者の好まれる側を判別する段階であって、前記好まれる側は、前記中央線から左側または右側である、段階と；
・到来するオーディオ信号を、聴取者の前記好まれる側にある語り手位置に割り当てる段階とを実行するよう構成されている、
請求項１ないし２７のうちいずれか一項記載の会議コントローラ。
当該会議コントローラは、前記好まれる側に関する指示を聴取者の端末から、たとえば聴取者の前記端末における選好設定に基づいて受領するよう構成されている、請求項２８記載の会議コントローラ。
・前記会議シーンが3D会議シーンであり；
・前記X個の異なる空間的語り手位置は、前記中央線に対して異なる方位角および／または傾斜角に位置される、
請求項１ないし２９のうちいずれか一項記載の会議コントローラ。
・前記X個の異なる空間的語り手位置は、異なる傾斜角にある複数の層に配列される；および／または
・各鉛直方向層は、異なる方位角にある複数の異なる空間的語り手位置を含む；および／または
・第一の鉛直方向層における異なる空間的語り手位置と第二の鉛直方向層における異なる空間的語り手位置は対応する方位角を有する、
請求項３０記載の会議コントローラ。
・前記上流オーディオ信号の地位に関する情報を受領する段階と；
・前記上流オーディオ信号を、該上流オーディオ信号の地位に基づいて、空間的語り手位置に割り当てる段階とを実行するよう構成されている、
請求項１ないし３１のうちいずれか一項記載の会議コントローラ。
・前記地位が、前記上流オーディオ信号が会議の司会者またはまとめ役に対応することを示し；
・前記上流オーディオ信号が割り当てられる空間的語り手位置は、最も中央寄りの空間的語り手位置である、
請求項３２記載の会議コントローラ。
あらかじめ決定された地位をもつ上流オーディオ信号のために前記X個の空間的語り手位置のうちの一つまたは複数を予約するよう構成されている、請求項１ないし３３のうちいずれか一項記載の会議コントローラ。
前記X個の語り手位置が聴取者の頭部の前方の前記中央線のまわりの前記円錐内に位置されるよう、X個の異なる空間的語り手位置をもつ前記X点会議シーンを計算するよう構成されている、請求項１ないし３４のうちいずれか一項記載の会議コントローラ。
X個の異なる空間的語り手位置をもつ前記X点会議シーンを、X個の異なるあらかじめ決定された空間的語り手位置をもつあらかじめ決定されたX点会議シーンの集合から選択するよう構成されている、請求項１ないし３５のうちいずれか一項記載の会議コントローラ。
オーディオ会議システム（１００、１５０）であって、
・会議参加者に関連付けられた上流オーディオ信号を生成するよう構成された語り手端末と；
・請求項１ないし３６のうちいずれか一項記載の会議コントローラであって、2Dまたは3D会議シーン内の語り手位置に上流オーディオ信号を割り当てるよう構成されており、割り当てられた語り手位置を同定するメタデータを生成するよう構成されている会議コントローラと；
・聴取者が上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚するよう、前記メタデータを使って聴取者に対して上流オーディオ信号をレンダリングするよう構成された聴取者端末を有する、
オーディオ会議システム。
会議参加者に関連する上流オーディオ信号を、聴取者に対してレンダリングされるべき2Dまたは3D会議シーン内で配置する方法であって、
・会議シーン内でX個の異なる空間的語り手位置をもつX点会議シーンをセットアップする段階であって、Xは整数であり、X＞0であり、前記X個の語り手位置は、聴取者の頭部の前方の中央線のまわりの円錐内に位置され、前記円錐の母線と前記中央線はあらかじめ決定された最大円錐角以下の角度をなす、段階と；
・前記上流オーディオ信号を前記語り手位置の一つに割り当てる段階と；
・割り当てられた語り手位置を同定するメタデータを生成し、オーディオ処理ユニット（１２１、１７１）が前記上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにする段階とを含んでおり、立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は、前記上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚する、
方法。
プロセッサ上での実行のために、該プロセッサ上で実行されたときに請求項３８記載の方法段階を実行するために適応されている、ソフトウェア・プログラム。
プロセッサ上での実行のために、コンピューティング装置上で実行されたときに請求項３８記載の方法段階を実行するために適応されたソフトウェア・プログラムを有している記憶媒体。
コンピュータ上で実行されたときに請求項３８記載の方法段階を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。