JP2015515800A - 2dまたは3d会議シーンにおける語り手の配置 - Google Patents

2dまたは3d会議シーンにおける語り手の配置 Download PDF

Info

Publication number
JP2015515800A
JP2015515800A JP2015501908A JP2015501908A JP2015515800A JP 2015515800 A JP2015515800 A JP 2015515800A JP 2015501908 A JP2015501908 A JP 2015501908A JP 2015501908 A JP2015501908 A JP 2015501908A JP 2015515800 A JP2015515800 A JP 2015515800A
Authority
JP
Japan
Prior art keywords
narrator
conference
positions
scene
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015501908A
Other languages
English (en)
Other versions
JP6339997B2 (ja
Inventor
エッカート,マイケル
スピットル,ゲイリー
ピー ホリアー,マイケル
ピー ホリアー,マイケル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2015515800A publication Critical patent/JP2015515800A/ja
Application granted granted Critical
Publication of JP6339997B2 publication Critical patent/JP6339997B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Abstract

本稿は、オーディオ会議のために二次元または三次元シーンをセットアップし、管理することに関する。会議参加者に関連付けられた上流オーディオ信号(123、173)を、聴取者(211)に対してレンダリングされる2Dまたは3D会議シーン内で配置するよう構成された会議コントローラ(111、175)が記述される。前記会議シーン内で、X個の異なる空間的語り手位置(212)をもつX点会議シーンがセットアップされる。ここで、X個の語り手位置(212)は、聴取者(211)の頭部の前方の中央線(215)のまわりの円錐内に位置される。円錐の母線(216)と前記中央線(215)は、あらかじめ決定された最大円錐角以下の角度をなす。前記上流オーディオ信号(123、173)は前記語り手位置(212)の一つに割り当てられ、割り当てられた語り手位置(212)を同定するメタデータが生成され、それにより立体音響化されたオーディオ信号を可能にする。

Description

関連出願への相互参照
本願は2012年3月23日に出願された米国特許仮出願第61/614,592号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
本稿はオーディオ会議に関する。詳細には、本稿はオーディオ会議のために二次元または三次元シーンをセットアップし、管理する方法およびシステムに関する。
現行の多者音声会議における欠点の一つは、音声が典型的にはみな聴取者に対してモノラル・オーディオ・ストリームとしてレンダリングされる――本質的には互いの上に重畳され、ヘッドホンが使われるときは通例、聴取者に対して「頭の中で」呈示される――ということである。たとえば異なるレンダリングされる位置から話す異なる人々をシミュレートするために使われる立体音響化(spatialization)技法は、音声会議において、特に発言している複数の人がいるときに、発話の了解性(intelligibility)を改善することができる。
本稿は、聴取者がオーディオ会議の異なる語り手を簡単に区別できるようにする、オーディオ会議のための適切な二次元(2D)または三次元(3D)シーンをデザインするという技術的問題に対処する。さらに、2Dまたは3D会議シーンに参加者および/またはシステム音(たとえば通知または背景音楽)を分布させるための諸方式であって、新しい参加者を追加するときおよび/または会議シーンにシステム音を挿入するときの進行中のオーディオ会議への影響を軽減できるようにするものが記述される。さらに、さまざまなレンダリング装置(ヘッドホンおよび/またはラウドスピーカー配位のような)上で会議シーンをレンダリングするための適切な方式が記述される。
ある側面によれば、会議参加者に関連付けられた上流オーディオ信号を、2Dまたは3D会議シーン内で配置するよう構成された会議コントローラが記述される。会議シーンは、聴取者に対してレンダリングされるものである。典型的には、聴取者は、会議シーンの中央位置に(たとえば、会議シーンが円または球としてモデル化される場合、円または球の中心に)位置される。上流オーディオ信号は、会議参加者の端末(たとえばコンピューティング装置または電話装置)において生成されたオーディオ信号であってもよい。よって、上流オーディオ信号は典型的には会議参加者の発話信号を含む。この理由により、上流オーディオ信号は語り手オーディオ信号と称されてもよい。会議コントローラは、(たとえばいわゆる中央集中式の会議アーキテクチャでは)通信ネットワーク内に(中央位置において)位置されてもよく、および/または会議コントローラは(たとえばいわゆる分散式の会議アーキテクチャでは)会議参加者の端末のところに位置されてもよい。会議コントローラは、2Dまたは3Dレンダリング・システムを使う場合、シーン・マネージャと称されてもよい。会議コントローラは、コンピューティング装置(たとえばサーバー)を使って実装されてもよい。
会議コントローラは、会議シーン内のX個の異なる空間的な語り手位置をもつX点会議シーンをセットアップするよう構成されていてもよい。Xは整数であり、X>0である(たとえば、X>1、特にX=1,2,3,4,5,6,7,8または10)。このコンテキストにおいて、会議コントローラは、本稿に記載される会議シーン・デザイン・ルールの一つまたは複数に基づいてX個の異なる空間的語り手位置をもつX点会議シーンを計算するよう構成されていてもよい。一つのそのようなデザイン・ルールは、たとえば、X個の語り手位置は、聴取者の頭部の前方の中央線のまわりの円錐内に位置されるというものであってもよい。他のデザイン・ルールは、X個の語り手位置の角度的な分離に関係していてもよい。代替的または追加的に、会議コントローラは、X個の異なる空間的語り手位置をもつX点会議シーンを、あらかじめ決定された話者位置を含むあらかじめ決定された会議シーンの集合から選択するよう構成されていてもよい。例として、前記集合は、X個の異なるあらかじめ決定された空間的語り手位置をもつ一つまたは複数のあらかじめ決定されたX点会議シーンを含んでいてもよい。よって、X点会議シーンは、X個のあらかじめ決定された話者位置をもつあらかじめ決定されたX点会議シーンであってもよい。
会議コントローラは、種々の会議シーン(たとえば、異なる配置にされた語り手位置をもつ異なるX点会議シーンおよび/またはXの異なる値をもつ会議シーン)をセットアップするよう構成されていてもよい。X点会議シーンのX個の語り手位置は、聴取者の頭部の正面の中央線のまわりの円錐内に位置される。中央線は、聴取者の両耳の間の架空の線の中点に始まり、聴取者の両耳の間の前記架空の線に垂直に、聴取者の頭部の前方に延びる架空の直線であってもよい。円錐の母線と前記中央線は、あらかじめ決定された最大円錐角以下の角度(絶対値)をなす。最大円錐角は、円錐の分布数に依存して、好ましくは30°または20°またさらには15°などより狭い角であってもよい。
会議コントローラはさらに、上流オーディオ信号をX個の語り手位置の一つに割り当てるよう構成されている。上流オーディオ信号を会議シーン内の特定の語り手位置に割り当てることによって、会議コントローラは、レンダリング装置(たとえば会議シーンの聴取者の端末)が上流オーディオ信号を、あたかも該上流オーディオ信号がその特定の語り手位置から発しているかのようにレンダリングできるようにする。この目的のために、会議コントローラは、割り当てられた語り手位置を同定するメタデータを生成し、(聴取者の端末における)オーディオ処理ユニットが上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにするよう構成されている。立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚する。オーディオ処理ユニットは、聴取者の端末内に、あるいはオーディオ・ストリームを扱う中央オーディオ・サーバー内に位置されてもよい。立体音響化されたオーディオ信号はたとえば、聴取者の端末においてヘッドホンまたはラウドスピーカー上でレンダリングされるバイノーラル・オーディオ信号であってもよい。代替的または追加的に、立体音響化されたオーディオ信号は多チャネル(サラウンドサウンド)信号、たとえば5.1または7.1多チャネル信号であってもよい。
X個の語り手位置は、円または球状に配置されてもよく、該円または球の中心に聴取者が配置される。代替的な会議シーンは、楕円または楕円体上には位置される語り手位置を有していてもよい。聴取者は必ずしも中心に配置される必要はない。例として、テーブルのまわりの、会議参加者および聴取者を含む会合をシミュレートするために、聴取者は会議シーンをなす幾何学形状のエッジに、たとえば円または球または楕円または楕円体の端に位置されてもよい。後者の場合(および聴取者が楕円または楕円体の中心に位置される場合)、X個の語り手位置と聴取者の間の距離は語り手位置に依存して異なることになる。
X個の語り手位置のうち二つの隣接する語り手位置は、少なくともある最小の角距離だけ離間していてもよい。最小の角距離は5°またはそれ以上であってもよい。上述した条件は、X個の語り手位置の隣接する語り手位置のすべての対によって充足されてもよい。最小の角距離は、聴取者が、異なる語り手位置からレンダリングされる上流オーディオ信号を明瞭に区別できるようにする。X個の語り手位置のうちの隣り合う語り手位置の間の角距離は、異なる語り手位置については異なっていてもよい。例として、X個の語り手位置のうちの隣り合う語り手位置の間の角距離は、該隣り合う語り手位置の中央線からの距離が増すにつれて増大してもよい。こうすることによって、聴取者が異なる角度から到来する音の源を区別する能力の変化が考慮に入れられうる。
X個の語り手位置は中央線に対して非対称であってもよい。これは、会議シーンを聴取者に対してレンダリングするときに像形成〔イメージング〕効果を回避するために有益でありうる。しかしながら、Xが奇数の場合、X個の語り手位置は、該X個の語り手位置のうちの中央語り手位置に対して対称的であってもよい。ここで、中央語り手位置は、典型的には中央線上にはない。中央語り手位置に対する語り手位置の対称性を使うことにより、聴取者の左耳と右耳の間の会議シーンの均衡が達成できる。
Xが偶数であれば、X個の語り手位置の半分が中央線の一方の側または中央線を通る鉛直面の一方の側にあってもよく、X個の語り手位置の残りの半分が中央線の反対側または中央線を通る鉛直面の反対側にあってもよい。Xが奇数なら、X個の語り手位置のうち(X−1)/2個が一方の側にあり、(X+1)/2個が前記中央線または前記鉛直面の反対側にあってもよい。この条件は、均衡した会議シーンを目標とする。
X個の語り手位置は、聴取者の頭部からのX本の射線上に位置されてもよい。X本の射線はそれぞれ中央線とともにX個の語り手角をなす。中央線からある方向の諸語り手角は正であってもよく、中央線から反対方向の諸語り手角は負であってもよい。X個の語り手角の和は0と異なっていてもよい。しかしながら、語り手角の和は2°以下であってもよい。よって、会議シーンは、会議シーンの中央線に対してわずかに非対称的であり、同時に十分均衡していてもよい。
会議シーンの負荷はわずかに不均衡であってもよく、中央線のどちら側が最初に分布させられるかに依存して、シーンの一方の側に(すなわち、聴取者の頭部の正面の中央線から一方の方向に)「傾く」傾向があってもよいことを注意しておくべきである。聴取者が電話通話のために自然に使うであろう側でシーンに分布させるのを開始するのがより自然であることがある。この側は、典型的には、聴取者が書くときに使う手と反対側である。たとえば、右利きの人は電話を左手で保持し、左側で(左側の耳を用いて)モノ・ストリームを聞くことに慣れている。ユーザー選好がシーン・マネージャ(たとえば、端末またはエンドポイントに位置される)に通知するために使われてもよい。さらに、聴取者の利き手を決定するために、追加的なアクセサリーが問い合わせされることができる。たとえば、コンピュータのマウス設定である。
よって、会議コントローラは、聴取者の好まれる側を決定するよう構成されていてもよい。ここで、好まれる側は、聴取者の頭部の正面の中央線から左側または右側であってもよい。この目的のために、会議コントローラは、聴取者の端末から前記好まれる側に関する指示を受領するよう構成されていてもよい。前記好まれる側に関する指示は、聴取者の端末における選好設定(たとえばマウス設定)に基づいていてもよい。聴取者の前記好まれる側は、聴取者の左利き/右利きと相関付けられてもよい。上記のように、左利きの聴取者は典型的には好まれる右側をもち、右利きの聴取者は典型的には好まれる左側をもつ。会議コントローラは、到来するオーディオ信号を、X個の語り手位置のうち聴取者の前記好まれる側にある一つに、たとえば、聴取者の前記好まれる側の最も中央寄りの語り手位置に割り当てるよう構成されていてもよい。
ある実施形態では、X=3であり、X個の語り手位置は中央線から実質的に−2°、+6°および−10°の語り手角のところに位置される。あるさらなる実施形態では、X=6であり、X個の語り手位置は、中央線から実質的に−2°、+3°、−7°、+8°、−12°および+13°の語り手角のところに位置される。ある好ましい実施形態では、X=6であり、X個の語り手位置は中央線から実質的に+2°、−5°、+9°、−12°、+16°および−19°の語り手角のところに位置される。
典型的には、会議コントローラは、複数の会議参加者に関連付けられた複数の上流オーディオ信号をX点会議シーン内に配置するよう構成されている。よって、会議シーンの聴取者は、会議シーン内の異なる(X個までの異なる)空間的位置から到来する前記複数の上流オーディオ信号を知覚することができるようにされてもよい。会議コントローラは、前記複数の上流オーディオ信号を、前記複数の上流オーディオ信号のある逐次順に従って、前記X個の語り手位置に割り当てるよう構成されていてもよい。前記逐次順は、上流オーディオ信号を会議内に配置するための会議コントローラの待ち行列を参照してもよい。代替的または追加的に、前記複数の上流オーディオ信号の前記逐次順は、会議コントローラによる前記複数の上流オーディオ信号の検出の順序に基づいていてもよい。換言すれば、前記複数の上流オーディオ信号の前記逐次順は、異なる会議参加者がオーディオ会議にダイヤルしてきて、それにより対応する上流オーディオ信号が会議コントローラによって検出される逐次順に影響する順序に関連していてもよい。第一の、最も中央の位置は、源エンドポイントからの(すなわち、会合まとめ役または司会者の端末からの)メタデータを通じて識別される、当該会議通話の会合まとめ役または司会者のために予約されていてもよい。したがって、たとえ他の会議参加者が司会者より前に会合に到着するとしても、それらの会議参加者はシーン内のプレミアム位置に割り振られなくてもよい。よって、会議コントローラは、ある特定の端末から(たとえば、まとめ役/司会者の端末から)到来する特定の上流オーディオ信号について、X個の語り手位置のうちの一つを予約するよう構成されていてもよい。予約される語り手位置は、最も中央寄りの語り手位置であってもよい。
会議コントローラは、中央線からの絶対的な角距離が増す順にX個の語り手位置を割り当てるよう構成されていてもよい。換言すれば、会議コントローラは第一の上流オーディオ信号を最も中央寄りの語り手位置に割り当て、第二の上流オーディオ信号を二番目に中央寄りの語り手位置に割り当てる、などとして最も外側の語り手位置に到達するまで続けてもよい。前記複数の上流オーディオ信号からの上流オーディオ信号を、前記X個の語り手位置のうちからの最も外側の語り手位置に割り当てることを受けて、会議コントローラは、前記複数の上流オーディオ信号のうちからの次の上流オーディオ信号を、前記X個の語り手位置のうちからの最も内側の(最も中央寄りとも称される)語り手位置に割り当てるよう構成されていてもよい。
よって、会議コントローラは、前記複数の上流オーディオ信号のうちからの複数の上流オーディオ信号を、前記X個の語り手位置のうちの少なくとも一つに割り当てるよう構成されていてもよい。会議コントローラは、特に、会議シーン内に配置されるべき上流オーディオ信号の数(M−1)が語り手位置の数Xよりも多い場合にそうするよう構成されていてもよい。円錐の分布数がX個の語り手位置を超過する場合、3D会議シーン(および聴取者の端末における3Dレンダリング・エンジン)が使われているならば、語り手の追加的な鉛直方向の諸層がシーン内に配置されてもよい。たとえば、最初の6人の参加者は仰角0度(耳の水準)にある6個の語り手位置に割り当てられてもよく、次の6人の参加者は最初の6人の参加者と同じ方位角だがたとえば8°の仰角に割り当てられてもよい。数Mはアクティブな会議参加者の総数であってもよく、そのうち1人は特定の会議シーンの聴取者であり、他の(M−1)人はX点会議シーン内でX個の語り手位置に配置されるべき語り手である。複数の上流オーディオ信号が同じ語り手位置に割り当てられる場合、会議コントローラは、その同じ語り手位置に割り当てられた複数の上流オーディオ信号の混合を開始するよう構成されていてもよい。それにより、その語り手位置においてレンダリングされる混合されたオーディオ信号が生成される。上流オーディオ信号の実際の混合は、(たとえばデジタル信号プロセッサを有する)オーディオ・サーバーによって、あるいは聴取者のエンドポイントにおける(すなわち端末における)オーディオ・レンダリング・エンジン内で実行されてもよい。オーディオ・サーバーは、会議コントローラとは別個であってもよい。
特に、会議シーン内に配置される上流オーディオ信号の数(M−1)がXより小さい場合、会議コントローラは、前記複数の上流オーディオ信号のそれぞれを、前記X個の語り手位置のうちの異なる位置に割り当てるよう構成されていてもよい。典型的には、上流オーディオ信号は、前記X個の語り手位置のうちの単一の位置に割り当てられるのみである。場合によっては、空間的な広がりを作り出すために、単一のストリームが二つの隣接する語り手位置に割り当てられてもよい。
会議コントローラは、以下の配置ルールの一つまたは複数に従って前記複数の上流オーディオ信号を配置するよう構成されていてもよい。第一の配置ルールは、前記複数の上流オーディオ信号からの次の上流オーディオ信号を、前記X個の語り手位置のうちの、まだ割り当てられていない語り手位置であって、中央線にできるだけ近い語り手位置に割り当てるというものであってもよい。換言すれば、上流オーディオ信号に(すなわち、会議参加者に)専用の語り手位置を提供することが好ましい、および/または上流オーディオ信号を会議シーンの中央線のできるだけ近くに割り当てることが好ましい。第二の配置ルールは、割り当てられた諸語り手位置の、中央線に対するおよび/または前記X個の語り手位置のうち最も中央寄りの語り手位置に対する最大の均衡を保証するというものであってもよい。換言すれば、割り当てられた上流オーディオ信号が会議シーンの中央線のまわりに均衡した仕方で割り当てられることを保証することが好ましいことがありうる。第三の配置ルールは、前記X個の語り手位置のうちからの空の語り手位置を割り当て直すというものであってもよい。ここで、前記空の語り手位置は、前記複数の上流オーディオ信号のうちからのすでに割り当てられた上流オーディオ信号の中断によって空にされたものである。中断は、たとえば、会議参加者が会議シーンを去ったこと、あるいは該参加者が話していないまたは聞くだけの状態に後退したことであってもよい。これは、会議コントローラによって、会議シーンを去った会議参加者の端末から受領される適切な信号によって検出されてもよい。
会議コントローラは、立体音響化されたオーディオ信号をレンダリングするオーディオ・トランシーバのレンダリング特性を決定するよう構成されていてもよい。例として、会議コントローラは、聴取者の端末におけるオーディオ・トランシーバが、バイノーラル・オーディオ信号、ステレオ・オーディオ信号またはサラウンドサウンド・オーディオ信号またはモノ信号のみをレンダリングできることを判別するよう構成されていてもよい。会議コントローラは、下流オーディオ信号の組と、聴取者の端末におけるオーディオ・トランシーバが会議シーンを適切にレンダリングできるようにする適切なメタデータとを生成するよう構成されていてもよい。下流オーディオ信号の組は典型的には前記上流オーディオ信号または前記複数の上流オーディオ信号を含む。メタデータは典型的には、前記上流オーディオ信号または前記複数の上流オーディオ信号の、X点会議シーン内のその配置に従った立体音響化されたレンダリングを許容する情報を含む。
例として、会議コントローラは、オーディオ・トランシーバのレンダリング特性に依存して前記複数の上流オーディオ信号の一つまたは複数の混合を開始するよう構成されていてもよい。特に、会議コントローラは、レンダリング特性がオーディオ・トランシーバがモノ・オーディオ信号のレンダリングに限定されていることを示す場合には、会議シーンに配置されるべき前記複数の上流オーディオ信号の全部の混合を開始するよう構成されていてもよい。オーディオ信号の実際の混合は、たとえばデジタル信号プロセッサを有するオーディオ・サーバーによって実行されてもよい。
本稿で概説された諸側面は、2D会議シーンおよび/または3D会議シーンに関係していてもよい。よって、語り手位置の角度配列に関する諸側面は、方位角および/または傾斜角に関係していてもよい。方位角は、中央線を含む水平面内で定義されてもよい。傾斜角は、中央線を含む鉛直面内で定義されてもよい。2D会議シーンでは、X個の異なる空間的語り手位置は、中央線に対して異なる方位角のところに位置されてもよい。3D会議シーンでは、X個の異なる空間的語り手位置の少なくともいくつかは、中央線に対して異なる方位角および/または傾斜角のところに位置されてもよい。
3D会議シーンでは、X個の異なる空間的語り手位置は、異なる傾斜角にある複数の層に配列されてもよい。各層は、前記X個の空間的語り手位置のうちからの、異なる方位角にある複数の異なる空間的語り手位置を含んでいてもよい。特に、第一の層における異なる空間的語り手位置と第二の層における異なる空間的語り手位置は対応する方位角を有していてもよく、それにより規則的な層構成にされた構造を作り出してもよい。
会議コントローラは、上流オーディオ信号の地位〔ステータス〕に関する情報を受領するよう構成されていてもよい。地位は、上流オーディオ信号に関連したメタデータとして伝送されてもよい。地位は、たとえば、その上流オーディオ信号が会議の司会者またはまとめ役に対応することを指示してもよい。換言すれば、地位は、その上流オーディオ信号が司会者またはまとめ役の発話信号を含むことを示してもよい。代替的または追加的に、地位は、プレミアムまたは基本地位(たとえば、異なる会議参加者によって支払われる異なる料金に関係する)に関係してもよい。
会議コントローラは、上流オーディオ信号を、該上流オーディオ信号の地位に基づいて、空間的語り手位置に割り当てるよう構成されていてもよい。例として、地位は、会議のまとめ役の上流オーディオ信号を示してもよく、その上流オーディオ信号が割り当てられる空間的語り手位置は、最も中央寄りの空間的語り手位置であってもよい。もう一つの例では、地位は、基本地位(すなわち、基本的な会議参加者)を示してもよい。基本的な会議参加者は、それほど顕著でない語り手位置(たとえば、最も外側の語り手位置または異なる層の語り手位置)に割り当てられてもよい。
会議コントローラは、あらかじめ決定された地位をもつ上流オーディオ信号のために前記X個の空間的語り手位置のうちの一つまたは複数を予約するよう構成されていてもよい。例として、最も中央寄りの語り手位置が、会議のまとめ役のために、あるいはプレミアム地位をもつ会議参加者のために予約されてもよい。
あるさらなる側面によれば、オーディオ会議システムが記述される。本オーディオ会議システムは、(たとえばマイクロホンを使って会議参加者の発話信号を記録することによって)会議参加者に関連付けられた上流オーディオ信号を生成するよう構成された語り手端末を有する。本システムはさらに、本稿で概説される諸側面のいずれかに基づく会議コントローラを有する。会議コントローラは、2Dまたは3D会議シーン内の語り手位置に上流オーディオ信号を割り当てるよう構成されている。さらに、会議コントローラは、割り当てられた語り手位置を同定するメタデータを生成するよう構成されている。さらに、本システムは、メタデータを使ってオーディオ会議の聴取者に上流オーディオ信号をレンダリングするよう構成された聴取者端末を有する。レンダリングは、聴取者が上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚するように実行されてもよい。
もう一つの側面によれば、会議参加者に関連する上流オーディオ信号を、聴取者に対してレンダリングされるべき2Dまたは3D会議シーン内で配置する方法が記述される。本方法は、会議シーン内でX個の異なる空間的語り手位置をもつX点会議シーンをセットアップすることを含む。Xは整数であり、X>0である。X個の語り手位置は、聴取者の頭部の前方の中央線のまわりの円錐内に位置される。円錐の母線と前記中央線が、あらかじめ決定された最大円錐角以下の角度をなす。さらに、本方法は、上流オーディオ信号をX個の語り手位置の一つに割り当てることを含む。さらに、本方法は、割り当てられた語り手位置を同定するメタデータを生成し、オーディオ処理ユニットが上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにすることを含む。立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は、上流オーディオ信号が、割り当てられた語り手位置から到来するものとして知覚する。
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために、該プロセッサで実行されたときに本稿で概説される方法段階を実行するために適応されていてもよい。
もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために、コンピューティング装置上で実行されたときに本稿で概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。
あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を有していてもよい。
本特許出願において概説される好ましい実施形態を含む方法およびシステムは単独で、または本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのあらゆる側面は任意に組み合わされうる。特に、請求項の特徴は、互いに、任意の仕方で組み合わされうる。
本発明について、付属の図面を参照しつつ例示的な仕方で以下に説明する。
aは、例示的な中央集中式のオーディオ会議システムのブロック図であり、bは、例示的な分散式のオーディオ会議システムのブロック図である。 オーディオ会議システムのシーン・マネージャのための例示的なグラフィカル・ユーザー・インターフェース(GUI)を示す図である。 例示的なオーディオ会議シーンを示す図である。 例示的なオーディオ会議シーンを示す図である。 オーディオ会議シーンの例示的なクラスターを示す図である。
導入部で概説したように、現行の多者オーディオ会議システムは典型的にはオーディオ会議に参加している複数の当事者のオーディオ信号をモノラル・オーディオ信号に重畳してしまい、それが各参加者に対して単一のオーディオ・ストリームとして与えられる。このため、参加者にとって(聞いているとき)、(他の複数の当事者が話しているとき)他の参加者を互いに区別することが難しくなる。本稿では、オーディオ会議の複数の当事者の空間化を許容する多者オーディオ会議システムであって、オーディオ会議の異なる参加者を、二次元(2D)または三次元(3D)オーディオ・シーン内の異なる空間的位置に配置することを許容するものが記述される。結果として、聴取者は、他の参加者を、異なるそれぞれの空間的位置から話しているものとして知覚する。それにより、聴取者は他の参加者をよりよく区別できるようになる。
図1のaは、中央集中式のアーキテクチャをもつ例示的な多者オーディオ会議システム100を示している。中央集中式の会議サーバー110が、複数の上流オーディオ信号123をそれぞれの複数の端末120から受領する。上流オーディオ信号123は典型的にはオーディオ・ストリーム、たとえばビットストリームとして伝送される。例として、上流オーディオ信号123はG.711、G722.2(AMR-WB)、MPEG2またはMPEG4オーディオ・ビットストリームとしてエンコードされてもよい。典型的には、上流オーディオ信号123はモノ・オーディオ信号である。よって、中央集中式会議サーバー110(たとえば会議サーバー110内に含まれる諸オーディオ・サーバー112)は、(上流オーディオ信号123を表わす)上流オーディオ・ストリームをデコードし、上流オーディオ・ストリームに付随する任意的なメタデータを抽出するよう構成されていてもよい。
会議サーバー110はたとえば、遠隔通信ネットワーク内のオーディオ会議サービス・プロバイダーのアプリケーション・サーバーであってもよい。端末120はたとえば、ラップトップ・コンピュータ、デスクトップ・コンピュータ、タブレット・コンピュータおよび/またはスマートフォンといったコンピューティング装置や、携帯電話、コードレス電話、デスクトップ・ハンドセットなどといった電話であってもよい。会議サーバー110は、オーディオ会議への/からの複数の上流オーディオ信号123を組み合わせるよう構成されている中央会議コントローラ111を有する。中央会議コントローラ111は、複数の上流オーディオ信号123を2Dまたは3D会議シーン内の特定の諸位置に配置し、会議シーン内での前記複数の上流オーディオ信号123の配列(すなわち諸位置)に関する情報を生成するよう構成されていてもよい。
さらに、会議サーバー110は、それぞれ前記複数の端末120のための複数のオーディオ・サーバー112を有する。前記複数のオーディオ・サーバー112は単一のコンピューティング装置/デジタル信号プロセッサ内に設けられてもよいことを注意しておくべきである。複数のオーディオ・サーバー112はたとえば、それぞれの複数の端末120のためのオーディオ信号にサービスするための、前記サーバー内の専用の処理モジュールまたは専用のソフトウェア・スレッドであってもよい。よって、オーディオ・サーバー112は、それぞれの端末120の必要性に従ってオーディオ信号を処理する「論理的な」エンティティであってもよい。オーディオ・サーバー112(または組み合わされたサーバー内の等価な処理モジュールまたはスレッド)は(たとえばオーディオ・ストリームの形の)複数の上流オーディオ信号123の一部または全部ならびに会議シーン内での前記複数の上流オーディオ信号123の配列に関する前記情報を受領する。会議シーン内での前記複数の上流オーディオ信号123の配列に関する前記情報は、典型的には、会議コントローラ111によって与えられる。それにより会議コントローラ111はオーディオ・サーバー112(または処理モジュール/スレッド)に、オーディオ信号をどのように処理すべきかについて通知する。この情報を使って、オーディオ・サーバー112は、一組の下流オーディオ信号124および対応するメタデータを生成し、それが、それぞれの端末120に伝送される。それぞれの端末120が参加者のオーディオ信号を、会議コントローラ111内で確立された会議シーンに従ってレンダリングできるようにするためである。前記一組の下流オーディオ信号124は典型的には、一組の下流オーディオ・ストリーム、たとえばビットストリームとして伝送される。例として、前記一組の下流オーディオ信号124は、G.711、G722.2(AMR-WB)、MPEG2またはMPEG4または独自のオーディオ・ビットストリームとしてエンコードされてもよい。会議シーン内の下流オーディオ信号124の配置に関する前記情報は、たとえば前記一組の下流オーディオ・ストリーム内で、メタデータとしてエンコードされてもよい。よって、会議サーバー110(特にオーディオ・サーバー112)は、前記一組の下流オーディオ信号124を、端末120において会議シーンをレンダリングするためのメタデータを含む一組の下流オーディオ・ストリームにエンコードするよう構成されていてもよい。メタデータは別個のストリームとして、たとえば下流オーディオ・ストリームとの同期のためのタイムスタンプとともに、端末120に送られてもよいことは注意しておくべきである。これは、メタデータを必要としないまたはどのようにメタデータをデコードすべきかを知らない端末120でも基本的な下流オーディオ・ストリームを処理できる(そしてオーディオ信号を端末120のところにいる聴取者に対してレンダリングできる)ということを意味する。換言すれば、前記一組の下流オーディオ信号124および前記メタデータは、2Dまたは3D会議シーンのレンダリングに対応していない端末120でも(たとえば混合形式の)下流オーディオ信号をレンダリングするために使用されうるよう、後方互換な仕方でエンコードされてもよい。
よって、オーディオ・サーバー112は、複数の下流オーディオ・ストリームおよび/または複数の下流オーディオ信号ならびに会議シーンを記述するメタデータを生成するために、複数の上流オーディオ・ストリームおよび/または複数の上流オーディオ信号の(たとえばデジタル信号プロセッサを使った)実際の信号処理を実行するよう構成されていてもよい。オーディオ・サーバー112は、(図1のaに示されるように)対応する端末120の専用であってもよい。あるいはまた、オーディオ・サーバー112は、複数の端末120のために、たとえば全部の端末120のために信号処理を実行するよう構成されていてもよい。
端末120の上流オーディオ信号123は、端末120のところで話している、たとえば端末120のマイクロホンに話している会議参加者によって生成されるオーディオ信号を含むので、語り手オーディオ信号123と称されてもよいことを注意しておくべきである。同様に、端末120に送られる一組の下流のオーディオ信号124は、一組の聞き手オーディオ信号124と称されてもよい。該組124は、端末120のところにいる参加者がたとえばヘッドホンまたはラウドスピーカーを使って聞く複数のオーディオ信号を含むからである。
ある特定の端末のための一組の下流オーディオ信号124は、前記複数の上流オーディオ信号123から中央会議コントローラ111およびオーディオ・サーバー112、たとえばその特定の端末120のためのオーディオ・サーバー112(または処理モジュールまたはソフトウェア・スレッド)を使って生成される。中央会議コントローラ111およびオーディオ・サーバー112は、その特定の端末120のところにいる会議参加者によって知覚されるべきように2Dまたは3D会議シーンの像を生成する。オーディオ会議のM人の参加者がいれば、すなわち会議サーバー110に接続されたM個の端末120があれば、会議サーバー110は、(M−1)個の上流オーディオ信号123のグループM個を、M個の2Dまたは3D会議シーン内に配列するよう構成されていてもよい(MはM>2である整数であり、たとえばM>3,4,5,6,7,8,9,10)。より精密には、会議サーバー110は、M個の端末120についてM個の会議シーンを生成するよう構成されていてもよい。ここで、各端末120について、残りの(M−1)個の他の上流オーディオ信号123が2Dまたは3D会議シーン内に配列される。
例として、会議サーバー110は、2Dまたは3Dの空間的配列内でのM人の会議参加者の配列を記述するマスター会議シーンを利用してもよい。会議サーバー110は、M人の会議参加者について(すなわち、M人の会議参加者それぞれのM個の端末120について)マスター会議シーンの異なる観点を生成するよう構成されていてもよい。そうすることによって、会議参加者全員が、他の会議参加者がどこに配置されているかの同じ相対的なビューをもつことが保証できる。これは、M人の会議参加者が「テーブルのまわりに」(たとえば円)位置されている場合およびM個の「個々の」会議シーンにおける聴取者が「テーブル」の端に(たとえばその円上に)位置されている場合に特にそうである。
もう一つの例として、会議サーバー110は、会議シーンへの会議参加者の逐次的な到着に従って会議シーンの語り手位置を割り当ててもよい。語り手位置は、本稿で記述されるように、最も内側の語り手位置から最も外側の語り手位置へと割り当てられてもよい。そのような逐次順の結果、会議参加者は、異なる聴取者のために予定されている諸会議シーン内で、同じ語り手位置に配置されうる。会議サーバーは、計算量を節約するために、諸会議シーンのこの類似性(または同一性)を利用してもよい。
さらなる例では、会議サーバー110は、M人の会議参加者全員について単一の会議シーンを利用し、M人の会議参加者全員を単一の会議シーン内のあらかじめ決定された語り手位置に配置してもよい。そのような場合、M人の会議参加者全員は同じ2Dまたは3D会議シーンを知覚することになる。特定の端末120にその単一の会議シーンを提供するとき(特定の会議参加者が聴取者となる)、その特定の会議参加者の語り手位置は空のままにされてもよい。この例は、会議サーバー110による単一の会議シーンの管理を要求するだけなので、実装するのが効率的でありうる。
M個の会議シーンは典型的には、M人の参加者が会議シーンの中心内に配置されるという点で異なっている。例として、第一の端末120のための会議シーンは典型的には、第一の端末120がその会議シーンの中心にあり、他の(M−1)個の端末が第一の端末120のまわりに配置されると想定する。よって、第一の端末120についてのオーディオ・サーバー112は、第一の端末120からの上流オーディオ信号123以外の(M−1)個の上流オーディオ信号123から、(M−1)個までの下流オーディオ信号124の組(および対応するメタデータ)を生成する。下流オーディオ信号124のこの端末固有の組は、第一の端末120についての会議シーンを記述する。ここで、第一の端末120は典型的にはその会議シーンの中心位置に配置される。同様に、他の端末120について下流オーディオ信号124の組が生成される。
ある実施形態では、中央会議コントローラ111はオーディオ会議の制御を受け持つ。ここで、諸オーディオ・サーバー112が上流オーディオ信号123を操作し、それらの対応する端末120のための下流オーディオ信号124の諸組を、中央会議コントローラ111の制御のもとで、生成する。例として、中央会議コントローラ111は、ベアラー情報(すなわち、上流オーディオ信号123内の実際のオーディオ・データ)を処理しなくてもよく、信号伝達情報(たとえば、呼び出される当事者および呼び出し側当事者のアドレッシング情報、端末120の機能など)を処理してもよい。中央会議コントローラ111は、オーディオ会議をセットアップするためにその信号伝達情報を使ってもよい。上流オーディオ信号123の実際の混合、下流オーディオ信号124の組の生成、端末固有の会議シーンを定義する適切なメタデータの生成およびオーディオ・ビットストリームからの/へのオーディオ信号のデコード/エンコードは、オーディオ・サーバー112によって、たとえばデジタル信号プロセッサを使って処理されてもよい。
端末120は、下流オーディオ信号124の端末固有の組(および対応するメタデータ)を受領し、該下流オーディオ信号124の組をオーディオ・トランシーバ122(たとえば、ヘッドホンまたはラウドスピーカー)を介してレンダリングする。この目的のために、端末120(たとえば、端末120内に含まれるオーディオ処理ユニット121)が、下流オーディオ信号および対応するメタデータを抽出するために、下流オーディオ・ビットストリームの組をデコードするよう構成されていてもよい。さらに、オーディオ処理ユニット121は、オーディオ・トランシーバ122によってレンダリングするための混合バイノーラル・オーディオ信号を生成するよう構成されていてもよい。ここで、混合バイノーラル・オーディオ信号は、この端末120について会議サーバー110においてデザインされた端末固有の会議シーンを反映する。換言すれば、オーディオ処理ユニット121は、受領されたメタデータを解析し、下流オーディオ信号124の受領された組を端末固有の会議シーン中に配置するよう構成されていてもよい。結果として、会議参加者はバイノーラル・オーディオ信号を知覚し、該バイノーラル・オーディオ信号は端末120における会議参加者に、他の参加者が会議シーン内の特定の諸位置に配置されているという印象を与える。
下流オーディオ信号124のそれぞれについてのバイノーラル・オーディオ信号の生成は、立体音響化アルゴリズムを通じて(モノ)下流オーディオ信号を処理することによって実行されてもよい。そのようなアルゴリズムは、左および右耳信号を与えるために、一対の頭部伝達関数(HRTF)を使ってその下流オーディオ信号のサンプルをフィルタリングすることであることができる。HRTFは、空間中の特定の位置に位置された(下流オーディオ信号の)音源と聴取者の耳との間で自然に生起したであろうフィルタリングを記述する。HRTFは、両耳間時間差、両耳間レベル差およびスペクトル手がかりといった、音のバイノーラル・レンダリングのためのあらゆる手がかりを含む。HRTFは、音源の位置に(すなわち、下流オーディオ信号の語り手位置に)依存する。会議シーン内の各特定の位置について、HRTFの異なる固有の対が使われてもよい。あるいはまた、特定の位置についてのフィルタリング特性は、HRTFが利用可能な隣り合う位置の間の補間によって生成されることができる。よって、端末120は、下流オーディオ信号の語り手位置を、付随するメタデータから識別するよう構成されていてもよい。さらに、端末120は、識別された語り手位置について適切なHRTFの対を決定するよう構成されていてもよい。さらに、端末120は、下流オーディオ信号にHRTFの対を適用し、それにより識別された語り手位置から到来するものとして知覚されるバイノーラル・オーディオ信号を与えるよう構成されていてもよい。端末120が下流オーディオ信号123の組内の二つ以上の下流オーディオ信号を受領する場合、上記の処理は、それらの下流オーディオ信号のそれぞれについて実行されてもよく、結果として得られるバイノーラル信号が重畳されて組み合わされたバイノーラル信号を与えてもよい。
混合バイノーラル・オーディオ信号の生成の代わりにまたはそれに加えて、端末120(たとえばオーディオ処理ユニット121)は、適切に配置されたラウドスピーカー122を使って端末120においてレンダリングされうるサラウンドサウンド(たとえば5.1または7.1サラウンドサウンド)信号を生成するよう構成されていてもよい。さらに、端末120は、モノ・ラウドスピーカー122を使ってレンダリングするために、下流オーディオ信号124の組から混合オーディオ信号を生成するよう構成されていてもよい。
単一の混合されたオーディオ信号が会議サーバーから端末に伝送される通常のモノラル・オーディオ会議システムとは対照的に、図1のaのオーディオ会議システム100では、(M−1)個までの下流オーディオ信号124の組および対応するメタデータが、会議サーバー110から各端末120に(たとえばビットストリームとして)伝送される。基礎になる通信ネットワークの帯域幅制限に鑑み、下流オーディオ信号124の組内で伝送されるオーディオ信号(たとえばビットストリーム)の数を制限することが有益であることがある。以下では、Nは特定の端末120についての下流オーディオ信号124の組内の下流オーディオ信号124の数であるとする。ここで、Nは整数で、たとえばN<Mである。Nは端末120および/または端末120と会議サーバー110との間の通信ネットワークに依存してもよいことを注意しておくべきである。すなわち、Nは、異なる端末120については異なっていてもよい。例として、端末120は会議サーバー110に無線ネットワークを介して接続される携帯電話であってもよい。そのような場合、その携帯電話に送信するための比較的少数、たとえばN=1の下流オーディオ信号を選択する、あるいは下流のオーディオ・ストリームを生成するために使われるコーデックのパラメータを変更することが有益であることがある。
上記で概説したように、会議サーバー110は、2Dまたは3D会議シーン内に配置されるM個までの上流オーディオ信号123を受領する。会議サーバー110は、複数の一連の時点において(および/または複数の一連のフレームにおいて)M個の上流オーディオ信号123の語り手活動の度合いを決定および解析してもよい。上流オーディオ信号の語り手活動の度合いは、上流オーディオ信号のエネルギー(たとえば平均平方エネルギー)に基づいていてもよい。会議参加者(および対応する上流オーディオ信号)は、(ある特定の時点において)「アクティブな」語り手として(該特定の時点において)「非アクティブな」語り手として分類されうる。この分類は、時点によって変わりうる。会議サーバー110は次いで、語り手活動度を考慮に入れることによって、特定の会議参加者についての(すなわち特定の端末120についての)下流オーディオ信号124の組(および付随するメタデータ)を決定してもよい。下流オーディオ信号124の組に挿入される上流オーディオ信号123の選択は、時点によって(語り手活動度の関数として)変わりうる。例として、会議サーバー110は、下流オーディオ信号124の組のために、特定の時点における「アクティブな」語り手の上流オーディオ信号123のみを考慮するよう構成されていてもよい。
語り手活動度を考慮に入れる結果として、会議サーバー110は、下流オーディオ信号124の諸組を種々の端末120に送信するための必要とされる帯域幅を軽減するよう構成されていてもよい。単一のアクティブな語り手の場合、下流オーディオ信号124の組は、単一のオーディオ信号(すなわち、アクティブな語り手の上流オーディオ信号)を含むだけでもよく、それにより会議サーバー110と端末120の間の通信リンクに対する帯域幅を著しく軽減しうる。下流オーディオ信号124の組はそれでも、アクティブな語り手(単数または複数)の空間位置を示すメタデータを含んでいてもよい(あるいはかかるメタデータに関連付けられていてもよい)。よって、端末120はそれでも、アクティブな語り手のオーディオ信号を立体音響化された仕方でレンダリングできるようにされてもよい。メタデータは、語り手活動の変化に伴って、時点によって変わりうる。よって、メタデータは、各時点において、下流オーディオ信号124の組内に反映されるアクティブな語り手(単数または複数)の空間配列を示しうる。
帯域幅を軽減するさらなる方策として、源装置から(すなわち、端末120から)会議サーバー110への不連続的な伝送が使用されてもよい。例として、端末120は、端末120において記録されたオーディオ信号に基づいて、語り手活動度を決定するよう構成されていてもよい。語り手活動度が低い(たとえば、あらかじめ決定されたエネルギー閾値未満)場合、端末120は、端末120からサーバー110への上流オーディオ信号123の伝送を中断し、それにより必要とされる帯域幅を軽減するよう構成されていてもよい。よって、複数の語り手が、会議シーン内の同じ空間的位置に割り当てられてもよいが、それでも、衝突を引き起こすのはそれらの語り手が同時に話す場合のみであろう。
図1のaは、中央集中式のアーキテクチャをもつ2Dまたは3D会議システム110を示している。2Dまたは3Dオーディオ会議は、図1のbの会議システム150によって示されるように、分散式のアーキテクチャを使って提供されてもよい。図示した例では、端末170は、会議参加者のオーディオ信号を混合する、および/またはオーディオ信号を会議シーン中に配置するよう構成されたローカル会議コントローラ175を有する。中央集中式の会議サーバー110の中央会議コントローラ111と同様に、ローカル会議コントローラ175は、会議シーンを生成するために受領されたオーディオ信号の信号伝達情報を解析することに限定されてもよい。オーディオ信号の実際の操作は、別個のオーディオ処理ユニット171によって実行されてもよい。
分散式のアーキテクチャでは、端末170は、その上流オーディオ信号173を(たとえばビットストリームとして)他の参加端末170に通信ネットワーク160を介して送るよう構成されている。この目的のために、端末170は、マルチキャスト方式および/または他の参加端末170の直接アドレッシング方式を使ってもよい。よって、M個の参加端末170の場合、各端末170は、(M−1)個の他の端末170の上流オーディオ信号173に対応する(M−1)個までの下流オーディオ信号174を(たとえばビットストリームとして)受領する。受信端末170のローカル会議コントローラ175は、受領された下流オーディオ信号174を2Dまたは3D会議シーン中に配置するよう構成されている。ここで、受信端末170は典型的にはその会議シーンの中央に配置される。受信端末170のオーディオ処理ユニット171は、受領された下流オーディオ信号174から混合バイノーラル信号を生成するよう構成されている。ここで、混合バイノーラル信号は、ローカル会議コントローラ175によってデザインされた2Dまたは3D会議シーンを反映する。混合バイノーラル信号は、その後、オーディオ・トランシーバ122によってレンダリングされる。
中央集中式の会議システム100および分散式の会議システム150は組み合わされてハイブリッド・アーキテクチャーを形成してもよいことを注意しておくべきである。例として、(他のユーザーが端末120を使用しうる一方で)端末170が会議サーバー110との関連で使用されてもよい。ある例示的な実施形態では、端末170は下流オーディオ信号124の組(および対応するメタデータ)を会議サーバー110から受領する。端末170内のローカル会議コントローラ175は、会議サーバー110によって提供される会議シーンをデフォルト・シーンとしてセットアップしてもよい。加えて、端末170のユーザーは、会議サーバー110によって提供されるデフォルト・シーンを修正することができるようにされてもよい。
代替的または追加的に、会議サーバー110のコンポーネントは、たとえばオーディオ会議によって必要とされる帯域幅を軽減するために、ネットワーク内で分散されていてもよい。例として、中央会議コントローラ111が第一の位置(たとえば中央位置)に位置されてもよく、オーディオ・サーバー112はネットワーク内の一つまたは複数の他の位置に位置されてもよい。これは、オーディオ会議を扱うために必要とされる全体的なネットワーク容量を軽減する諸オーディオ・サーバー112の位置を選択するために有益であることがある。オーディオ会議の参加端末120の地域的分布に基づいてオーディオ・サーバー112を配置することがたとえば有益であることもある。オーディオ・サーバー112と中央会議コントローラ111との間の通信は、(実際のオーディオ・データを交換する必要なしに)信号伝達情報に限定されてもよい。
以下では、中央集中式の会議システム100を参照する。しかしながら、本開示は分散式のアーキテクチャ150および任意のハイブリッド形式の会議システムにも適用可能であることを注意しておくべきである。
図2は、会議サーバー110および/または端末120において提供されてもよい会議シーンのグラフィカル・ユーザー・インターフェース(GUI)200を示している。端末120において提供される場合、GUI 200は、参加者が、端末120において知覚される会議シーンを修正できるようにしてもよい。ある実施形態では、GUI 200は、オーディオ会議の司会者が、会議参加者を会議シーン内に配置できるようにする。GUI 200は、オーディオ会議の参加者201を示してもよい。参加者201は、下流オーディオ信号の組内に含まれるオーディオ信号の発生元に対応してもよい。よって、GUI 200は、(M−1)人までの参加者201を示してもよい。さらに、GUI 200は、会議シーン210を示してもよい。図2では、2D(二次元)会議シーンが、たとえば円として示されている。GUI 200は3D(三次元)会議シーンをたとえば球として示すよう適応されてもよいことを注意しておくべきである。聴取者211(すなわち、下流オーディオ信号124の端末固有の組を受領する端末120)は、デフォルトでシーン210の中心に配置されてもよい。GUI 200は、聴取者211の位置の修正を許容するよう構成されていてもよい。さらに、GUI 200は(図2において白丸212として示されている)複数の語り手位置212を提供する。複数の語り手位置212はあらかじめ決定されていてもよく、あるいはGUI 200のユーザーによって選択されてもよい。語り手位置212は、会議参加者201の一つまたは複数に割り当てられてもよい。これは、(たとえば下流オーディオ信号124の組と一緒に受領されるメタデータに基づいて)自動的になされてもよい。代替的または追加的に、GUI 200は、(たとえば、指示される参加者201の語り手位置212への「ドラッグアンドドロップ」操作を使って)ユーザー固有の割り当てを許容してもよい。参加者201および語り手位置212の割り当ては、たとえば、ポップアップ・ウインドー213を使って指示されてもよい。さらに、GUI 200は、(図2では黒丸214で示されている)追加的な音位置214を指示および/または修正することを許容してもよい。そのような音位置214は、参加者のオーディオ信号(典型的には声の信号)以外の音、たとえば会議通知および/または音楽をレンダリングするために使われてもよい。
会議システム100は、複数の配置ルールの一つまたは複数に基づいて会議シーン210の語り手位置212を自動的に決定するよう構成されていてもよい。これらの配置ルールは、語り手201が会議シーン210内の種々の位置212に配置され、聴取者211についての好まれるレンダリング位置212が決定された知覚試験に基づく。これらの知覚上の実験は以下のことを示した。
・聴取者211は典型的には、会議における語り手が聴取者211の頭部の正面に、好ましくは聴取者の頭部の背後でないところに、立体音響化されることを好む。
・より精密には、聴取者211は典型的には、語り手201が聴取者の頭部の正面の、聴取者211の正面の中心線215から約−30°ないし30°以内の円錐内に、好ましくはより狭い円錐内に、すなわち中心線215から±30°より小さな角度によって定義される円錐内に配置されることを好む。聴取者211にとって、語り手201に長い間傾聴することは、該語り手が大きく偏ったところに、たとえば中心線215から20°よりも著しく大きな角度のところに配置される場合には、快適ではないことがあることが観察された。よって、語り手位置212が聴取者211の頭部の前方の円錐内に位置されるよう語り手位置212を選択することが有益でありうる。円錐は、該円錐の中心軸215と該円錐の母線216との間の角度があらかじめ決定された最大円錐角、たとえば15°、20°または30°より小さいようなものであってもよい。本稿で言及される角度は、聴取者211の頭部の前方における中心線215に対する角度をいう。負の角度は、反時計方向の角度を指し、正の角度は中心線215から時計方向の角度を指す。
・語り手201を互いから分離する能力は、典型的にはいくらかの角度分離を必要とし、語り手識別および了解性を補助するためには約5°以上の角度の角度分離を必要とする。よって、二つの隣り合う語り手位置212の間の角度分離がたとえば5°の最小角距離より大きいように語り手位置212を選択することが有益であることがある。
・中央線215(中心線とも称される)のまわりの完全に対称的なレンダリングは好まれない。その理由は、対称的なレンダリングは、時に、たとえば中央線215に対して対称的な点212に配置された二人の語り手201の間で会話が起こるときに、聴取者211の真正面での像形成効果につながることがあるということである。よって、語り手位置212を中心線215に対して非対称な仕方で配列することが有益であることがある。
・非対称なレンダリングは、オーディオ会議に加わる追加的な参加者201のためにシーン210に語り手201が追加されるときに比較的「均衡した」シーン210を与えるというさらなる利点をもつ。例として、中央線215のまわりに対称的な仕方で配列された最大6個のあらかじめ定義された語り手位置212を含むデフォルト会議シーン210は、1、3または5の語り手201だけがシーン内に配置される場合(すなわち、6個のあらかじめ定義された語り手位置がまだ実際の語り手201で満たされていないとき)には、中央線215を横断して著しく不均衡である。
上述したルールの一部または全部が、デフォルト語り手位置212をもつデフォルト・シーン210を定義するために使われてもよい。さらに、これらのルールの一部または全部が、自動シーン・マネージャ(たとえば、中央会議コントローラ111および/またはローカル会議コントローラ175によって具現される)の決定論的な振る舞いを指定するために使用されてもよい。シーン・マネージャは、参加者201が会議シーン210にはいるにつれて、参加者201を会議シーン210中に自動的に配置するよう構成されていてもよい。換言すれば、シーン・マネージャ(中央会議コントローラ111および/またはローカル会議コントローラ175上で実行される)は、新しい会議参加者201の語り手位置212を、デフォルト会議シーン210に基づいてかつ会議シーン210内ですでに配置されている参加者201に基づいて、自動的に決定するよう構成されていてもよい。
以下では、例示的な三点シーン・マネージャ(デフォルトの三点会議シーンに分布させる)および例示的な六点シーン・マネージャ(デフォルトの六点会議シーンに分布させる)が記述される。本稿で記述される配置ルールを使って、一般的なX点シーンおよび対応するX点シーン・マネージャが規定されうることを注意しておくべきである(Xは整数で、X=1,2,3,4,5,6,7,8,9,10などであり、異なる空間位置に配置されるM人の会議参加者がいる会議についてはたとえばX=M−1)。
図3aは、例示的な三点シーン300を示しており、中央語り手位置303が中央線301から2°オフセットされ、両側の対である語り手位置302、304は中心語り手位置303からそれぞれ±8°オフセットされている。図示した例では、各音源、すなわち各語り手位置302、303、304は、聴取者211から同じ知覚される動径方向距離をもつ。
より一般的な表現では、三点シーンは以下の特性をもつ。
・三点シーンのある好ましい実装では、会議参加者201は三つの固定した語り手位置302、303、304の一つに割り当てられる。会議参加者201が割り当てられる実際の語り手位置は、会議参加者201がオーディオ会議に加わる逐次順に依存してもよい。
・中心語り手位置303(シーンの中心点)は、シーン300の中央線301のまわりの−5°ないし5°の中心角のところに配置される。好ましい実装は、中心角0°のところではなく、中心角1°ないし5°または−1°ないし−5°のところである。中心語り手位置300を中央線301から外れた位置にする結果として、全体的な会議シーンが中央線301に対して非対称的になりうる。
・シーンの他の二つの点(すなわち、他の語り手位置302、303)は、−30°から30°の間に任意のところで当人の正面の円錐内に配置されることができる。他の語り手位置302、303の好ましい実装は−15°から15°の間の円錐内である。
・他の二つの語り手位置302、303は、中心語り手位置303のそれぞれの側に配置され、語り手位置302、303の中心点から少なくとも5°の角度だけ離間されるべきである。
・語り手位置の好ましい間隔は、中央線301に対して非対称であるべきである。これは、他の語り手位置302、304を中心点303に対して対称的な仕方で配置することによって達成できる(中心点303が0°に配置されているのではないとして)。
図3bは、例示的な六点シーン310を示しており、各語り手201は互いに5°離間され、シーン310全体は中央線301に対して固定角2°だけ回転されている。換言すれば、六点シーン310の語り手位置311、312、313、314、315、316は2°の角度だけ回転された中央線に対して対称的である。各音源、すなわち各語り手位置311、312、313、414、315、316は、聴取者211から同じ知覚される動径方向距離をもつ。六点シーン310は語り手が、六つの異なる固定点311、312、313、314、315、316に割り当てられることを許容する。本稿で与えられる配置ルールを使って六点シーン310の他の構成が指定されてもよいことを注意しておくべきである。
図3aおよび図3bは、語り手位置が互いから固定角だけ離間して配置され、語り手位置の配列が中央線301から固定角だけ回転されているシーン300、310を示している。しかしながら、最小角がある最小の好ましい角またはある最小の角距離、たとえば5°より大きい限り、語り手位置は互いから固定角のところに配置される必要はないことを注意しておくべきである。また、隣り合う語り手位置の間の動径方向距離は、追加的な距離手がかりを与えるために変化してもよい。
シーン・マネージャ(たとえば、中央またはローカル会議コントローラ)は、各語り手が会議にはいる際に語り手を会議シーンに配置するために、あらかじめ決定されたX点シーン(たとえば、それぞれ図3aおよび図3bに示した三点シーン300および/または六点シーン310)を使ってもよい。合計M人の会議参加者をもつ会議について、M人の会議参加者のそれぞれが異なる語り手位置に割り当てられうるよう、X=(M−1)のX点シーンが使われてもよい。
典型的には、オーディオ会議における語り手の実際の数は、会議が始まるときには既知ではない。よって、シーン・マネージャは、会議参加者がコールしてきたときにあらかじめ決定されたX点シーンに会議参加者を追加するよう構成されていてもよい。特に、シーン・マネージャは、あらかじめ決定されたX点シーン内の特定の位置を加わってくる参加者に割り当てるよう構成されていてもよい。この目的のために、シーン・マネージャは、会議参加者をあらかじめ決定されたX点シーン中に追加する(または除去する)ための一組のルールを使ってもよい。例示的な配置ルールは次のようなものであってもよい:
・新たな会議参加者を、X点シーンの中央線301にできるだけ近い利用可能な語り手位置に配置する;
・X点シーンの中央線301に対するおよび/またはX点シーンの中心位置303に対する、割り当てられた語り手位置の最大限の均衡を保証する;
・X点シーンを去った会議参加者によって空にされた空の語り手位置を充填する。
上述した配置ルールは、新たな参加者をX点シーンに配置するために、単独でまたは組み合わせて使用されうる。よって、新たな参加者はX点シーンの内側の諸点から外向きに、および/またはX点シーンの中心の語り手位置303またはシーンの中央線301のまわりの均衡を最大にするような仕方で、会議シーンに追加されてもよい。会議シーン内の語り手の数(M−1)がX点シーンの語り手位置の数Xを超える場合は、シーン・マネージャは複数の語り手を同じ語り手位置に割り当てるよう構成されていてもよい。図3aに示される三点シーン300については、上流の参加者はシーン・マネージャによって次のように配置されることができる:
・参加者1:−2°のところに(すなわち語り手位置303に)配置、
・参加者2:6°のところに(すなわち語り手位置304に)配置、
・参加者3:−10°のところに(すなわち語り手位置302に)配置、
・参加者4:−2°のところに(すなわち語り手位置303に)配置、
・参加者5:6°のところに(すなわち語り手位置304に)配置、
・以下同様。
本稿では、角度の値は記号「°」、用語「度」または可能性としては両方によって表わされることを注意しておく。六点シーン310については、新たな会議参加者は次のようにシーンに加わることができる(図3bを参照として使う)。
・参加者1:−2°のところに(すなわち語り手位置313に)配置、
・参加者2:3°のところに(すなわち語り手位置314に)配置、
・参加者3:−7°のところに(すなわち語り手位置312に)配置、
・参加者4:8°のところに(すなわち語り手位置315に)配置、
・参加者5:−12°のところに(すなわち語り手位置311に)配置、
・参加者6:13°のところに(すなわち語り手位置316に)配置、
・参加者7:−2°のところに(すなわち語り手位置313に)配置、
・以下同様。
聴取者211が異なる語り手位置311、312、313、314、315、316に配置された異なる参加者を区別する能力に関して特に良好な性質をもつことが示された特定の六点シーン310は、語り手位置311、312、313、314、315、316について以下の角度を利用する。この特定の六点シーンは、隣り合う語り手位置の間の最小離間の制約条件を満たし、±20°の円錐内に留まり、中央線301に対してわずかに非対称である:
・語り手位置314(たとえば第一の参加者について)は中央線301から2°のところ;
・語り手位置313(たとえば第二の参加者について)は中央線301から−5°のところ;
・語り手位置315(たとえば第三の参加者について)は中央線301から9°のところ;
・語り手位置312(たとえば第四の参加者について)は中央線301から−12°のところ;
・語り手位置316(たとえば第五の参加者について)は中央線301から16°のところ;
・語り手位置311(たとえば第六の参加者について)は中央線301から−19°のところ;
デフォルト・シーンの上述した記述は、例示的な三点および例示的な六点シーン300、310に限られていた。二点シーン・マネージャから(M−1)点シーンまで(M人の参加者の会議の場合)、シーン内の点の他の数も可能であることを注意しておくべきである。シーン内の点の数は典型的には、本稿に記述されるデザインおよび配置ルールによって制限されるのみである。さらに、角度の指示された値は単に例であることを注意しておくべきである。選択される角度値は±1度または±2度だけ変化してもよい。よって、本稿に記述される角度値は近似的な指示として理解されるべきである。
(語り手の数(M−1)が語り手位置の数Xを超えるために)同じ語り手位置に複数の語り手を割り当てることの代わりにまたはそれに加えて、シーン・マネージャは、会議シーンをより多数の語り手位置をもつ会議シーンに(たとえば三点シーンから六点シーンに)アップグレードするよう構成されていてもよい。例として、シーン・マネージャ(たとえば会議サーバー110)は、(端末120の一つに位置している)オーディオ会議のまとめ役に、会議シーンがアップグレードされるべきかどうかを促してもよい。承認されたら、シーン・マネージャは会議参加者をアップグレードされた会議シーンに移してもよい。こうすることにより、会議シーンのサイズが会議参加者の実際の数に合わせて柔軟に適応できる。さらに、種々のサイズをもつ会議シーンが会議サービス・プロバイダーによって、付加価値サービスとして提供されてもよい。
会議シーン内での語り手の水平方向の分布の代わりにまたはそれに加えて、会議シーンは、特にエンドポイントが3Dレンダリングの機能をもつ場合、垂直方向に拡張されてもよいことを注意しておくべきである。たとえば、異なる語り手位置の間で同じ方位角の角度離間が、ただしたとえば10度の仰角離間をもって使われてもよい。このようにして、語り手の複数の層を作り出すことができ、それによりさらに会議内の異なる語り手の空間的な分離の可能性を高める。より一般的な表現では、会議シーン内の複数の語り手位置は方位角φ(聴取者211の頭部の前方の、中央線215を含む水平面での)および傾斜角θ(聴取者の頭部の前方の、中央線215を含む鉛直面内での)によって記述されてもよい。会議シーンは複数列の語り手位置を有していてもよく(列内の各語り手位置は異なる方位角φおよび同じ傾斜角θによって記述される)、各列は異なる傾斜角θに位置される。
以下では、オーディオ会議のための必要とされるネットワーク資源を軽減するためのさまざまな方式が概説される。上記で論じたように、本稿で記述されるオーディオ会議システムは、オーディオ会議の端末120における会議シーンのバイノーラル・レンダリング(またはマルチチャネル・レンダリング)を許容することに向けられる。バイノーラル・レンダリングは、2Dまたは3D空間内の会議シーンにおける語り手の配置を許容するべきである。これは、二つの(モノ)オーディオ信号を単一の(モノ)信号に混合する(すなわち加算する)こと(これは二つのオーディオ信号の空間的分離は許容しない)とは対照的である。会議シーンにおける語り手のバイノーラル・レンダリングは、会議システム内のさまざまな位置において実装されることができる。図1のaの例示的な会議システム100は、中央集中式の会議サーバー110を利用し、該サーバー110は、特定の会議シーンを形成するために、下流オーディオ信号124の対応する組がどのように組み合わされるべきかを指定するメタデータを生成する。その特定の会議シーンを反映するバイノーラル信号がそれぞれの端末120において決定され、それによりバイノーラル・レンダリングが端末120(エンドポイントとも称される)におけるオーディオ・トランシーバ122のレンダリング特性に柔軟に適応することを許容する。典型的には、バイノーラル信号の生成は、下流オーディオ信号124の組に基づきかつメタデータ内に含まれる配置情報に基づく。さらに、バイノーラル信号の生成は、オーディオ・トランシーバ122(たとえばラウドスピーカーまたはヘッドホン)の型に依存してもよい。中央集中式の会議サーバー110は、端末120において使用されるオーディオ・トランシーバ122の型を知らなくてもよく、したがって、バイノーラル信号の生成を端末120において実行することが有益であることがある。
例として、エンドポイント120はオーディオ会議の間に動的に適応する必要があることがある。たとえば、エンドポイント120における聴取者211は、バイノーラル・ヘッドセットを使うことによってオーディオ会議を開始してもよい。のちの段階になって、その部屋において聴取者211に第二の会議参加者が加わってもよく、よって二人とも参加できるよう彼らはバイノーラル・ヘッドセットを切断してエンドポイント・ラウドスピーカーおよびマイクロホンを使う。結果として、会議シーンのレンダリングは、ヘッドホンからラウドスピーカーに切り換えるために、適応される必要がある。よって、エンドポイント120は、2Dまたは3D会議シーンのレンダリングを、エンドポイント120において使用されるオーディオ・トランシーバ122に適応させるよう構成されていてもよい。
よって、(M−1)個までの個々の下流オーディオ信号(オーディオ会議内の(M−1)人の語り手に対応)および関連付けられたメタデータを端末120に送信することが有益であることがある。会議シーンがX個の語り手位置に制限されている場合、複数の語り手が同じ語り手位置に割り当てられたことがありうる。同じ語り手位置に割り当てられた語り手のオーディオ信号は、それぞれの語り手位置についての下流オーディオ信号を形成するよう、混合されてもよい。よって、X個までの下流オーディオ信号(X点会議シーンのX個の語り手位置に対応)の組および関連付けられたメタデータが端末120に送られてもよい。端末120は、下流オーディオ信号の組および関連付けられたメタデータを使って、2Dまたは3DのX点会議シーンをレンダリングするよう構成されていてもよい。さらに、端末120(たとえば端末170)は、ローカル会議コントローラ175を使って会議シーンを修正する(たとえば、語り手および語り手位置を入れ替える、会議シーンをシフトさせるなど)よう構成されていてもよい。しかしながら、端末120がX点会議シーンのバイノーラルまたは多チャネル・レンダリングを実行できるようにするために、X個までの個々の下流オーディオ信号の組および関連付けられたメタデータが端末120に伝送される必要がある。
あるいはまた、端末120のためのバイノーラル信号は、会議サーバー110において生成されてもよい。これは、会議サーバー110と端末120との間のリンク上での必要とされる帯域幅に関して有益であることがある。バイノーラル信号(すなわちステレオ信号)の送信は、(M−1)個までの下流オーディオ信号の組および対応するメタデータ(これは典型的にはビットストリーム、たとえばG.711、G722.2(AMR-WB: Adaptive Multi-Rate-Wide Band[適応マルチレート‐ワイドバンド])、MPEG2またはMPEG4ビットストリームの形で送信される)の送信よりも、必要とされる帯域幅が少ないことがあるからである。他方、会議サーバー110においてバイノーラル信号を生成すると、宛先端末120において使用されるオーディオ・トランシーバ122に関しておよび/または宛先端末120(聴取者端末120とも称される)における会議シーンの操作に関して許容される柔軟性が低くなる。
(図1のaおよびbのコンテキストにおいて概説したように)端末120においてバイノーラル信号の生成を実行するとき、下流オーディオ信号124の組のオーディオ信号の数は、最大N個の同時アクティブ・オーディオ信号に制限されてもよい(ここで、Nは参加者の数Mより小さく、たとえばN<M−1であるおよび/またはNはX点シーン内の語り手位置の数Xより小さく、すなわちN<Xである)。これは、会議サーバー110と端末120との間のリンクに対する帯域幅制限のためであってもよい。換言すれば、サーバー110とエンドポイント120との間の帯域幅を制限するために、サーバー110からエンドポイント120に送られる同時のアクティブなストリーム(すなわちオーディオ信号)の最大数を制限する必要があることがある。このように、たとえ会議参加者201が会議シーン210内で(M−1)個の離散的な点121に配置されたとしても(たとえばM=7)、たとえ(M−1)点シーン310を実装しているときであっても、エンドポイント120に同時に送達されるストリームの数はN、たとえばN=1,2または3個の同時のアクティブなストリームに制限されてもよい。たとえば、同時のアクティブなストリームの最大数Nは、多者会議の知覚的に快いレンダリングを提供しながら、サーバー110とエンドポイント120との間の必要とされる帯域幅を制限するために選択されてもよい。N=1の場合、一つの下流オーディオ信号124だけが(たとえばオーディオ・ストリームとして)サーバー110からエンドポイント120に送られ、レンダリングまたは混合はサーバー110において実行されてもよい。この場合、端末120におけるレンダリングはモノ出力に制限されてもよい。N=2については、最大二つの同時のオーディオ信号124が(たとえばオーディオ・ストリームとして)サーバー110からエンドポイント120にレンダリングのために送られてもよい。N=3については、最大三個の同時のオーディオ信号124が(たとえばオーディオ・ストリームとして)サーバー110からエンドポイント120に送られてもよい。上記のそれぞれの場合において、サーバー110は、会議内の同時の語り手の数(M−1)があらかじめ定義された最大Nより大きい場合に、いくつかのストリームを混合してもよい。三点または六点シーン300、310についてのある実施形態では、シーン・マネージャは、エンドポイント120に送られるストリームの数をN=3個のストリームに制限するよう構成されていてもよい。換言すれば、下流オーディオ信号の組内のオーディオ信号の数はN=3に制限されてもよい。
N個の下流オーディオ信号が対応するメタデータとともに提供されてもよいことを注意しておくべきである。よって、端末120は、立体音響化された仕方でN個の下流オーディオ信号をレンダリングできるようにされてもよい。例として、たとえN=1であっても、単一の下流オーディオ信号は、その単一の下流オーディオ信号を2Dまたは3D空間的会議シーンにおいてどこに配置するかを示すメタデータとともに送信されてもよい。単一の語り手のみがアクティブである場合、下流オーディオ信号(単一のアクティブな語り手の上流オーディオ信号に対応する)は、その単一の語り手の語り手位置に配置されることができる。これは、通常のモノ・レンダリング(立体音響化なし)とは異なる。複数の語り手(かつN=1)の場合にのみ、複数の語り手の単一の下流オーディオ信号への混合のために、複数の語り手の空間的な曖昧さ解消が失われる。
上記で概説したように、会議サーバー110は、中央会議コントローラ111および複数のオーディオ・サーバー112を有していてもよい。会議コントローラ111は、会議シーン内の会議参加者の配置を定義するよう構成されていてもよい。さらに、会議コントローラ111は、一または複数の会議参加者のオーディオ信号が混合される必要があるかどうか、どのオーディオ信号が混合されるべきかおよび混合操作の優先度を決定するよう構成されていてもよい。換言すれば、会議コントローラ111は以下の処理を実行するよう構成されていてもよい。
・一または複数の会議参加者のオーディオ信号を混合する必要性を決定する。この目的のために、会議参加者の数Mと下流オーディオ信号124の組内のオーディオ信号の最大数Nが比較されてもよい。
・どのオーディオ信号が混合されるべきかを決定する。このコンテキストにおいて、会議コントローラ111は、一つまたは複数の混合ルールを利用してもよい。たとえば、会議シーンの中央線301のより近くにレンダリングされている語り手よりも、会議シーン内でより大きな角度に配置されている語り手をより高い優先度をもって混合されるようにすることが好ましいことがありうる。換言すれば、聴取者211の前方に配置されている語り手の混合を回避することが有益であることがある。これは、聴取者211は典型的には、会議シーン内の動きを、より大きな角度のところで生起する動きに比べて動きが聴取者211の真正面で生起する場合に、より観察するという事実のためである。さらに、会議に加わる最初の人々が会議のまとめ役である可能性が高いことが想定されてもよい。上記で概説したように、シーン・マネージャは、会議シーン210内の語り手位置212を、会議に加わる順に従って、中心位置から外側位置に向かって分布させていくよう構成されていてもよい。よって、会議のまとめ役が中心位置に位置されると想定されてもよく、従って、会議のまとめ役に(他の会議参加者と混合されるリスクがより低い)優先的な分離を提供することが望ましいことがありうる。
・混合された語り手の配置を決定する。この目的のために、会議コントローラ111は、一つまたは複数の配置ルールを適用してもよい(たとえば、本稿で記述した一つまたは複数の配置ルール)。換言すれば、会議コントローラ111は、混合された語り手が会議シーンのどこに配置されるかのあらかじめ定義された方針を利用してもよい。例として、会議コントローラ111は、Xの異なる値をもつ複数のあらかじめ定義されたX点会議シーンを有していてもよい。許容されるオーディオ信号の数Nが、Mを会議参加者の数として、必要とされるオーディオ信号の数(M−1)より小さいことが判別されると、会議コントローラ111は、あらかじめ定義されたN点会議シーンに従って混合されたオーディオ信号を配置するよう構成されていてもよい。換言すれば、会議コントローラ111は、会議シーンを選択するよう構成されていてもよい。ここで、会議シーン内の語り手位置の数は、端末120に個々に送信されることのできるオーディオ信号の数Nに適応されてもよい。
このように、会議コントローラ111によって使用される混合方針に対して少なくとも二つの要素がある。これらの要素は、どの語り手が一緒に混合されるかを決定し、混合される語り手についての最終的な空間的位置が会議シーン内のどこにあるかを決定するものである。例として、六点シーンについて、会議コントローラ111は、混合のために、隣接して配置された角度(すなわち語り手位置)を同定するよう構成されていてもよい。これは、六点シーンから三点シーンへの低下を許容する(N=3の場合)。これは、図4において、例示的な六点会議シーン400において示されている。シーン400において話している四人の人々しかいない場合、好ましい混合方針は、これらの位置410における語り手がアクティブである場合には、オーディオ信号の数を最大数N=3に減らすために、クラスター1 403および/またはクラスター2 401を混合することでありうる。これが十分でない場合にのみ、クラスター3 402内の語り手がサーバー110において混合されうる。下記でさらに詳細に概説するように、混合は典型的には、語り手活動の解析に基づいて実行される。これは、複数の時点のそれぞれにおいて、アクティブな上流オーディオ信号の数が決定されてもよいことを意味している。ある特定の時点におけるアクティブな上流オーディオ信号がNより大きい場合、アクティブな上流オーディオ信号の一部または全部が(本稿で記述する混合ルールに従って)混合されてもよい。
さらに別の言い方をすれば、会議コントローラ111は、会議内に存在しているストリームの数に基づいて、かつ許容可能なストリームの最大数に基づいて、オーディオ・ストリームを混合する(すなわち、オーディオ信号を混合する)よう構成されていてもよい。ストリームの数がNストリームを超える場合には、エンドポイント120に送信されるストリーム124の数を制限するために混合方針が適用される。混合方針は、偏りの大きなものを常に先に混合するという混合ルールを含んでいてもよい。さらに、会議コントローラ111は、混合ストリームを、混合されたストリームがもともと配置されていた二つ(以上)のあらかじめ定義された語り手位置の一つに配置するよう構成されていてもよい。あるいはまた、混合ストリームは、二つ(以上)のあらかじめ定義された語り手位置の中間のどこかに配置されてもよい。ある好ましい実装では、混合ストリームは、混合された諸ストリームの語り手位置の間の中間に配置される。会議コントローラ111は、最後の手段としてのみ(すなわち、低下した優先度で)、会議シーンの中央線301の近くに配置される語り手(たとえば、図4のクラスター3 402)の混合を実行してもよい。
上記で論じたように、会議参加者のオーディオ信号の混合は典型的には、アクティブな語り手の数(すなわち、M人の参加者がいる会議についてはM−1)がオーディオ信号124の組内の許容されるオーディオ信号の最大数Nを超える場合および/またはアクティブな語り手の数(M−1)がX点シーン内の語り手位置212の数を超える場合(すなわち、M−1>X)にのみ必要とされる。例として、六点シーン内での混合は、四人以上の語り手がいるときにのみ必要とされる。この例では、シーンは「混雑」しており、したがって音の小さな動きに気づくことは難しくなる。換言すれば、会議における参加者の数が増すにつれて、すなわち会議が「混雑」してくるにつれて、オーディオ信号の混合から帰結する音の空間的な移動は聴取者211によって知覚されにくくなる傾向がある。
オーディオ・サーバー112は、会議コントローラ111によって定義されるオーディオ信号の混合を実装するよう構成されていてもよい。換言すれば、オーディオ・サーバー112は、オーディオ信号を処理し、オーディオ信号のマージを実行してもよい。さらに別の言い方をすれば、パケット・ベースの通信ネットワークにおいて、オーディオ・サーバー112は、オーディオ信号のパケット毎に、ストリームの総数を減らすために混合を実装するかどうかを決定してもよい。例として、オーディオ・サーバー112は、複数の相続く時点のそれぞれにおいてM個の上流オーディオ信号の活動度を決定するよう構成されていてもよい(ここで、たとえば、それらの時点はオーディオ・ビットストリームのパケットと同時であってもよい)。会議コントローラは、活動度を解析し、下流オーディオ信号の総数を許容される最大Nまで低下させるための上流オーディオ信号の選択および/または混合について決定してもよい。さらに、会議コントローラは、N個の下流オーディオ信号に関する配置情報を提供してもよい。その際、実際の混合およびメタデータの生成は、オーディオ・サーバー112において、会議コントローラによって与えられる決定および配置情報に基づいて、実行されてもよい。
端末120に向かうオーディオ・ストリームの数を最大N個のオーディオ・ストリームに制限する上記の例は、端末120に伝送される(可能性としては混合された)オーディオ・ストリームの固定した選択に基づいている。典型的には、会議内でのアクティブな語り手の数は限られている。理想的できわめて整然としたオーディオ会議では、一人のアクティブな語り手のみがいて、その間、他の会議参加者は傾聴しているであろう。よって、そのようにきわめて整然としたオーディオ会議では、単一のオーディオ・ストリーム(すなわち、アクティブな語り手のオーディオ・ストリーム)を会議シーン内でのそのアクティブな語り手の配置を指示するメタデータとともに送信するだけで十分であることがある。異なる語り手位置に位置される別の参加者がアクティブな語り手になると、単一の送信されたオーディオ・ストリームは、新しい語り手位置を指示するメタデータを伴った、新しいアクティブな語り手に対応するオーディオ・ストリームに変更されうる。よって、単一のオーディオ・ストリーム(および関係したメタデータ)のみを送信しつつ、すべての異なる語り手が端末120においてそれぞれの語り手位置においてレンダリングされうる。
より一般的な表現では、会議参加者111は、X点会議シーン内に配置されるX個の(混合されたまたは混合されていない)オーディオ信号の語り手活動度に基づいて、N個の下流オーディオ信号124の組を動的に選択するよう構成されていてもよい。ある特定の時点において、会議コントローラ111は、端末120に向けた伝送のためのX個の(混合されたまたは混合されていない)オーディオ信号のうちN個の最もアクティブなものを(選択されたオーディオ信号を会議シーン内で配置するための関連するメタデータとともに)選択してもよい。端末120への送信のためのオーディオ信号の選択は、相続く時点について(たとえば1秒毎または100ms毎に)繰り返されてもよい。よって、端末120に送信されるオーディオ・ストリームの低下した数Nを提供しつつ、端末120においてレンダリングできる空間的位置の数Xは維持されうる。ある実施形態では、X個の(混合されたまたは混合されていない)オーディオ信号のうちの(N−1)個の最もアクティブなものが端末120への送信のために選択される。よって、(N−1)個の最もアクティブな語り手が端末120において立体音響化された仕方でレンダリングされうる。
本稿では、オーディオ会議の2Dまたは3Dシーンを管理するためのさまざまな側面が記述された。これらの側面は、音声会議システムの開発者または音声会議システムのユーザーが(種々の会議参加者から発する)音声信号および/または音信号(たとえば通知、音声プロンプト、音楽)の会議シーンへの配置を管理することを許容するために、API(アプリケーション・プログラミング・インターフェース)またはGUI(グラフィカル・ユーザー・インターフェース)のコンテキストにおいて与えられることがある。本稿は、あらかじめ決定されるX点シーンを定義するためおよび/または語り手を会議シーン内で自動的に位置決めするためにシーン・マネージャによって使用されうるルールおよび論理を提供する。シーン・マネージャは、シーンがヘッドホンによってレンダリングされているかラウドスピーカーによってレンダリングされているかに依存して異なりうる、装置固有の空間位置(たとえば、シーン内の端末固有の位置)および/または装置固有のX点シーンを使用するよう構成されていてもよい。
本稿で記述された方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントはたとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で実行されるソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよび/または特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて出てくる信号は、ランダム・アクセス・メモリまたは光学式記憶媒体といった媒体に記憶されてもよい。そうした信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのような、ネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、ポータブル電子装置またはオーディオ信号を記憶および/またはレンダリングするために使用される他の消費者設備である。

Claims (41)

  1. 会議参加者に関連付けられた上流オーディオ信号(123、173)を、聴取者(211)に対してレンダリングされる2Dまたは3D会議シーン内で配置するよう構成された会議コントローラ(111、175)であって:
    ・前記会議シーン内のX個の異なる空間的語り手位置(212)をもつX点会議シーンをセットアップする段階であって、Xは整数であり、X>0であり、前記X個の語り手位置(212)は、聴取者の頭部の前方の中央線(215)のまわりの円錐内に位置され、前記円錐の母線(216)と前記中央線(215)は、あらかじめ決定された最大円錐角以下の角度をなす、段階と;
    ・前記上流オーディオ信号を前記X個の語り手位置の一つに割り当てる段階と;
    ・割り当てられた語り手位置を同定するメタデータを生成し、オーディオ処理ユニット(121、171)が前記上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにする段階であって、立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は前記上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚する、段階とを実行するよう構成されている、
    会議コントローラ。
  2. 前記X個の語り手位置は円または球上に配置され、聴取者はその円または球の中心に配置される、請求項1記載の会議コントローラ。
  3. ・前記X個の語り手位置のうち二つの隣接する語り手位置は、少なくともある最小の角距離だけ離間しており、
    ・前記最小の角距離は5°またはそれ以上である、
    請求項1または2記載の会議コントローラ。
  4. 前記X個の語り手位置のうちの隣り合う語り手位置の間の角距離が異なる語り手位置については異なる、請求項1ないし3のうちいずれか一項記載の会議コントローラ。
  5. 前記X個の語り手位置のうちの隣り合う語り手位置の間の角距離が、該隣り合う語り手位置の前記中央線からの距離が増すにつれて増大する、請求項4記載の会議コントローラ。
  6. 前記最大円錐角が30度である、請求項1ないし5のうちいずれか一項記載の会議コントローラ。
  7. 前記最大円錐角が20度である、請求項1ないし5のうちいずれか一項記載の会議コントローラ。
  8. 前記最大円錐角が15度である、請求項1ないし5のうちいずれか一項記載の会議コントローラ。
  9. 前記X個の語り手位置が前記中央線に対して非対称である、請求項1ないし8のうちいずれか一項記載の会議コントローラ。
  10. Xが奇数の場合、前記X個の語り手位置は、該X個の語り手位置のうちの中央語り手位置に対して対称的である、請求項1ないし9のうちいずれか一項記載の会議コントローラ。
  11. ・Xが偶数の場合、前記X個の語り手位置の半分が前記中央線の一方の側または前記中央線を通る鉛直面の一方の側にあり、前記X個の語り手位置の残りの半分が前記中央線の反対側または前記中央線を通る前記鉛直面の反対側にある、および/または
    ・Xが奇数の場合、前記X個の語り手位置のうち(X−1)/2個が一方の側にあり、(X+1)/2個が前記中央線または前記鉛直面の反対側にある、
    請求項1ないし10のうちいずれか一項記載の会議コントローラ。
  12. ・前記X個の語り手位置は、聴取者の頭部からのX本の射線上に位置され、前記中央線とX個の語り手角をなし;
    ・前記中央線からある方向の語り手角は正であり、前記中央線から反対方向の語り手角は負であり;
    ・前記X個の語り手角の和は0とは異なる、
    請求項1ないし11のうちいずれか一項記載の会議コントローラ。
  13. 語り手角の前記和は2度以下である、請求項12記載の会議コントローラ。
  14. X=3であり、前記X個の語り手位置は、前記中央線から−2度、+6度および−10度の語り手角のところに位置される、請求項12または13記載の会議コントローラ。
  15. X=6であり、前記X個の語り手位置は、前記中央線から−2度、+3度、−7度、+8度、−12度および+13度の語り手角のところに位置される、請求項12または13記載の会議コントローラ。
  16. X=6であり、前記X個の語り手位置は、前記中央線から+2度、−5度、+9度、−12度、+16度および−19度の語り手角のところに位置される、請求項12または13記載の会議コントローラ。
  17. 複数の会議参加者に関連付けられた複数の上流オーディオ信号を前記X点会議シーン内に配置するよう構成されている、請求項1ないし16のうちいずれか一項記載の会議コントローラであって、当該会議コントローラは、前記複数の上流オーディオ信号を、前記複数の上流オーディオ信号のある逐次順に従って、前記X個の語り手位置に割り当てるよう構成されている、会議コントローラ。
  18. 前記複数の上流オーディオ信号の前記逐次順は、当該会議コントローラによる前記複数の上流オーディオ信号の検出の順序に基づいている、請求項17記載の会議コントローラ。
  19. 当該会議コントローラは、前記中央線からの絶対的な角距離が増す順に前記X個の語り手位置を割り当てるよう構成されている、請求項17または18記載の会議コントローラ。
  20. 前記複数の上流オーディオ信号からの上流オーディオ信号を、前記X個の語り手位置のうちからの最も外側の語り手位置に割り当てることを受けて、当該会議コントローラは、前記複数の上流オーディオ信号のうちからの次の上流オーディオ信号を、前記X個の語り手位置のうちからの最も内側の語り手位置に割り当てるよう構成されている、請求項19記載の会議コントローラ。
  21. 当該会議コントローラは、上流オーディオ信号の数が語り手位置の数Xより多い場合、前記複数の上流オーディオ信号のうちからのいくつかの上流オーディオ信号を、前記X個の語り手位置のうちの少なくとも一つに割り当てるよう構成されている、請求項17ないし20のうちいずれか一項記載の会議コントローラ。
  22. 同じ語り手位置に割り当てられた前記いくつかの上流オーディオ信号の混合を開始するよう構成されている、請求項21記載の会議コントローラ。
  23. 前記複数の上流オーディオ信号のそれぞれが、前記X個の語り手位置のうちの単一の位置のみに割り当てられる、請求項17ないし22のうちいずれか一項記載の会議コントローラ。
  24. ・前記複数の上流オーディオ信号からの次の上流オーディオ信号を、前記X個の語り手位置のうちの、まだ割り当てられておらず、かつ、前記中央線にできるだけ近い語り手位置に割り当てる;
    ・割り当てられた諸語り手位置の、前記中央線に対するおよび/または前記X個の語り手位置のうち中心の語り手位置に対する最大の均衡を保証する;
    ・前記X個の語り手位置のうちからの、前記複数の上流オーディオ信号のうちからのすでに割り当てられた上流オーディオ信号の中断によって空にされた空の語り手位置を割り当て直す、
    という配置ルールのうちの一つまたは複数に従って前記複数の上流オーディオ信号を配置するよう構成されている、
    請求項17ないし23のうちいずれか一項記載の会議コントローラ。
  25. ・前記立体音響化されたオーディオ信号をレンダリングするオーディオ・トランシーバ(122)のレンダリング特性を判別し;
    ・前記オーディオ・トランシーバの前記レンダリング特性に依存して前記複数の上流オーディオ信号の一つまたは複数の混合を開始するよう構成されている、
    請求項17ないし24のうちいずれか一項記載の会議コントローラ。
  26. 前記レンダリング特性が前記オーディオ・トランシーバがモノ・オーディオ信号のレンダリングに限定されていることを示す場合には、前記会議シーンに配置されるべき前記複数の上流オーディオ信号の全部の混合を開始するよう構成されている、請求項25記載の会議コントローラ。
  27. 前記上流オーディオ信号が発話信号を含むことを判別するよう構成されている、請求項1ないし26のうちいずれか一項記載の会議コントローラ。
  28. ・聴取者の好まれる側を判別する段階であって、前記好まれる側は、前記中央線から左側または右側である、段階と;
    ・到来するオーディオ信号を、聴取者の前記好まれる側にある語り手位置に割り当てる段階とを実行するよう構成されている、
    請求項1ないし27のうちいずれか一項記載の会議コントローラ。
  29. 当該会議コントローラは、前記好まれる側に関する指示を聴取者の端末から、たとえば聴取者の前記端末における選好設定に基づいて受領するよう構成されている、請求項28記載の会議コントローラ。
  30. ・前記会議シーンが3D会議シーンであり;
    ・前記X個の異なる空間的語り手位置は、前記中央線に対して異なる方位角および/または傾斜角に位置される、
    請求項1ないし29のうちいずれか一項記載の会議コントローラ。
  31. ・前記X個の異なる空間的語り手位置は、異なる傾斜角にある複数の層に配列される;および/または
    ・各鉛直方向層は、異なる方位角にある複数の異なる空間的語り手位置を含む;および/または
    ・第一の鉛直方向層における異なる空間的語り手位置と第二の鉛直方向層における異なる空間的語り手位置は対応する方位角を有する、
    請求項30記載の会議コントローラ。
  32. ・前記上流オーディオ信号の地位に関する情報を受領する段階と;
    ・前記上流オーディオ信号を、該上流オーディオ信号の地位に基づいて、空間的語り手位置に割り当てる段階とを実行するよう構成されている、
    請求項1ないし31のうちいずれか一項記載の会議コントローラ。
  33. ・前記地位が、前記上流オーディオ信号が会議の司会者またはまとめ役に対応することを示し;
    ・前記上流オーディオ信号が割り当てられる空間的語り手位置は、最も中央寄りの空間的語り手位置である、
    請求項32記載の会議コントローラ。
  34. あらかじめ決定された地位をもつ上流オーディオ信号のために前記X個の空間的語り手位置のうちの一つまたは複数を予約するよう構成されている、請求項1ないし33のうちいずれか一項記載の会議コントローラ。
  35. 前記X個の語り手位置が聴取者の頭部の前方の前記中央線のまわりの前記円錐内に位置されるよう、X個の異なる空間的語り手位置をもつ前記X点会議シーンを計算するよう構成されている、請求項1ないし34のうちいずれか一項記載の会議コントローラ。
  36. X個の異なる空間的語り手位置をもつ前記X点会議シーンを、X個の異なるあらかじめ決定された空間的語り手位置をもつあらかじめ決定されたX点会議シーンの集合から選択するよう構成されている、請求項1ないし35のうちいずれか一項記載の会議コントローラ。
  37. オーディオ会議システム(100、150)であって、
    ・会議参加者に関連付けられた上流オーディオ信号を生成するよう構成された語り手端末と;
    ・請求項1ないし36のうちいずれか一項記載の会議コントローラであって、2Dまたは3D会議シーン内の語り手位置に上流オーディオ信号を割り当てるよう構成されており、割り当てられた語り手位置を同定するメタデータを生成するよう構成されている会議コントローラと;
    ・聴取者が上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚するよう、前記メタデータを使って聴取者に対して上流オーディオ信号をレンダリングするよう構成された聴取者端末を有する、
    オーディオ会議システム。
  38. 会議参加者に関連する上流オーディオ信号を、聴取者に対してレンダリングされるべき2Dまたは3D会議シーン内で配置する方法であって、
    ・会議シーン内でX個の異なる空間的語り手位置をもつX点会議シーンをセットアップする段階であって、Xは整数であり、X>0であり、前記X個の語り手位置は、聴取者の頭部の前方の中央線のまわりの円錐内に位置され、前記円錐の母線と前記中央線はあらかじめ決定された最大円錐角以下の角度をなす、段階と;
    ・前記上流オーディオ信号を前記語り手位置の一つに割り当てる段階と;
    ・割り当てられた語り手位置を同定するメタデータを生成し、オーディオ処理ユニット(121、171)が前記上流オーディオ信号に基づいて立体音響化されたオーディオ信号を生成できるようにする段階とを含んでおり、立体音響化されたオーディオ信号を聴取者に対してレンダリングするとき、聴取者は、前記上流オーディオ信号を、割り当てられた語り手位置から到来するものとして知覚する、
    方法。
  39. プロセッサ上での実行のために、該プロセッサ上で実行されたときに請求項38記載の方法段階を実行するために適応されている、ソフトウェア・プログラム。
  40. プロセッサ上での実行のために、コンピューティング装置上で実行されたときに請求項38記載の方法段階を実行するために適応されたソフトウェア・プログラムを有している記憶媒体。
  41. コンピュータ上で実行されたときに請求項38記載の方法段階を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。
JP2015501908A 2012-03-23 2013-03-21 2dまたは3d会議シーンにおける語り手の配置 Active JP6339997B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261614592P 2012-03-23 2012-03-23
US61/614,592 2012-03-23
PCT/US2013/033270 WO2013142668A1 (en) 2012-03-23 2013-03-21 Placement of talkers in 2d or 3d conference scene

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016214026A Division JP6255076B2 (ja) 2012-03-23 2016-11-01 2dまたは3d会議シーンにおける語り手の配置

Publications (2)

Publication Number Publication Date
JP2015515800A true JP2015515800A (ja) 2015-05-28
JP6339997B2 JP6339997B2 (ja) 2018-06-06

Family

ID=48142071

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015501908A Active JP6339997B2 (ja) 2012-03-23 2013-03-21 2dまたは3d会議シーンにおける語り手の配置
JP2016214026A Active JP6255076B2 (ja) 2012-03-23 2016-11-01 2dまたは3d会議シーンにおける語り手の配置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016214026A Active JP6255076B2 (ja) 2012-03-23 2016-11-01 2dまたは3d会議シーンにおける語り手の配置

Country Status (5)

Country Link
US (1) US9749473B2 (ja)
EP (1) EP2829051B1 (ja)
JP (2) JP6339997B2 (ja)
CN (1) CN104205790B (ja)
WO (1) WO2013142668A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
EP2829048B1 (en) 2012-03-23 2017-12-27 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2d or 3d audio conference
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN104869524B (zh) * 2014-02-26 2018-02-16 腾讯科技(深圳)有限公司 三维虚拟场景中的声音处理方法及装置
WO2015130508A2 (en) 2014-02-28 2015-09-03 Dolby Laboratories Licensing Corporation Perceptually continuous mixing in a teleconference
CN106164900A (zh) * 2014-03-04 2016-11-23 卡姆赫尔有限公司 基于对象的电话会议协议
WO2015177224A1 (en) * 2014-05-21 2015-11-26 Dolby International Ab Configuring playback of audio via a home audio playback system
US10079941B2 (en) 2014-07-07 2018-09-18 Dolby Laboratories Licensing Corporation Audio capture and render device having a visual display and user interface for use for audio conferencing
CN107211061B (zh) * 2015-02-03 2020-03-31 杜比实验室特许公司 用于空间会议回放的优化虚拟场景布局
US10567185B2 (en) 2015-02-03 2020-02-18 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
CN107210045B (zh) * 2015-02-03 2020-11-17 杜比实验室特许公司 会议搜索以及搜索结果的回放
US11076052B2 (en) * 2015-02-03 2021-07-27 Dolby Laboratories Licensing Corporation Selective conference digest
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
MY186995A (en) * 2015-04-22 2021-08-26 Huawei Tech Co Ltd An audio signal processing apparatus and method
GB2540226A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Distributed audio microphone array and locator configuration
US9749766B2 (en) * 2015-12-27 2017-08-29 Philip Scott Lyren Switching binaural sound
CN105898668A (zh) * 2016-03-18 2016-08-24 南京青衿信息科技有限公司 一种声场空间的坐标定义方法
CN105895108B (zh) * 2016-03-18 2020-01-24 南京青衿信息科技有限公司 一种全景声处理方法
CN105895106B (zh) * 2016-03-18 2020-01-24 南京青衿信息科技有限公司 一种全景声编码方法
US9584653B1 (en) * 2016-04-10 2017-02-28 Philip Scott Lyren Smartphone with user interface to externally localize telephone calls
EP3468514B1 (en) 2016-06-14 2021-05-26 Dolby Laboratories Licensing Corporation Media-compensated pass-through and mode-switching
CN106205573B (zh) * 2016-06-28 2019-09-17 青岛海信移动通信技术股份有限公司 一种音频数据处理方法和装置
US9930182B2 (en) * 2016-09-01 2018-03-27 Telekonnectors Limited Media server interaction in conferencing
US10038419B1 (en) * 2017-07-06 2018-07-31 Bose Corporation Last mile equalization
CN111492668B (zh) * 2017-12-14 2021-10-29 巴科股份有限公司 用于在限定的空间内定位音频信号的发源点的方法和系统
US10306395B1 (en) * 2018-02-05 2019-05-28 Philip Scott Lyren Emoji that indicates a location of binaural sound
US10154364B1 (en) 2018-09-09 2018-12-11 Philip Scott Lyren Moving an emoji to move a location of binaural sound
US11070916B2 (en) 2018-10-29 2021-07-20 Incontact, Inc. Systems and methods for distinguishing audio using positional information
US10499179B1 (en) 2019-01-01 2019-12-03 Philip Scott Lyren Displaying emojis for binaural sound
CN113812136A (zh) 2019-04-03 2021-12-17 杜比实验室特许公司 可缩放话音场景媒体服务器
US11356792B2 (en) * 2020-06-24 2022-06-07 International Business Machines Corporation Selecting a primary source of text to speech based on posture
US11825026B1 (en) * 2020-12-10 2023-11-21 Hear360 Inc. Spatial audio virtualization for conference call applications
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN115242566B (zh) * 2022-06-28 2023-09-05 深圳乐播科技有限公司 一种云会议加入方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990963A (ja) * 1995-09-20 1997-04-04 Hitachi Ltd 音情報提供装置、及び音情報選択方法
JP2001274912A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2006180251A (ja) * 2004-12-22 2006-07-06 Yamaha Corp 複数話者による同時発声を可能とする音声信号処理装置およびプログラム
JP2006279492A (ja) * 2005-03-29 2006-10-12 Tsuken Denki Kogyo Kk 電話会議システム
US20100215164A1 (en) * 2007-05-22 2010-08-26 Patrik Sandgren Methods and arrangements for group sound telecommunication

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3959590A (en) 1969-01-11 1976-05-25 Peter Scheiber Stereophonic sound system
NL8700985A (nl) 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
NL8900571A (nl) 1989-03-09 1990-10-01 Prinssen En Bus Holding Bv Electro-akoestisch systeem.
JPH0974446A (ja) * 1995-03-01 1997-03-18 Nippon Telegr & Teleph Corp <Ntt> 音声通信制御装置
US5862230A (en) 1997-01-22 1999-01-19 Darby; Ronald A. Method to reduce perceived sound leakage between auditoriums in multiplex theaters
US6125175A (en) 1997-09-18 2000-09-26 At&T Corporation Method and apparatus for inserting background sound in a telephone call
US6327567B1 (en) * 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
US7248864B1 (en) 2000-09-29 2007-07-24 Palmsource, Inc. System and method of managing incoming calls on a mobile device having an earplug
WO2003010996A2 (en) 2001-07-20 2003-02-06 Koninklijke Philips Electronics N.V. Sound reinforcement system having an echo suppressor and loudspeaker beamformer
US7653447B2 (en) 2004-12-30 2010-01-26 Mondo Systems, Inc. Integrated audio video signal processing system using centralized processing of signals
DE102005033238A1 (de) 2005-07-15 2007-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Mehrzahl von Lautsprechern mittels eines DSP
US7558156B2 (en) 2006-01-06 2009-07-07 Agilent Technologies, Inc. Acoustic location and enhancement
WO2007080212A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Controlling the decoding of binaural audio signals
US8249233B2 (en) 2006-03-17 2012-08-21 International Business Machines Corporation Apparatus and system for representation of voices of participants to a conference call
US20070263823A1 (en) 2006-03-31 2007-11-15 Nokia Corporation Automatic participant placement in conferencing
US8559646B2 (en) 2006-12-14 2013-10-15 William G. Gardner Spatial audio teleconferencing
EP1954019A1 (en) 2007-02-01 2008-08-06 Research In Motion Limited System and method for providing simulated spatial sound in a wireless communication device during group voice communication sessions
EP2119306A4 (en) 2007-03-01 2012-04-25 Jerry Mahabub SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION
US8085920B1 (en) * 2007-04-04 2011-12-27 At&T Intellectual Property I, L.P. Synthetic audio placement
US20080260131A1 (en) * 2007-04-20 2008-10-23 Linus Akesson Electronic apparatus and system with conference call spatializer
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
EP2009891B1 (fr) 2007-06-26 2019-01-16 Orange Transmission de signal audio dans un système de conférence audio immersive
EP2009892B1 (fr) 2007-06-29 2019-03-06 Orange Positionnement de locuteurs en conférence audio 3D
US8396226B2 (en) 2008-06-30 2013-03-12 Costellation Productions, Inc. Methods and systems for improved acoustic environment characterization
EP2332346B1 (en) 2008-10-09 2015-07-01 Telefonaktiebolaget L M Ericsson (publ) A common scene based conference system
US8351589B2 (en) 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US8363810B2 (en) 2009-09-08 2013-01-29 Avaya Inc. Method and system for aurally positioning voice signals in a contact center environment
US20110096915A1 (en) 2009-10-23 2011-04-28 Broadcom Corporation Audio spatialization for conference calls with multiple and moving talkers
US20110317522A1 (en) 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
EP2829048B1 (en) 2012-03-23 2017-12-27 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2d or 3d audio conference

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990963A (ja) * 1995-09-20 1997-04-04 Hitachi Ltd 音情報提供装置、及び音情報選択方法
JP2001274912A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2006180251A (ja) * 2004-12-22 2006-07-06 Yamaha Corp 複数話者による同時発声を可能とする音声信号処理装置およびプログラム
JP2006279492A (ja) * 2005-03-29 2006-10-12 Tsuken Denki Kogyo Kk 電話会議システム
US20100215164A1 (en) * 2007-05-22 2010-08-26 Patrik Sandgren Methods and arrangements for group sound telecommunication

Also Published As

Publication number Publication date
JP2017060175A (ja) 2017-03-23
JP6255076B2 (ja) 2017-12-27
JP6339997B2 (ja) 2018-06-06
EP2829051A1 (en) 2015-01-28
EP2829051B1 (en) 2019-07-17
CN104205790B (zh) 2017-08-08
US9749473B2 (en) 2017-08-29
US20150296086A1 (en) 2015-10-15
WO2013142668A1 (en) 2013-09-26
CN104205790A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
JP6255076B2 (ja) 2dまたは3d会議シーンにおける語り手の配置
US9654644B2 (en) Placement of sound signals in a 2D or 3D audio conference
US9961208B2 (en) Schemes for emphasizing talkers in a 2D or 3D conference scene
US9420109B2 (en) Clustering of audio streams in a 2D / 3D conference scene
US8503655B2 (en) Methods and arrangements for group sound telecommunication
US10491643B2 (en) Intelligent augmented audio conference calling using headphones
US20160065744A1 (en) Multidimensional virtual learning audio programming system and method
EP2490426B1 (en) Method, apparatus and system for implementing audio mixing
US20120121076A1 (en) Method and system for controlling audio signals in multiple concurrent conference calls
JP2023508130A (ja) テレカンファレンスの方法
EP2661857B1 (en) Local media rendering
US11930350B2 (en) Rendering audio
US11228833B2 (en) Apparatus and associated methods for presentation of audio
Reynolds et al. SPATIALIZED AUDIO CONFERENCES-IMS Integration and Traffic Modelling
JP2023044657A (ja) イマーシブオーディオシーンレンダリングにおける通信オーディオ処理方法および装置
Reynolds et al. SPATIALIZED AUDIO CONFERENCES

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180511

R150 Certificate of patent or registration of utility model

Ref document number: 6339997

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250