JP2012213214A

JP2012213214A - マルチポイント・ビデオ会議における空間相関オーディオ

Info

Publication number: JP2012213214A
Application number: JP2012139705A
Authority: JP
Inventors: Sergey Potekhin; ポテキンセルゲイ; Eran Knaz; クナッツエラン; Sharon Shani; シャニシャロン
Original assignee: Polycom Inc
Current assignee: Polycom Inc
Priority date: 2005-09-07
Filing date: 2012-06-21
Publication date: 2012-11-01
Also published as: JP2009177827A; EP1763241A2; CN1929593A; CN1929593B; US7612793B2; EP1763241B1; US20070064094A1; JP2007074732A; EP1763241A3

Abstract

【課題】表示上の会議出席者の位置を会議出席者の声と関係付けることにより、マルチメディア・マルチポイント・ユーザの体験を改善する。
【解決手段】エンドポイントに表示されるビデオ会議レイアウト内の話者エンドポイントの位置に最も近い１つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するようにオーディオ・ストリームを差異化させる。例えば、画面の遠位側に配置されたスピーカでブロードキャストされるオーディオを、表示の近位側に配置されたスピーカでブロードキャストされるオーディオと比較して減衰又は遅延させることもできる。エンドポイントのレイアウト内の位置によって２つ以上のエンドポイントからのオーディオ信号を処理し、次いで、エンドポイントが空間相関オーディオをブロードキャストする。
【選択図】図２

Description

本発明はマルチメディア・マルチポイント会議の分野に関する。特に、本発明は、マルチポイント・ビデオ会議においてオーディオ位置知覚を提供する方法及び装置に関する。

マルチポイント・ビデオ会議は通常、数名の会議出席者又はいくつかのエンドポイントを伴う。エンドポイントは、音声を提供することが可能であり、音声及びビデオを提供することが可能であり、又は音声、データ及びビデオを提供することが可能である。２名以上の会議出席者に同時に提示するために、ビデオ会議を実施するマルチポイント制御装置（ＭＣＵ）は２つ以上の位置から来るビデオ画像を、別々の参加者に転送される単一のレイアウトに構成する。ＭＣＵはいつかのメディア・チャンネルをアクセス・ポートから受信する。特定の基準によって、ＭＣＵは視聴覚信号及びデータ信号を処理し、接続チャンネルに配信する。そうした構成レイアウトは、連続表示（ＣＰ）レイアウトとも呼ばれている。ＭＣＵの例として、Ｐｏｌｙｃｏｍ，Ｉｎｃ．から入手可能なＭＧＣ−１００がある。ＭＧＣ−１００についての更なる情報は、内容を本明細書及び特許請求の範囲に援用するｗｗｗ．ｐｏｌｙｃｏｍ．ｃｏｍのウェブサイトで見つけることが可能である。エンドポイント（端末）及びＭＣＵのより徹底的な定義は、内容を本明細書及び特許請求の範囲に援用するＨ．３２０標準、Ｈ．３２４標準、Ｈ．３２３標準に限定されないがそれらのものなどの国際電気通信連合（「ＩＴＵ」）標準において見つけることが可能である。（ＩＴＵは電気通信の分野における、国際連合の専門機関である。ＩＴＵに関する更なる情報は、内容を本明細書及び特許請求の範囲に援用するｗｗｗ．ｉｔｕ．ｉｎｔのウェブサイト・アドレスで見つけることが可能である。）
通常、ＣＰ表示における参加者の位置は、会議のダイナミクスに応じて会議中に動的に変動する。図１は、会議の別々の期間中の別々の２ｘ２レイアウト・スナップショットを示す。２ｘ２レイアウトは、合計現行参加者数のうちの最大４参加者が表示されるレイアウトである。現行参加者の数は４以上であり得るが、特定の時点で、最大４名の会議出席者を表示することが可能である。特定の時点でどの会議出席者が表示されるかは、会議を予約するか、又は会議を設定する場合に規定することが可能な選択基準によって変わってくる。例えば、一基準は、現在声が最も大きな会議出席者が表示されるというものであり得る。

２ｘ２レイアウトで送信されるミクシング・オーディオは、表示された４名の参加者のミクシング・オーディオを含み得る。声のより大きな４名の会議出席者は変わってくることがあり得るので、表示上の位置は、会議のダイナミクスによって動的に変動する。

例えば、レイアウト１００は、会議出席者Ａ、Ｂ、Ｃ及びＤが、声が最も大きな会議出席者であり、よって表示上に表示される。レイアウト１１０は、会議出席者ＥがＢよりも声が大きく、よって、会議出席者Ｂがレイアウトから除外され、会議出席者Ｅが会議出席者Ｂを置き換える、同じ会議における別の期間のスナップショットである。レイアウト１１０は会議出席者Ａ、Ｅ、Ｃ及びＤを含む。レイアウト１２０は、会議出席者ＢがＣよりも声が大きく、よって、会議出席者Ｃがレイアウトから除外され、会議出席者Ｂが会議出席者Ｃを置き換えるスナップショットである。上記３つのレイアウトは、会議のダイナミクスを表す。

通常のマルチポイント会議システムでは、ミクシング・オーディオはモノであり、そのソースの画像の位置に関する印象を画面上で何ら伝えることが可能でない。しかし、ユーザ体験を向上させるために、参加者の声を聴くことが可能な方向を、表示上の参加者の位置と関係付けることができることが望ましい。

仮想位置に関する合成ステレオ・オーディオを生成するための方法及び／又はシステムを教示する従来技術の参照文献は少ない。例えば、内容全体を本明細書及び特許請求の範囲に援用する米国特許第６，４０８，３２７号明細書には、ローカル・エリア・ネットワーク又はワイド・エリア・ネットワークを介して複数のユーザの合成ステレオ・オーディオ会議を容易にする方法及びシステムを開示している。しかし、従来技術は、ミクシング・ステレオ・オーディオが現行の会議レイアウトにわたる話者の位置の関数であるビデオ会議システムを提供するものでない。

よって、表示上の会議出席者の位置を会議出席者の声と関係付けることによって、マルチメディア・マルチポイント・ユーザの体験を改善する必要性が存在している。

本願の開示は、マルチポイント・ビデオ会議であって、エンドポイントでブロードキャストされるオーディオが、エンドポイントで表示されるレイアウト内の、オーディオのソースの位置（すなわち、発話エンドポイント）に空間的に相当する。よって、エンドポイントのユーザは、空間的に解決されたオーディオを楽しむことが可能である（すなわち、ユーザが聴くオーディオが、オーディオのソースが位置する、表示上の位置から発せられるように思われることになる）。

本願で開示する方法は、エンドポイントに複数のオーディオ・ストリームも供給することによってエンドポイントに対してオーディオ位置の知覚を提供する。オーディオ・ストリームのそれぞれは、エンドポイントでの複数のスピーカのうちの１つに相当する。オーディオ・ストリームは、エンドポイントで表示される、ビデオ会議レイアウト内の発話エンドポイントの位置に最も近い１つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するように差異化される。例えば、画面の遠位側にあるスピーカでブロードキャストされるオーディオを、表示の近位側にあるスピーカでブロードキャストされるオーディオと比較して減衰させる、及び／又は遅延させることもできる。

上記開示は、ビデオ会議に参加している種々のエンドポイントからのオーディオ信号及びビデオ信号を受信し、処理するＭＣＵも提供する。ＭＣＵはオーディオ信号及びビデオ信号を復号化し、処理し、種々のエンドポイントに送信されるビデオ・レイアウトを構成する。レイアウトは、レイアウト内に配置された種々のエンドポイントのビデオからの画像を含む。特定のエンドポイントの位置は、セッションのダイナミクスに応じてビデオ会議セッション中にレイアウト内で変動し得る。ＭＣＵはどのエンドポイントが、オーディオのソースであるかをどの特定の時点でも判定する。このエンドポイントを本明細書及び特許請求の範囲では「発話エンドポイント」として表す。２つ以上のエンドポイントが特定の時点でオーディオを供給し得るので、２つ以上の発話エンドポイントが存在し得る。ＭＣＵはオーディオを種々のエンドポイントに送信し、オーディオ・ストリームを、発話エンドポイントのレイアウト内の位置に最も近い１つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するように差異化させる。

ビデオ会議セッション中のビデオ会議レイアウト内の別々の会議出席者の位置における変動を示す図である。マルチメディア会議システムのエレメントを示す簡易構成図である。非モノ・オーディオ・ポートのエレメントを示す簡易構成図である。合成ステレオ効果をもたらす例示的なアルゴリズム（パラメータ）を示す図である。エンドポイントとの接続を設定する例示的な方法における工程を示す流れ図である。ＩＶＲ（相互作用音声応答）セッションを用いて非モノ・エンドポイントの話者を調節するためのビデオ・クリップ内のレイアウト例を示す図である。ビデオ内の位置変動にオーディオのソースの位置を適合させる例示的な方法における工程を示す流れ図である。本発明の例示的な実施例は、以下の説明を検討し、添付図面を参照することによってより容易に理解されるであろう。

本開示の一局面は、ビデオ会議システムであり、エンドポイントのユーザが、空間的に解決されたオーディオを楽しむことが可能である、すなわち、ユーザが聴くオーディオは、オーディオのソースがある、ディスプレイ上の位置から発せられるように思われることになる。図２は、マルチメディア会議システム２００の一般的なトポロジにおけるエレメントを示す簡易構成図である。会議システム２００は、複数のエンドポイント２１０ａ−ｎ及びマルチメディア線２２０ａ−ｎのそれぞれを有し得る。会議システム２００は、マルチメディア線２２０ｑ、ネットワーク２３０及びビデオ制御装置（ＶＣＵ）２４０を更に有する。ＶＣＵ２４０は、ネットワーク・インタフェース（ＮＩ）モジュール２４２、１つ又は複数のモノ・オーディオ・ポート２６２及び１つ又は複数の非モノ・オーディオ・ポート２６４を有するオーディオ・モジュール２６０、制御線２７４、２７６、２７８を備えた制御モジュール２７０、圧縮ビデオ線２９８、圧縮オーディオ線２６８、及び入力２９５モジュール、出力モジュール２９６を有するビデオ・モジュール２９４を含む。出力モジュール２９６のそれぞれは、エディタ２９９を含み得る。

制御線２７４、２７６、２７８、ビデオ線２９８、オーディオ線２６８、並びにマルチメディア線２２０ａ−ｎ及び２２０ｑはそれぞれ、制御信号、ビデオ信号、オーディオ信号及びマルチメディア信号の搬送のために特に企図され、それらに特化された線であり得る。あるいは、上記線は、信号を搬送する汎用ケーブルから構成することもできる。制御線２７４、２７６、２７８、ビデオ線２９８、オーディオ線２６８、並びにマルチメディア線２２０ａ−ｎ及び２２０ｑは、本明細書記載の信号に加えて他の信号を搬送することが可能である。例えば、光信号及び／又は電気信号を搬送することが可能であり、無線電波の経路であり得るものであり、又はそれらの組み合わせであり得る。こうした線はそれぞれ、実際に、相当する信号が通って進む、複雑な回路アレイ及び／若しくは部品アレイであり得るものであるか、又は、情報を交換するのに用いる共通メモリ・バッファであり得る。こうした線の何れかによって接続されるモジュールがソフトウェア構成部分である実施例において、こうした線は情報の交換を表し得る。

エンドポイント２１０ａ−ｎとＶＣＵ２４０との間で通信される情報は、表示子、制御、オーディオ情報、ビデオ情報、及びデータを含む。マルチメディア線２２０ａ−ｎは情報をネットワーク２３０に伝達し、マルチメディア線２２０ｑは情報をＶＣＵ２４０に伝達する。

何れかの組み合わせのエンドポイント２１０ａ−ｎが何れかの特定の会議に参加することが可能である。エンドポイント２１０ａ−ｎは、音声、データ、ビデオ、又はそれらの何れかの組み合わせを供給することができる。よって、各エンドポイント２１０ａ−ｎは、ユーザ制御装置２１２ａ−ｎ、１つ又は複数のマイクロフォン２１４ａ−ｎ、カメラ２１６ａ−ｎ、表示２１８ａ−ｎ、及び１つ又は複数のスピーカ２１１ａ−ｎをエンドポイントのタイプによって有し得る。エンドポイント２１０ａ−ｎのそれぞれは、こうした構成部分の別の組み合わせを含み得る。通常、モノ・エンドポイント２１０ａは、１つのスピーカ２１１ａ及び１つのマイクロフォン２１４ａ−ｎを有する。ステレオ・エンドポイント２１０ｂは２つのスピーカ（右側に２１１ｂｒ及び左側に２１１ｂｌ）と１つ又は２つのマイクロフォン（左側及び右側それぞれに２１４ｂＬ及び２１４ｂＲ）とを有する。エンドポイントは、３つ以上のスピーカ（例えば、４チャンネル・ステレオ・システムにおける４つのスピーカ）を有し得る。例えば、エンドポイントは、２次元のスピーカ・アレイを有し得る。

ユーザ制御装置２１２ａ−ｎは、ユーザとエンドポイントとの間のインタフェースとしてふるまう。ユーザ制御装置２１２ａ−ｎは、ＤＴＭＦ信号を用いるダイヤル・キーボード（例えば、電話機のキーパッド）、ＤＴＭＦ信号に加えて他の制御信号を用い得る専用制御装置、又は、例えば、ＩＴＵ標準Ｈ．２２４及びＨ．２８１を利用する遠位端カメラ制御信号装置であり得る。一実施例では、ユーザ制御装置２１２ａ−ｎはキーパッドである、及び／又は、会議画像（すなわち、会議に関連した画像）上でカーソルをたどるか、又は会議画像の位置をシフトさせるための上下左右の矢印キーを有する。あるいは、ユーザ制御装置２１２ａ−ｎは、表示２１８ａ−ｎ上に仮想キーパッドを表示するソフトウェアであり得る。更に別の実施例では、ユーザ制御装置２１２ａ−ｎは、タッチトーン電話機の共通キーパッドなどのＤＴＭＦ生成器及び／又はリモコン（ＴＶ受信機に用いられるリモコンなど）を含み得る。

マイクロフォン２１４ａ−ｎによって、エンドポイント２１０ａ−ｎにいるユーザが会議内で話すか、又は、他のユーザに聞こえる音声及び雑音に寄与することが可能になる。スピーカ２１１ａ−ｎによって、エンドポイント２１０ａ−ｎのユーザが会議を聴くことが可能になる。非モノ・エンドポイント（エンドポイント２１０ｂなど）の場合、２つ以上のスピーカ２１１ｂｒ及び２１１ｂｌは、表示２１８ｂ上の話者の位置によって位置知覚を提供することが可能である。カメラ２１６ａ−ｎは、生のビデオ・デ―タ（エンドポイント２１０ａ−ｎに関連したユーザの画像や展示の画像など）をエンドポイント２１０ａ−ｎによって入力することを可能にする。表示２１８ａ−ｎによって、会議をエンドポイント２１０ａ−ｎで視ることが可能になる。構成部分の１つを欠いているエンドポイント２１０ａ−ｎは、会議に参加することが可能な方法において制限され得る。

複数のエンドポイント２１０ａ−ｎがネットワーク２３０を介してビデオ制御装置（ＶＣＵ）２４０に接続される。ＶＣＵ２４０は例えば、ＭＣＵ又はメディア・プロセッサであり得る。ＭＣＵは会議制御エンティティである。例示的な実施例では、ＭＣＵはネットワーク２３０のノードにあるか、又は端末内にある、アクセス・ポートからいくつかのチャンネルを受信し、特定の基準によって、視聴覚信号を処理し、接続チャンネルに配信する機器である。ＭＣＵの一例として、Ｐｏｌｙｃｏｍ，Ｉｎｃ．の製品であるＭＧＣ−１００がある。ネットワーク２３０は、単一のネットワーク（統合サービス・ディジタル・ネットワーク（ＩＳＤＮ）、公衆交換電話ネットワーク（ＰＳＴＮ）、非同期転送モード（ＡＴＭ）、インターネット及び／又はイントラネットなど）、又は２つ以上の上記ネットワークの組み合わせであり得る。

以下では、多くの場合、本発明のＶＣＵ２４０の例としてＭＣＵを表す。しかし、メディア・プロセッサ（ＭＰ）をＭＣＵの代わりに用いることができ、以下の記載におけるＭＣＵを置き換えることができる。

ネットワーク・インタフェース（ＮＩ）モジュール２４２は論理装置であり得る。論理モジュール又は論理装置は、特定の機能を行うモジュール又は装置である。本明細書では、論理モジュール、論理装置の語、及びこれらの語の変形は同義で使用する。論理モジュールはハードウェア及び／又はソフトウェアであり得る１つ又は複数のエレメントを含み得る。論理モジュールは、一エンティティ（ディジタル信号処理、印刷回路基板（ＤＳＰ、ＰＣＢ）、プロセッサ、又はコンピュータ・プログラムに限定されないが、それらなど）に配置されてもよく、別々の上記エンティティにわたって分散させてもよい。ＮＩ２４２はネットワーク２３０を介して複数のエンドポイント２１０ａ−ｎからマルチメディア通信を受信し、通信標準（Ｈ．３２３、Ｈ．３２１、Ｈ．３２４、シップ（ＳＩＰ）、及び／又はＨ．３２０に限定されないが、それらなど）によってマルチメディア通信を処理する。ＮＩ２４２はオーディオ・ストリーム、ビデオ・ストリーム、データ・ストリーム及び制御ストリームをＶＣＵ２４０の適切な構成部分に配信する。着信マルチメディア通信をオーディオ・ストリーム、ビデオ・ストリーム、データ・ストリーム及び制御ストリームに多重化する工程をＮＩ２４２の処理が含むことを一部の通信標準は必要とする。情報をエンドポイント２１０ａ−ｎに送信すると、ＮＩ２４２は別個のストリームをＶＣＵ２４０の種々の装置から受信し、適切な通信標準によってストリームを処理する。ＮＩ２４２は次いで、マルチメディア線２２０ｑを介してストリームをネットワーク２３０に送信し、ネットワーク２３０は同様に、ストリームをマルチメディア線２２０ａ−ｎを介してエンドポイント２１０ａ−ｎに送信する。別々のネットワークにわたるエンドポイント及び／又はＭＣＵ間での通信に関する更なる情報、並びに、例えば、信号、制御、圧縮、及びビデオ通話を設定する方法に関する更なる情報は、国際電気通信連合（「ＩＴＵ」）標準Ｈ．３２０、Ｈ．３２１、Ｈ．３２３、Ｈ．３２４、Ｈ．３２４Ｍ、Ｈ．２６１及びＨ．２６３、Ｈ２６４、ＭＰＥＧで見つけることができ、又はＳＩＰウェブサイト（３ｇｐｐ．ｏｒｇ）で見つけることができる。オーディオ圧縮標準には、Ｇ．７１１、Ｇ．７２２、ＡＭＲ、ＡＭＲ−ＷＢ等が含まれる。

オーディオ・モジュール２６０は、複数のエンドポイント２１０ａ−ｎの圧縮オーディオ・ストリームをＮＩ２４２からオーディオ線２６８を介して受信する。オーディオ・モジュール２６０は圧縮オーディオ・ストリームを処理し、（エンドポイント２１０ａ−ｎからの）適切なオーディオ・ストリームをミクシングし得るものであり、圧縮されたミクシング信号をもう一度ＮＩ２４２にオーディオ線２６８を介して送る。処理済オーディオは、エンドポイント２１０ａ−ｎにもう一度送られる。個々のエンドポイント２１０ａ−ｎのニーズによる別々の通信標準によってオーディオ・ストリームをフォーマッティングすることができるという点で、エンドポイント２１０ａ−ｎのそれぞれに送られるオーディオ・ストリームは、お互いに異なり得る。例えば、オーディオ・ストリームは、エンドポイントが有するスピーカ２１１ａ−ｎ、及び現行ビデオ表示等の数によってフォーマッティングすることができる。別の例として、特定のエンドポイントに送られるオーディオ・ストリームは、そのエンドポイントに関連したユーザの音声を含まない場合があるが、音声を他のオーディオ・ストリーム全てに含み得る。

例示的な実施例として、オーディオ・モジュール２６０は、モジュールのうちでもとりわけ、少なくとも１つのモノ・オーディオ・ポート（ＭＡＰ）２６２、少なくとも１つの非モノ・オーディオ・ポート（ＮＭＡＰ）２６４、圧縮オーディオ共通インタフェース（ＣＡＣＩ）及び復号化オーディオ共通インタフェース（ＤＡＣＩ）を含み得る。ＣＡＣＩ及びＤＡＣＩは図２に示していない。ＣＡＣＩ及びＤＡＣＩは両方のタイプのオーディオ・ポート（ＭＡＰ２６２及びＮＭＡＰ２６４）に接続され、ＭＡＰ２６２及びＮＭＡＰ２６４の別々のモジュール間で圧縮オーディオ又は復号化オーディオを搬送する。ＭＡＰ２６２又はＮＭＡＰ２６４のそれぞれは、エンドポイントでのスピーカの数によってエンドポイントと関連付けられる。各オーディオ・ポートは、その関連エンドポイントからＮＩ２４２、オーディオ・バス２６８を介して来る符号化オーディオ・ストリームを取り込む。ＣＡＣＩは取り込んだ符号化ストリームを復号化し、ＤＡＣＩ上に復号化ストリームを配置させる。

制御モジュール２７０からの受信コマンド、及び会議の現状に基づいて、別々の会議出席者に属する１つ又は複数の適切な復号化ストリームがＤＡＣＩから取り込まれる。取り込まれた復号化ストリームは、処理され、ミクシングされ、符号化され、ＣＡＣＩを介して関連エンドポイントに送られる。選択された復号化オーディオ・ストリームの操作は、オーディオ・ポートのタイプ（すなわち、ＭＡＰ２６２かＮＭＡＰ２６４か）によって変わってくる。ＭＡＰ２６２の動作に関する更なる情報は、内容全体を本明細書及び特許請求の範囲に援用する、米国特許出願公開第２００２／０１２３８９５号、米国特許出願公開第２００２／０１８８７３１号、米国特許出願公開２００５／００６９１１４号、及び米国特許出願公開第１０／９０９，４４６号において見つけることが可能である。ＮＭＡＰ２６４に関する更なる情報は、図３ａ及び図ｂ、図４＆図５に関して以下に開示する。

制御モジュール２７０は、ＶＣＵ２４０の動作を制御する論理装置であり得る。通常のＭＣＵの共通動作に加えて、ＶＣＵ２４０は、制御モジュール２７０を有することの結果として更なる動作が可能である。特に、エンドポイント２１０ａ−ｎのそれぞれとの接続の設定中に、制御モジュール２７０は、エンドポイントに割り当てられるオーディオ・ポートのタイプ、特定のＮＭＡＰ２６４が必要になる、スピーカのチャンネルの数、２つ（スピーカ毎１つ）以上の符号化ストリームを送る方法、別々のオーディオ・ストリームにＣＡＣＩ及びＤＡＣＩを分離する方法等を判定することができる。会議中、レイアウトのタイプ、及び会議出席者のそれぞれの音声活動についての継続情報に基づいて、制御モジュール２７０は、レイアウトにおける特定の会議出席者の画像の位置を変更するようビデオ・モジュール２９０に指示することができる。よって、位置命令もＮＭＡＰ２６４に転送することが可能である。制御モジュール２７０の一部の一意の動作は、図３ａ及び図３ｂ、図４及び図５に関して以下に詳細に説明する。

ビデオ・モジュール２９４は、圧縮ビデオ・ストリームを受信し、送る論理モジュールであり得る。例示的なビデオ・モジュール２９４は、参加エンドポイントから圧縮入力ビデオ・ストリームを受信する１つ又は複数の入力モジュール、及びいくつかの入力ストリームから構成される、構成された圧縮出力ビデオ・ストリームを生成して、１つ又は複数の選択レイアウトに基づいて会議を表す１つ又は複数のビデオ・ストリームを構成する１つ又は複数の出力モジュールを含み得る。図２では、入力モジュール２９５は少なくとも１つのビデオ入力モジュールを含むが、何れかの数のビデオ入力モジュールを含み得る。例えば、エンドポイント２１０ａ−ｎのそれぞれ毎に１つのビデオ入力モジュールがあり得る。同様に、ビデオ出力モジュール２９６は何れかの数のビデオ出力モジュールを含み得る。例えば、エンドポイント２１０ａ−ｎ毎に１つのビデオ出力モジュールがあり得る。各ビデオ出力モジュールのエディタ２９９は、複数のエンドポイント２１０ａ−ｎの特定のエンドポイントに個別化させることが可能な表示レイアウトを生成する。レイアウト、及びレイアウト内の選択会議出席者は、制御モジュール２７０によって動的に制御することができる。例示的なビデオ・モジュール２９４についての更なる情報は、内容を本明細書及び特許請求の範囲に援用する米国特許第６，３００，９７３号明細書、米国特許出願公開第１０／３４４，７６２号明細書及び米国特許出願公開第２００３／０１７４２０２号明細書に記載されている。

次いで図３ａを参照すれば、非モノ・オーディオ・ポート（ＮＭＡＰ）３００を、２つ以上のスピーカ２１０ｂ（図２）を有するエンドポイントと関連付けることが可能である。例示的なＮＭＡＰ３００は、他のモジュールのうちでもとりわけ、非モノ・コデック（ＮＭＣ）３１０及び非モノ・ブリッジ（ＮＭＢ）３２０を利用することが可能である。ＮＭＣ３１０はＣＡＣＩ３０２に接続され、ＤＡＣＩ３０４に接続される一方、ＮＭＢ３２０はＤＡＣＩ３０４に接続される。両方の装置３１０及びＮＭＢ３２０を制御モジュール２７０（図２）に接続（図３に図示せず）することが可能である。

ＮＭＣ３１０は、（関連エンドポイントによって送られる入力ストリーム数「ｇ」によって）１つ又は複数の復号器３１３ａ−ｇを備え、関連エンドポイントが有するスピーカの数「ｋ」によって２つ以上の符号器３１６ａ−ｋを備えることが可能である。ステレオ・エンドポイントの場合、ＮＭＣ３１０は通常、２つの復号器３１３ａ及びｂ、並びに２つの符号器３１６ａ及びｂを備える。四つ組のエンドポイントの場合、符号器３１６ａ−ｄの数は通常４つであり、復号器の数は、例えば、２つ（３１３ａ及びｂ）又は４つ（復号器）であり得る。例示的なＮＭＢ３２０は、解析及びエンハンスのモジュール（Ａ＆Ｅ）３２２、スイッチ（セレクタ）３２４、ストリーム複製器３２５、複製器共通インタフェース３２６、２つ以上のスピーカのチャンネル３３０ａ−ｋ、メモリ（ＬＵＴ）３２９に関連した制御装置（ＣＵ）３２８を含み得る。スピーカのチャンネルの数「ｋ」は、関連エンドポイントでのスピーカの数によって変わってくる。各スピーカのチャンネルは、遅延モジュール（ＤＭ）３２２、利得モジュール（ＧＭ）３３４及びミクサ３３６を含み得る。

ＣＡＣＩ３０２及びＤＡＣＩ３０４はそれぞれ、共通インタフェース（時分割多重化（ＴＤＭ）バス、非同期転送（ＡＴＭ）バス、パケット・バス、及び／又は共有メモリに限定されないがそれらのものなど）であり得る。ＣＡＣＩ３０２は、オーディオ・モジュール２６０において用いられる複数のＭＡＰ２６２及び／又はＮＭＡＰ２６４によって共有される（図２）。ＣＡＣＩ３０２は、オーディオ・バス２６８の延長であり得る（図２）。ＣＡＣＩ３０２は、別々のエンドポイントとその関連オーディオ・ポートとのそれぞれの間で圧縮オーディオ・ストリームを搬送する。ＤＡＣＩ３０４は、オーディオ・モジュール２６０において用いられる複数のＭＡＰ２６２及び／又はＮＭＡＰ２６４によって共有される（図２）。ＤＡＣＩ３０４は、複数のコデック（モノ及び非モノ）と複数のブリッジ（モノ及び非モノ）との間で復号化オーディオ・ストリームを搬送する。一部の例示的な実施例では、ＣＡＣＩ３０２及びＤＡＣＩ３０４は、同じ物理資源を共有することができる、例えば、同じＴＤＭバス又は同じ共有メモリを共有することが可能である。

非モノ・エンドポイントの１つとの接続を設定する処理中に、エンドポイントの要件に適合されたＮＭＡＰ３００が、エンドポイントと関連付けられる。エンドポイントの要件は、スピーカの数、オーディオ・ストリーム（マイクロフォン）の数、又は圧縮パラメータ（符号化アルゴリズム、ビットレート等に限定されないが、それらのものなど）であり得る。ＮＭＡＰ３０２に適切な、ＣＡＣＩ３０２及びＤＡＣＩ３０２内の位置に関する情報はオーディオ・ポートに転送される。情報は、ＣＡＣＩ及び／又はＤＡＣＩのタイプによって変わってくる。例えば、共通インタフェースがＴＤＭバスの場合、情報は、適切な符号化ストリーム及び復号化ストリームの時間スロットを含み得る。共通インタフェースがパケット・バスの場合、適切な情報は、符号化ストリーム及び復号化ストリームの適切なソース及びデスティネーションのアドレスを含み得る。共有メモリ共通インタフェースの場合、適切な情報は、共有メモリ内の別々のキューのアドレス等を含み得る。接続の設定に関する更なる情報は、図４に関して以下に開示する。

会議中、１つ又は複数の復号器３１３ａ−ｇは、ＮＩ２４２、オーディオ・バス２６８（図２）、及びＣＡＣＩを介してその関連エンドポイントから符号化オーディオ・ストリームを受信する。復号器３１３ａ−ｇは、関連エンドポイントによって用いられる圧縮アルゴリズムによって符号化ストリームを復号化する。例示的なオーディオ圧縮手法は、Ｇ．７１１、Ｇ．７２３、Ｇ．７２９、及び動画像専門家グループ（ＭＰＥＧ）のオーディオ圧縮標準に限定されないがそれらを含む。１つ又は複数の復号化ストリームは、適切な復号器３１３ａ−ｇに割り当てられたスロット（アドレス）にＤＡＣＩ３０４を介して配置される。

ＮＭＢ３２０のＡ＆Ｅモジュール３２２は、別々のエンドポイントによって生成された復号化ストリームをＤＡＣＩ３０４から受信する。Ａ＆Ｅモジュール３２２は、復号化オーディオ・ストリームを解析するアルゴリズム群及び品質を向上させるストリーム・エンハンス・アルゴリズムを用いて復号化（復元）オーディオ・ストリームに対してストリーム解析を行う。例示的なエンハンス処理は、例えば、国際電気通信連合（ＩＴＵ）Ｇ．１６５によるエコー・キャンセリング、デュアル・トーン複数周波数（ＤＴＭＦ）抑制等を含む。Ａ＆Ｅモジュール３２２の機能は、２つの論理装置（解析装置及びエンハンス装置）に分けることが可能である。ストリーム・エンハンスによってエンハンス・オーディオ信号が生成される。ストリーム解析によって、制御情報（ＶＡＤ（音声活動検出）、信号エネルギ、及び信号品質の尺度に限定されないがそれらなど）が生成される。制御装置３２８は、Ａ＆Ｅモジュール３２２のストリーム解析から制御情報を受信し、現在アクティブな参加者（図示せず）を判定する。この情報に基づいて、制御命令が作成され、ＶＣＵ２４０（図２）の制御モジュール２７０、スイッチ３２４、メモリ３２９、及び別々のスピーカのチャンネル３３０ａ−ｋに送られる。関連エンドポイントが２つ以上のストリームを配信する場合、Ａ＆Ｅモジュール３２２のエンハンス部分を複製することが可能である。各オーディオ・ストリームは別のエンハンス部分によってエンハンスさせることができる。あるいは、解析部分は、２つ以上の復号化ストリームを（モノ・エンドポイントをエミュレートする）１つのストリームに合成することが可能であり、合成ストリームを解析する。

スイッチ３２４は、制御命令を制御装置（ＣＵ）３２８から受信し、エンハンス・オーディオ・ストリームをＡ＆Ｅモジュール３２２から受信する。制御命令に基づいて、スイッチ３２４は、ＣＵ３２８によって行われる選択判定によって選択し、設定数の選択された非圧縮オーディオ・ストリームを供給する。選択判定は、種々の基準（例えば、会議のプロファイル）に基づくものであり得る。プロファイルは、オーディオ・ストリームのＶＡＤに無関係に特定の会議出席者が聴かれることになることを規定し得る。別のプロファイルは、声が最も大きな話者のみが聴かれることになるか、又は声が大きな４名の会議出席者のストリームが選択されることになること等を規定し得る。

選択されたエンドポイント２１０ｂ（図２）が２つ以上のオーディオ・ストリーム（例えば、左右）を供給する場合、両方のストリームがスイッチ３２４によって選択され、ストリーム複製器３２５によって複製される。スピーカのチャンネル３３０ａ−ｋでは、構成レイアウトに配置されたように、エンドポイントから送られたオーディオのソースの画像の位置をエミュレートするよう各ストリームが処理される。

選択されたストリームを、スピーカのチャンネルの数「ｋ」によって複製する対象のストリーム複製器（ＳＤ）３２５に転送する。ストリーム複製器３２５は、別々のスピーカのチャンネル３３０ａ−ｋによって共有される共通インタフェースであり得る。チャンネル３３０ａ−ｋのそれぞれは、選択された会議出席者に属する複製オーディオ・ストリーム群を取り出す。共通インタフェースは、ＴＤＭバス等などの共有メモリ・インタフェースであり得る。

関連エンドポイントとの接続設定中に、ＣＵ３２８はエンドポイントでのスピーカの数、スピーカのおおよその位置（右、左、左上、右下等）、圧縮アルゴリズム、圧縮パラメータ、適切な符号化ストリーム及び復号化ストリームのＣＡＣＩ３０２及びＤＡＣＩ３０４における（スロットの）アドレス、スイッチ３２４のストリーム選択基準、当初のビデオ・レイアウト、及び当初レイアウトにおける適切な会議出席者の開始位置に関する情報を受信する。更に、ＣＵ３２８は、表示上の位置、及びオーディオのソースの方向に係わる合成オーディオを作成することができる。パラメータ群は、レイアウトと、スピーカの数「ｋ」と、エンドポイントに対するその位置によって変わってくる。パラメータ群は、スピーカのチャンネル３３０ａ−ｋのそれぞれについての曲線群（一振幅曲線及び一遅延曲線）によって示すことが可能である。パラメータ（曲線）群はメモリ（ＬＵＴ）３２９に記憶することが可能である。

一実施例によれば、位置知覚をもたらすことは、他方のスピーカに対して、一方のスピーカに送られるオーディオの振幅及び遅延（位相シフト）を制御することによって行われる。遅延及び振幅は、レイアウト内のオーディオのソースの位置、及びエンドポイントでのスピーカ（左右）の位置によって変わってくる。ステレオ・エンドポイントの例示的なパラメータ群は図３ｂに示す。図３ｂは、左のスピーカ・チャンネル３３０ｂの入力でのオーディオ・ストリームと比較した、左のスピーカに関連した、スピーカのチャンネル３３０ｂのミクサ３３６に送られるオーディオ・ストリームの遅延及び減衰を表す。

図３ｂの上部３４０では、エンドポイントの表示をＸＹ軸上に配置している。表示の幅をＸ軸上に配置しており、表示の高さをＹ軸に配置している。表示の寸法は、横縦それぞれＷ、Ｈである。左のスピーカのチャンネル３３０ｂの場合、位置知覚をもたらすのに用いることが可能な例示的なパラメータ群を、図３ｂの３５０及び３６０に示す。中心（Ｘ＝Ｗ／２、図示せず）を中心とした、３５０及び３６０に対する対称曲線群を右のスピーカのチャンネル３３０ａに用いることが可能である。例示的なパラメータ群によれば、会議出席者の画像の中心（Ｘｉ：Ｙｉ）が中央にあるか、又はレイアウトの左側にある（Ｘｉ≦Ｗ／２）場合、そのオーディオ・ストリームの振幅及び遅延は変更なしの状態に留まる。遅延はゼロに等しく、振幅は、左のスピーカのチャンネル３３０ｂの入口における振幅と同じ振幅である。画像が表示されていない会議出席者のオーディオ・ストリームは、画像の中心がレイアウトの中心（Ｗ／２：Ｈ／２）に配置されているかのように処理することが可能である。

会議出席者の画像の中心（Ｘｉ：Ｙｉ）がレイアウトの右側（Ｘｉ＞Ｗ／２）に配置されている場合、線分３５２によって示されているようにそのオーディオ・ストリームの遅延は増加する。例えば、Ｘｉ＝３／４Ｗである場合、遅延は約１／２Ｄ１である。Ｄ１はエンドポイント（スピーカの位置及び距離）に依存し得る。Ｄ１の通常の値は、約数ミリ秒、例えば、約３ｍｓｅｃ、５ｍｓｅｃ、９ｍｓｅｃ等の範囲であり得る。振幅は例示的な曲線３６２によって減衰させ得る。例えば、Ｘｉ＝３／４Ｗである場合、振幅はスピーカ・チャンネル３３０ｂの入口での同じ会議出席者の信号の振幅の約７０％であり得る。

本発明の他の例示的な実施例は、オーディオ・ストリームのソースの表示上の位置をエミュレートするために、適切なオーディオ・ストリームを処理する「ヘッド関連伝達関数」を実施することができる。

選択された会議出席者のうちの１名がステレオ・オーディオ（ＭＣＵに入力される左入力ストリーム及び右入力ストリーム）を供給する場合、各ストリームは複製され、スピーカのチャンネル３３０ａ−ｋのうちのそれぞれに転送される。各スピーカのチャンネルは、左複製ストリーム及び右複製ストリームを違ったふうに処理する。例えば、左スピーカのチャンネル３３０ａの右複製ストリームを、左複製ストリームに対して遅延させ、減衰させることができ、逆も同様である。別の実施例（図面では図示せず）では、２つ以上の復号器３１３ａ−ｇの出力での復号化ストリームは、モノ入力復号化ストリームをエミュレートする一ストリームに合成される。モノ入力復号化ストリームはＤＡＣＩ３０４上に配置される。この時点からステレオ・エンドポイントからの入力オーディオはモノ入力として処理される。

一実施例は、エンドポイントのタイプによって複数の別々の曲線３５０及び３６０を備えたデータベースを含む。これらの曲線は、ベンダで事前に作成することが可能であり、かつ／又は操作者によって修正することが可能である。別の例示的な実施例によって、データベース内の優先度に応じてユーザによって作成及び調節された別々の曲線の群を保存することができる。こうした曲線は、適切なエンドポイントとの将来の接続に再使用することが可能である。レイアウトの数、及び各レイアウトにおける画像の数が限定的であるので、各曲線における点の数も限定的である。したがって、複数の曲線を備えたデータベースの作成及び管理が達成可能である。

他の実施例は、振幅のみを制御し、遅延を無視するか、又は遅延を制御し、振幅を無視することができる。他の実施例は他の曲線を用いることができる。例えば、点０：０からＷ：Ｈへの、表示の幅全体に沿って表示の中心（Ｗ／２：Ｗ／２）以外の点から遅延及び振幅に影響を及ぼし始める曲線の群を用いることが可能である。

エンドポイントが４つのスピーカ（すなわち、表示の各隅に１つ）を有する場合、一方法は、エンドポイントが２つのスピーカのみ（左側に１つと右側に１つ）を有するかのように信号を左のスピーカへ処理し、信号を右のスピーカに処理することができる。次いで、上部スピーカか、若しくは下部スピーカか、又は両方を用いるかについての判定が行われる。判定はＨｉの値に基づくものであり得る。Ｈｉ＞Ｈ／２である場合、上部スピーカを用いることが可能であり、下部スピーカへの信号の利得がゼロに設定される。Ｈｉ＜Ｈ／２である場合、下部スピーカを用いることが可能であり、上部スピーカへの信号の（適切なＧＭ３３６における）利得がゼロに設定される。Ｈｉ＝Ｈ／２である場合、両方のスピーカが用いられ、上部スピーカへの信号の利得は、下部スピーカへの信号の利得に等しい。他の例示的な実施例は、４つのスピーカを処理する他の方法を用いることができる。例えば、４つのスピーカのチャンネル３３０ａ−ｄを（スピーカ毎に１つ）用いることができる。曲線３５０及び３６０によって示す同様なパラメータ群を、幅の代わりに高さに用いることが可能であり、「Ｗ」の値は「Ｈ」によって置き換えることが可能である。軸「Ｘ」は「Ｙ」によって置き換えることができる。

次いで、図３ａ中の、スピーカのチャンネル３３０ａ−ｋに戻れば、遅延モジュール（ＤＭ）３３２は、先入先出（ＦＩＦＯ）メモリ群（スイッチ３２４によって選択され、ストリーム複製器３２５によって選択された選択ストリーム（モノ入力会議出席者の場合、「ｉ」であり、ステレオ・エンドポイントの場合、「ｉＬ」及び「ｉＲ」の場合、２つのストリームになる）毎の一ＦＩＦＯ）であり得る。読み取りコマンドは書き込みコマンドに対して遅延させる。ＦＩＦＯ（選択されたストリーム、「ｉ」又はｉＬ＆ｉＲ）毎の遅延はＤｉ又はＤｉＬ及びＤｉＲであり得る。Ｄｉ又はＤｉＬ及びＤｉＲの値はレイアウトにおける会議出席者「ｉ」の画像の中心、及びチャンネル３３０（図３ｂに関して前述）の関連スピーカの位置Ｘｉ：Ｙｉによって変わってくる。値Ｄｉ又はＤｉＬ及びＤｉＲは、制御装置ＣＵ３２８を介してＬＵＴ３２９から取り出され、選択される会議出席者が変更される場合に会議中に動的に変えられる。

利得モジュール（ＧＭ）３３４は、乗算子群（スイッチ３２４によって選択され、ストリーム複製器３２５によって複製された選択ストリーム（モノ入力会議出席者の場合、「ｉ」であり、ステレオ・エンドポイントの場合、２つのストリーム「ｉＬ」及び「ｉＲ」になる）毎に１つ）であり得る。各選択ストリームは、係数Ｍｉ、又はＭｉＬ及びＭｉＲによって乗算される。Ｍｉ又はＭｉＬ及びＭｉＲの値は、レイアウトにおける会議出席者「ｉ」の画像の中心、及びチャンネル３３０（図３ｂに関して前述）の関連スピーカの位置Ｘｉ：Ｙｉによって変わってくる。値Ｍｉ又はＭｉＬ及びＭｉＲはＣＵ３２８によってＬＵＴ３２９から取り出され、選択会議出席者が変更されると会議中に動的に変更される。

ＧＭ３３４の出力でのストリームは、ミクサ３３６によって取り込まれ、ミクシングされる。各スピーカのチャンネル３３０のミクシング・オーディオは、相当するチャンネル３３０ａ−ｋに関連したアドレス（スロット）内にＤＡＣＩ３０４上で配置される。符号器３１６ａ−ｋのそれぞれは、相当するスピーカのチャンネル３３０ａ−ｋによって処理及びミクシングが行われ、関連エンドポイントを目標とする復号化ミクシング・ストリームをＤＡＣＩ３０４から受信する。別々の選択ストリームの操作は、エンドポイントにおける関連スピーカの位置、及びレイアウトにおける適切なオーディオ・ソースの位置に基づくものである。例えば、右スピーカ２１１ｂｒ（図２）に関連した符号器３１６ａは、スピーカのチャンネル３３０ａによって作成された復号化ミクシング・ストリームを受信する。スピーカのチャンネル３３０ａは、ユーザによって聴かれるべきであるように、レイアウトにおけるそのソースの位置をエミュレートするよう選択ストリームを処理する。オーディオ信号の上記処理は、発話エンドポイントのレイアウト内の位置に最も近い１つ又は複数のスピーカを介してオーディオ・ストリームのブロードキャストを強調するよう差異化されたオーディオ・ストリームを生成するものとして一般化することが可能である。

符号化ストリームは、このストリームに割り当てられたスロット（アドレス）においてＣＡＣＩ３０２を介して配置される。別の実施例（図示せず）では、ＭＵＸをＮＭＣ３１０に追加することができる。ＭＵＸは２つ以上の符号化ストリームを符号器３１６ａ−ｋから収集し、１つの合成符号化ストリームを供給することができる。合成符号化ストリームは、一符号器３１６ａからの符号化フレームと、例えば、これに続く、他の符号器３１６ｂからの符号化フレームとを含む。合成符号化ストリームは、適切な時間スロット（又はアドレス）でＣＡＣＩ３０２上に配置される。

会議中に、ＣＵ３２８は、特定の選択オーディオ・ソースを別のものに置き換える旨のコマンドを受信し得る。コマンドは、レイアウト内の新たなオーディオ・ソースの位置に関する情報を含み得る。この情報によれば、ＣＵ３２８はＬＵＴ３２９からＤｉ及びＭｉ（スピーカ３３０ａ−ｋのそれぞれについて１対のＤｉ及びＭｉ）の値群を取り出すことが可能である。次いで、適切な群が、新たなオーディオ・ソースを選択するようスイッチ３２４に送られるコマンドと並列に、各チャンネル３３０のＤＭ３３２及びＧＭ３３４にロードされる。

図４は、エンドポイントとの接続を設定する例示的な方法４００における工程を示す流れ図を示す。方法４００は、制御モジュール２７０（図２）及び適切な制御装置３２８（図３）によって実施することができる。方法４００は、ＶＣＵ２４０（図２）とエンドポイント２１０ａ−ｎとの間の接続の起動によって開始（４２０）することができる。起動され次第、方法４００は、適切なパラメータをエンドポイントから取り出す（４０２）ことができる。パラメータは、エンドポイントでのスピーカの数、圧縮アルゴリズム、エンドポイントが送るオーディオ・ストリーム（すなわち、左入力オーディオ・ストリーム及び右入力オーディオ・ストリーム）の数等であり得る。エンドポイントがモノ・エンドポイントか又は非モノ・エンドポイントかについての判定が行われる（４１０）。４１０でエンドポイントがモノ・エンドポイントである場合、モノ・オーディオ・ポート２６２（図２）を割り当てて（４１２）、このエンドポイントに対応し、方法（４００）は、共通接続設定処理において進む（４１４）。設定（４１４）の終わりに、共通接続方法（４００）が終結する。

４１０でエンドポイントが非モノ・ポイントである場合、他のパラメータのうちでもとりわけ、ＶＣＵは非モノ・パラメータ群４１６を収集する。非モノ・パラメータ群は、スピーカの数、エンドポイントが送るオーディオ・ストリーム（すなわち、左入力オーディオ・ストリーム及び右入力オーディオ・ストリーム）の数、表示上の位置及びオーディオのソースの方向に関連した合成オーディオを作成するために好ましいステレオ・パラメータ群（存在する場合）、更なるオーディオ・ストリームを転送するための通信プロトコルを含み得る。例示的な通信プロトコルは、圧縮オーディオのフレーム毎に右ストリームが左ストリームに続くことになることを規定し得る。

収集情報に基づいて、制御モジュール２７０（図２）は、エンドポイントと関連付ける対象の非モノ・オーディオ・ポートのリソースを割り当てる（４１６）。更に、ＣＡＣＩ３０２及びＤＡＣＩ３０４（図３）上のスロット／アドレス群を割り当てることができる。非モノ・ポートは、適切な非モノ・コデック３１０及び適切なＮＭＢ３２０を含み得る。非モノ・コデック３１０は、各入力ストリーム毎に、かつ符号器数に対して復号器を含む。符号器の数「ｋ」はエンドポイントのスピーカの数に等しい。ＮＭＢ３１０は、「ｋ」個のスピーカのチャンネル３３０を含む。符号器のタイプはエンドポイントの圧縮標準に一致する。

割り当て（４１６）後、適切な非モノ・オーディオ・ポート３００、現行レイアウトに関する情報、オーディオ・ストリーム（会議出席者）の予備選択を備えた、スイッチ３２４のストリーム選択基準、及び予備ステレオ・パラメータ群がＣＵ３２８を介してＬＵＴ３２９にロードされる。予備ステレオ・パラメータ群は種々の方法で選択することが可能である。例えば、ＶＣＵが複数のステレオ・パラメータ群を含む場合、連番、ユーザ名等によって識別可能な、適切なエンドポイントに関連したパラメータ群がサーチされる。そうしたパラメータ群は、存在する場合、予備パラメータ群としてロードされる。そうしたステレオ・パラメータ群がデータベース内に存在しない場合、エンドポイントのタイプに適した汎用のステレオ・パラメータ群を選択することが可能である。そうした汎用パラメータ群が存在しない場合、スピーカ数に一致するデフォールト・パラメータ群が選択され、ロードされる。

適切なモジュール（１つ又は複数の復号器３１３ａ−ｇ、Ａ＆Ｅ３２２、ＤＭ３３２、及び符号器３１６ａ−ｋ）のそれぞれは、適切なオーディオ・ストリームがそこから配置されるそのＣＡＣＩ３０２又はＤＡＣＩ３０４上のアドレス／スロットが通知される。選択された会議出席者のストリームのそれぞれのレイアウト内の位置の情報に基づいて、選択された会議出席者のストリームのそれぞれのＤｉ（遅延）及びＭｉ（利得係数）の適切な値が適切なＤＭ３３２及びＧＭ３３４にロードされる。こうした値は、適切なＤＭ３３２及びＧＭ３３４を含むスピーカのチャンネル３３０に関連したスピーカに関連した位置からのＬＵＴ３２９から取り出される。非モノ・オーディオ・ポートはよっていつでも、その関連エンドポイントから来る／その関連エンドポイントに送るオーディオを処理し始めることができる。

４２０では、別々のスピーカのオーディオを調節する処理が必要か否かについての判定が行われる。この判定は、ロードされた予備ステレオ・パラメータ群のタイプに基づき得る。選択された予備ステレオ・パラメータ群が適切なエンドポイントと関連付けられる場合、再調節の必要はなく、方法４００は終結する（４４２）ことが可能である。予備ステレオ・パラメータ群が汎用の場合、個別化された調節が必要であり得るものであり、方法４００は、Ｄｉ及びＭｉの別々の値を調節する工程４２２に進む。

工程４２２では、ＩＶＲ（相互作用音声応答）セッションに付随した例示的な調節ビデオ・クリップを起動させることが可能である。以降使用するように、ビデオ・クリップは例えば、アニメーションを含む。複数のビデオ・クリップを、制御モジュール２７０（図２）に関連したデータベース（図示せず）に記憶することが可能である。ビデオ・クリップは、複数の会議出席者を備えたビデオ会議を表す。レイアウトは、エンドポイントが有するスピーカの数によって変わってくる場合がある。図４ｂを参照すれば、レイアウト４５０は、２つのスピーカ（左に１つ、及び右に１つ）を備えたステレオ・エンドポイントの例示的なレイアウトを表す。よって、レイアウト４５０は、１名の会議出席者Ｃ１を表示の中央に含み、更なる４名の会議出席者（Ｌ１、Ｌ２、Ｒ１及びＲ２）（表示の各側に２名の会議出席者）を含む。Ｌ１及びＬ２は表示の左側に配置され、Ｒ１及びＲ２は表示の右側に配置される。他の例示的なレイアウトを、ステレオ・パラメータ群を調節するよう用いることが可能である。別の例（図示せず）は各側に４名の会議出席者を含むことが可能である。別の例示的な方法４００はレイアウトの組み合わせ（図示せず）を用いることができる。各側に１名の会議出席者を備えた粗い設定から開始し、各側に２名の会議出席者を備えた細かい設定に続き、各側に４名の会議出席者を備えた最も細かいレイアウトによって終結し得る。他の例示的な方法は、Ｌ１及びＬ２の適切な値間の内挿を用いることによってか、又は、例えば、画像の中心がＬ１と比較して表示の中心に近いか、又はＬ２と比較して左縁部に近い場合に外挿を用いることによって（例えば、Ｌ１とＬ２との間の）中間位置についてＤｉ及びＭｉの値を評価することができる。

レイアウト４６０は、４つのスピーカ（エンドポイントの各隅に１つ）を備えたエンドポイントの例示的なレイアウトを表す。レイアウト４６０は、１名の会議出席者Ｃ１１を中央に含み、２名の会議出席者を表示の上部線の各側に含み、Ｌ１Ｔ及びＬ２Ｔは表示の上部の左側に配置され、Ｒ１Ｔ及びＲ２Ｔは表示の上部の右側に配置され、２名の会議出席者を表示の下部線の各側に含み、Ｌ１Ｂ及びＬ２Ｂは表示の下部の左側に配置され、Ｒ１Ｂ及びＲ２Ｂは表示の下部の右側に配置され、２名の会議出席者を表示の中間部の高さそれぞれに含み、Ｌ２ＭＵは表示の中間部の左側に配置され、Ｒ２ＭＵは表示の中間部の右側に配置され、Ｌ２ＭＤは表示の中間下部の左側に配置され、Ｒ２ＭＤは表示の中間下部の右側に配置される。

別の例（図示せず）は４名の会議出席者を各側及び各高さに含むことが可能である。別の例示的なレイアウトは、４つのスピーカのパラメータ群の調節に用いることが可能である。別の例示的な方法４００はレイアウトの組み合わせ（図示せず）を用いることができる。各側及び各高さに１名の会議出席者を備えた粗い設定から開始し、各側に２名の会議出席者を備えた細かいレイアウトに続き、各側及び高さにおける４名の会議出席者を備えた最も細かいレイアウトによって終結し得る。

例示的なビデオ・クリップは、表示上の位置及び音声の方向に一致するためにパラメータの容易な設定を可能にする方法で企図されている。例示的なクリップは複数のセッションを含み得る。各セッションは、特定の会議出席者（レイアウト内の位置）の専用となり、この間は、適切な会議出席者のみが話している。セッションは命令がユーザから受信されるまでループさせることが可能である。別の例示的なクリップでは、現行話者をマーキングしたあかしを表示することができる。ビデオ・クリップに付随するＩＶＲセッションはユーザに指示し、選好（設定）を収集する。

ビデオ・クリップを開始した後、ループが工程４３０から４４０まで開始される。ループはレイアウト内の会議出席者のそれぞれに対して実行する。ステレオ・エンドポイントの例示的なループは中央の会議出席者Ｃ１から開始（４３０）することができる。他の例示的なループは縁部から中央に開始し得る。各会議出席者のセッションの開始では、セッションは、存在する場合、適切なＭｉ及びＤｉの先行設定を備えて開始（４３２）することができる。存在しない場合、セッションはデフォールト設定によって開始することが可能である。次いで、特定の会議出席者がこのセッション中に話すことをＩＶＲセッションはユーザに通知し、この会議出席者に適切な設定を調節するためのオプションについてユーザに指示する。ユーザは、例えば、振幅を増加させるために「３」を押すよう指示され、振幅を減少させるために「９」を押すよう指示され、遅延を増加させるために「１」を押すよう指示され、適切な会議出席者の遅延を減少させるために「７」を押すよう指示されることがある。適切な設定に達すると、ユーザは「０」を押し、次の会議出席者に移るか、先行工程に戻るために「^＊」を押すこと等ができる。

ユーザ選択は、例えば、ＤＴＭＦ信号を介してＶＣＵに転送することができる。その選択に基づいて、適切な遅延（Ｄｉ）及び適切な乗数が再算出され、変更される。適切なＤｉ及びＭｉは、レイアウト内の現行会議出席者「ｉ」の位置及び適切なスピーカのチャンネルに関連したものである。工程４３２は、現行「ｉ」の会議出席者の設定が満足である（例えば、「０」が受信された場合）というあかしまで進む。最終の設定４３４が保存される。設定は、この会議中に用いるために、ＬＵＴ３２９（図３）に保存することが可能である。並行して、上記値を、将来の会議に用いる対象の制御モジュール２７０（図２）に関連したデータベース内に、及び／又は、将来の会議に用いる対象のエンドポイントに保存することが可能である。

工程４４０では、レイアウト内に、調節されていない会議出席者が存在するか否かについての判定が行われる。肯定の場合、方法４００はループを続け、レイアウト内の次の会議者を処理するために工程４３０に戻る。更なる会議出席者が存在しない場合、方法４００を終結させる（４４２）ことができる。本発明の別の実施例では、４４０で、更なる会議出席者が存在しない場合、ループを終結させるか、又は、細かい調節、若しくは再検査のために再起動させるか否かについての判定を要求する旨の質問をユーザに向けて出すことができる。ユーザの判定に基づいて、方法４００は終結させることができ（４４２）、又は、方法４００は工程４３０に戻り、先行ループにおいて行われた設定を備えたループを起動させることができる。

図５は、会議中に生じる、レイアウトにおける変更に、オーディオのソースの位置を適合させる例示的な方法５００における工程を示す流れ図である。方法５００は、レイアウトにおける変更が行われたというあかしを受信し次第、起動させる（５１０）ことが可能である。あかしは、新たな会議出席者群、及び表示（レイアウト）上のその位置、又は新たなレイアウト構成を含み得る。あかしを制御モジュール２７０（図２）から制御装置３２８（図３）に送ることが可能である。例えば、提示される会議出席者の数は、４名の会議出席者（図１に示す２ｘ２のレイアウト）からレイアウト４５０（図４ｂ）の構成のような５名の会議出席者のレイアウトに変更されている場合がある。あかしは、新たなレイアウト構成に一致するＤｉ３５０及びＭｉ３６０それぞれ（図３ｂ）の新たなパラメータ（曲線）群も含み得る。こうしたパラメータ群はＬＵＴ３２９（図３）内の先行パラメータを置き換えることが可能である。別の実施例では、ＬＵＴ３２９内のパラメータ群は変更されず、特定の会議出席者「ｉ」の中心（Ｘｉ：Ｙｉ）がＬＵＴ３２９内に存在しない場合、Ｘｉ及びＹｉに最も近い１つ又は２つの位置がＬＵＴ３２９から取り出され、Ｄｉ及びＭｉの値が、Ｘｉ及びＹｉに対して最も近い１つ又は２つの点の位置に応じた内挿又は外挿を用いて評価される。他の方法は、ＬＵＴ３２９内に存在する、Ｘｉ及びＹｉに最も近い位置の値を用いることが可能である。

工程５２０では、ミクシングする対象の、スイッチ３２４（図３）を介して選択された会議出席者毎にループを起動させることが可能である。選択基準は、現行レイアウトに依存してもしなくてもよい。例示的な選択基準は上記に開示している。ループ内の現行会議出席者の中心位置Ｘｉ：Ｙｉが、レイアウト内の変更についての命令とともに受信された情報から取り出される（５２２）。ループ内の現行会議出席者が現在表示されていない場合、方法５００は、レイアウトの中心にあるようにこの会議出席者の位置を参照する。よって、非表示会議出席者の中心位置は、Ｘｉ＝Ｗ／２及びＹｉ＝Ｈ／２である。

ループ内の現行会議出席者の現行レイアウト内の画像のＸｉ及びＹｉに基づいて、スピーカのチャンネル３３０ａ−ｃ（図３）毎の適切なＤｉ及びＭｉがＬＵＴ３２９（図３）から取り出されるか、ＬＵＴから取り出される、最も近い１つ又は複数の値に基づいて評価される。Ｄｉ及びＭｉの値は、スピーカ３３０ａ−ｃのそれぞれにおいて会議出席者「ｉ」のストリームを処理する適切な遅延モジュール３３２（図３）及び利得モジュール３３４（それぞれ）にロードされる（５２４）。

スピーカのチャンネル３３０ａ−ｃ全ての値Ｄｉ及びＭｉの設定後、スピーカのチャンネルを設定しなければならない、ループ内の会議出席者が更に存在しているか否かについての判定が行われる（５３０）。工程の場合、方法５００はループを続け、次の会議出席者「ｉ＋１」の、各スピーカのチャンネル３３０ａ−ｃにおけるＤｉ＋１及びＭｉ＋１の設定を処理するよう、工程５２０に戻る。５３０で、設定を必要とする会議出席者がもう存在しない場合、方法５００は終結し（５３２）、ＮＭＢ３２０（図３）は、レイアウト（表示）上の現行位置によって音声に位置知覚を与える合成非モノ・ミクシング・オーディオを供給するよう設定され、準備される。

本明細書に開示した方法を行うための、ＭＣＵ内に常駐する更なるソフトウェア、ＭＣＵに追加された更なるハードウェア、又はＭＣＵ間で分散させた更なるソフトウェア若しくはハードウェアの形態で本願の開示を実施することができることを当業者は認識するであろう。

工程の順序の変更、及び使用するまさにその実施形態を含む、多くの方法において前述の方法を変えることができることは認識されよう。上記方法及び装置の上記記載が上記方法を行う装置、及び上記装置を用いる方法を含むものとして解されるべきであることも認識されよう。

前述の実施例は、別々の特徴を備え、それら全てが本発明の実施例全てにおいて必要な訳でない。本発明の一部の実施例は、特徴の一部のみ、又は特徴の、考えられる組み合わせのみを利用するものである。前述の実施例記載の別々の組み合わせを当業者は思いつくはずである。

２１０ａモノ・エンドポイント
２１０ｂステレオ・エンドポイント
２１０ｎエンドポイント
２１１ｎスピーカ
２１８ａ表示
２１８ｂ表示
２１８ｎ表示

Claims

複数のエンドポイント間のマルチポイント・ビデオ会議を制御する方法であって、
前記エンドポイントのうちの少なくとも１つは、画面に対して空間的に配置される複数のスピーカを備える非モノ・エンドポイントであり、
前記複数のエンドポイントからの、オーディオ信号及びビデオ画像信号を有する符号化データ・ストリームを、マルチポイント会議装置（ＭＣＵ）において受信する工程と、
前記データ・ストリームを復号化して前記オーディオ及びビデオ画像信号を生成する工程と、
前記複数のエンドポイントのうちで発話エンドポイントを備えるエンドポイントを前記オーディオ信号から評価する工程と、
前記エンドポイントそれぞれのビデオ・レイアウトを生成する工程であって、前記レイアウトが、該レイアウト内の別々の位置での前記複数のエンドポイントのうちの１つ又は複数からのビデオ画像を配置する工程と、
混ぜる対象の１つ又は複数の復号化オーディオ・ストリームを選択する工程と、
前記選択された１つ又は複数の復号化オーディオ・ストリームを前記ＭＣＵの２つ以上のチャンネルに転送する工程であって、前記チャンネルそれぞれが、前記少なくとも１つの非モノ・エンドポイントにおけるスピーカに対応する工程と、
前記発話エンドポイントからのビデオ画像に対応する、前記レイアウト内の位置から前記オーディオ・ストリームが発せられるという知覚を生成するように、前記選択された復号化オーディオ・ストリームを前記２つ以上のチャンネルにおいて処理する工程と、
前記処理されたオーディオ・ストリーム、及び前記ビデオ・レイアウトを符号化する工程と、
前記符号化されたオーディオ・ストリーム及びオーディオ・ストリームを前記非モノ・エンドポイントに送信する工程とを含み、
前記差異化が、前記第１のエンドポイントのユーザによって調節可能であることを特徴とする方法。
請求項１記載の方法であって、前記発話エンドポイントは前記画面上に表示されず、前記レイアウトの中心に前記発話エンドポイントからの前記ビデオ画像が配置されるように前記オ―ディオ・ストリームを差異化させることを特徴とする方法。
請求項１記載の方法であって、前記オーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置から遠いスピーカを介してブロードキャストされるオーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の前記位置に近いスピーカを介してブロードキャストされるオーディオ・ストリームと比較して減衰させるように音量によって差異化させることを特徴とする方法。
請求項１記載の方法であって、前記オーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置から遠いスピーカを介してブロードキャストされるオーディオ・ストリームを、前記レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置に近いスピーカを介してブロードキャストされるオーディオ・ストリームと比較して遅延させるように差異化させることを特徴とする方法。
請求項１記載の方法であって、生成された複数のオーディオ・ストリームを多重化させることを特徴とする方法。
請求項１記載の方法であって、前記ビデオ・レイアウト内の前記発話エンドポイントからの前記ビデオ画像の位置がビデオ会議の過程中に変動することを特徴とする方法。
請求項１記載の方法であって、前記差異化が、前記第１のエンドポイントのユーザによって調節可能であることを特徴とする方法。
請求項１記載の方法であって、前記第１のエンドポイントの前記スピーカを調節する工程を更に含むことを特徴とする方法。
請求項１記載の方法であって、前記第１のエンドポイントの話者を調節する相互作用音声応答（ＩＲＶ）セッションを提供する工程を更に含むことを特徴とする方法。
請求項１記載の方法であって、前記マルチポイント・ビデオ会議における第２のエンドポイントを制御する工程を更に含み、前記第２のエンドポイントは、画面に対して空間的に配置される複数のスピーカを備え、前記制御する工程は、
前記第２のエンドポイントのビデオ・レイアウトを生成する工程であって、前記レイアウトが、前記レイアウト内の別々の位置での前記複数のエンドポイントのうちの１つ又は複数からのビデオ画像を配置する工程と、
前記第２のエンドポイントの複数のオーディオ・ストリームを生成する工程であって、前記複数のオーディオ・ストリームのそれぞれは、前記第２のエンドポイントの前記複数のスピーカのうちの１つに相当し、前記発話エンドポイントからのビデオ画像に相当する、前記第２のエンドポイントの前記レイアウト内の位置から前記第２のエンドポイントの前記オーディオ・ストリームが発せられるという知覚を生成するように差異化される工程と、
前記ビデオ・レイアウト及び前記オーディオ・ストリームを前記第２のエンドポイントに送信する工程とによることを特徴とする方法。
請求項１記載の方法であって、
前記第１のエンドポイントのスピーカに関する１つ又は複数のパラメータを前記第１のエンドポイントから受信する工程と、
前記第１のエンドポイントが非モノ・エンドポイントであるかを前記１つ又は複数のパラメータから判定する工程と、
前記第１のエンドポイントが非モノ・エンドポイントである場合、前記第１のエンドポイントの非モノ・オーディオ・ポートを割り当てる工程であって、前記非モノ・オーディオ・ポートが、前記エンドポイントのスピーカの数に等しい符号器の数を有する非モノ・コデックを有する工程とを更に含むことを特徴とする方法。
請求項１１記載の方法であって、
前記第１のエンドポイントが非モノ・エンドポイントである場合、前記第１のエンドポイントの非モノ・オーディオ・ブリッジを割り当てる工程であって、前記非モノ・オーディオ・ブリッジが、前記エンドポイントのスピーカの数に等しいチャンネルの数を有する工程を更に備えることを特徴とする方法。
請求項１記載の方法であって、少なくとも１つの送出エンドポイントは、２つ以上のオーディオ・ストリームを前記ＭＣＵに配信することを特徴とする方法。