JP2016506670A

JP2016506670A - アクティブ話者検出のためのビデオ及びオーディオタグ付け

Info

Publication number: JP2016506670A
Application number: JP2015549731A
Authority: JP
Inventors: ジョージヴァーゼイン，ウィリアム; レオリン，シモーヌ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2012-12-19
Filing date: 2013-12-19
Publication date: 2016-03-03
Anticipated expiration: 2033-12-19
Also published as: BR112015011758B1; WO2014100466A2; EP2912841B1; KR20150096419A; KR102110632B1; AU2013361258A1; JP6321033B2; MX352445B; CA2889706C; US9065971B2; BR112015011758A2; CA2889706A1; WO2014100466A3; US20140168352A1; EP2912841A2; RU2015123696A; MX2015008119A; RU2632469C2; CN104937926B; CN104937926A

Abstract

接続されるリモート信号からのオーディオ又はビデオをピックアップするマイクロフォン又はカメラを誤って選択することを回避しつつ、アクティブな話者を選択するよう構成される、ビデオ会議システムを説明する。オーディオ信号が閾値レベルを超えるかどうかの判断を行う。オーディオ信号が閾値レベルを超える場合、オーディオ信号内にタグが存在するかどうかの判断を行う。オーディオ信号内にタグが存在する場合、その信号を無視する。オーディオ信号内にタグが存在しない場合、オーディオ信号によって特定される音源の方にカメラを向ける。カメラからのビデオ信号内にタグが存在するかどうかの判断を行う。ビデオ信号内にタグが存在する場合はカメラを向け直す。ビデオ信号内にタグが存在しない場合は、オーディオ信号及び／又はビデオ信号内にローカルタグを挿入する。タグ付けされた信号を伝送する。したがって、システムは、別のビデオ会議システムからの組み込みタグを有するサウンド又はビデオを無視することになる。

Description

ビデオ会議が広まってきており、多くのオフィスには、ビデオ会議セッションのために特別に構成された部屋がある。そのような部屋は、典型的に、１つ又は複数の移動可能なカメラ及び１つ又は複数のマイクロフォンといったビデオ会議用の装置を含んでおり、この場合、マイクロフォンは典型的に、参加者のために、その部屋の中のテーブルの周囲の場所に置かれている。しばしば、アクティブ話者検出（ＡＳＤ：Active Speaker Detection）を使用して、部屋の中で話している人を表示するようカメラを選択するかカメラを移動（パン及び／又は傾ける）させ、かつ／又はアクティブにするマイクロフォンを選択する。リモートの人が話しているとき、そのイメージ及び／サウンドは、テレビジョン（ＴＶ）、モニタ又は他のタイプのディスプレイといった、部屋の中のオーディオ・ビデオディスプレイに現れることがある。これは、ＡＳＤに、直前に話している又は話していたローカルの人を選択させる代わりに、ＴＶ上で話しているリモートの人のイメージを誤って選択させる可能性がある。

また、マルチロケーションのビデオ会議セッションにおいて、単一のビデオ会議セッション内に３つ又それ以上の別個の場所がある場合は、典型的に、幾つかのパネルが表示されることになる。この場合、１つのパネルが他のパネルより大きく、かつ話している人を表示し、他のパネルは他の場所のカメラからのピクチャを表示する。上述のように、誤ったＡＳＤが起こると、話している人がいる部屋の中の装置は、その人がその場所で話していることを示し、したがってそのカメラからのものをメインディスプレイとすべきことを示す信号を、他の場所にある装置に送信することになる。これが起こると、より大きなパネルが、実際に話している人の表示から、ＴＶ画面のピクチャ又は空席の表示へと切り替わることがある。したがって、ＡＳＤによる問題は、リモートのビデオ会議システムからのサウンドが反響するか、ＡＳＤをトリガするほどに大きい音である場合、リモートサウンドがリモートシステムに戻るよう再伝送されるか、かつ／又はローカルカメラが空席に、又はリモートのビデオ会議場所を表示するディスプレイ画面に焦点を合わせるようになることである。

そのような誤ったＡＳＤ選択をなくすために用いられている１つの技術は、ＴＶ上の画像走査線のトレースを見つけて（spot）、ローカルの人ではなくＴＶから生じるサウンドを決定することである。しかしながら、高精細度ＴＶ（ＨＤＴＶ）は、高プログレッシブ（２４０Ｈｚ又は更に良好な）走査レート及びカメラと同程度の画像解像度を有し、このため、画像走査線のトレースは、ＨＤＴＶが関与するときの使用を限定される。加えて、ＡＳＤはしばしば、部屋の周囲にサウンドがエコーするという問題を有する可能性がある。窓やガラスで覆われた絵画といった音響反射面が、ＴＶからのサウンドを、そのサウンドが（そのテーブルの場所には実際には座っている人がいないとしても）テーブルにいるローカルの人から発せられたものであるように、反射することがある。さらに、ビデオ会議の記録（録音）が行われる場合、その記録に対して例えば少なくともビデオ会議の日付で適切にラベルを付けるよう思い出すことは、人に依存する。これはしばしば忘れられて後に行われ、ときどき誤りがあるか不完全なラベルであることがある。これらの考慮事項及び他の事項に関して、本明細書における開示が提示される。

接続されるリモート信号からのオーディオ又はビデオをピックアップしているマイクロフォン又はカメラを誤って選択することを回避しつつ、アクティブな話者を選択するビデオ会議システムのための技術を本明細書で説明する。一実装では、タグが、出力のオーディオ及び／ビデオ信号に追加される、マイクロフォンが、リモートシステムからのタグを含むサウンドをピックアップした場合、このサウンドは無視され、ＡＳＤは実装されない。サウンドがリモートのタグを含まない場合、次いでローカルのカメラからのビデオを検査する。リモートタグを含む場合、ＡＳＤは実装されない。リモートタグがいずれの信号にも存在しない場合、ＡＳＤが実装される。

本明細書で提示される一実装によると、ビデオ会議システムのためのトランスミッタシステムは、オーディオタグ又はビデオタグのうちの少なくとも一方を生成するタグジェネレータと；（ｉ）受け取ったオーディオ信号にオーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は（ｉｉ）受け取ったビデオ信号にビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行う結合器と；（ｉ）タグ付けされたオーディオ信号と受け取ったビデオ信号、（ｉｉ）受け取ったオーディオ信号とタグ付けされたビデオ信号、又は（ｉｉｉ）タグ付けされたオーディオ信号とタグ付けされたビデオ信号を伝送するトランスミッタと；を有する。リモートビデオ会議システムはその後、組み込まれたタグを使用して、ローカルのサウンドとピクチャを、リモートのサウンドとピクチャから区別することができる。

ビデオ会議システムを作動させる方法は、オーディオ信号を受け取るステップと；ビデオ信号を受け取るステップと；オーディオタグ又はビデオタグのうちの少なくとも一方を生成するステップと；（ｉ）オーディオ信号にオーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は（ｉｉ）ビデオ信号にビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行うステップと；（ｉ）タグ付けされたオーディオ信号とビデオ信号、（ｉｉ）オーディオ信号とタグ付けされたビデオ信号、又は（ｉｉｉ）タグ付けされたオーディオ信号とタグ付けされたビデオ信号を伝送するステップと；を含む。

コンピュータ記憶媒体は、コンピュータ実行可能命令を有する。これらの命令は、コンピュータに、オーディオタグ又はビデオタグのうちの少なくとも一方を生成させ；（ｉ）受け取ったオーディオ信号にオーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は（ｉｉ）受け取ったビデオ信号にビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を実行させ；（ｉ）タグ付けされたオーディオ信号と受け取ったビデオ信号、（ｉｉ）受け取ったオーディオ信号とタグ付けされたビデオ信号、又は（ｉｉｉ）タグ付けされたオーディオ信号とタグ付けされたビデオ信号、を伝送させる。

上述の主題は、コンピュータ制御される装置、コンピュータプロセス、コンピュータシステムとして、あるいはコンピュータ読取可能媒体といった製品として実装されてもよいことを認識されたい。これら及び様々な他の特徴は、以下の「発明を実施するための形態」を読むこと及び関連する図面の検討から明らかになるであろう。

この「発明の概要」における記載は、以下で「発明を実施するための形態」において更に説明される概念の選択を簡略化した形で紹介するために提供される。この「発明の概要」における記載は、特許請求に係る主題の主要な特徴又は本質的特徴を特定するようには意図されておらず、また特許請求に係る主題の範囲を限定するのに使用されるようにも意図されていない。さらに、特許請求に係る主題は、本開示の任意の箇所で示される欠点のいずれか又は全てを解決する実装に限定されない。

ビデオ会議システムのトランスミッタシステムの例示の構成である。例示のビデオ会議システム環境を示す図である。例示のタグ検出及びカメラとマイクロフォン制御技術を示すフローチャートである。例示の情報記録技術のフローチャートである。本明細書で提示される実施形態の態様を実装することができるコンピュータシステムの例示のコンピュータハードウェア及びソフトウェアのアーキテクチャを示すコンピュータアーキテクチャの図である。

以下の説明は、接続されるリモート信号からのオーディオ又はビデオをピックアップしているマイクロフォン又はカメラを誤って選択することを回避しつつ、アクティブな話者を正しく選択することが可能なビデオ会議のための技術を対象とする。以下の詳細な説明では、説明の一部を成す添付の図面を参照するが、これらの図面は具体的な実施形態又は例として示されている。ここでは、同様の符号が幾つかの図面を通して同様の要素を表している図面を参照して、ビデオ会議のためのコンピューティングシステム及び方法の態様を説明する。

図１は、ビデオ会議システム１００のトランスミッタシステム１０５の例示の構成である。トランスミッタシステム１０５は、カメラ及びマイクロフォン選択制御システム１２０と、ビデオタグジェネレータ１２５と、ビデオ出力信号１３５を提供するビデオ信号結合器（combiner）１３０と、オーディオタグジェネレータ１４０と、オーディオ出力信号１５０を提供するオーディオ信号結合器１４５とを有する。ビデオ及びオーディオ出力信号は、トランスミッタ１５５によってブロードキャスト又は伝送され得る。制御システム１２０も、リモートシステム用に意図された信号を送信することがあり、これは複数のパネルを使用して複数の場所を表示している場合に大きなパネルを与えるべきアクティブな話者を有することを通知する。トランスミッタ１５５は、任意の便利な手段を使用して、ビデオ及びオーディオ出力信号と任意の制御信号を、リモートの場所にある１つ又は複数のレシーバシステム１６０に送信し得る。トランスミッタシステム１０５及びレシーバシステム１６０がそれぞれの位置に存在し、ある場所にあるトランスミッタシステム１０５及びレシーバシステム１６０を単一のデバイスに結合してもよいことが認識されよう。

１つ又は複数のカメラ１１０（１１０Ａ〜１１０Ｎ）と１つ又は複数のマイクロフォン１１５（１１５Ａ〜１１５Ｎ）は、それぞれビデオ信号とオーディオ信号を、トランスミッタシステム１０５に、より具体的には制御システム１２０に提供し、制御システム１２０は、これらの信号を受け取るための入力部を有する。カメラ及びマイクロフォン選択制御システム１２０は、いずれかのデバイスが複数使用される場合は、どのカメラ１１０及びどのマイクロフォン１１５を、ローカルピクチャ及びサウンドを生成するのに使用するかを選択してよく、カメラをそのように制御することができる場合は、選択されたカメラ１１０のパン、ズーム及び／又は傾き（tilt）を制御してよく、リモートシステムへの伝送用に制御信号又は他の信号を生成してよい。

ビデオタグジェネレータ１２５及びオーディオタグジェネレータ１４０は、それぞれビデオ及びオーディオタグを生成する。ビデオ信号結合器１３０は、ビデオストリーム内のビデオピクセルを操作又は修正してビデオタグを追加し、タグ付けされたビデオ信号１３５を生成する。オーディオ信号結合器１４５は、オーディオストリーム内のビットを操作又は修正して、タグ付けされたオーディオ信号１５０を生成する。これは、信号を「タグ付けすること」又は信号にタグを追加することと見なされてよい。タグジェネレータ１２５及び１４０は、単一のデバイス内に具現化されてよく、信号結合器１３０、１４５も単一のデバイス内に具現化されてよく、これらのコンポーネントの１つからその全てまで、制御システム１２０の一部として具現化されてもよい。

ビデオ及び／又はオーディオストリームは、好ましくは、人間にはわからない及び／又は検出不可能であるが、ビデオ又はオーディオストリームのアルゴリズム分析によって検出可能な方法を使用して修正されるか、そのようなレベルまでに修正される。所定のレベル未満の歪みレベルは、典型的な人間の観察者には感知できないことがある。データワード内の最下位ビットを修正することは、タグがワード毎にある場合であっても、一般的に容易に気付かれず、不都合はないであろう。別の例として、ビデオタグをビデオフレーム内のブランク間隔（blanking interval）又はリトレース期間（retrace period）の間に配置すること、あるいはビデオタグを、ディスプレイの下方の角に配置することは、容易に気付かれず、不都合はなことがある。ビデオタグを最上位ビットとして配置することも、フレーム中の単一のピクセルに対するものであれば、容易に気付かれず、不都合がない可能性がある。

ビデオ及び／又はオーディオストリームは、例えば１つ又は複数の最下位ビットを使用することによって、最初のオーディオ又はビデオ信号以外の情報を伝えるように修正されてもよい。そのような修正は、データワード毎に、他のデータワード毎に、Ｎ番目のデータワード毎に、Ｎミリ秒毎に、同期ワード若しくはビットの前後等に行われてよい。例えば適切なデータワードの最後のビット（１つ又は複数）は、常に同じ値、例えば０、１、２、３等を有してもよく、値の間を繰り返してもよく、値の間を進む等してもよい。他の技術を使用して、データワード又はその一部をタグとして特定してもよく、あるいはタグ又はビデオ会議に関連付けられる識別情報として特定してもよい。別の例として、この目的に全体的なデータワードを使用してもよい。例えばオーディオが４０００サンプル／秒というレートでサンプリングされる場合、タグ情報を伝えるために限られた数のこれらのワードを使用することは、オーディオの品質を顕著に低下させることはないであろう。ビデオ信号は、ビデオの品質を顕著に低下させることなく、更なる情報を送信する機会をも提供する。

図２は、例示のビデオ会議システム環境２００の図である。数人の人２０５（２０５Ａ〜２０５Ｃ）がテーブル２１０の周りに集まっており、テーブル２１０の上には複数のマイクロフォン１１５（１１５Ａ〜１１５Ｅ）が設置されている。リモートの人２２０を表示するディスプレイ２１５が存在する。ディスプレイ２１５はＴＶであってよい。またスピーカ２２５も示されている。カメラ及びマイクロフォンに接続されるトランスミッタシステム１０５と、ディスプレイ及びスピーカに接続されるトランスミッタシステム１０５が存在する。説明されるように、トランスミッタシステム１０５とレシーバシステム１６０は単一のデバイス内に具現化されてもよく（典型的には単一のデバイス内に具現化される）、便利な伝送媒体によって１つ又は複数のリモートのビデオ会議システムに接続される。

人２０５Ｂのようなローカルの人が話すと、制御システム１２０は、マイクロフォン１１５Ｂからの信号を検出して、マイクロフォン１１５Ｂに切り替えて、人２０５Ｂのエリアに以前に向けられていたカメラ１１０Ｂに切り替えるかカメラ１１０Ｂを人２０５Ｂのエリアへ向け、そして、マイクロフォン１１５Ｂからのオーディオ信号及びカメラ１１０Ｂからのビデオ信号を、可能であれば人２０５Ｂをリモートの画面上に目立つように表示すべきであることを指示する信号とともに、リモートの位置に伝送する。本明細書で使用されるとき、カメラを向ける又は向かせることは、所望の位置の所望のピクチャに到達するよう、カメラをパンする、傾ける及び／又はズームすることになる。

ここで、鏡や絵画又は窓といった、音響反射物又は面２３０が存在する状況を検討する。リモートの話者２２０が話しており、リモートの話者２２０の音声がスピーカ２２５によって室内にブロードキャストされる。リモートの話者２２０のサウンド２３５は、反射面２３０により跳ね返り、マイクロフォン１１５Ｄに到達する。制御システム１２０は、反射された音声２３５をマイクロフォン１１５Ｄで検出し、話している人がマイクロフォン１１５Ｄのローカルの人であると誤って決定する。制御システム１２０は、次いでマイクロフォン１１５Ｄに切り替えて、マイクロフォン１１５Ｄの近くの何もない空間にカメラ１１０を向ける。したがって、反射されたサウンド及びエコーは、ビデオ会議セッション中に問題を引き起こし得る。これは、リモートの話者２２０が話すのをやめるか、誰かがスピーカ２２５のボリュームを落とすまで繰り返し生じ得る。

そのような誤ったＡＳＤアクションをなくすか、少なくとも低減するために、トランスミッタシステム１０５は、タグをオーディオ信号及び／又はビデオ信号に投入する。ディスプレイ２１５及びスピーカ２２５は次いで、その出力においてこれらのタグを再現することになる。ここで、リモートの話者２２０が話しており、リモートの話者２２０の音声がスピーカ２２５によって室内にブロードキャストされる状況を再び検討する。リモートの話者２２０のサウンド２３５は、反射面２３０で跳ね返ってマイクロフォン１１５Ｄに到達する。制御システム１２０は、反射した音声２３５をマイクロフォン１１５Ｄで検出するが、このとき、反射した音声２３５内のタグも検出する。制御システム１２０は次いで、このサウンドが、ローカルの話者ではなくリモートの話者からのものであると決定し、したがって反射した音声に対してアクションをとらない。

別のアプローチとして、反射した音声２３５がマイクロフォン１１５Ｄに存在するとき、制御システム１２０は、代替又は追加として、カメラの出力を検査し得る。ビデオタグが存在する場合、次いで制御システム１２０は、そのサウンドが、反射されたサウンドであると決定し、反射された音声に対してアクションをとらない。

しかしながら、ローカルの人２０５Ｂが話すとき、マイクロフォン１１５Ｂはローカルの人２０５Ｂの音声を検出するが、オーディオタグは存在しない。制御システム１２０は次いで正しく、マイクロフォン１１５Ｂに切り替えて、カメラ１１０をローカルの人２０５Ｂに向け、ビデオタグは存在しないことになる。したがって、制御システム１２０は、人２０５Ｂが話していると正しく決定して、適切なアクションをとる。何らかの反射されたサウンド２３５がマイクロフォン１１５Ｂに現れることがあることも認識されよう。しかしながら、反射されたサウンド２３５のボリュームが、ローカルの話者２０５Ｂの音声のボリュームよりも非常に小さいものであり、したがって、反射されるタグは、制御システム１２０によって検出されるには低すぎるレベルであるであろう。すなわち、マイクロフォンからのサウンドがデジタル化されるとき、タグのボリュームは、少なくとも最下位ビットのレベル未満となるであろう。反射されたサウンド２３５が、他のマイクロフォン１１５によってピックアップされることもあり得るが、制御システム１２０は、そのボリュームがマイクロフォン１１５Ｂのボリュームよりも小さいか、又はタグが容易に検出可能であるので、これらの他のマイクロフォンを拒否することになる。

一部の状況では、カメラ１１０に加えて又はこれに代えて、室内の後ろにカメラ２４０が存在する可能性がある。ここで、リモートの話者２２０が話しており、スピーカ２２５によって放出されるサウンドがマイクロフォン１１５Ａ又は１１５Ｅによって受け取られると想定する。従来のシステムでは、受け取られたサウンドが、ローカルの話者として誤って検出され、マイクロフォン１１５Ａ又は１１５Ｅに切り替えられ、カメラ２４０がその位置へと向けられていたであろう。代わりに、本明細書で使用されるタグを用いると、制御システム１２０は、マイクロフォン１１５Ａ又は１１５Ｅによってピックアップされるオーディオ信号内のタグを検出し、その音声がローカルの話者のものでないと決定し、マイクロフォン１１５Ａ又は１１５Ｅへの切り替えは行わない。また、制御システム１２０は、カメラ２４０をディスプレイ２１５の方に向けてもよく、ディスプレイ２１５によって放出されるビデオタグを検出し、次いでカメラ２４０を元の方向へ又はデフォルトの方向へ戻してもよい。したがって、オーディオ及びビデオタグは、リモートの話者の音声によって生じるカメラ及び／又はマイクロフォンの誤った切り替えを低減すること又はなくすことにより、ビデオ会議の経験を向上させる。

タグは、必要であればビデオ会議の識別情報に使用されてもよい。例えばタグは、会社名、時間、日付、部屋の場所、これに限られないがモデル化に使用されるような伝送設備、製造者、シリアル番号、ソフトウェアバージョン、トレードマーク情報、著作権情報、機密情報、所有情報、使用されるプロトコル又は規格等といった情報を含んでよい。これらの情報を全て送信する必要はなく、所望の情報を全て、一度に、繰り返し又は継続的に送信する必要もない。むしろ、タグをそのようなものとして識別するビットのみが、頻繁に送信されれば、制御システム１２０がタグをそのようなものとして認識するには十分である。したがって、例えば上述のようにタグとして識別するためのビットのみが、Ｎデータワード毎に伝送され、他のデータワードは、上述の情報の送信に使用されてもよい。

加えて、タグ内に含まれる情報は、ディスプレイ２１５によって提示されるピクチャから、又はスピーカ２２５によって提示されるサウンドから取得される必要はない。むしろ、好ましくは、この情報は、レシーバシステム１６０によって受信されるビデオ及び／又はオーディオ信号から直接取得される。

データレートは非常に遅い可能性があるが、好ましくは、タグの識別可能な部分が、ＡＳＤディレイのヒステリシスの半分未満で繰り返し配信されるのが好ましい。タグの識別可能な部分は、伝送又は室内の雑音の干渉に起因して損失データを提供するように、より頻繁に配信されることがより好ましい。追加の情報の配信の速度は、あまり時間的制約はなく、したがって、より長い時間期間にわたって伝送される可能性がある。

図３は、例示のタグ検出及びカメラとマイクロフォンの制御技術３００のフローチャートである。開始３０５の後、いずれかのオーディオ信号が閾値レベルを超えているかどうかの判断３１０を行う。閾値レベルを超えていない場合は３１０へ戻る。閾値レベルを超えている場合、次いで、オーディオ信号内にタグが存在するかどうかの判断３１５を行う。オーディオ信号内にタグが存在する場合、次いでこのオーディオ信号は無視され（３１７）、３１０へと戻ることになる。オーディオ信号内にタグが存在しない場合、次いでカメラが、そのオーディオ信号によって識別される音源の方に向けられる３２０。例えばオーディオ信号がマイクロフォン１１５Ａからのものである場合、次いでカメラ１１０が、マイクロフォン１１５Ａによりサービスされるエリアの方に向けられるか、既にそのエリアに向いているカメラが選択されることになる。

次いで、カメラからのビデオ信号内にタグが存在するかどうかの判断が行われる３２５。ビデオ信号内にタグが存在する場合、カメラが以前の位置に再び向けられるか３３０、以前のカメラが選択される。ビデオ信号内にタグが存在しない場合、ローカルタグがオーディオ信号及び／又はビデオ信号内に挿入される３３５。タグ付けされた信号がその後伝送される。次いで３１０へ戻る。

したがって、マイクロフォンがサウンドをピックアップし、そのサウンド内に組み込みオーディオタグが存在する場合、あるいはカメラが、ビデオ信号内に組み込まれたビデオタグをピックアップしているサウンドのソースに向けられている場合、システムはそのサウンドを無視し、マイクロフォンを解放し、カメラ設定をそのままにする。しかしながら、いずれの信号においても組み込みタグが検出されなかった場合、これらの信号のうちの少なくとも１つへのローカルタグの挿入後に、そのサウンド及びピクチャをリモートのビデオ会議へ伝送するためにマイクロフォン及び／又はカメラが選択されることになる。したがって、リモートの反射されたサウンドを無視しつつ、アクティブな話者が正しく選択される。

図４は、例示の情報記録技術４００のフローチャートである。開始４０５の後、セッションを記録すべきかどうかの判断が行われる４１０。セッションを記録しない場合、プロシージャは終了する４１５。セッションを記録すべき場合、タグが存在するかどうかの決定が行われる４２０。タグが存在しない場合、セッションが記録される４３０。少なくとも１つのタグが存在する場合、次いでタグ内に情報が存在するかどうかの判断が行われる４２５。タグ内に情報が存在する場合、セッションは、その情報の少なくとも一部とともに記録される４３５。セッションとともに記録される情報は、タグ内に含まれる情報の全てであってもよく、日時のような、予め選択された部分のみであってもよい。

本明細書で説明される論理動作は、（１）コンピュータシステム上で動作する、コンピュータ実施される動作又はプログラムモジュールのシーケンスとして、かつ／又は（２）コンピューティングシステム内で相互接続されるマシン論理回路又は回路モジュールとして実装されることを認識されたい。そのような実装は、コンピューティングシステムの性能又は他の要件に依存する選択的問題である。したがって、本明細書で説明される論理動作は、状態動作、構造的デバイス、動作又はモジュールと様々に呼ばれる。これらの動作、構造的デバイス、動作及びモジュールは、ソフトウェアで、ファームウェアで、特別なデジタルロジックで、そしてこれらの任意の組み合わせで実装されてよい。図面に示され、本明細書で説明されるものよりも多く又は少ない動作が実行されてもよい。これらの動作は、本明細書で説明されるものと異なる順序で実行されてもよい。

図５は、上記で提示された手法によるビデオ会議システムのために、本明細書で説明されるソフトウェアコンポーネントを実行することができるコンピュータ５００の例示的なコンピュータアーキテクチャを示す図である。示されるコンピュータアーキテクチャは、従来的なデスクトップ、ラップトップ又はサーバコンピュータを例示しており、このコンピュータアーキテクチャを使用して、クライアントコンピュータ１０４、フロントエンドサーバコンピュータ１０６ａ〜１０６Ｎ又はバックエンドサーバコンピュータ１０８Ａ〜１０８Ｎ上で動作するものとして説明される、本明細書で提示されたソフトウェアコンポーネントの任意の態様を実行することができる。示されるコンピュータアーキテクチャは、中央処理ユニット（ＣＰＵ）５０２と、ランダムアクセスメモリ（ＲＡＭ）５１４及び読取専用メモリ（ＲＯＭ）５１６を含むシステムメモリ５０８と、メモリをＣＰＵ５０２に結合するシステムバス５０４とを含む。起動時等にコンピュータ５００内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システムが、ＲＯＭ５１６に格納される。コンピュータ５００は本明細書で更に詳細に説明されるオペレーティングシステム５１８、アプリケーションプログラム及び他のプログラムモジュールを格納するための大容量ストレージデバイス５１０を更に含む。

大容量ストレージデバイス５１０は、バス５０４に接続される大容量ストレージコントローラ（図示せず）を通してＣＰＵ５０２に接続される。大容量ストレージデバイス５１０及びその関連するコンピュータ読取可能媒体は、コンピュータ５００のための不揮発性ストレージを提供する。本明細書に含まれるコンピュータ読取可能媒体の説明は、ハードディスクやＣＤ−ＲＯＭドライブといった大容量ストレージデバイスについて言及しているが、当業者は、コンピュータ読取可能媒体を、コンピュータアーキテクチャ５００によってアクセス可能な任意の利用可能なコンピュータ記憶媒体又は通信媒体とすることができることを認識されたい。

限定ではなく例として、コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール又は他のデータといった情報の記憶のために、任意の方法又は技術で実装される揮発性及び不揮発性、取外し可能及び取外し不可能な媒体を含んでよい。例えばコンピュータ記憶媒体は、これらに限られないが、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他の半導体メモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、ＨＤ−ＤＶＤ、ＢＬＵ−ＲＡＹ（登録商標）若しくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、又は所望の情報を格納するのに使用することができ、かつコンピュータ５００によってアクセス可能な任意の他の媒体を含む。請求項の目的に関しては、「コンピュータ記憶媒体」というフレーズ及びその変化形は、搬送波又は信号及び／又は信号媒体を含まない。

通信媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール又は他のデータを、搬送波や他の伝送機構のような変調データ信号内に含み、任意の伝送媒体を含む。「変調データ信号」という用語は、情報を信号内にエンコードするような手法により変更又は設定されたその特性の１つ又は複数を有する信号を意味する。限定ではなく例として、通信媒体は、有線ネットワーク又は直接有線接続といった有線媒体と、音響、ＲＦ、赤外線又は他の無線媒体といった無線媒体とを含む。上記の任意の組み合わせも、コンピュータ読取可能媒体の範囲内に含まれるべきである。

様々な実施形態によると、コンピュータ５００は、ネットワーク５２０のようなネットワークを通じてリモートコンピュータへの論理接続を使用する、ネットワーク化された環境において動作し得る。コンピュータ５００は、バス５０４に接続されるネットワークインタフェースユニット５０６を通じてネットワーク５２０に接続してよい。ネットワークインタフェースユニット５０６を使用して他のタイプのネットワーク及びリモートコンピュータシステムへ接続してもよいことを認識されたい。コンピュータ５００は、キーボード、マウス又は電子スタイラスを含め、複数の他のデバイスから入力を受け取って処理するための入出力コントローラ５１２を含んでもよい。同様に、入出力コントローラは、ディスプレイ画面、プリンタ又は他のタイプの出力デバイスへの出力を提供してもよい。

上記に簡単に説明したように、ネットワーク化されたデスクトップ、ラップトップ又はサーバコンピュータの動作を制御するのに適したオペレーティングシステム５１８を含め、複数のプログラムモジュール及びデータファイルが、コンピュータ５００の大容量ストレージデバイス５１０及びＲＡＭ５１４に格納され得る。また、大容量ストレージデバイス５１０及びＲＡＭ５１４は、上述の様々な動作を実装する１つ又は複数のプログラムモジュールを格納してもよい。大容量ストレージデバイス５１０及びＲＡＭ５１４は他のタイプのプログラムモジュールを格納してもよい。

本明細書で説明される主題は、コンピュータシステム上でのオペレーティングシステム及びアプリケーションプログラムとの実行と関連して実行される１つ又は複数のプログラムモジュールの一般的なコンテキストにおいて提示されるが、当業者には、他のタイプのプログラムモジュールとの組み合わせで実行され得る他の実装も認識されよう。一般に、プログラムモジュールは、ルーチン、プログラム、コンポーネント、データ構造及び特定のタスクを実行するか特定の抽象データタイプを実装する他のタイプの構造を含む。さらに、当業者には、本明細書で説明される主題が、所望により、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベース若しくはプログラム可能な家庭電化製品、ミニコンピュータ、メインフレームコンピュータ等を含め、他のコンピュータシステム構成とともに実施されてもよいことが認識されよう。

上記に基づいて、本明細書ではビデオ会議のための技術が提供されることを認識されたい。本明細書で提示される主題は、コンピュータの構造的特徴、方法的かつ変形可能な動作、具体的なコンピューティング装置及びコンピュータ読取可能媒体に固有の言語で説明してきたが、添付の特許請求の範囲において定められる本発明は、必ずしも本明細書で説明される具体的な特徴、動作及び媒体に限定されないことを理解されたい。むしろ、そのような具体的な特徴、動作及び媒体は、特許請求の範囲を実装する例示の形式として開示される。

上記の主題は、単に例として提供されており、限定として解釈されるべきではない。図示され、説明される例示の実施形態及び用途に従うことなく、以下の特許請求の範囲において説明される本発明の真の精神及び範囲から逸脱することなく、本明細書で説明される主題に対して様々な修正及び変更がなされてもよい。

Claims

ビデオ会議システムのためのトランスミッタシステムであって、
オーディオタグ又はビデオタグのうちの少なくとも一方を生成するタグジェネレータと；
（ｉ）受け取ったオーディオ信号に前記オーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は（ｉｉ）受け取ったビデオ信号に前記ビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行う結合器と；
（ｉ）前記タグ付けされたオーディオ信号と前記受け取ったビデオ信号、（ｉｉ）前記受け取ったオーディオ信号と前記タグ付けされたビデオ信号、又は（ｉｉｉ）前記タグ付けされたオーディオ信号と前記タグ付けされたビデオ信号を伝送するトランスミッタと；
を備える、トランスミッタシステム。
制御システムを更に備え、該制御システムは、追加の情報を前記ビデオタグ又は前記オーディオタグのうちの少なくとも一方に組み込む、
請求項１に記載のトランスミッタシステム。
ビデオ会議システムを作動させる方法であって、
オーディオ信号を受け取るステップと；
ビデオ信号を受け取るステップと；
オーディオタグ又はビデオタグのうちの少なくとも一方を生成するステップと；
（ｉ）前記オーディオ信号に前記オーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は（ｉｉ）前記ビデオ信号に前記ビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行うステップと；
（ｉ）前記タグ付けされたオーディオ信号と前記ビデオ信号、（ｉｉ）前記オーディオ信号と前記タグ付けされたビデオ信号、又は（ｉｉｉ）前記タグ付けされたオーディオ信号と前記タグ付けされたビデオ信号を伝送するステップと；
を含む、方法。
複数のオーディオ信号が存在しており、
別のビデオ会議システムからのオーディオタグを含まないオーディオ信号を伝送用に選択するステップ
を更に含む、請求項３に記載の方法。
複数のビデオ信号が存在しており、
別のビデオ会議システムからのビデオタグを含まないビデオ信号を伝送用に選択するステップ
を更に含む、請求項３に記載の方法。
コンピュータによって実行されると、該コンピュータに：
オーディオタグ又はビデオタグのうちの少なくとも一方を生成させ；
（ｉ）受け取ったオーディオ信号に前記オーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は（ｉｉ）受け取ったビデオ信号に前記ビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を実行させ；
（ｉ）前記タグ付けされたオーディオ信号と前記受け取ったビデオ信号、（ｉｉ）前記受け取ったオーディオ信号と前記タグ付けされたビデオ信号、又は（ｉｉｉ）前記タグ付けされたオーディオ信号と前記タグ付けされたビデオ信号を伝送させる、
コンピュータ実行可能命令を有する、コンピュータ記憶媒体。
コンピュータによって実行されると、該コンピュータに、
受け取った複数のオーディオ信号において、リモートビデオ会議システムからのオーディオタグを検出させ、オーディオタグを含まないオーディオ信号を、前記生成されるオーディオタグとの結合用に選択させる
ためのコンピュータ実行可能命令を更に備える、請求項６に記載のコンピュータ記憶媒体。
コンピュータによって実行されると、該コンピュータに、
受け取った複数のビデオ信号において、リモートビデオ会議システムからのビデオタグを検出させ、ビデオタグを含まないビデオ信号を、前記生成されるビデオタグとの結合用に選択させる
ためのコンピュータ実行可能命令を更に備える、請求項６に記載のコンピュータ記憶媒体。
コンピュータによって実行されると、該コンピュータに、
追加の情報を、前記生成されるビデオタグ又は前記生成されるオーディオタグの少なくとも一方に組み込ませる
ためのコンピュータ実行可能命令を更に備える、請求項６に記載のコンピュータ記憶媒体。
コンピュータによって実行されると、該コンピュータに、
前記タグ付けされたオーディオ信号における歪みが所定のレベル未満になるように、前記オーディオ信号を前記オーディオタグに結合して、タグ付けされたオーディオ信号を生成させるか、前記タグ付けされたビデオ信号における歪みが所定のレベル未満になるように、前記ビデオ信号を前記ビデオタグに結合して、タグ付けされたオーディオ信号を生成させる、
ためのコンピュータ実行可能命令を更に備える、請求項６に記載のコンピュータ記憶媒体。