JP2004538724A - 高解像度のテレビ会議のシステム及び方法 - Google Patents
高解像度のテレビ会議のシステム及び方法 Download PDFInfo
- Publication number
- JP2004538724A JP2004538724A JP2003520192A JP2003520192A JP2004538724A JP 2004538724 A JP2004538724 A JP 2004538724A JP 2003520192 A JP2003520192 A JP 2003520192A JP 2003520192 A JP2003520192 A JP 2003520192A JP 2004538724 A JP2004538724 A JP 2004538724A
- Authority
- JP
- Japan
- Prior art keywords
- video
- image
- conference device
- video stream
- video conference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000004891 communication Methods 0.000 claims abstract description 65
- 230000005236 sound signal Effects 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 10
- 230000001934 delay Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Abstract
高解像度のテレビ会議のためのシステムと方法が示され、説明される。ビデオカメラ(110/116)又はセンサーと、複数のマイクロフォン(214)及びスピーカー(210a−210d)と、音声(312)及び通信(318)処理エンジンを含む送信ステーション(102)と受信ステーション(104)が開示される。複数の映像ストリームが生成されることを可能にするシステムを通じて映像が処理され、転送され、テレビ会議システムに関する場所を示すことで音声が再生されることを可能にするシステムを通じて音声が処理され、転送される。
Description
【0001】
[関連出願との相互参照]
本出願は、2001年8月7日に出願された“高解像度のテレビ会議バー(High Resolution Video Conferencing Bar)”という題名の仮特許出願第60/310,742号の優先権の利益を主張する。
[発明の背景]
1.発明の分野
本発明は概して会議システムに関するものであり、特に高解像度のテレビ会議システムに関するものである。
2.背景技術の説明
従来、テレビ会議システムは、遠隔の会議場所への送信のための会議参加者の画像を取得するためにビデオカメラを利用する。従来の(静止又は可動)ビデオカメラは、同時に特定の場所で会議場所の1つの画像又は1つのビューのみを取得することができる。同時に異なる場所で会議場所の異なる画像又はビューを取得するために、従来のビデオカメラは、カメラの回転方向を調整する装置を有利に備えている場合がある。カメラをほぼ2つの直交軸に回転するように設計された位置合わせ装置は、一般的に2つのアクチュエータを利用する。第1のアクチュエータは、ほぼ垂直軸にカメラを回転し、第2のアクチュエータは、カメラの垂直軸と直角のほぼ水平軸にカメラを回転する。従って、ほぼ水平軸へのカメラの回転は“パニング(panning)”と称され、ほぼ垂直軸へのカメラの回転は、“チルティング(tilting)”と称される。したがって、カメラをほぼ水平及び垂直軸に回転する装置は、一般的に“パン/チルト(pan/tilt)位置合わせ装置”と称される。更に、話し中の会議参加者の画像のような特に関心の高い画像又はビューを取得するために、従来のビデオカメラは、ズーム機能を実行する一式のズームレンズを必要とし、その結果、“パン/チルト/ズーム(pan/tilt/zoom)”(“PZT”)カメラになる。
【0002】
不都合なことに、従来のPZTカメラは多数の欠点を有する。第1に、位置合わせ装置の機械的構成要素の動きは、実質的な量のノイズを生成し得る。前記動きとノイズは会議参加者に不快であり、気を散らす。更に重要なことに、ノイズは話し中の参加者の方向にカメラを自動的に向けるために利用される音響位置測定技術に干渉し得る。第2に、位置合わせ装置の機械的構成要素は、磨耗又は手荒な取り扱いのため調整不良や破損の影響を受けやすく、それによって、位置合わせ装置が一部又は全部において動作不能になる。更なる不利点は、位置合わせ装置の製造における複雑さであり、そのため、高製造コストとその結果の高消費者価格を生ずる。
【0003】
技術開発に伴い、テレビ会議システムの表示スクリーンのサイズは大きくなってきている。その結果、表示スクリーンの参加者の話す人の位置が広範囲の領域で変わり得る。しかし、不都合なことに、位置が広範囲の領域で変わると、従来のテレビ会議システムは新たな参加者の話す人の位置に調整することができない。
【0004】
従って、複雑な機械的構造を有することなく、会議場所の複数のビューを取得するテレビ会議システム及び方法についての必要性が存在する。話す人の位置に関連する音響を調整するテレビ会議システム及び方法についての更なる必要性も存在する。
[発明の概要]
本発明は、音源に応じて音声信号を生成する複数のマイクロフォンと、音源の位置を示す位置信号を生成し、音声信号を処理する音声処理エンジンと、通信チャネルに音声信号及び位置信号を送信する通信インタフェースとを含み、第1の場所に設置された送信ステーションを有するテレビ会議システムを提供する。テレビ会議システムの複数のマイクロフォンは、垂直の配列及びn方向の構成で配置され得る。テレビ会議システムはまた、通信チャネルから音声信号及び位置信号を受信する通信インタフェースと、音声信号を再生する複数のスピーカーと、位置信号に応じてスピーカーの1つを選択的に駆動し、選択されたスピーカーで音声信号を再生する音声処理エンジンとを含み、第2の場所に設置された受信ステーションを有し得る。
【0005】
テレビ会議システムで生成された位置信号は、複数のマイクロフォンから受信された電気信号又は電流信号の大きさの違いに基づく。音源の位置が変更すると、音声処理エンジンは位置の変更を反映する新たな位置信号を生成する。
【0006】
送信ステーションの通信インタフェースは、音声信号と位置信号をコード化し、圧縮する通信処理エンジンと、通信チャネルを通じて音声信号及び位置信号を送信する送受信装置とを含む。逆に、受信ステーションの通信インタフェースは、通信チャネルを通じて音声信号及び位置信号を受信する送受信装置と、音声信号と位置信号をデコードし、解凍する通信処理エンジンとを含む。
【0007】
他の実施例において、テレビ会議システムは、画像を生成する高解像度のビデオセンサーと、高解像度の画像を保存する映像メモリと、ビデオセンサーから映像メモリに画像データをロードするデータロードエンジンとを含み、第1の場所に設置された送信ステーションを有する。更に、フィールド・プログラマブル・ゲート・アレイ(Field Programmable Gate Array)/特定用途向け集積回路(FPGA/ASIC)が映像メモリとデータロードエンジンにつなげられる。FPGA/ASICは映像メモリに保存された高解像度画像内で第1の画像セクションと第2の画像セクションを規定する。更に、FPGA/ASICは第1の解像度で第1の映像ストリームに合わせて第1の画像セクションを調整し、第2の解像度で第2の映像ストリームに合わせて第2の画像セクションを調整し得る。FPGA/ASICにつなげられた通信インタフェースは第1の映像ストリームと第2の映像ストリームを通信チャネルに送信する。テレビ会議システムはまた、通信チャネルから第1の映像ストリームと第2の映像ストリームを受信する通信インタフェースを含み、第2の場所に設置された受信ステーションを有し得る。受信ステーションは、第1の映像ストリームと第2の映像ストリームを処理し、第1の解像度で第1の画像として第1の映像ストリームを表示し、第2の解像度で第2の画像として第2の映像ストリームを表示する映像処理エンジンを更に含み、通信インタフェースにつなげられる。
【0008】
この実施例における送信ステーションの通信インタフェースは、第1と第2の映像ストリームをコード化し、圧縮する通信処理エンジンと、通信チャネルを通じて第1と第2の映像ストリームを送信する送受信装置とを有する。逆に、本実施例の受信ステーションの映像処理エンジンは、第1の映像ストリームと第2の映像ストリームを保存する映像メモリと、受信ステーションの通信インタフェースから第1の映像ストリームと第2の映像ストリームをロードするデータロードエンジンと、映像メモリに保存された高解像度の画像に基づいて第1と第2の画像データストリームを表示するFPGA/ASICとを有する。
【0009】
更に他の実施例において、テレビ会議システムは、通信チャネルから映像信号を受信する通信インタフェースと、映像信号に応じて映像表示出力を生成する映像処理エンジンと、映像表示出力を表示する映像ディスプレイとを有し、第1の場所に設置された受信ステーションを有する。テレビ会議システムは、映像信号を生成するビデオカメラと、映像信号を処理する映像処理エンジンと、送信ステーションのビデオカメラと受信ステーションの映像表示出力の間のフェーズを同期するフェーズ同期エンジンと、通信チャネルに映像信号を送信する通信インタフェースとを有し、第2の場所に設置された送信ステーションを更に有し得る。
[発明の説明]
図1は、本発明による例示的なテレビ会議システム100を示したものである。テレビ会議システム100は、第1の会議ステーションと第2の会議ステーションを有する。第1の会議ステーション102は、音声入出力装置106と、108と、ビデオカメラ(又はビデオセンサー)110を有する。同様に、第2の会議ステーション104は、音声入出力装置112と、映像ディスプレイ114と、ビデオカメラ(又はビデオセンサー)116を有する。第1の会議ステーション102は、通信チャネル118を通じて第2の会議ステーション104と通信する。通信チャネル118は、インターネット、LAN、WAN、又は何らかの他の形式のネットワーク通信手段である可能性がある。図1は2つの会議ステーション102と104のみを示しているが、追加の会議ステーションがテレビ会議システム100につなげられ得ることがその技術に熟練した人は認識するであろう。
【0010】
図2は、本発明の一実施例により、図1の会議ステーション102と104と同様の例示的な会議ステーション200を示したものである。会議ステーション200は、ディスプレイ202と、高解像度会議バー204と、映像処理ユニット206とを有する。好ましくは、ディスプレイ202は、16:9の視聴可能領域を備えた比較的大きいサイズのフラットスクリーン208を有する高解像度(“HD”)モニタである。その他、他の視聴領域の比率や、他の形式のディスプレイ202が検討され、用いられ得る。
【0011】
好ましくは、高解像度のテレビ会議バー204は、複数のスピーカー210a−210dと、ビデオセンサー(例えばCMOSビデオセンサーのような高解像度デジタルビデオ画像センサー)212と、複数のマイクロフォン214とを含む。スピーカー210a−210dは、好ましくは250Hzを越える周波数で動作する。しかし、スピーカー210a−210dは、本発明の多様な実施例と互換性がある何らかの他の周波数で動作し得る。一実施例において、会議バー204はおよそ幅が36インチ、高さが2インチ、奥行が4インチであるが、会議バー204は何らかの他の寸法であってもよい。一般的に、会議バー204はディスプレイ202の先端より少し小さい幅の前面部218でディスプレイ202の上に設置されるように設計される。会議バー204の位置は、スピーカー210a−210dと、ビデオセンサー212と、複数のマイクロフォン214とをスクリーン208の近くにもたらし、ディスプレイ202の先端で位置の基準を提供する。他の会議バー204の位置も、本発明の範囲と目的と調和するように利用され得る。更に、図2には4つのスピーカーのみが示されているが、本発明においてそれよい多い又はそれより少ないスピーカーが利用され得る。
【0012】
ビデオセンサー212は、720i(すなわち、毎秒60フィールドでインタレースされた1280×720)以上の好ましい解像度で、リアルタイムで複数の画像を出力することが可能であるが、本発明により他の解像度も考えられる。全会議場所を取得する約65度のビューに基づき、ビデオセンサー212の解像度は十分である。更に広いビュー(90度のビュー等)のために、限られた水平のパン(pan)モーターが提供され得る。前記限られた水平のパン(pan)モーターを提供することにより、高価で複雑な全ての機械的なパン/チルト/ズーム(pan/tilt/zoom)カメラとレンズシステムを避けることができる。更に、純粋なデジタルズームが固定レンズに備えられ、最小のCIF(352×288)の解像度の画像を維持する一方で、8倍以上の有効なズームまでに対応し得る。
【0013】
複数のマイクロフォン214は、会議バー204のビデオセンサー212の両側に設置され、図2に示すように、より良い順方向の特性を提供するn方向の構成で配置され得る。垂直のマイクロフォンが、ディスプレイ202の側面にオプションで配置され、垂直の位置基準を提供し得る。
【0014】
会議バー204は、高速デジタルリンク205を介して処理ユニット206につなげられる。処理ユニット206は、好ましくは250Hz未満から50−100Hzの周波数で動作するサブウーファー(sub−woofer)装置を含み得る。処理ユニット206は、図3と共に更に詳細に説明される。処理ユニット206は会議バー204から分離して示されているが、その代わりに処理ユニット206は会議バー204に含まれ得る。
【0015】
会議の参加者はビデオセンサー212を見ていると、又はその動きを見ていると不快に思う場合があるため、ビデオセンサー212の前面及び/又は会議バー204の他の部分にスモークガラス又は他のカバーが設置される場合があり、それによって会議の参加者がビデオセンサー212及び/又はスピーカー210a−210d並びに複数のマイクロフォン214を見ることができなくなる。
【0016】
図3は、本発明の一実施例により、図2の処理ユニット206を更に詳細に示した例示的なブロック図である。処理ユニット206は、好ましくは処理エンジン302と通信インタフェース204とサブウーファー(sub−woofer)装置とを有する。処理エンジン302は、フェーズ同期エンジン308と映像処理エンジン310と音声処理エンジン312とを更に有する。フェーズ同期エンジン308は、送信遅延によって生じた悪影響を減少する又は最小限にすることが可能である。特に、ローカルの(又は第1の)会議ステーション102(図1)のビデオカメラ110(図1)は、リモートの(又は第2の)会議ステーション104(図1)の映像表示出力に関して不定のフェーズを有する。従って、リモートの会議ステーション104の映像表示出力は、ローカルの会議ステーション102に設置されたビデオカメラ110とフェーズの不一致がある場合がある。
【0017】
更に、ローカルの会議ステーション102からリモートの会議ステーション104に供給側の映像信号を送信する際に、供給側の映像信号がローカルの会議ステーション102で生成される時間と供給側の映像信号がリモートの会議ステーション104で表示される時間との間の送信遅延が存在する。リモートの会議ステーション104の映像表示出力がローカルの会議ステーション102に配置されたビデオカメラ110とフェーズの不一致があると、送信遅延は補正できない。その結果、送信遅延がリモートの会議ステーション104の映像表示出力に加えられ、双方向テレビ会議にマイナスの効果を生じ得る。例えば、ローカルの会議ステーション102のユーザが一時停止後に話し始めると、送信遅延のためにリモートの会議ステーション104の参加者は一時停止中のユーザを依然として見る場合がある。リモートの会議ステーション104の何らかの参加者がこの時点でユーザを割り込むと、リモートの参加者とユーザがお互いに話すことになる。
【0018】
有利には、本発明は、映像出力で送信遅延が補正又は減少され得るように、ローカルの会議ステーション102に設置されたビデオカメラ110とリモートの会議ステーション104の映像表示出力との間のフェーズを同期する。特に、テレビ会議中にローカルの会議ステーション102のビデオカメラ110が特定の頻度と速度で動き、リモートの会議ステーション104の映像表示出力に関してフェーズのずれを引き起こす。ローカルの会議ステーション102のビデオカメラ110の動きは、ビデオカメラ110と映像表示出力との間のフェーズを同期する基準として測定され、用いられ得る。フェーズ同期エンジン308は、フェーズ同期又は固定機能を実行するフェーズ同期モジュールを保存するメモリ装置314を有する。
【0019】
動作中に、供給源の映像信号を送信するために、映像処理エンジン310はまずビデオセンサー212(又はビデオカメラ110)から高解像度の画像を受信し、ビデオメモリ(図示なし)に画像を保存する。映像処理エンジン310は、好ましくはビデオメモリに保存された高解像度画像内で2つの画像セクション(ビュー)を規定し、2つの画像セクション(ビュー)について2つのそれぞれの映像ストリームを生成する。その他、それより多い又は少ない画像セクションと対応する映像ストリームが考えられる。その後、映像処理エンジン310は2つの映像ストリームを通信インタフェース304に送信する。逆に、リモートの場所からリモートの映像信号を表示するために、映像処理エンジン310は通信インタフェース304から少なくとも2つの映像ストリーム(すなわち、映像ストリームA及びB)を受信する。その後、映像処理エンジン310は、映像ストリームA及びBを処理し、2つの映像ストリームA及びBについてスクリーン208に2つの画像のビューをそれぞれ表示する。
【0020】
供給側の音声信号を送信するために、会議バー204の複数のマイクロフォン214(図2)のそれぞれが、音源(例えば話し中の参加者)から音を受信し、受信音を電気又は電流信号に変換する。音源と会議バー204に関して異なる位置に複数のマイクロフォン214が設置されているため、複数のマイクロフォン214の電気信号又は電流信号が異なる大きさを有する。電気信号又は電流信号の大きさの違いは音源の位置を示す。複数のマイクロフォン214から電気信号又は電流信号を受信すると、音声処理エンジン312は音声信号と位置信号を生成する。位置信号は会議バー204に関する話す人の位置を示す情報を有し得る。音源の位置が変わると、音声処理エンジン312は新しい位置信号を生成し、位置の変更を反映する。その後、音声処理エンジン312は音声信号と位置信号を通信インタフェース304に送信する。
【0021】
逆に、リモートの場所からリモートの音声信号を再生するために、音声処理エンジン312は、まず通信インタフェース304から音声信号と位置信号を受信する。その後、音声処理エンジン312が位置信号に応じて会議バー204の1つ以上のスピーカー210a−210d(図2)を駆動し、映像処理エンジン310がスクリーン208に1つ以上の画像を表示する。会議バー204のスピーカー210a−210dは、スクリーン208に表示された話し中の参加者の位置に基づいて選択される。スクリーン208が比較的大きいサイズを有しているため、音が話し中の参加者の位置から来ることがわかるようにすることによって本発明がテレビ会議を改善する。250Hzより上の周波数内の音は指向的な特性を有するため、会議バー204のスピーカーの配列におけるスピーカー210a−210dは一般的に250Hzより上の周波数で動作することに留意すべきである。従って、映像処理ユニット206に設置されたサブウーファー(sub−woofer)装置306(図3)は、250Hz未満から50−100Hzまでの周波数内の音が指向性を有さないため、好ましくはその周波数で動作する。本発明はサブウーファー(sub−woofer)装置306を有するものとして説明されるが、その技術に熟練した人はサブウーファー(sub−woofer)装置306が本発明の動作及び機能に必要ないことがわかる。本発明において何らかの周波数帯の音が利用され得ることもまた、その技術に熟練した人がわかる。例えば、更に低い周波数が会議バー204のスピーカーの配列におけるスピーカー210a−210dに用いられ得る。
【0022】
通信インタフェース304は、送受信装置316と通信処理エンジン318とを有する。音声信号と位置信号と2つの映像ストリームA及びBとを含む通信信号の送信は、通信処理エンジン318を必要とし、音声処理エンジン312から音声信号と位置信号を受信し、映像処理エンジン310から2つの映像ストリームA及びBを受信する。その結果、通信処理エンジン318は、通信信号をコード化し、圧縮して、それを送受信装置316に送信する。通信信号を受信すると、送受信装置316は通信チャネル118を通じて通信信号をリモートの場所に転送する。
【0023】
逆に、音声信号と位置信号と2つの映像ストリームA及びBを含む通信信号を受信するために、送受信装置316は通信チャネル118から通信信号を受信し、通信信号を通信処理エンジン318に転送する。その後、通信処理エンジン318は通信信号を回答し、デコードして、音声信号と位置信号と2つの映像データストリームを回復する。
【0024】
図4は、図3の映像処理エンジン310の構成要素を示した例示的なブロック図である。映像処理エンジン310は、ビデオセンサー212(図2)につなげられたデータロードエンジン402と、映像メモリ404と、FPGA/ASIC406とを有する。データロードエンジン402がビデオセンサー212からビデオ画像データを受信し、映像メモリ404に保存し、FPGA/ASIC406がデータロードエンジン402と映像メモリ404を制御する。ビデオセンサー212は好ましくは高解像度のデジタル画像センサーであるため、ビデオセンサー212は大量の画像データを生成し得る。例えば、3,000×2,000の解像度でビデオセンサー212は1つの画像について6,000,000ピクセルを生成する。入力処理能力を増加させるために、データロードエンジン402は好ましくは6個の並列データチャネル1−6を有する。FPGA/ASIC406は前記6個の並列データチャネル1−6を通じて映像メモリ404に全画像ピクセルを供給するようにプログラムされる。FPGA/ASIC406はまた、選択可能な解像度で映像メモリ404に保存された画像上で少なくとも2つの画像セクション(ビュー)を規定し、2つの画像セクション(ビュー)について2つの映像ストリームをそれぞれ生成するようにプログラムされる。本発明の実施例は6個のデータチャネルを利用することを考えるが、何らかの数のデータチャネルが本発明によって使用され得る。更に、何らかの数の画像セクションと対応する映像ストリームが本発明で利用され得る。
【0025】
図5は、FPGA/ASIC406(図4)によって規定され、ディスプレイ202(図2)で見られる本発明の一実施例による例示的な画像セクション(又はビュー)の構成である。図5において大きいセクションA502は700×400の解像度を有する画像の全てのビューを規定し、小さいセクションB504は、リモートの会議ステーションから話し中の参加者が表示される300×200の解像度を有するビューを規定する。映像メモリ404(図4)に保存された画像に基づき、FPGA/ASIC406は全画像を700×400の解像度に縮小し、大きいセクションA502のための映像ストリームA(図3)を作る。その後、FPGA/ASIC406はセクションB504の画像を300×200の解像度に縮小し、映像ストリームB(図3)を作る。映像メモリ402に保存された画像は、比較的高解像度を有するため、2つの縮小された画像は依然として良い解像度の質を示す。本発明において他の解像度が利用され得ることがその技術に熟練した人は認識するであろう。
【0026】
有利には、本発明は会議場所の全画像を生成し、全画像のうちの何らかの任意のセクションからビューをズームすることが可能である。更に、1つの画像について少なくとも2つの映像ストリームが生成されるため、特定の話し中の参加者を示すはめ込みのズームされたビュー(例えばセクションB504)と共に、会議場所の全参加者を含む広角度の高解像度の画像(例えばセクションA502)を送信することが可能である。その他、単一の画像からそれより多い又は少ないストリームが作られ、その結果それより多い又は少ないビューが表示され得る。従って、本発明は従来の機械的なパン/チルト/ズーム(pan/tilt/zoom)カメラに代わって用いられ得る。
【0027】
現在の技術で、一般的なCMOSビデオセンサーは、およそ65度のビューの角度を有効に提供し得る。実際には、90度のビューの角度が必要になる場合がある。従って、小さく安価なパン(pan)モーターが水平方向にCMOSビデオセンサーを動かすために用いられ得る。しかし、CMOSビデオセンサーの動きと結果として生じるノイズが比較的小さいため、その動きと結果として生じるノイズは会議の参加者にほとんど目立たない。技術の発達でCMOSビデオセンサーはコスト効率の良い90度のビュー角度を提供することができるであろう。
【0028】
図6において、テレビ会議システムにおいて音声データを送信する処理を示した例示的なフローチャート600が示されている。ステップ610において、受信音を電気信号又は電流信号に変換することによって音源に応じて、第1の場所の送信ステーションで複数のマイクロフォン214(図2)によって音声信号が生成される。次に、ステップ620で音源の位置を示す位置信号が生成される。送信ステーションからの音源の位置に応じて、電流信号は特定の大きさを有する。電流信号の大きさに基づいて音声処理エンジン312(図3)が位置信号を規定する。その後、音声信号及び位置信号が通信インタフェース304(図3)に送信され、ステップ630で通信処理エンジン318(図3)によって処理される。前記処理は、送信のために音声信号及び位置信号を圧縮し、コード化することを含み得る。その後、ステップ640において、音声信号及び位置信号が、インターネットや、LANや、WANや、何らかの形式のネットワーク通信手段のような通信チャネルを通じて送受信装置によって送信される。ステップ650において、第2の場所の受信ステーションの送受信装置が音声信号及び位置信号を受信する。ステップ660で通信処理エンジンが音声信号及び位置信号を処理し、そのことは再生のための音声信号及び位置信号を解凍し、デコードすることを有し得る。その後、ステップ670において、位置信号に基づいて受信ステーションの1つ以上のスピーカーが音声信号を再生するために駆動される。スピーカーのうちの1つの音声信号の再生により音源の位置から音声信号が来ることがわかるようになるため、音声処理エンジンによって生成された位置信号が更に現実的なテレビ会議の状況を作り出す。その後、ステップ680において、更なるテレビ会議が生じているかどうかをシステムが決定する。会議が続く場合には、システムがステップ610から670を繰り返す。
【0029】
図7において、テレビ会議システムで高解像度の画像を送信する処理を示した例示的なフローチャート700が示されている。ステップ710において、ビデオカメラ又はビデオセンサーが高解像度の画像を取得する。その後、高解像度の画像がロードされ、ビデオカメラ又はビデオセンサーから映像メモリに保存される。次にステップ720で画像が映像ストリームに変換される。映像メモリに保存された高解像度の画像内で、第1と第2の画像セクションが最初に送信ステーションの映像処理エンジンによって規定される。その後、第1と第2の画像セクションが第1の解像度を有する第1の映像ストリームと第2の解像度を有する第2の映像ストリームとに変換される。変換は映像処理エンジン310(図3)のFPGA/ASIC406(図4)によって実行され、第1の画像セクションを700×400の解像度を有する第1の映像ストリームに変換し、第2の画像セクションを300×200の解像度を有する第2の映像ストリームに変換する。本発明において他の解像度も利用される場合があり、2つより多い又は少ない画像セクションと2つより多い又は少ない映像ストリームもまた利用され得ることが、その技術に熟練した人は認識するであろう。
【0030】
ステップ730において、映像ストリームは送信ステーションの通信処理エンジンによって処理される。前記処理は送信のためにストリームのコード化と圧縮を有し得る。一般的に映像データの更に高速な送信を可能にするために、映像ストリームがコード化され、圧縮される。次にステップ740において、処理された映像ストリームが通信チャネルを通じて受信ステーションに送信される。通信チャネルは何らかのパケット交換網、(非同期転送モード(“ATM”)ネットワークのような)回線交換網、又は周知のインターネットを含むデータを運ぶ何らかの他のネットワークである場合がある。通信チャネルはまた、インターネット、エクストラネット、ローカルエリアネットワーク、又はその技術において周知の他のネットワークである場合がある。ステップ750において、映像ストリームが受信ステーションの映像処理エンジンによってデコードされ、解凍され、受信ステーションの映像ディスプレイに表示される。ステップ760において、更にテレビ会議が生じているかどうかをシステムが決定する。会議が続く場合には、システムはステップ710から750を繰り返す。音声と位置と映像のデータの送信を別のフローチャートと方法で説明したが、本発明は前記データの同時又はほぼ同時の送信を考慮する。
【0031】
図8において、テレビ会議システムで映像信号を送信する他の処理を示した例示的なフローチャート800が示されている。ステップ810において、ビデオカメラ又はビデオセンサーがビデオ画像を取得する。次に、ステップ820で映像信号が送信ステーションの通信エンジンで処理される。前記処理は映像信号のコード化と圧縮を含み得る。一般的に映像データの更に高速な送信を可能にするために、映像ストリームがコード化され、圧縮される。ステップ830において、フェーズ同期エンジンがビデオカメラと映像表示出力との間のフェーズを同期する。ビデオカメラと映像表示出力との間のフェーズの同期は、送信遅延によって引き起こされる悪影響を最小にすることを可能にする。特に、ビデオカメラが映像表示出力とフェーズの不一致がある場合には、送信ステーションのユーザが話し始めた後でもなお、受信ステーションの参加者が送信ステーションの一時停止中のユーザを依然として見る場合がある。
【0032】
次に、ステップ840で映像信号が通信チャネルを介して受信ステーションに送信される。通信チャネルは何らかのパケット交換網、(非同期転送モード(“ATM”)ネットワークのような)回線交換網、又は周知のインターネットを含むデータを運ぶ何らかの他のネットワークである場合がある。通信チャネルはまた、インターネット、エクストラネット、ローカルエリアネットワーク、又はその技術において周知の他のネットワークである場合がある。その後、ステップ850において、映像信号が受信ステーションの通信処理エンジンによって映像表示出力での表示のために処理される。前記処理は、映像信号のデコードと解凍を含み得る。デコードされ、解凍された映像信号に応じて映像表示出力が生成され、受信ステーションの映像ディスプレイに表示される。ステップ860において、更にテレビ会議が生じているかどうかをシステムが決定する。会議が続く場合には、システムはステップ810から850を繰り返す。
【0033】
本発明は、例示的な実施例を参照して述べられた。実施例と共に開示された多様な特徴が別々に又は一緒に用いられる場合があり、多様な改良が行われる場合があり、本発明の更に広い範囲を逸脱することなく他の実施例が用いられ得ることが、その技術に熟練した人は認識するであろう。例えば、本発明の位置合わせ装置が好ましい実施例を参照して説明されたが、いくつもの環境と実施において本発明が有利に利用され得ることをその技術に通常に熟練した人が認識することがわかる。従って、ここで開示された発明の全範囲と意図を考慮して特許請求の範囲が解釈されるべきである。
【図面の簡単な説明】
【0034】
【図1】本発明による例示的なテレビ会議システムを示したものである。
【図2】例示的な会議ステーションを示したものである。
【図3】図2の処理ユニットを更に詳細に示す例示的なブロック図である。
【図4】図3の映像処理エンジンの構成要素を示した例示的なブロック図である。
【図5】本発明による例示的なセクション(又はビュー)の構成である。
【図6】テレビ会議システムで音声を送信する例示的な処理を示したフローチャートである。
【図7】テレビ会議システムで高解像度の画像を送信する例示的な処理を示したフローチャートである。
【図8】テレビ会議システムで映像信号を送信する例示的な処理を示したフローチャートである。
[関連出願との相互参照]
本出願は、2001年8月7日に出願された“高解像度のテレビ会議バー(High Resolution Video Conferencing Bar)”という題名の仮特許出願第60/310,742号の優先権の利益を主張する。
[発明の背景]
1.発明の分野
本発明は概して会議システムに関するものであり、特に高解像度のテレビ会議システムに関するものである。
2.背景技術の説明
従来、テレビ会議システムは、遠隔の会議場所への送信のための会議参加者の画像を取得するためにビデオカメラを利用する。従来の(静止又は可動)ビデオカメラは、同時に特定の場所で会議場所の1つの画像又は1つのビューのみを取得することができる。同時に異なる場所で会議場所の異なる画像又はビューを取得するために、従来のビデオカメラは、カメラの回転方向を調整する装置を有利に備えている場合がある。カメラをほぼ2つの直交軸に回転するように設計された位置合わせ装置は、一般的に2つのアクチュエータを利用する。第1のアクチュエータは、ほぼ垂直軸にカメラを回転し、第2のアクチュエータは、カメラの垂直軸と直角のほぼ水平軸にカメラを回転する。従って、ほぼ水平軸へのカメラの回転は“パニング(panning)”と称され、ほぼ垂直軸へのカメラの回転は、“チルティング(tilting)”と称される。したがって、カメラをほぼ水平及び垂直軸に回転する装置は、一般的に“パン/チルト(pan/tilt)位置合わせ装置”と称される。更に、話し中の会議参加者の画像のような特に関心の高い画像又はビューを取得するために、従来のビデオカメラは、ズーム機能を実行する一式のズームレンズを必要とし、その結果、“パン/チルト/ズーム(pan/tilt/zoom)”(“PZT”)カメラになる。
【0002】
不都合なことに、従来のPZTカメラは多数の欠点を有する。第1に、位置合わせ装置の機械的構成要素の動きは、実質的な量のノイズを生成し得る。前記動きとノイズは会議参加者に不快であり、気を散らす。更に重要なことに、ノイズは話し中の参加者の方向にカメラを自動的に向けるために利用される音響位置測定技術に干渉し得る。第2に、位置合わせ装置の機械的構成要素は、磨耗又は手荒な取り扱いのため調整不良や破損の影響を受けやすく、それによって、位置合わせ装置が一部又は全部において動作不能になる。更なる不利点は、位置合わせ装置の製造における複雑さであり、そのため、高製造コストとその結果の高消費者価格を生ずる。
【0003】
技術開発に伴い、テレビ会議システムの表示スクリーンのサイズは大きくなってきている。その結果、表示スクリーンの参加者の話す人の位置が広範囲の領域で変わり得る。しかし、不都合なことに、位置が広範囲の領域で変わると、従来のテレビ会議システムは新たな参加者の話す人の位置に調整することができない。
【0004】
従って、複雑な機械的構造を有することなく、会議場所の複数のビューを取得するテレビ会議システム及び方法についての必要性が存在する。話す人の位置に関連する音響を調整するテレビ会議システム及び方法についての更なる必要性も存在する。
[発明の概要]
本発明は、音源に応じて音声信号を生成する複数のマイクロフォンと、音源の位置を示す位置信号を生成し、音声信号を処理する音声処理エンジンと、通信チャネルに音声信号及び位置信号を送信する通信インタフェースとを含み、第1の場所に設置された送信ステーションを有するテレビ会議システムを提供する。テレビ会議システムの複数のマイクロフォンは、垂直の配列及びn方向の構成で配置され得る。テレビ会議システムはまた、通信チャネルから音声信号及び位置信号を受信する通信インタフェースと、音声信号を再生する複数のスピーカーと、位置信号に応じてスピーカーの1つを選択的に駆動し、選択されたスピーカーで音声信号を再生する音声処理エンジンとを含み、第2の場所に設置された受信ステーションを有し得る。
【0005】
テレビ会議システムで生成された位置信号は、複数のマイクロフォンから受信された電気信号又は電流信号の大きさの違いに基づく。音源の位置が変更すると、音声処理エンジンは位置の変更を反映する新たな位置信号を生成する。
【0006】
送信ステーションの通信インタフェースは、音声信号と位置信号をコード化し、圧縮する通信処理エンジンと、通信チャネルを通じて音声信号及び位置信号を送信する送受信装置とを含む。逆に、受信ステーションの通信インタフェースは、通信チャネルを通じて音声信号及び位置信号を受信する送受信装置と、音声信号と位置信号をデコードし、解凍する通信処理エンジンとを含む。
【0007】
他の実施例において、テレビ会議システムは、画像を生成する高解像度のビデオセンサーと、高解像度の画像を保存する映像メモリと、ビデオセンサーから映像メモリに画像データをロードするデータロードエンジンとを含み、第1の場所に設置された送信ステーションを有する。更に、フィールド・プログラマブル・ゲート・アレイ(Field Programmable Gate Array)/特定用途向け集積回路(FPGA/ASIC)が映像メモリとデータロードエンジンにつなげられる。FPGA/ASICは映像メモリに保存された高解像度画像内で第1の画像セクションと第2の画像セクションを規定する。更に、FPGA/ASICは第1の解像度で第1の映像ストリームに合わせて第1の画像セクションを調整し、第2の解像度で第2の映像ストリームに合わせて第2の画像セクションを調整し得る。FPGA/ASICにつなげられた通信インタフェースは第1の映像ストリームと第2の映像ストリームを通信チャネルに送信する。テレビ会議システムはまた、通信チャネルから第1の映像ストリームと第2の映像ストリームを受信する通信インタフェースを含み、第2の場所に設置された受信ステーションを有し得る。受信ステーションは、第1の映像ストリームと第2の映像ストリームを処理し、第1の解像度で第1の画像として第1の映像ストリームを表示し、第2の解像度で第2の画像として第2の映像ストリームを表示する映像処理エンジンを更に含み、通信インタフェースにつなげられる。
【0008】
この実施例における送信ステーションの通信インタフェースは、第1と第2の映像ストリームをコード化し、圧縮する通信処理エンジンと、通信チャネルを通じて第1と第2の映像ストリームを送信する送受信装置とを有する。逆に、本実施例の受信ステーションの映像処理エンジンは、第1の映像ストリームと第2の映像ストリームを保存する映像メモリと、受信ステーションの通信インタフェースから第1の映像ストリームと第2の映像ストリームをロードするデータロードエンジンと、映像メモリに保存された高解像度の画像に基づいて第1と第2の画像データストリームを表示するFPGA/ASICとを有する。
【0009】
更に他の実施例において、テレビ会議システムは、通信チャネルから映像信号を受信する通信インタフェースと、映像信号に応じて映像表示出力を生成する映像処理エンジンと、映像表示出力を表示する映像ディスプレイとを有し、第1の場所に設置された受信ステーションを有する。テレビ会議システムは、映像信号を生成するビデオカメラと、映像信号を処理する映像処理エンジンと、送信ステーションのビデオカメラと受信ステーションの映像表示出力の間のフェーズを同期するフェーズ同期エンジンと、通信チャネルに映像信号を送信する通信インタフェースとを有し、第2の場所に設置された送信ステーションを更に有し得る。
[発明の説明]
図1は、本発明による例示的なテレビ会議システム100を示したものである。テレビ会議システム100は、第1の会議ステーションと第2の会議ステーションを有する。第1の会議ステーション102は、音声入出力装置106と、108と、ビデオカメラ(又はビデオセンサー)110を有する。同様に、第2の会議ステーション104は、音声入出力装置112と、映像ディスプレイ114と、ビデオカメラ(又はビデオセンサー)116を有する。第1の会議ステーション102は、通信チャネル118を通じて第2の会議ステーション104と通信する。通信チャネル118は、インターネット、LAN、WAN、又は何らかの他の形式のネットワーク通信手段である可能性がある。図1は2つの会議ステーション102と104のみを示しているが、追加の会議ステーションがテレビ会議システム100につなげられ得ることがその技術に熟練した人は認識するであろう。
【0010】
図2は、本発明の一実施例により、図1の会議ステーション102と104と同様の例示的な会議ステーション200を示したものである。会議ステーション200は、ディスプレイ202と、高解像度会議バー204と、映像処理ユニット206とを有する。好ましくは、ディスプレイ202は、16:9の視聴可能領域を備えた比較的大きいサイズのフラットスクリーン208を有する高解像度(“HD”)モニタである。その他、他の視聴領域の比率や、他の形式のディスプレイ202が検討され、用いられ得る。
【0011】
好ましくは、高解像度のテレビ会議バー204は、複数のスピーカー210a−210dと、ビデオセンサー(例えばCMOSビデオセンサーのような高解像度デジタルビデオ画像センサー)212と、複数のマイクロフォン214とを含む。スピーカー210a−210dは、好ましくは250Hzを越える周波数で動作する。しかし、スピーカー210a−210dは、本発明の多様な実施例と互換性がある何らかの他の周波数で動作し得る。一実施例において、会議バー204はおよそ幅が36インチ、高さが2インチ、奥行が4インチであるが、会議バー204は何らかの他の寸法であってもよい。一般的に、会議バー204はディスプレイ202の先端より少し小さい幅の前面部218でディスプレイ202の上に設置されるように設計される。会議バー204の位置は、スピーカー210a−210dと、ビデオセンサー212と、複数のマイクロフォン214とをスクリーン208の近くにもたらし、ディスプレイ202の先端で位置の基準を提供する。他の会議バー204の位置も、本発明の範囲と目的と調和するように利用され得る。更に、図2には4つのスピーカーのみが示されているが、本発明においてそれよい多い又はそれより少ないスピーカーが利用され得る。
【0012】
ビデオセンサー212は、720i(すなわち、毎秒60フィールドでインタレースされた1280×720)以上の好ましい解像度で、リアルタイムで複数の画像を出力することが可能であるが、本発明により他の解像度も考えられる。全会議場所を取得する約65度のビューに基づき、ビデオセンサー212の解像度は十分である。更に広いビュー(90度のビュー等)のために、限られた水平のパン(pan)モーターが提供され得る。前記限られた水平のパン(pan)モーターを提供することにより、高価で複雑な全ての機械的なパン/チルト/ズーム(pan/tilt/zoom)カメラとレンズシステムを避けることができる。更に、純粋なデジタルズームが固定レンズに備えられ、最小のCIF(352×288)の解像度の画像を維持する一方で、8倍以上の有効なズームまでに対応し得る。
【0013】
複数のマイクロフォン214は、会議バー204のビデオセンサー212の両側に設置され、図2に示すように、より良い順方向の特性を提供するn方向の構成で配置され得る。垂直のマイクロフォンが、ディスプレイ202の側面にオプションで配置され、垂直の位置基準を提供し得る。
【0014】
会議バー204は、高速デジタルリンク205を介して処理ユニット206につなげられる。処理ユニット206は、好ましくは250Hz未満から50−100Hzの周波数で動作するサブウーファー(sub−woofer)装置を含み得る。処理ユニット206は、図3と共に更に詳細に説明される。処理ユニット206は会議バー204から分離して示されているが、その代わりに処理ユニット206は会議バー204に含まれ得る。
【0015】
会議の参加者はビデオセンサー212を見ていると、又はその動きを見ていると不快に思う場合があるため、ビデオセンサー212の前面及び/又は会議バー204の他の部分にスモークガラス又は他のカバーが設置される場合があり、それによって会議の参加者がビデオセンサー212及び/又はスピーカー210a−210d並びに複数のマイクロフォン214を見ることができなくなる。
【0016】
図3は、本発明の一実施例により、図2の処理ユニット206を更に詳細に示した例示的なブロック図である。処理ユニット206は、好ましくは処理エンジン302と通信インタフェース204とサブウーファー(sub−woofer)装置とを有する。処理エンジン302は、フェーズ同期エンジン308と映像処理エンジン310と音声処理エンジン312とを更に有する。フェーズ同期エンジン308は、送信遅延によって生じた悪影響を減少する又は最小限にすることが可能である。特に、ローカルの(又は第1の)会議ステーション102(図1)のビデオカメラ110(図1)は、リモートの(又は第2の)会議ステーション104(図1)の映像表示出力に関して不定のフェーズを有する。従って、リモートの会議ステーション104の映像表示出力は、ローカルの会議ステーション102に設置されたビデオカメラ110とフェーズの不一致がある場合がある。
【0017】
更に、ローカルの会議ステーション102からリモートの会議ステーション104に供給側の映像信号を送信する際に、供給側の映像信号がローカルの会議ステーション102で生成される時間と供給側の映像信号がリモートの会議ステーション104で表示される時間との間の送信遅延が存在する。リモートの会議ステーション104の映像表示出力がローカルの会議ステーション102に配置されたビデオカメラ110とフェーズの不一致があると、送信遅延は補正できない。その結果、送信遅延がリモートの会議ステーション104の映像表示出力に加えられ、双方向テレビ会議にマイナスの効果を生じ得る。例えば、ローカルの会議ステーション102のユーザが一時停止後に話し始めると、送信遅延のためにリモートの会議ステーション104の参加者は一時停止中のユーザを依然として見る場合がある。リモートの会議ステーション104の何らかの参加者がこの時点でユーザを割り込むと、リモートの参加者とユーザがお互いに話すことになる。
【0018】
有利には、本発明は、映像出力で送信遅延が補正又は減少され得るように、ローカルの会議ステーション102に設置されたビデオカメラ110とリモートの会議ステーション104の映像表示出力との間のフェーズを同期する。特に、テレビ会議中にローカルの会議ステーション102のビデオカメラ110が特定の頻度と速度で動き、リモートの会議ステーション104の映像表示出力に関してフェーズのずれを引き起こす。ローカルの会議ステーション102のビデオカメラ110の動きは、ビデオカメラ110と映像表示出力との間のフェーズを同期する基準として測定され、用いられ得る。フェーズ同期エンジン308は、フェーズ同期又は固定機能を実行するフェーズ同期モジュールを保存するメモリ装置314を有する。
【0019】
動作中に、供給源の映像信号を送信するために、映像処理エンジン310はまずビデオセンサー212(又はビデオカメラ110)から高解像度の画像を受信し、ビデオメモリ(図示なし)に画像を保存する。映像処理エンジン310は、好ましくはビデオメモリに保存された高解像度画像内で2つの画像セクション(ビュー)を規定し、2つの画像セクション(ビュー)について2つのそれぞれの映像ストリームを生成する。その他、それより多い又は少ない画像セクションと対応する映像ストリームが考えられる。その後、映像処理エンジン310は2つの映像ストリームを通信インタフェース304に送信する。逆に、リモートの場所からリモートの映像信号を表示するために、映像処理エンジン310は通信インタフェース304から少なくとも2つの映像ストリーム(すなわち、映像ストリームA及びB)を受信する。その後、映像処理エンジン310は、映像ストリームA及びBを処理し、2つの映像ストリームA及びBについてスクリーン208に2つの画像のビューをそれぞれ表示する。
【0020】
供給側の音声信号を送信するために、会議バー204の複数のマイクロフォン214(図2)のそれぞれが、音源(例えば話し中の参加者)から音を受信し、受信音を電気又は電流信号に変換する。音源と会議バー204に関して異なる位置に複数のマイクロフォン214が設置されているため、複数のマイクロフォン214の電気信号又は電流信号が異なる大きさを有する。電気信号又は電流信号の大きさの違いは音源の位置を示す。複数のマイクロフォン214から電気信号又は電流信号を受信すると、音声処理エンジン312は音声信号と位置信号を生成する。位置信号は会議バー204に関する話す人の位置を示す情報を有し得る。音源の位置が変わると、音声処理エンジン312は新しい位置信号を生成し、位置の変更を反映する。その後、音声処理エンジン312は音声信号と位置信号を通信インタフェース304に送信する。
【0021】
逆に、リモートの場所からリモートの音声信号を再生するために、音声処理エンジン312は、まず通信インタフェース304から音声信号と位置信号を受信する。その後、音声処理エンジン312が位置信号に応じて会議バー204の1つ以上のスピーカー210a−210d(図2)を駆動し、映像処理エンジン310がスクリーン208に1つ以上の画像を表示する。会議バー204のスピーカー210a−210dは、スクリーン208に表示された話し中の参加者の位置に基づいて選択される。スクリーン208が比較的大きいサイズを有しているため、音が話し中の参加者の位置から来ることがわかるようにすることによって本発明がテレビ会議を改善する。250Hzより上の周波数内の音は指向的な特性を有するため、会議バー204のスピーカーの配列におけるスピーカー210a−210dは一般的に250Hzより上の周波数で動作することに留意すべきである。従って、映像処理ユニット206に設置されたサブウーファー(sub−woofer)装置306(図3)は、250Hz未満から50−100Hzまでの周波数内の音が指向性を有さないため、好ましくはその周波数で動作する。本発明はサブウーファー(sub−woofer)装置306を有するものとして説明されるが、その技術に熟練した人はサブウーファー(sub−woofer)装置306が本発明の動作及び機能に必要ないことがわかる。本発明において何らかの周波数帯の音が利用され得ることもまた、その技術に熟練した人がわかる。例えば、更に低い周波数が会議バー204のスピーカーの配列におけるスピーカー210a−210dに用いられ得る。
【0022】
通信インタフェース304は、送受信装置316と通信処理エンジン318とを有する。音声信号と位置信号と2つの映像ストリームA及びBとを含む通信信号の送信は、通信処理エンジン318を必要とし、音声処理エンジン312から音声信号と位置信号を受信し、映像処理エンジン310から2つの映像ストリームA及びBを受信する。その結果、通信処理エンジン318は、通信信号をコード化し、圧縮して、それを送受信装置316に送信する。通信信号を受信すると、送受信装置316は通信チャネル118を通じて通信信号をリモートの場所に転送する。
【0023】
逆に、音声信号と位置信号と2つの映像ストリームA及びBを含む通信信号を受信するために、送受信装置316は通信チャネル118から通信信号を受信し、通信信号を通信処理エンジン318に転送する。その後、通信処理エンジン318は通信信号を回答し、デコードして、音声信号と位置信号と2つの映像データストリームを回復する。
【0024】
図4は、図3の映像処理エンジン310の構成要素を示した例示的なブロック図である。映像処理エンジン310は、ビデオセンサー212(図2)につなげられたデータロードエンジン402と、映像メモリ404と、FPGA/ASIC406とを有する。データロードエンジン402がビデオセンサー212からビデオ画像データを受信し、映像メモリ404に保存し、FPGA/ASIC406がデータロードエンジン402と映像メモリ404を制御する。ビデオセンサー212は好ましくは高解像度のデジタル画像センサーであるため、ビデオセンサー212は大量の画像データを生成し得る。例えば、3,000×2,000の解像度でビデオセンサー212は1つの画像について6,000,000ピクセルを生成する。入力処理能力を増加させるために、データロードエンジン402は好ましくは6個の並列データチャネル1−6を有する。FPGA/ASIC406は前記6個の並列データチャネル1−6を通じて映像メモリ404に全画像ピクセルを供給するようにプログラムされる。FPGA/ASIC406はまた、選択可能な解像度で映像メモリ404に保存された画像上で少なくとも2つの画像セクション(ビュー)を規定し、2つの画像セクション(ビュー)について2つの映像ストリームをそれぞれ生成するようにプログラムされる。本発明の実施例は6個のデータチャネルを利用することを考えるが、何らかの数のデータチャネルが本発明によって使用され得る。更に、何らかの数の画像セクションと対応する映像ストリームが本発明で利用され得る。
【0025】
図5は、FPGA/ASIC406(図4)によって規定され、ディスプレイ202(図2)で見られる本発明の一実施例による例示的な画像セクション(又はビュー)の構成である。図5において大きいセクションA502は700×400の解像度を有する画像の全てのビューを規定し、小さいセクションB504は、リモートの会議ステーションから話し中の参加者が表示される300×200の解像度を有するビューを規定する。映像メモリ404(図4)に保存された画像に基づき、FPGA/ASIC406は全画像を700×400の解像度に縮小し、大きいセクションA502のための映像ストリームA(図3)を作る。その後、FPGA/ASIC406はセクションB504の画像を300×200の解像度に縮小し、映像ストリームB(図3)を作る。映像メモリ402に保存された画像は、比較的高解像度を有するため、2つの縮小された画像は依然として良い解像度の質を示す。本発明において他の解像度が利用され得ることがその技術に熟練した人は認識するであろう。
【0026】
有利には、本発明は会議場所の全画像を生成し、全画像のうちの何らかの任意のセクションからビューをズームすることが可能である。更に、1つの画像について少なくとも2つの映像ストリームが生成されるため、特定の話し中の参加者を示すはめ込みのズームされたビュー(例えばセクションB504)と共に、会議場所の全参加者を含む広角度の高解像度の画像(例えばセクションA502)を送信することが可能である。その他、単一の画像からそれより多い又は少ないストリームが作られ、その結果それより多い又は少ないビューが表示され得る。従って、本発明は従来の機械的なパン/チルト/ズーム(pan/tilt/zoom)カメラに代わって用いられ得る。
【0027】
現在の技術で、一般的なCMOSビデオセンサーは、およそ65度のビューの角度を有効に提供し得る。実際には、90度のビューの角度が必要になる場合がある。従って、小さく安価なパン(pan)モーターが水平方向にCMOSビデオセンサーを動かすために用いられ得る。しかし、CMOSビデオセンサーの動きと結果として生じるノイズが比較的小さいため、その動きと結果として生じるノイズは会議の参加者にほとんど目立たない。技術の発達でCMOSビデオセンサーはコスト効率の良い90度のビュー角度を提供することができるであろう。
【0028】
図6において、テレビ会議システムにおいて音声データを送信する処理を示した例示的なフローチャート600が示されている。ステップ610において、受信音を電気信号又は電流信号に変換することによって音源に応じて、第1の場所の送信ステーションで複数のマイクロフォン214(図2)によって音声信号が生成される。次に、ステップ620で音源の位置を示す位置信号が生成される。送信ステーションからの音源の位置に応じて、電流信号は特定の大きさを有する。電流信号の大きさに基づいて音声処理エンジン312(図3)が位置信号を規定する。その後、音声信号及び位置信号が通信インタフェース304(図3)に送信され、ステップ630で通信処理エンジン318(図3)によって処理される。前記処理は、送信のために音声信号及び位置信号を圧縮し、コード化することを含み得る。その後、ステップ640において、音声信号及び位置信号が、インターネットや、LANや、WANや、何らかの形式のネットワーク通信手段のような通信チャネルを通じて送受信装置によって送信される。ステップ650において、第2の場所の受信ステーションの送受信装置が音声信号及び位置信号を受信する。ステップ660で通信処理エンジンが音声信号及び位置信号を処理し、そのことは再生のための音声信号及び位置信号を解凍し、デコードすることを有し得る。その後、ステップ670において、位置信号に基づいて受信ステーションの1つ以上のスピーカーが音声信号を再生するために駆動される。スピーカーのうちの1つの音声信号の再生により音源の位置から音声信号が来ることがわかるようになるため、音声処理エンジンによって生成された位置信号が更に現実的なテレビ会議の状況を作り出す。その後、ステップ680において、更なるテレビ会議が生じているかどうかをシステムが決定する。会議が続く場合には、システムがステップ610から670を繰り返す。
【0029】
図7において、テレビ会議システムで高解像度の画像を送信する処理を示した例示的なフローチャート700が示されている。ステップ710において、ビデオカメラ又はビデオセンサーが高解像度の画像を取得する。その後、高解像度の画像がロードされ、ビデオカメラ又はビデオセンサーから映像メモリに保存される。次にステップ720で画像が映像ストリームに変換される。映像メモリに保存された高解像度の画像内で、第1と第2の画像セクションが最初に送信ステーションの映像処理エンジンによって規定される。その後、第1と第2の画像セクションが第1の解像度を有する第1の映像ストリームと第2の解像度を有する第2の映像ストリームとに変換される。変換は映像処理エンジン310(図3)のFPGA/ASIC406(図4)によって実行され、第1の画像セクションを700×400の解像度を有する第1の映像ストリームに変換し、第2の画像セクションを300×200の解像度を有する第2の映像ストリームに変換する。本発明において他の解像度も利用される場合があり、2つより多い又は少ない画像セクションと2つより多い又は少ない映像ストリームもまた利用され得ることが、その技術に熟練した人は認識するであろう。
【0030】
ステップ730において、映像ストリームは送信ステーションの通信処理エンジンによって処理される。前記処理は送信のためにストリームのコード化と圧縮を有し得る。一般的に映像データの更に高速な送信を可能にするために、映像ストリームがコード化され、圧縮される。次にステップ740において、処理された映像ストリームが通信チャネルを通じて受信ステーションに送信される。通信チャネルは何らかのパケット交換網、(非同期転送モード(“ATM”)ネットワークのような)回線交換網、又は周知のインターネットを含むデータを運ぶ何らかの他のネットワークである場合がある。通信チャネルはまた、インターネット、エクストラネット、ローカルエリアネットワーク、又はその技術において周知の他のネットワークである場合がある。ステップ750において、映像ストリームが受信ステーションの映像処理エンジンによってデコードされ、解凍され、受信ステーションの映像ディスプレイに表示される。ステップ760において、更にテレビ会議が生じているかどうかをシステムが決定する。会議が続く場合には、システムはステップ710から750を繰り返す。音声と位置と映像のデータの送信を別のフローチャートと方法で説明したが、本発明は前記データの同時又はほぼ同時の送信を考慮する。
【0031】
図8において、テレビ会議システムで映像信号を送信する他の処理を示した例示的なフローチャート800が示されている。ステップ810において、ビデオカメラ又はビデオセンサーがビデオ画像を取得する。次に、ステップ820で映像信号が送信ステーションの通信エンジンで処理される。前記処理は映像信号のコード化と圧縮を含み得る。一般的に映像データの更に高速な送信を可能にするために、映像ストリームがコード化され、圧縮される。ステップ830において、フェーズ同期エンジンがビデオカメラと映像表示出力との間のフェーズを同期する。ビデオカメラと映像表示出力との間のフェーズの同期は、送信遅延によって引き起こされる悪影響を最小にすることを可能にする。特に、ビデオカメラが映像表示出力とフェーズの不一致がある場合には、送信ステーションのユーザが話し始めた後でもなお、受信ステーションの参加者が送信ステーションの一時停止中のユーザを依然として見る場合がある。
【0032】
次に、ステップ840で映像信号が通信チャネルを介して受信ステーションに送信される。通信チャネルは何らかのパケット交換網、(非同期転送モード(“ATM”)ネットワークのような)回線交換網、又は周知のインターネットを含むデータを運ぶ何らかの他のネットワークである場合がある。通信チャネルはまた、インターネット、エクストラネット、ローカルエリアネットワーク、又はその技術において周知の他のネットワークである場合がある。その後、ステップ850において、映像信号が受信ステーションの通信処理エンジンによって映像表示出力での表示のために処理される。前記処理は、映像信号のデコードと解凍を含み得る。デコードされ、解凍された映像信号に応じて映像表示出力が生成され、受信ステーションの映像ディスプレイに表示される。ステップ860において、更にテレビ会議が生じているかどうかをシステムが決定する。会議が続く場合には、システムはステップ810から850を繰り返す。
【0033】
本発明は、例示的な実施例を参照して述べられた。実施例と共に開示された多様な特徴が別々に又は一緒に用いられる場合があり、多様な改良が行われる場合があり、本発明の更に広い範囲を逸脱することなく他の実施例が用いられ得ることが、その技術に熟練した人は認識するであろう。例えば、本発明の位置合わせ装置が好ましい実施例を参照して説明されたが、いくつもの環境と実施において本発明が有利に利用され得ることをその技術に通常に熟練した人が認識することがわかる。従って、ここで開示された発明の全範囲と意図を考慮して特許請求の範囲が解釈されるべきである。
【図面の簡単な説明】
【0034】
【図1】本発明による例示的なテレビ会議システムを示したものである。
【図2】例示的な会議ステーションを示したものである。
【図3】図2の処理ユニットを更に詳細に示す例示的なブロック図である。
【図4】図3の映像処理エンジンの構成要素を示した例示的なブロック図である。
【図5】本発明による例示的なセクション(又はビュー)の構成である。
【図6】テレビ会議システムで音声を送信する例示的な処理を示したフローチャートである。
【図7】テレビ会議システムで高解像度の画像を送信する例示的な処理を示したフローチャートである。
【図8】テレビ会議システムで映像信号を送信する例示的な処理を示したフローチャートである。
Claims (22)
- 画像を取得するビデオセンサーと、
音源に応じて音声信号を生成する複数のマイクロフォンと、
前記ビデオセンサーと前記複数のマイクロフォンにつなげられ、少なくとも1つの映像ストリームと音源の位置を示す位置信号を生成する処理エンジンと
を有するテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
前記ビデオセンサーにつなげられ、ビデオセンサーと映像表示出力との間のフェーズを同期するフェーズ同期エンジンを更に有するテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
前記処理エンジンにつなげられ、音声信号と位置信号と少なくとも1つの映像ストリームをリモートのテレビ会議装置に送信する通信インタフェースを更に有するテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
前記複数のマイクロフォンから受信された電気信号又は電流信号の大きさの違いに基づいて前記位置信号が生成されるテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
前記処理エンジンが映像処理エンジンを更に有し、
前記映像処理エンジンが複数の画像セクションを規定し、前記複数の画像セクションに対応するそれぞれの複数の映像ストリームを生成するテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
音源の位置が変更すると、処理エンジンが位置の変更を反映する新たな位置信号を生成するテレビ会議装置。 - 請求項2に記載のテレビ会議装置であって、
前記位置信号に応じてリモートのテレビ会議装置が1つ以上のスピーカーを選択的に駆動し、前記少なくとも1つの映像ストリームの画像に対応する音声信号を再生するテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
前記複数のマイクロフォンがn方向の構成で配置されるテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
前記複数のマイクロフォンが垂直の配列で配置されるテレビ会議装置。 - 請求項5に記載のテレビ会議装置であって、
前記処理エンジンが、前記複数の画像セクションのうちの第1の画像セクションを、第1の解像度を有する第1の映像ストリームに調整し、前記複数の画像セクションのうちの第2の画像セクションを、第2の解像度を有する第2の映像ストリームに調整するテレビ会議装置。 - 請求項1に記載のテレビ会議装置であって、
更に大きい角度のビュー角度を提供するために、前記ビデオセンサーにつなげられたパン(pan)モーターを更に有するテレビ会議装置。 - テレビ会議システムにおいて会議データを送信する方法であって、
ビデオセンサーで画像を取得し、前記画像から少なくとも1つの映像ストリームを生成し、
複数のマイクロフォンで音声データを取得し、音声信号を生成し、
前記音声データの大きさの違いに基づいて音源の位置を示す位置信号を生成し、
通信チャネルを介して位置信号と音声信号と少なくとも1つの映像ストリームを送信することを有する方法。 - 請求項12に記載の方法であって、
前記位置信号に応じてリモートのテレビ会議装置の1つ以上のスピーカーを選択的に駆動し、前記少なくとも1つの映像ストリームの画像に対応する音声信号を再生することを更に有する方法。 - 請求項12に記載の方法であって、
ビデオセンサーと映像表示出力との間のフェーズを同期することを更に有する方法。 - 請求項12に記載の方法であって、
複数の画像セクションを規定し、前記複数の画像セクションに対応するそれぞれの複数の映像ストリームを生成することを更に有する方法。 - 請求項12に記載の方法であって、
位置の変更を反映する新たな位置信号を生成することを更に有する方法。 - 請求項14に記載の方法であって、
前記複数の画像セクションのうちの第1の画像セクションを、第1の解像度を有する第1の映像ストリームに調整し、前記複数の画像セクションのうちの第2の画像セクションを、第2の解像度を有する第2の映像ストリームに調整することを更に有する方法。 - 画像を取得し、前記画像から少なくとも1つの映像ストリームを生成する手段と、
音声を取得し、音声信号を生成する手段と、
前記音声データの大きさの違いに基づいて音源の位置を示す位置信号を生成し、前記位置信号に応じて前記位置信号がリモートのテレビ会議システムの1つ以上のスピーカーを選択的に駆動し、前記少なくとも1つの映像ストリームの画像に対応する音声信号を再生する手段と、
通信チャネルを介して位置信号と音声信号と少なくとも1つの映像ストリームを送信する手段と
を有するテレビ会議装置。 - プログラムに具体化された電子的読み取り可能媒体であって、
前記プログラムが会議データを送信する方法のステップを実行する機械によって実行可能であり、
前記方法のステップが、
ビデオセンサーで画像を取得し、前記画像から少なくとも1つの映像ストリームを生成し、
複数のマイクロフォンで音声データを取得し、音声信号を生成し、
前記音声データの大きさの違いに基づいて音源の位置を示す位置信号を生成し、
通信チャネルを介して位置信号と音声信号と少なくとも1つの映像ストリームを送信することを有する電子的読み取り可能媒体。 - 請求項19に記載の電子的読み取り可能媒体であって、
前記方法のステップが、前記位置信号に応じてリモートのテレビ会議システムの1つ以上のスピーカーを選択的に駆動し、前記少なくとも1つの映像ストリームの画像に対応する音声信号を再生することを更に有する電子的読み取り可能媒体。 - 請求項19に記載の電子的読み取り可能媒体であって、
前記方法のステップが、複数の画像セクションを規定し、前記複数の画像セクションに対応するそれぞれの複数の映像ストリームを生成することを更に有する電子的読み取り可能媒体。 - 請求項19に記載の電子的読み取り可能媒体であって、
前記方法のステップが、前記複数の画像セクションのうちの第1の画像セクションを、第1の解像度を有する第1の映像ストリームに調整し、前記複数の画像セクションのうちの第2の画像セクションを、第2の解像度を有する第2の映像ストリームに調整することを更に有する電子的読み取り可能媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31074201P | 2001-08-07 | 2001-08-07 | |
PCT/US2002/025477 WO2003015407A1 (en) | 2001-08-07 | 2002-08-07 | System and method for high resolution videoconferencing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004538724A true JP2004538724A (ja) | 2004-12-24 |
JP2004538724A5 JP2004538724A5 (ja) | 2005-11-17 |
Family
ID=23203909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003520192A Pending JP2004538724A (ja) | 2001-08-07 | 2002-08-07 | 高解像度のテレビ会議のシステム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (4) | US20030048353A1 (ja) |
EP (1) | EP1425909A4 (ja) |
JP (1) | JP2004538724A (ja) |
WO (1) | WO2003015407A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8264521B2 (en) | 2007-04-30 | 2012-09-11 | Cisco Technology, Inc. | Media detection and packet distribution in a multipoint conference |
US8334891B2 (en) | 2007-03-05 | 2012-12-18 | Cisco Technology, Inc. | Multipoint conference video switching |
JP2021529337A (ja) * | 2018-04-27 | 2021-10-28 | エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. | 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置 |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8948059B2 (en) | 2000-12-26 | 2015-02-03 | Polycom, Inc. | Conference endpoint controlling audio volume of a remote device |
US8977683B2 (en) | 2000-12-26 | 2015-03-10 | Polycom, Inc. | Speakerphone transmitting password information to a remote device |
US7339605B2 (en) * | 2004-04-16 | 2008-03-04 | Polycom, Inc. | Conference link between a speakerphone and a video conference unit |
US7864938B2 (en) * | 2000-12-26 | 2011-01-04 | Polycom, Inc. | Speakerphone transmitting URL information to a remote device |
US9001702B2 (en) * | 2000-12-26 | 2015-04-07 | Polycom, Inc. | Speakerphone using a secure audio connection to initiate a second secure connection |
US8964604B2 (en) * | 2000-12-26 | 2015-02-24 | Polycom, Inc. | Conference endpoint instructing conference bridge to dial phone number |
US7221663B2 (en) * | 2001-12-31 | 2007-05-22 | Polycom, Inc. | Method and apparatus for wideband conferencing |
WO2002091641A2 (en) * | 2001-05-10 | 2002-11-14 | Polycom Israel Ltd. | Control unit for multipoint multimedia/audio system |
US8934382B2 (en) * | 2001-05-10 | 2015-01-13 | Polycom, Inc. | Conference endpoint controlling functions of a remote device |
US8976712B2 (en) * | 2001-05-10 | 2015-03-10 | Polycom, Inc. | Speakerphone and conference bridge which request and perform polling operations |
US6812956B2 (en) * | 2001-12-21 | 2004-11-02 | Applied Minds, Inc. | Method and apparatus for selection of signals in a teleconference |
US8223942B2 (en) | 2001-12-31 | 2012-07-17 | Polycom, Inc. | Conference endpoint requesting and receiving billing information from a conference bridge |
US8885523B2 (en) * | 2001-12-31 | 2014-11-11 | Polycom, Inc. | Speakerphone transmitting control information embedded in audio information through a conference bridge |
US8934381B2 (en) | 2001-12-31 | 2015-01-13 | Polycom, Inc. | Conference endpoint instructing a remote device to establish a new connection |
US8023458B2 (en) | 2001-12-31 | 2011-09-20 | Polycom, Inc. | Method and apparatus for wideband conferencing |
US8705719B2 (en) | 2001-12-31 | 2014-04-22 | Polycom, Inc. | Speakerphone and conference bridge which receive and provide participant monitoring information |
US7978838B2 (en) | 2001-12-31 | 2011-07-12 | Polycom, Inc. | Conference endpoint instructing conference bridge to mute participants |
US8102984B2 (en) | 2001-12-31 | 2012-01-24 | Polycom Inc. | Speakerphone and conference bridge which receive and provide participant monitoring information |
US8947487B2 (en) * | 2001-12-31 | 2015-02-03 | Polycom, Inc. | Method and apparatus for combining speakerphone and video conference unit operations |
US7787605B2 (en) * | 2001-12-31 | 2010-08-31 | Polycom, Inc. | Conference bridge which decodes and responds to control information embedded in audio information |
US8144854B2 (en) | 2001-12-31 | 2012-03-27 | Polycom Inc. | Conference bridge which detects control information embedded in audio information to prioritize operations |
US7742588B2 (en) | 2001-12-31 | 2010-06-22 | Polycom, Inc. | Speakerphone establishing and using a second connection of graphics information |
CN100566307C (zh) * | 2002-07-10 | 2009-12-02 | 艾利森电话股份有限公司 | 分组交换网络中时间敏感数据的同步数据传输系统 |
EP1654864A4 (en) * | 2003-03-20 | 2009-05-27 | Ge Security Inc | SYSTEMS AND METHOD FOR MULTISTRIBBIT PROCESSING |
US8081205B2 (en) * | 2003-10-08 | 2011-12-20 | Cisco Technology, Inc. | Dynamically switched and static multiple video streams for a multimedia conference |
WO2005036878A1 (en) * | 2003-10-08 | 2005-04-21 | Cisco Technology, Inc. | System and method for performing distributed video conferencing |
US7525584B2 (en) * | 2004-01-05 | 2009-04-28 | Lifesize Communications, Inc. | Fast edge directed demosaicing |
US20050280701A1 (en) * | 2004-06-14 | 2005-12-22 | Wardell Patrick J | Method and system for associating positional audio to positional video |
US20060047749A1 (en) * | 2004-08-31 | 2006-03-02 | Robert Davis | Digital links for multi-media network conferencing |
US8149739B2 (en) * | 2004-10-15 | 2012-04-03 | Lifesize Communications, Inc. | Background call validation |
US7572073B2 (en) * | 2004-10-15 | 2009-08-11 | Lifesize Communications, Inc. | Camera support mechanism |
US7903137B2 (en) * | 2004-10-15 | 2011-03-08 | Lifesize Communications, Inc. | Videoconferencing echo cancellers |
US7970151B2 (en) * | 2004-10-15 | 2011-06-28 | Lifesize Communications, Inc. | Hybrid beamforming |
US8116500B2 (en) * | 2004-10-15 | 2012-02-14 | Lifesize Communications, Inc. | Microphone orientation and size in a speakerphone |
US7720232B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Speakerphone |
US7473040B2 (en) * | 2004-10-15 | 2009-01-06 | Lifesize Communications, Inc. | High definition camera pan tilt mechanism |
US8054336B2 (en) * | 2004-10-15 | 2011-11-08 | Lifesize Communications, Inc. | High definition pan tilt zoom camera with embedded microphones and thin cable for data and power |
US7760887B2 (en) * | 2004-10-15 | 2010-07-20 | Lifesize Communications, Inc. | Updating modeling information based on online data gathering |
US7545435B2 (en) * | 2004-10-15 | 2009-06-09 | Lifesize Communications, Inc. | Automatic backlight compensation and exposure control |
US7826624B2 (en) * | 2004-10-15 | 2010-11-02 | Lifesize Communications, Inc. | Speakerphone self calibration and beam forming |
US7692683B2 (en) * | 2004-10-15 | 2010-04-06 | Lifesize Communications, Inc. | Video conferencing system transcoder |
US8477173B2 (en) * | 2004-10-15 | 2013-07-02 | Lifesize Communications, Inc. | High definition videoconferencing system |
US7717629B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Coordinated camera pan tilt mechanism |
US7864221B2 (en) * | 2004-10-15 | 2011-01-04 | Lifesize Communications, Inc. | White balance for video applications |
US20060132595A1 (en) * | 2004-10-15 | 2006-06-22 | Kenoyer Michael L | Speakerphone supporting video and audio features |
US7667728B2 (en) * | 2004-10-15 | 2010-02-23 | Lifesize Communications, Inc. | Video and audio conferencing system with spatial audio |
US7720236B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Updating modeling information based on offline calibration experiments |
US20060106929A1 (en) * | 2004-10-15 | 2006-05-18 | Kenoyer Michael L | Network conference communications |
US7930409B2 (en) * | 2005-02-23 | 2011-04-19 | Aol Inc. | Configuring output on a communication device |
US7593539B2 (en) * | 2005-04-29 | 2009-09-22 | Lifesize Communications, Inc. | Microphone and speaker arrangement in speakerphone |
US7970150B2 (en) * | 2005-04-29 | 2011-06-28 | Lifesize Communications, Inc. | Tracking talkers using virtual broadside scan and directed beams |
US7991167B2 (en) * | 2005-04-29 | 2011-08-02 | Lifesize Communications, Inc. | Forming beams with nulls directed at noise sources |
US20060277254A1 (en) * | 2005-05-02 | 2006-12-07 | Kenoyer Michael L | Multi-component videoconferencing system |
US20060248210A1 (en) * | 2005-05-02 | 2006-11-02 | Lifesize Communications, Inc. | Controlling video display mode in a video conferencing system |
US20070165106A1 (en) * | 2005-05-02 | 2007-07-19 | Groves Randall D | Distributed Videoconferencing Processing |
US7796565B2 (en) | 2005-06-08 | 2010-09-14 | Polycom, Inc. | Mixed voice and spread spectrum data signaling with multiplexing multiple users with CDMA |
US8199791B2 (en) | 2005-06-08 | 2012-06-12 | Polycom, Inc. | Mixed voice and spread spectrum data signaling with enhanced concealment of data |
US8126029B2 (en) | 2005-06-08 | 2012-02-28 | Polycom, Inc. | Voice interference correction for mixed voice and spread spectrum data signaling |
JP2007019907A (ja) * | 2005-07-08 | 2007-01-25 | Yamaha Corp | 音声伝達システム、および通信会議装置 |
US20070024705A1 (en) * | 2005-08-01 | 2007-02-01 | Richter Roger K | Systems and methods for video stream selection |
US20070024706A1 (en) * | 2005-08-01 | 2007-02-01 | Brannon Robert H Jr | Systems and methods for providing high-resolution regions-of-interest |
DE102005057406A1 (de) * | 2005-11-30 | 2007-06-06 | Valenzuela, Carlos Alberto, Dr.-Ing. | Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens |
US8311129B2 (en) * | 2005-12-16 | 2012-11-13 | Lifesize Communications, Inc. | Temporal video filtering |
US8713105B2 (en) * | 2006-01-03 | 2014-04-29 | Cisco Technology, Inc. | Method and apparatus for transcoding and transrating in distributed video systems |
CN100442837C (zh) * | 2006-07-25 | 2008-12-10 | 华为技术有限公司 | 一种具有声音位置信息的视频通讯系统及其获取方法 |
US7667762B2 (en) * | 2006-08-01 | 2010-02-23 | Lifesize Communications, Inc. | Dual sensor video camera |
TWI381733B (zh) * | 2007-06-11 | 2013-01-01 | Quanta Comp Inc | 高解析度視訊會議系統 |
US8319814B2 (en) | 2007-06-22 | 2012-11-27 | Lifesize Communications, Inc. | Video conferencing system which allows endpoints to perform continuous presence layout selection |
US8139100B2 (en) | 2007-07-13 | 2012-03-20 | Lifesize Communications, Inc. | Virtual multiway scaler compensation |
US9661267B2 (en) * | 2007-09-20 | 2017-05-23 | Lifesize, Inc. | Videoconferencing system discovery |
CN101132516B (zh) * | 2007-09-28 | 2010-07-28 | 华为终端有限公司 | 一种视频通讯的方法、系统及用于视频通讯的装置 |
US20120013646A1 (en) * | 2008-08-26 | 2012-01-19 | Sharp Kabushiki Kaisha | Image display device and image display device drive method |
US8514265B2 (en) | 2008-10-02 | 2013-08-20 | Lifesize Communications, Inc. | Systems and methods for selecting videoconferencing endpoints for display in a composite video image |
US20100110160A1 (en) * | 2008-10-30 | 2010-05-06 | Brandt Matthew K | Videoconferencing Community with Live Images |
US8643695B2 (en) | 2009-03-04 | 2014-02-04 | Lifesize Communications, Inc. | Videoconferencing endpoint extension |
US8456510B2 (en) | 2009-03-04 | 2013-06-04 | Lifesize Communications, Inc. | Virtual distributed multipoint control unit |
US8305421B2 (en) * | 2009-06-29 | 2012-11-06 | Lifesize Communications, Inc. | Automatic determination of a configuration for a conference |
JP5325745B2 (ja) * | 2009-11-02 | 2013-10-23 | 株式会社ソニー・コンピュータエンタテインメント | 動画像処理プログラム、装置および方法、動画像処理装置を搭載した撮像装置 |
US8350891B2 (en) * | 2009-11-16 | 2013-01-08 | Lifesize Communications, Inc. | Determining a videoconference layout based on numbers of participants |
US8866968B2 (en) * | 2011-03-10 | 2014-10-21 | Panasonic Corporation | Video processing device, and video display system containing same |
US20130028443A1 (en) * | 2011-07-28 | 2013-01-31 | Apple Inc. | Devices with enhanced audio |
US8937638B2 (en) * | 2012-08-10 | 2015-01-20 | Tellybean Oy | Method and apparatus for tracking active subject in video call service |
WO2014130977A1 (en) | 2013-02-25 | 2014-08-28 | Herold Williams | Nonlinear scaling in video conferencing |
US8860774B1 (en) * | 2013-06-11 | 2014-10-14 | New Vad, Llc | System and method for PC-based video conferencing and audio/video presentation |
KR102072146B1 (ko) * | 2013-06-27 | 2020-02-03 | 삼성전자주식회사 | 입체 음향 서비스를 제공하는 디스플레이 장치 및 방법 |
EP2961182A1 (en) * | 2014-06-27 | 2015-12-30 | Alcatel Lucent | Method, system and device for navigating in ultra high resolution video content by a client device |
US10427040B2 (en) * | 2015-06-03 | 2019-10-01 | Razer (Asia-Pacific) Pte. Ltd. | Haptics devices and methods for controlling a haptics device |
US11601731B1 (en) | 2022-08-25 | 2023-03-07 | Benjamin Slotznick | Computer program product and method for auto-focusing a camera on an in-person attendee who is speaking into a microphone at a hybrid meeting that is being streamed via a videoconferencing system to remote attendees |
US11889187B1 (en) | 2022-08-25 | 2024-01-30 | Benjamin Slotznick | Computer program product and method for auto-focusing one or more lighting fixtures on selected persons in a venue who are performers of a performance occurring at the venue |
US11877058B1 (en) | 2022-08-25 | 2024-01-16 | Benjamin Slotznick | Computer program product and automated method for auto-focusing a camera on a person in a venue who is wearing, or carrying, or holding, or speaking into a microphone at the venue |
US11889188B1 (en) | 2022-08-25 | 2024-01-30 | Benjamin Slotznick | Computer program product and method for auto-focusing one or more cameras on selected persons in a venue who are performers of a performance occurring at the venue |
US11902659B1 (en) | 2022-08-25 | 2024-02-13 | Benjamin Slotznick | Computer program product and method for auto-focusing a lighting fixture on a person in a venue who is wearing, or carrying, or holding, or speaking into a microphone at the venue |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3618035A (en) * | 1969-04-17 | 1971-11-02 | Bell Telephone Labor Inc | Video-telephone computer graphics system |
US4311874A (en) * | 1979-12-17 | 1982-01-19 | Bell Telephone Laboratories, Incorporated | Teleconference microphone arrays |
US4494144A (en) * | 1982-06-28 | 1985-01-15 | At&T Bell Laboratories | Reduced bandwidth video transmission |
JP3036088B2 (ja) * | 1991-01-21 | 2000-04-24 | 日本電信電話株式会社 | 複数画像ウインドウ表示用音信号出力方法 |
US5280540A (en) * | 1991-10-09 | 1994-01-18 | Bell Communications Research, Inc. | Video teleconferencing system employing aspect ratio transformation |
JPH05276510A (ja) * | 1992-03-27 | 1993-10-22 | Canon Inc | テレビ会議システム |
EP0615387B1 (en) * | 1992-08-27 | 1999-10-13 | Kabushiki Kaisha Toshiba | Moving picture encoder |
US5335011A (en) * | 1993-01-12 | 1994-08-02 | Bell Communications Research, Inc. | Sound localization system for teleconferencing using self-steering microphone arrays |
US5508734A (en) * | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
US5487665A (en) * | 1994-10-31 | 1996-01-30 | Mcdonnell Douglas Corporation | Video display system and method for generating and individually positioning high resolution inset images |
JPH08279999A (ja) | 1995-02-22 | 1996-10-22 | Internatl Business Mach Corp <Ibm> | テレビ会議マルチメディア・システム |
DE19531222A1 (de) * | 1995-08-24 | 1997-02-27 | Siemens Ag | Verfahren zur Zuordnung eines Sprachsignals eines Teilnehmers einer Multipoint-Videokonferenz zu einem Bildbereich in einem Bildschirm |
JPH09140000A (ja) * | 1995-11-15 | 1997-05-27 | Nippon Telegr & Teleph Corp <Ntt> | 会議用拡聴器 |
JPH1051755A (ja) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | テレビ会議端末の画面表示制御装置 |
JPH1042264A (ja) | 1996-07-23 | 1998-02-13 | Nec Corp | テレビ会議システム |
US5864681A (en) * | 1996-08-09 | 1999-01-26 | U.S. Robotics Access Corp. | Video encoder/decoder system |
EP0838950A1 (de) * | 1996-10-23 | 1998-04-29 | Alcatel | Terminal für Videokommunikation |
FR2761562B1 (fr) * | 1997-03-27 | 2004-08-27 | France Telecom | Systeme de visioconference |
US5900907A (en) * | 1997-10-17 | 1999-05-04 | Polycom, Inc. | Integrated videoconferencing unit |
US6489956B1 (en) * | 1998-02-17 | 2002-12-03 | Sun Microsystems, Inc. | Graphics system having a super-sampled sample buffer with generation of output pixels using selective adjustment of filtering for implementation of display effects |
EP1039752A4 (en) | 1998-10-09 | 2007-05-02 | Sony Corp | TELECOMMUNICATION APPARATUS AND METHOD |
JP4244416B2 (ja) * | 1998-10-30 | 2009-03-25 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
JP2000287188A (ja) * | 1999-04-01 | 2000-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 多地点間映像音声通信システム及びその装置 |
US6208373B1 (en) * | 1999-08-02 | 2001-03-27 | Timothy Lo Fong | Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users |
US6323893B1 (en) * | 1999-10-27 | 2001-11-27 | Tidenet, Inc. | Portable conference center |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
US6577333B2 (en) * | 2000-12-12 | 2003-06-10 | Intel Corporation | Automatic multi-camera video composition |
US6677979B1 (en) * | 2001-06-12 | 2004-01-13 | Cisco Technology, Inc. | Method and apparatus for dual image video teleconferencing |
-
2002
- 2002-08-07 EP EP02761322A patent/EP1425909A4/en not_active Withdrawn
- 2002-08-07 WO PCT/US2002/025477 patent/WO2003015407A1/en not_active Application Discontinuation
- 2002-08-07 JP JP2003520192A patent/JP2004538724A/ja active Pending
- 2002-08-07 US US10/214,976 patent/US20030048353A1/en not_active Abandoned
-
2004
- 2004-01-07 US US10/753,139 patent/US20050042211A1/en not_active Abandoned
- 2004-03-31 US US10/814,364 patent/US20040183897A1/en not_active Abandoned
-
2009
- 2009-01-06 US US12/349,409 patent/US8077194B2/en not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8334891B2 (en) | 2007-03-05 | 2012-12-18 | Cisco Technology, Inc. | Multipoint conference video switching |
US8264521B2 (en) | 2007-04-30 | 2012-09-11 | Cisco Technology, Inc. | Media detection and packet distribution in a multipoint conference |
US8736663B2 (en) | 2007-04-30 | 2014-05-27 | Cisco Technology, Inc. | Media detection and packet distribution in a multipoint conference |
US9509953B2 (en) | 2007-04-30 | 2016-11-29 | Cisco Technology, Inc. | Media detection and packet distribution in a multipoint conference |
JP2021529337A (ja) * | 2018-04-27 | 2021-10-28 | エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. | 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1425909A1 (en) | 2004-06-09 |
EP1425909A4 (en) | 2006-10-18 |
US20040183897A1 (en) | 2004-09-23 |
US20050042211A1 (en) | 2005-02-24 |
US20090115838A1 (en) | 2009-05-07 |
WO2003015407A1 (en) | 2003-02-20 |
US20030048353A1 (en) | 2003-03-13 |
US8077194B2 (en) | 2011-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004538724A (ja) | 高解像度のテレビ会議のシステム及び方法 | |
CA2119776C (en) | Video teleconferencing system employing aspect ratio transformation | |
JP4885928B2 (ja) | テレビ会議システム | |
US20090128617A1 (en) | Method and apparatus for obtaining acoustic source location information and a multimedia communication system | |
US6037970A (en) | Videoconference system and method therefor | |
US8390665B2 (en) | Apparatus, system and method for video call | |
CN103905668A (zh) | 具有视讯功能的电话机及其视讯会谈的方法 | |
KR100826157B1 (ko) | 이동통신 단말기의 디지털 방송 전송 방법 및 장치 | |
US20040208493A1 (en) | Video signal processing apparatus, video signal processing method, imaging apparatus, reproduction apparatus, and reception apparatus | |
WO2001069911A2 (en) | Interactive multimedia transmission system | |
JP3975909B2 (ja) | 撮像装置、記録装置および再生装置 | |
JP2002262250A (ja) | テレビ会議装置 | |
KR100641176B1 (ko) | 휴대단말기에서 삼차원 영상데이터 표시방법 | |
KR20100006029A (ko) | 원격 화상회의시스템 | |
KR20060023418A (ko) | 하드웨어 mpeg4 코덱 및 v2oip 프로토콜을이용한 실시간 팬/틸트/줌 제어가 가능한 네트워크 카메라시스템 | |
JP2009065490A (ja) | テレビ会議装置 | |
WO2011087356A2 (en) | Video conferencing using single panoramic camera | |
KR200370249Y1 (ko) | 하드웨어 mpeg4 코덱 및 v2oip 프로토콜을이용한 실시간 팬/틸트/줌 제어가 가능한 네트워크카메라 시스템 | |
JPH06276427A (ja) | 動画像音声制御装置 | |
WO2007122907A1 (ja) | 画像コーデック装置 | |
JPH0686277A (ja) | テレビ会議装置 | |
JPH0564184A (ja) | Tv会議システムの画面構成方式 | |
JPS6284689A (ja) | 画像伝送表示方式 | |
JPH09116802A (ja) | 画像伝送装置及び画像伝送方法 | |
KR20120060997A (ko) | 영상 회의용 프로젝터 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071016 |