JP2004528766A - 音声/画像を用いて話者を感知し位置探しする方法及び装置 - Google Patents
音声/画像を用いて話者を感知し位置探しする方法及び装置 Download PDFInfo
- Publication number
- JP2004528766A JP2004528766A JP2002577570A JP2002577570A JP2004528766A JP 2004528766 A JP2004528766 A JP 2004528766A JP 2002577570 A JP2002577570 A JP 2002577570A JP 2002577570 A JP2002577570 A JP 2002577570A JP 2004528766 A JP2004528766 A JP 2004528766A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- image
- video conferencing
- capture device
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/78—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
- G01S3/782—Systems for determining direction or deviation from predetermined direction
- G01S3/785—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
- G01S3/786—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
- G01S3/7864—T.V. type tracking systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Devices (AREA)
Abstract
本発明は、可動なパン・チルト・ズーム(“PTZ”)カメラの効果を提供するために話者を自動的に位置探しし、ビデオ画像を電子的に処理する2つのマイクロホンよりなるアレイと固定のカメラとを有するビデオ会議システムのための方法及び装置に関わる。コンピュータビジョンアルゴリズムは、広角の固定のカメラの視野にいる人を感知し、位置探しし、追跡するために用いられる。2つの水平方向に離間されたマイクロホンよりなるマイクロホンアレイから得られる推定された音響遅延は、話している人を選択するために使用される。本システムは、全ての可能な不正確さを感知することができ、この場合、安全側に作動するよう応答し、例えば、同じ水平位置に位置する全ての話者を含むようズームアウトし得る。
Description
【技術分野】
【0001】
本発明は、可動なパン・チルト・ズーム(“PTZ”)の効果を提供するために話者を自動的に位置探しし、ビデオ画像を電子的に処理する2つのマイクロホンのアレイと固定のカメラとを用いるビデオ会議システムのための方法及び装置に関わる。
【背景技術】
【0002】
基準点に対して音声源の方向を決定するビデオ会議システムが公知である。ビデオ会議システムは、視覚的な表示システムの種類の一つであり、一般的にカメラと幾つかのマイクロホンと、ディスプレイとを有する。幾つかのビデオ会議システムは、話者の方向にカメラを向け適当なカメラショットにフレームをつける能力を含む。ビデオ会議システムのユーザが適当なショットにフレームをつけるためにカメラの動きを指示することが典型的である。既存の市販用ビデオ会議システムは話者を自動的に位置探ししパン・チルト・ズーム(“PTZ”)ビデオカメラを駆動するためにマイクロホンアレイを用いる。本願で参照として組み込む(1)“Locating an Audio”なる名称の特許協力条約出願WO99/60788と、(2)“Method and Apparatus for Localization of an Acoustic Source”なる名称のChu外に1998年7月7日に発行された米国特許第5,788,082号とを参照する。
【0003】
しかしながら、固定のビデオカメラと共同で機能する2つのマイクロホンだけよりなるアレイを用いて話者を正確に感知し、位置探しし、追跡することが問題となる。従って、2つのマイクロホンよりなるアレイを用いて話者を自動的に位置探しし、固定のビデオカメラを用いて話者を追跡するビデオ会議システムのための方法と装置とが必要である。
【0004】
[発明の要約]
コンピュータビジョンアルゴリズムは、広角の固定のビデオカメラの視野にいる人を感知し、位置探しし、追跡するために用いられる。2つの水平方向に離間されたマイクロホンよりなるマイクロホンアレイから得られる推定される音響遅延は、話している人を選択するために用いられる。同じ水平位置に1人以上の話者がいないと仮定すると、2つのマイクロホンの間の音響遅延は話者を明確に位置探しするに十分な情報を提供する。本発明のシステムは、全ての可能な不明確さを感知することができ、この場合、安全側に作動するよう応答する。例えば、同じ水平位置に位置する全ての話者を含むようズームアウトし得る。
【0005】
音声及びビデオ処理段階は、早期に実施され、それにより話者を位置探しし追跡するために2つのマイクロホンと1つの固定のビデオカメラとだけが必要となる。本アプローチは、ハードウェア及び計算の面において要件を減らし、システム全体の性能を改善する。例えば、本アプローチによりビデオ会議システムは話しているか否かに関わらず動いている人を正確に追跡することができる。
【0006】
第1の面において、本発明は、画像を表わす画像信号を生成する画像捕捉装置と、音声源からの音を表わす音声信号を生成する音声捕捉装置と、画像信号及び音声信号を処理し基準点に対する音声源の方向を決定するマルチモード統合アーキテクチャシステムと、を有するビデオ会議システムを提供する。
【0007】
第2の面において、本発明は、画像捕捉装置において画像を表わす画像信号を生成する段階と、音声捕捉装置において音声源からの音を表わす音声信号を生成する段階と、画像信号及び音声信号を処理し基準点に対する音声源の方向を決定する段階と、画像信号を処理し改良された画像信号を生成する段階と、改良された画像信号を出力する段階とを有する方法を提供する。
【0008】
第3の面において、本発明は、話者からの音を表す音声信号を生成する2つのマイクロホンと、ビデオ画像を表わすビデオ信号を生成するビデオカメラと、パン、チルト、ズームの視覚的効果を提供するようビデオ画像を処理する電子パン・チルト・ズームシステムと、ビデオ信号及び音声信号を処理し基準点に対する話者の方向を決定し、話者の決定された方向に基づいて生成される制御信号を、カメラの視野に話者を含む画像を生成する電子パン・チルト・ズームに供給するプロセッサと、ビデオ会議のために音声及びビデオ信号を送信する送信器と、を有するビデオ会議システムを提供する。
【0009】
[発明の詳細な説明]
本発明は、2つのマイクロホンよりなるマイクロホンアレイのような音声捕捉装置と、ビデオカメラのような固定の画像捕捉装置とを使用するビデオ会議システムのための装置と関連する方法とを開示する。本発明のビデオ会議システムは、固定のビデオカメラと共同で機能する2つのマイクロホンだけを含むアレイを用いて話者を正確に感知し、位置探しし、追跡することができる。
【0010】
ここで図を参照するに、図1は、例示的なビデオ会議システム100を図示する。ビデオ会議システム100は、固定のビデオカメラ210と、互いから所定の距離dだけ離間されて位置決めされ、所定の幾何学的形状で取り付けられている第1のマイクロホン231及び第2のマイクロホン232といった2つのマイクロホンよりなる水平方向のアレイ230とを有する。
【0011】
簡単に、動作中、ビデオ会議システム100は、人間である話者(図示せず)から音波を受信し、音波を音声信号に変換する。ビデオ会議システム100は、固定のビデオカメラ210を用いて話者のビデオ画像を捕捉する。ビデオ会議システム100は、音声信号及びビデオ画像を用いて基準点、例えば、ビデオカメラ210に対する話者の位置を決定する。その位置に基づき、ビデオ会議システム100はビデオ画像を電子的に処理し、話者のよりよい画像を得るために固定のビデオカメラ210からのビデオ画像を効果的にパン、チルト、及び、ズームイン又はズームアウトすることができる。
【0012】
一般的に、ビデオカメラ210に対する話者の位置は、2つの値、即ち、ベクトルで表される固定のビデオカメラ210に対する話者の方向と、話者から固定のビデオカメラ210までの距離とによって特徴付けられ得る。容易に明らかとなるように、固定のビデオカメラ210に対する話者の方向は、固定のビデオカメラ210のパン又はチルト動作を電子的にまねることで固定のビデオカメラ210を話者の方に効果的に向けることに使用され、話者から固定のビデオカメラ210までの距離は固定のビデオカメラ210のズーム動作を電子的にまねることに使用され得る。
【0013】
図1におけるビデオ会議システム100では、ビデオ会議システム100を構成する様々な構成部品及び回路が一体化した筺体110の中に収容されていることに注意する。一体化した筺体110は、ビデオ会議システム100の全ての構成部品及び回路を収容できるように設計されている。更に、一体化した筺体110は、人が簡単に持ち運べるよう大きさが決められ得る。このような実施例では、構成部品及び回路は、ビデオ会議システムが新しい環境で迅速に設置され使用されるよう人による持ち運びに耐えられ、「プラグ・アンド・プレイ」能力を有するよう設計される。
【0014】
図2は、図1のビデオ会議システム100の機能モジュールを概略的に示す図である。マイクロホン231、232と、固定のビデオカメラ210とは夫々音声信号235とビデオ信号215をマルチモード統合アーキテクチャモジュール270に供給する。マルチモード統合アーキテクチャモジュール270は、音声源局限モジュール240と、コンピュータビジョン人感知モジュール250と、マルチモード話者感知モジュール260とを含む。電子パン・チルト・ズーム(EPTZ)制御信号は、マルチモード話者感知モジュール260から出力され、電子パン・チルト・ズームシステムモジュール220に供給される。
【0015】
典型的なマルチモード統合アーキテクチャモジュールの動作方法及び関連する構造は、(1)“Candidate−level Multimodal Integration Systems”なる名称の2000年11月22日に出願された米国特許出願第09/718,255号と、(2)“Method And Apparatus For Tracking Moving Objects Using Combined Video And Audio Information in Video Conferencing and Other Applications”なる名称の2000年4月13日に出願された米国特許出願第09/548,734号に開示され、これら出願は本発明の譲受人(代理人参照番号PHUS000293及びPHUS000103)に譲渡され、本願で参照として組み込む。
【0016】
固定のビデオカメラ210は、典型的な固定でないビデオカメラまたは典型的なビデオカメラ取り付けベースにあるような既知のパン、チルト、又は、ズーム動作に関連する可動部分を有する必要がない。パン、チルト、及び、ズーム機能は、必要に応じて、電子パン・チルト・ズームシステムモジュール220を用いて電子的にまねられることで達成される。従って、本発明のビデオ会議システム100は、公知のビデオ会議システムと比べて非常に簡略化されている。
【0017】
本発明の実施例は、例示目的として本願で説明したが、当業者には多数の変更及び変化が明らかとなるであろう。従って、添付の特許請求の範囲は、本発明の精神及び範囲内の全ての変更及び変化を含むことを意図する。
【図面の簡単な説明】
【0018】
【図1】本発明の実施例による例示的なビデオ会議システムを示す図である。
【図2】本発明の実施例による図1のビデオ会議システムの様々な機能モジュールを示す図である。
【0001】
本発明は、可動なパン・チルト・ズーム(“PTZ”)の効果を提供するために話者を自動的に位置探しし、ビデオ画像を電子的に処理する2つのマイクロホンのアレイと固定のカメラとを用いるビデオ会議システムのための方法及び装置に関わる。
【背景技術】
【0002】
基準点に対して音声源の方向を決定するビデオ会議システムが公知である。ビデオ会議システムは、視覚的な表示システムの種類の一つであり、一般的にカメラと幾つかのマイクロホンと、ディスプレイとを有する。幾つかのビデオ会議システムは、話者の方向にカメラを向け適当なカメラショットにフレームをつける能力を含む。ビデオ会議システムのユーザが適当なショットにフレームをつけるためにカメラの動きを指示することが典型的である。既存の市販用ビデオ会議システムは話者を自動的に位置探ししパン・チルト・ズーム(“PTZ”)ビデオカメラを駆動するためにマイクロホンアレイを用いる。本願で参照として組み込む(1)“Locating an Audio”なる名称の特許協力条約出願WO99/60788と、(2)“Method and Apparatus for Localization of an Acoustic Source”なる名称のChu外に1998年7月7日に発行された米国特許第5,788,082号とを参照する。
【0003】
しかしながら、固定のビデオカメラと共同で機能する2つのマイクロホンだけよりなるアレイを用いて話者を正確に感知し、位置探しし、追跡することが問題となる。従って、2つのマイクロホンよりなるアレイを用いて話者を自動的に位置探しし、固定のビデオカメラを用いて話者を追跡するビデオ会議システムのための方法と装置とが必要である。
【0004】
[発明の要約]
コンピュータビジョンアルゴリズムは、広角の固定のビデオカメラの視野にいる人を感知し、位置探しし、追跡するために用いられる。2つの水平方向に離間されたマイクロホンよりなるマイクロホンアレイから得られる推定される音響遅延は、話している人を選択するために用いられる。同じ水平位置に1人以上の話者がいないと仮定すると、2つのマイクロホンの間の音響遅延は話者を明確に位置探しするに十分な情報を提供する。本発明のシステムは、全ての可能な不明確さを感知することができ、この場合、安全側に作動するよう応答する。例えば、同じ水平位置に位置する全ての話者を含むようズームアウトし得る。
【0005】
音声及びビデオ処理段階は、早期に実施され、それにより話者を位置探しし追跡するために2つのマイクロホンと1つの固定のビデオカメラとだけが必要となる。本アプローチは、ハードウェア及び計算の面において要件を減らし、システム全体の性能を改善する。例えば、本アプローチによりビデオ会議システムは話しているか否かに関わらず動いている人を正確に追跡することができる。
【0006】
第1の面において、本発明は、画像を表わす画像信号を生成する画像捕捉装置と、音声源からの音を表わす音声信号を生成する音声捕捉装置と、画像信号及び音声信号を処理し基準点に対する音声源の方向を決定するマルチモード統合アーキテクチャシステムと、を有するビデオ会議システムを提供する。
【0007】
第2の面において、本発明は、画像捕捉装置において画像を表わす画像信号を生成する段階と、音声捕捉装置において音声源からの音を表わす音声信号を生成する段階と、画像信号及び音声信号を処理し基準点に対する音声源の方向を決定する段階と、画像信号を処理し改良された画像信号を生成する段階と、改良された画像信号を出力する段階とを有する方法を提供する。
【0008】
第3の面において、本発明は、話者からの音を表す音声信号を生成する2つのマイクロホンと、ビデオ画像を表わすビデオ信号を生成するビデオカメラと、パン、チルト、ズームの視覚的効果を提供するようビデオ画像を処理する電子パン・チルト・ズームシステムと、ビデオ信号及び音声信号を処理し基準点に対する話者の方向を決定し、話者の決定された方向に基づいて生成される制御信号を、カメラの視野に話者を含む画像を生成する電子パン・チルト・ズームに供給するプロセッサと、ビデオ会議のために音声及びビデオ信号を送信する送信器と、を有するビデオ会議システムを提供する。
【0009】
[発明の詳細な説明]
本発明は、2つのマイクロホンよりなるマイクロホンアレイのような音声捕捉装置と、ビデオカメラのような固定の画像捕捉装置とを使用するビデオ会議システムのための装置と関連する方法とを開示する。本発明のビデオ会議システムは、固定のビデオカメラと共同で機能する2つのマイクロホンだけを含むアレイを用いて話者を正確に感知し、位置探しし、追跡することができる。
【0010】
ここで図を参照するに、図1は、例示的なビデオ会議システム100を図示する。ビデオ会議システム100は、固定のビデオカメラ210と、互いから所定の距離dだけ離間されて位置決めされ、所定の幾何学的形状で取り付けられている第1のマイクロホン231及び第2のマイクロホン232といった2つのマイクロホンよりなる水平方向のアレイ230とを有する。
【0011】
簡単に、動作中、ビデオ会議システム100は、人間である話者(図示せず)から音波を受信し、音波を音声信号に変換する。ビデオ会議システム100は、固定のビデオカメラ210を用いて話者のビデオ画像を捕捉する。ビデオ会議システム100は、音声信号及びビデオ画像を用いて基準点、例えば、ビデオカメラ210に対する話者の位置を決定する。その位置に基づき、ビデオ会議システム100はビデオ画像を電子的に処理し、話者のよりよい画像を得るために固定のビデオカメラ210からのビデオ画像を効果的にパン、チルト、及び、ズームイン又はズームアウトすることができる。
【0012】
一般的に、ビデオカメラ210に対する話者の位置は、2つの値、即ち、ベクトルで表される固定のビデオカメラ210に対する話者の方向と、話者から固定のビデオカメラ210までの距離とによって特徴付けられ得る。容易に明らかとなるように、固定のビデオカメラ210に対する話者の方向は、固定のビデオカメラ210のパン又はチルト動作を電子的にまねることで固定のビデオカメラ210を話者の方に効果的に向けることに使用され、話者から固定のビデオカメラ210までの距離は固定のビデオカメラ210のズーム動作を電子的にまねることに使用され得る。
【0013】
図1におけるビデオ会議システム100では、ビデオ会議システム100を構成する様々な構成部品及び回路が一体化した筺体110の中に収容されていることに注意する。一体化した筺体110は、ビデオ会議システム100の全ての構成部品及び回路を収容できるように設計されている。更に、一体化した筺体110は、人が簡単に持ち運べるよう大きさが決められ得る。このような実施例では、構成部品及び回路は、ビデオ会議システムが新しい環境で迅速に設置され使用されるよう人による持ち運びに耐えられ、「プラグ・アンド・プレイ」能力を有するよう設計される。
【0014】
図2は、図1のビデオ会議システム100の機能モジュールを概略的に示す図である。マイクロホン231、232と、固定のビデオカメラ210とは夫々音声信号235とビデオ信号215をマルチモード統合アーキテクチャモジュール270に供給する。マルチモード統合アーキテクチャモジュール270は、音声源局限モジュール240と、コンピュータビジョン人感知モジュール250と、マルチモード話者感知モジュール260とを含む。電子パン・チルト・ズーム(EPTZ)制御信号は、マルチモード話者感知モジュール260から出力され、電子パン・チルト・ズームシステムモジュール220に供給される。
【0015】
典型的なマルチモード統合アーキテクチャモジュールの動作方法及び関連する構造は、(1)“Candidate−level Multimodal Integration Systems”なる名称の2000年11月22日に出願された米国特許出願第09/718,255号と、(2)“Method And Apparatus For Tracking Moving Objects Using Combined Video And Audio Information in Video Conferencing and Other Applications”なる名称の2000年4月13日に出願された米国特許出願第09/548,734号に開示され、これら出願は本発明の譲受人(代理人参照番号PHUS000293及びPHUS000103)に譲渡され、本願で参照として組み込む。
【0016】
固定のビデオカメラ210は、典型的な固定でないビデオカメラまたは典型的なビデオカメラ取り付けベースにあるような既知のパン、チルト、又は、ズーム動作に関連する可動部分を有する必要がない。パン、チルト、及び、ズーム機能は、必要に応じて、電子パン・チルト・ズームシステムモジュール220を用いて電子的にまねられることで達成される。従って、本発明のビデオ会議システム100は、公知のビデオ会議システムと比べて非常に簡略化されている。
【0017】
本発明の実施例は、例示目的として本願で説明したが、当業者には多数の変更及び変化が明らかとなるであろう。従って、添付の特許請求の範囲は、本発明の精神及び範囲内の全ての変更及び変化を含むことを意図する。
【図面の簡単な説明】
【0018】
【図1】本発明の実施例による例示的なビデオ会議システムを示す図である。
【図2】本発明の実施例による図1のビデオ会議システムの様々な機能モジュールを示す図である。
Claims (12)
- 画像を表わす画像信号を生成する画像捕捉装置と、
音声源からの音を表わす音声信号を生成する音声捕捉装置と、
上記画像信号及び上記音声信号を処理し、基準点に対する上記音声源の方向を決定するマルチモード統合アーキテクチャシステムと、を有するビデオ会議システム。 - 上記マルチモード統合アーキテクチャシステムは、
音声源局限システム、
コンピュータビジョン人感知システム、及び、
マルチモード話者感知システムを更に有する請求項1記載のビデオ会議システム。 - 上記画像捕捉装置、上記音声捕捉装置、及び、上記マルチモード統合アーキテクチャシステムを組み込む、一体化したビデオ会議システムのための一体化した筺体を更に有する請求項2記載のビデオ会議システム。
- 上記一体化した筺体は持ち運べるよう大きさが決められる請求項3記載のビデオ会議システム。
- 様々なパン、チルト、及び、ズーム機能の少なくとも一つを効果的に提供するために上記画像信号を電子的に処理する電子パン・チルト・ズームシステムを更に有する請求項2記載のビデオ会議システム。
- 上記画像捕捉装置は固定のカメラである請求項5記載のビデオ会議システム。
- 上記マルチモード統合アーキテクチャシステムは、上記電子パン・チルト・ズームシステムに制御信号を供給する請求項5記載のビデオ会議システム。
- 上記音声源は上記基準点に対して動き、上記音声源局限システムは上記音声源の動きを感知し上記動きに応答して上記画像捕捉装置の視野を変える請求項7記載のビデオ会議システム。
- 上記音声捕捉装置は2つのマイクロホンのアレイよりなる請求項5記載のビデオ会議システム。
- 画像捕捉装置において画像を表わす画像信号を生成する段階と、
音声捕捉装置において音声源からの音を表わす音声信号を生成する段階と、
上記画像信号及び上記音声信号を処理し基準点に対する上記音声源の方向を決定する段階と、
上記画像信号を処理し改良された画像信号を生成する段階と、
上記改良された画像信号を出力する段階と、を有する方法。 - 上記音声信号を音声源局限システムに供給する段階と、
上記画像信号をコンピュータビジョン人間感知システムに供給する段階と、
上記音声信号及び上記画像信号をマルチモード統合アーキテクチャシステムを用いて処理する段階と、
上記音声源の上記決定された方向に基づいて制御信号を生成する段階と、
上記制御信号を電子パン・チルト・ズームシステムに供給し、可動なカメラをパン、チルト、及び、ズームすることを含むグループから選択される少なくとも一つの機能の効果をまねる段階と、
上記電子パン・チルト・ズームシステムから出力する段階と、を更に有する請求項10記載の方法。 - 上記制御信号に応答して上記画像捕捉装置の視野を電子的に変える段階を更に有する請求項10記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/822,121 US20020140804A1 (en) | 2001-03-30 | 2001-03-30 | Method and apparatus for audio/image speaker detection and locator |
PCT/IB2002/000870 WO2002079792A2 (en) | 2001-03-30 | 2002-03-15 | Method and apparatus for audio/image speaker detection and locator |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004528766A true JP2004528766A (ja) | 2004-09-16 |
Family
ID=25235199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002577570A Pending JP2004528766A (ja) | 2001-03-30 | 2002-03-15 | 音声/画像を用いて話者を感知し位置探しする方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20020140804A1 (ja) |
EP (1) | EP1377847A2 (ja) |
JP (1) | JP2004528766A (ja) |
CN (1) | CN100370830C (ja) |
WO (1) | WO2002079792A2 (ja) |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10320274A1 (de) * | 2003-05-07 | 2004-12-09 | Sennheiser Electronic Gmbh & Co. Kg | System zur ortssensitiven Wiedergabe von Audiosignalen |
JP2005086365A (ja) * | 2003-09-05 | 2005-03-31 | Sony Corp | 通話装置、会議装置および撮像条件調整方法 |
JP2005311604A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 情報処理装置及び情報処理装置に用いるプログラム |
EP1600791B1 (en) * | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
EP1705911A1 (en) * | 2005-03-24 | 2006-09-27 | Alcatel | Video conference system |
US8457614B2 (en) | 2005-04-07 | 2013-06-04 | Clearone Communications, Inc. | Wireless multi-unit conference phone |
JP4965847B2 (ja) * | 2005-10-27 | 2012-07-04 | ヤマハ株式会社 | 音声信号送受信装置 |
US7864210B2 (en) * | 2005-11-18 | 2011-01-04 | International Business Machines Corporation | System and methods for video conferencing |
CN101496387B (zh) | 2006-03-06 | 2012-09-05 | 思科技术公司 | 用于移动无线网络中的接入认证的系统和方法 |
US8024189B2 (en) | 2006-06-22 | 2011-09-20 | Microsoft Corporation | Identification of people using multiple types of input |
CN100442837C (zh) * | 2006-07-25 | 2008-12-10 | 华为技术有限公司 | 一种具有声音位置信息的视频通讯系统及其获取方法 |
US7948513B2 (en) * | 2006-09-15 | 2011-05-24 | Rockefeller Alfred G | Teleconferencing between various 4G wireless entities such as mobile terminals and fixed terminals including laptops and television receivers fitted with a special wireless 4G interface |
JP4697810B2 (ja) * | 2007-03-05 | 2011-06-08 | パナソニック株式会社 | 自動追尾装置及び自動追尾方法 |
JP4420056B2 (ja) * | 2007-04-20 | 2010-02-24 | ソニー株式会社 | 画像処理装置と画像処理方法および画像処理プログラム、並びに再生情報生成装置と再生情報生成方法及び再生情報生成プログラム |
CN101690149B (zh) * | 2007-05-22 | 2012-12-12 | 艾利森电话股份有限公司 | 用于群组声音远程通信的方法和装置 |
US8570373B2 (en) | 2007-06-08 | 2013-10-29 | Cisco Technology, Inc. | Tracking an object utilizing location information associated with a wireless device |
NO327899B1 (no) * | 2007-07-13 | 2009-10-19 | Tandberg Telecom As | Fremgangsmate og system for automatisk kamerakontroll |
US20090172756A1 (en) * | 2007-12-31 | 2009-07-02 | Motorola, Inc. | Lighting analysis and recommender system for video telephony |
US8355041B2 (en) | 2008-02-14 | 2013-01-15 | Cisco Technology, Inc. | Telepresence system for 360 degree video conferencing |
US8797377B2 (en) | 2008-02-14 | 2014-08-05 | Cisco Technology, Inc. | Method and system for videoconference configuration |
CN101533090B (zh) * | 2008-03-14 | 2013-03-13 | 华为终端有限公司 | 一种阵列麦克的声音定位方法和装置 |
US8319819B2 (en) | 2008-03-26 | 2012-11-27 | Cisco Technology, Inc. | Virtual round-table videoconference |
US8390667B2 (en) | 2008-04-15 | 2013-03-05 | Cisco Technology, Inc. | Pop-up PIP for people not in picture |
CN101610360A (zh) * | 2008-06-19 | 2009-12-23 | 鸿富锦精密工业(深圳)有限公司 | 自动追踪声源的摄像装置 |
US9445193B2 (en) | 2008-07-31 | 2016-09-13 | Nokia Technologies Oy | Electronic device directional audio capture |
US10904658B2 (en) | 2008-07-31 | 2021-01-26 | Nokia Technologies Oy | Electronic device directional audio-video capture |
US8314829B2 (en) * | 2008-08-12 | 2012-11-20 | Microsoft Corporation | Satellite microphones for improved speaker detection and zoom |
US8694658B2 (en) | 2008-09-19 | 2014-04-08 | Cisco Technology, Inc. | System and method for enabling communication sessions in a network environment |
US20100085415A1 (en) * | 2008-10-02 | 2010-04-08 | Polycom, Inc | Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference |
US8358328B2 (en) * | 2008-11-20 | 2013-01-22 | Cisco Technology, Inc. | Multiple video camera processing for teleconferencing |
CN101442654B (zh) * | 2008-12-26 | 2012-05-23 | 华为终端有限公司 | 视频通信中视频对象切换的方法、装置及系统 |
US8390663B2 (en) * | 2009-01-29 | 2013-03-05 | Hewlett-Packard Development Company, L.P. | Updating a local view |
US8659637B2 (en) | 2009-03-09 | 2014-02-25 | Cisco Technology, Inc. | System and method for providing three dimensional video conferencing in a network environment |
US8477175B2 (en) | 2009-03-09 | 2013-07-02 | Cisco Technology, Inc. | System and method for providing three dimensional imaging in a network environment |
US8659639B2 (en) | 2009-05-29 | 2014-02-25 | Cisco Technology, Inc. | System and method for extending communications between participants in a conferencing environment |
KR20110012584A (ko) * | 2009-07-31 | 2011-02-09 | 삼성전자주식회사 | 초음파 기반 3차원 위치 추정 장치 및 방법 |
US9082297B2 (en) | 2009-08-11 | 2015-07-14 | Cisco Technology, Inc. | System and method for verifying parameters in an audiovisual environment |
US9225916B2 (en) | 2010-03-18 | 2015-12-29 | Cisco Technology, Inc. | System and method for enhancing video images in a conferencing environment |
USD628968S1 (en) | 2010-03-21 | 2010-12-14 | Cisco Technology, Inc. | Free-standing video unit |
USD626102S1 (en) | 2010-03-21 | 2010-10-26 | Cisco Tech Inc | Video unit with integrated features |
USD628175S1 (en) | 2010-03-21 | 2010-11-30 | Cisco Technology, Inc. | Mounted video unit |
USD626103S1 (en) | 2010-03-21 | 2010-10-26 | Cisco Technology, Inc. | Video unit with integrated features |
US9313452B2 (en) | 2010-05-17 | 2016-04-12 | Cisco Technology, Inc. | System and method for providing retracting optics in a video conferencing environment |
US8842161B2 (en) | 2010-05-18 | 2014-09-23 | Polycom, Inc. | Videoconferencing system having adjunct camera for auto-framing and tracking |
US8395653B2 (en) * | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US9723260B2 (en) | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
US8248448B2 (en) | 2010-05-18 | 2012-08-21 | Polycom, Inc. | Automatic camera framing for videoconferencing |
US8896655B2 (en) | 2010-08-31 | 2014-11-25 | Cisco Technology, Inc. | System and method for providing depth adaptive video conferencing |
US8599934B2 (en) | 2010-09-08 | 2013-12-03 | Cisco Technology, Inc. | System and method for skip coding during video conferencing in a network environment |
KR101750338B1 (ko) * | 2010-09-13 | 2017-06-23 | 삼성전자주식회사 | 마이크의 빔포밍 수행 방법 및 장치 |
US8599865B2 (en) | 2010-10-26 | 2013-12-03 | Cisco Technology, Inc. | System and method for provisioning flows in a mobile network environment |
US8699457B2 (en) | 2010-11-03 | 2014-04-15 | Cisco Technology, Inc. | System and method for managing flows in a mobile network environment |
US9338394B2 (en) | 2010-11-15 | 2016-05-10 | Cisco Technology, Inc. | System and method for providing enhanced audio in a video environment |
US9143725B2 (en) | 2010-11-15 | 2015-09-22 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US8902244B2 (en) | 2010-11-15 | 2014-12-02 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US8730297B2 (en) | 2010-11-15 | 2014-05-20 | Cisco Technology, Inc. | System and method for providing camera functions in a video environment |
US8723914B2 (en) | 2010-11-19 | 2014-05-13 | Cisco Technology, Inc. | System and method for providing enhanced video processing in a network environment |
US9111138B2 (en) | 2010-11-30 | 2015-08-18 | Cisco Technology, Inc. | System and method for gesture interface control |
USD682293S1 (en) | 2010-12-16 | 2013-05-14 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678308S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682294S1 (en) | 2010-12-16 | 2013-05-14 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678320S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678894S1 (en) | 2010-12-16 | 2013-03-26 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682864S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678307S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682854S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen for graphical user interface |
US8692862B2 (en) | 2011-02-28 | 2014-04-08 | Cisco Technology, Inc. | System and method for selection of video data in a video conference environment |
US8670019B2 (en) | 2011-04-28 | 2014-03-11 | Cisco Technology, Inc. | System and method for providing enhanced eye gaze in a video conferencing environment |
US8786631B1 (en) | 2011-04-30 | 2014-07-22 | Cisco Technology, Inc. | System and method for transferring transparency information in a video environment |
US8934026B2 (en) | 2011-05-12 | 2015-01-13 | Cisco Technology, Inc. | System and method for video coding in a dynamic environment |
US8719277B2 (en) * | 2011-08-08 | 2014-05-06 | Google Inc. | Sentimental information associated with an object within a media |
US8947493B2 (en) | 2011-11-16 | 2015-02-03 | Cisco Technology, Inc. | System and method for alerting a participant in a video conference |
US8682087B2 (en) | 2011-12-19 | 2014-03-25 | Cisco Technology, Inc. | System and method for depth-guided image filtering in a video conference environment |
CN102890267B (zh) * | 2012-09-18 | 2014-03-19 | 中国科学院上海微系统与信息技术研究所 | 一种传声器阵列结构可变的低空目标定位与跟踪系统 |
US9681154B2 (en) | 2012-12-06 | 2017-06-13 | Patent Capital Group | System and method for depth-guided filtering in a video conference environment |
US8957940B2 (en) | 2013-03-11 | 2015-02-17 | Cisco Technology, Inc. | Utilizing a smart camera system for immersive telepresence |
US9843621B2 (en) | 2013-05-17 | 2017-12-12 | Cisco Technology, Inc. | Calendaring activities based on communication processing |
TWI543635B (zh) * | 2013-12-18 | 2016-07-21 | jing-feng Liu | Speech Acquisition Method of Hearing Aid System and Hearing Aid System |
CN104269172A (zh) * | 2014-07-31 | 2015-01-07 | 广东美的制冷设备有限公司 | 基于视频定位的语音控制方法和系统 |
EP3151534A1 (en) | 2015-09-29 | 2017-04-05 | Thomson Licensing | Method of refocusing images captured by a plenoptic camera and audio based refocusing image system |
US9769419B2 (en) | 2015-09-30 | 2017-09-19 | Cisco Technology, Inc. | Camera system for video conference endpoints |
CN107820037B (zh) * | 2016-09-14 | 2021-03-26 | 中兴通讯股份有限公司 | 音频信号、图像处理的方法、装置和系统 |
CN106597378B (zh) * | 2016-12-26 | 2019-02-12 | 大连民族大学 | 机器人声源定位学习中视觉示教声源角度的方法 |
CN106653041B (zh) * | 2017-01-17 | 2020-02-14 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN106842131B (zh) * | 2017-03-17 | 2019-10-18 | 浙江宇视科技有限公司 | 麦克风阵列声源定位方法及装置 |
WO2018198790A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | コミュニケーション装置、コミュニケーション方法、プログラム、およびテレプレゼンスシステム |
FR3074584A1 (fr) * | 2017-12-05 | 2019-06-07 | Orange | Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence |
JP2019186630A (ja) * | 2018-04-03 | 2019-10-24 | キヤノン株式会社 | 撮像装置及びその制御方法及びプログラム |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
CN112866617A (zh) * | 2019-11-28 | 2021-05-28 | 中强光电股份有限公司 | 视频会议设备以及视频会议方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4581758A (en) * | 1983-11-04 | 1986-04-08 | At&T Bell Laboratories | Acoustic direction identification system |
JPH0771279B2 (ja) * | 1988-08-17 | 1995-07-31 | 富士通株式会社 | テレビ会議用画像処理装置 |
AU645431B2 (en) * | 1991-07-15 | 1994-01-13 | Hitachi Limited | Teleconference terminal equipment |
WO1994006246A1 (en) * | 1992-08-27 | 1994-03-17 | Kabushiki Kaisha Toshiba | Moving picture encoder |
KR940021467U (ko) * | 1993-02-08 | 1994-09-24 | 푸쉬-풀 사운드 캐취 마이크로폰 | |
US5508734A (en) * | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
US6731334B1 (en) * | 1995-07-31 | 2004-05-04 | Forgent Networks, Inc. | Automatic voice tracking camera system and method of operation |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
US6005610A (en) * | 1998-01-23 | 1999-12-21 | Lucent Technologies Inc. | Audio-visual object localization and tracking system and method therefor |
US6198693B1 (en) * | 1998-04-13 | 2001-03-06 | Andrea Electronics Corporation | System and method for finding the direction of a wave source using an array of sensors |
US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
US6704048B1 (en) * | 1998-08-27 | 2004-03-09 | Polycom, Inc. | Adaptive electronic zoom control |
-
2001
- 2001-03-30 US US09/822,121 patent/US20020140804A1/en not_active Abandoned
-
2002
- 2002-03-15 JP JP2002577570A patent/JP2004528766A/ja active Pending
- 2002-03-15 WO PCT/IB2002/000870 patent/WO2002079792A2/en active Application Filing
- 2002-03-15 CN CNB028008286A patent/CN100370830C/zh not_active Expired - Fee Related
- 2002-03-15 EP EP02713100A patent/EP1377847A2/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN1460185A (zh) | 2003-12-03 |
US20020140804A1 (en) | 2002-10-03 |
CN100370830C (zh) | 2008-02-20 |
WO2002079792A3 (en) | 2002-12-05 |
EP1377847A2 (en) | 2004-01-07 |
WO2002079792A2 (en) | 2002-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004528766A (ja) | 音声/画像を用いて話者を感知し位置探しする方法及び装置 | |
US6850265B1 (en) | Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications | |
US5940118A (en) | System and method for steering directional microphones | |
US9973848B2 (en) | Signal-enhancing beamforming in an augmented reality environment | |
US6275258B1 (en) | Voice responsive image tracking system | |
US9052579B1 (en) | Remote control of projection and camera system | |
CN109218651A (zh) | 视频会议中的最佳视图选择方法 | |
WO2012083989A1 (en) | Method of controlling audio recording and electronic device | |
KR20020094011A (ko) | 시청자의 위치에 의존하는 디스플레이의 자동 포지션닝 | |
JPH11331827A (ja) | テレビカメラ装置 | |
WO2002041632A1 (en) | Recording of moving images | |
CN111432115A (zh) | 基于声音辅助定位的人脸追踪方法、终端及存储装置 | |
US11477393B2 (en) | Detecting and tracking a subject of interest in a teleconference | |
US10652687B2 (en) | Methods and devices for user detection based spatial audio playback | |
KR20100121086A (ko) | 음원인식을 이용한 촬영영상 추적 ptz 카메라 운용시스템 및 그 방법 | |
JP2005252660A (ja) | 撮影システム及び撮影制御方法 | |
JP2009049734A (ja) | カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム | |
JPH06351015A (ja) | テレビジョン会議システム用の撮像システム | |
CN113676622A (zh) | 视频处理方法、摄像装置、视频会议系统及存储介质 | |
KR20010079719A (ko) | 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹 | |
JP3555151B2 (ja) | カメラ撮影制御装置 | |
JPH0983856A (ja) | インテリジェントカメラ装置 | |
JP4198915B2 (ja) | 空間的音波ステアリングシステム | |
JP2016119620A (ja) | 指向性制御システム及び指向性制御方法 | |
JP7451235B2 (ja) | 撮像装置、制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080617 |