JP4450508B2 - オーディオソースの位置決定 - Google Patents
オーディオソースの位置決定 Download PDFInfo
- Publication number
- JP4450508B2 JP4450508B2 JP2000550274A JP2000550274A JP4450508B2 JP 4450508 B2 JP4450508 B2 JP 4450508B2 JP 2000550274 A JP2000550274 A JP 2000550274A JP 2000550274 A JP2000550274 A JP 2000550274A JP 4450508 B2 JP4450508 B2 JP 4450508B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- face
- speaker
- audio source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000009432 framing Methods 0.000 claims description 85
- 230000005236 sound signal Effects 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 16
- 238000010200 validation analysis Methods 0.000 description 72
- 230000033001 locomotion Effects 0.000 description 57
- 238000001514 detection method Methods 0.000 description 51
- 230000008859 change Effects 0.000 description 26
- 238000005259 measurement Methods 0.000 description 25
- 230000004044 response Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000012797 qualification Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/78—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
- G01S3/782—Systems for determining direction or deviation from predetermined direction
- G01S3/785—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
- G01S3/786—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
- G01S3/7864—T.V. type tracking systems
- G01S3/7865—T.V. type tracking systems using correlation of the live video image with a stored image
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/86—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Signal Processing (AREA)
- Electromagnetism (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Description
背景
この発明は、ビデオ会議システムを含む、基準点に関するオーディオソースの方向を決定するシステムに関する。
【0002】
ビデオ会議システムは、視覚的表示システムの1つの形態であり、カメラ、多くのマイクロホン、及びディスプレイを通常含む。いくつかのビデオ会議システムは、話者の方にカメラを向けて、適切なカメラのショットを作る性能も有する。通常、ビデオ会議システムのユーザが、カメラを向けて適切なショットを作る。
【0003】
要約
1つの一般的な態様では、本発明は、イメージピックアップデバイス、オーディオピックアップデバイス、及びオーディオソースロケータを含むシステムを特徴とする。イメージピックアップデバイスは、イメージを表わすイメージ信号を生成し、一方オーディオピックアップデバイスは、オーディオソースからの音を表わすオーディオ信号を生成する。オーディオソースロケータは、イメージ信号及びオーディオ信号を処理し、基準点に関するオーディオソースの方向を決定する。
【0004】
他の一般的な態様では、本発明は、イメージピックアップデバイス及びフェイスディテクタを含むシステムを特徴とする。イメージピックアップデバイスは、イメージを表わすイメージ信号を生成する。フェイスディテクタは、イメージ信号を処理し、肌の色調の色を有するイメージ中の領域を検出し、その検出に基づいて、そのイメージが顔を表わしているかどうかを判断する。
【0005】
更に他の一般的な態様では、本発明は、マイクロホン、カメラ、ポジショニングデバイス、プロセッサ、及び送信機を含むビデオ会議システムを特徴とする。マイクロホンは、オーディオソースからの音を表わすオーディオ信号を生成し、カメラは、ビデオイメージを表わすビデオ信号を生成する。ポジショニングデバイスは、カメラを、例えば、チルト(tilt)したり、パンしたり又はズームしたりするための、カメラを適当に位置させる性能がある。プロセッサは、ビデオ信号及びオーディオ信号を処理して基準点に関する話者の方向を決定し、また、カメラの視界に話者が含まれるようカメラを位置させるために、決定された話者の方向に基づいて生成された制御信号を、ポジショニングデバイスに供給する。送信機は、オーディオソースの位置を決定するために使用されたオーディオ及びビデオ信号と同じとすることができるオーディオ及びビデオ信号を、ビデオ会議のために送信する。
【0006】
他の一般的な態様では、本発明は、マイクロホン、カメラ、ポジショニングデバイス、プロセッサ、及び送信機を含むシステムを特徴とする。マイクロホンは、オーディオソースからの音を表わすオーディオ信号を生成し、カメラはビデオイメージを表わすビデオ信号を生成する。ポジショニングデバイスは、カメラを、例えば、チルトしたり、パンしたり又はズームしたりするための、カメラを適当に位置させる性能がある。プロセッサは、オーディオ信号を処理して基準点に関する話者の方向を決定し、また、カメラの視界に話者が含まれるようカメラを位置させるために、決定された話者の方向に基づいて生成された制御信号を、ポジショニングデバイスに供給する。送信機は、オーディオソースの位置を決定するために使用されたオーディオ及びビデオ信号と同じとすることができるオーディオ及びビデオ信号を、ビデオ会議のために送信する。
【0007】
好適な実施形態は、以下の特徴の1以上を含むことができる。
【0008】
イメージピックアップデバイスは、イメージピックアップデバイスを位置させるためのポジショニングデバイスを含む。オーディオソースロケータは、決定されたオーディオソースの方向に基づいてイメージピックアップデバイスを位置させるため、ポジショニングデバイスに制御信号を供給する。ポジショニングデバイスは、次に、制御信号に応じてイメージピックアップデバイスをパンしたり、チルトしたり、及びオプションとしてズームしたりすることができる。
【0009】
統合されたビデオ会議システムのための統合されたハウジングは、イメージピックアップデバイス、オーディオピックアップデバイス、及びオーディオソースロケータを含み、またその統合されたハウジングはポータブルであるような大きさである。他の実施形態では、ハウジングは、マイクロホン、カメラ、ポジショニングデバイス、プロセッサ、及び送信機を含む。
【0010】
話者の顔のイメージは、ビデオフレーム中に検出される。顔のイメージは、ビデオフレーム中の肌の色調の色を有し、また、例えばビデオフレームを前のビデオフレームと比較することによって確定される、動いている顔を表わす領域を識別することにより検出される。肌の色調の色を有する領域の大きさが、予め選択された標準の顔の大きさを表わす、あらかじめ選択された大きさに対応するかどうかが次に決定される。もし、肌の色調の色を有する領域が、肌の色調の色の人間ではない物体に対応するなら、その領域は顔のイメージには対応しないと決定される。基準点に関する顔の方向も決定される。
【0011】
オーディオソースロケータは、オーディオ信号に基づいた、オーディオに基づくオーディオソースの方向を決定するためのオーディオベースロケータ(audio based locator)、及びビデオフレームの1つ中のイメージのビデオに基づく位置を決定するためのビデオベースロケータ(video based locator)を含む。そのイメージは、話者の物体又は顔であり得るオーディオソースのイメージであろう。オーディオソースロケータは、次に、オーディオに基づく方向及びビデオに基づく方向に基づいた、基準点に関するオーディオソースの方向を決定する。
【0012】
オーディオソースロケータは、オーディオ信号に基づいて話者を検出すること、ビデオ信号に基づいて複数の人の顔のイメージを検出すること、及び、話者の顔のイメージを検出するために、検出されたイメージを話者と相関させることによって、話者の顔のイメージを検出する。
【0013】
オーディオソースロケータは、ビデオフレーム中の所定の基準点からの、イメージのビデオに基づく位置のオフセットを決定し、及びそのオフセットに基づいて、基準点に関するオーディオソースの位置を決定するために、オーディオに基づく位置を変更する。この方法で、オーディオソースロケータは、例えば、システムの構成部品中の機械的整列不良が原因の、オーディオソースの方向を決定する際のエラーを修正することができる。
【0014】
オーディオソースロケータは、前のビデオフレーム中のイメージのビデオに基づく位置のあらかじめ決められたオフセットを使用し、またオーディオソースの位置を決定するためにオーディオに基づく方向を変更する。このようにして、オーディオソースロケータは、例えば、システムの構成部品中の機械的整列不良が原因の、オーディオソースを決定する際の、今後のエラーを防止することができる。
【0015】
オーディオソースロケータは、話者の動きを検出し、またそれらの動きに応じて、イメージピックアップデバイスの視界中での増加を引き起こす。このようにして、オーディオソースロケータは、例えば、人を追うためにイメージピックアップデバイスを動かす必要なしに人が動くときに、人を撮影するイメージピックアップデバイスを提供する。
【0016】
オーディオソースロケータは、オーディオ信号に基づいたオーディオに基づく方向を、ビデオフレーム中のイメージの記憶されたビデオに基づく位置に相関させ、また、その相関の結果に基づいて、オーディオに基づく方向を変更して基準点に関するオーディオソースの方向を決定するために、オーディオに基づく方向を変更する。そうするために、例えば、オーディオソースロケータは、それの正確さを向上させるため、それの処理を変更する。
【0017】
メモリユニットは、オーディオ信号に基づいたオーディオソースの予め決められた方向、及び前の1つのビデオフレーム中の、話者でない人の顔のイメージのあらかじめ決められたビデオに基づく位置を記憶する。オーディオソースロケータは、記憶されたオーディオに基づく方向及びビデオに基づく位置を使用して、オーディオソース及びあらかじめ決められたビデオに基づく位置を視界中に含むような、イメージピックアップデバイスの視界中の調節を引き起こす。このようにして、オーディオソースロケータは、例えば、話者及び話者でない人の両方を含んだ、部屋の撮影を行うことができる。
【0018】
オーディオベースロケータは、複数のオーディオソースを検出し、また、1つの方向におけるパラメータを変化させることが、オーディオベースロケータが複数のオーディオソースの少なくとも1つを認定する(validate)可能性を増加させ、他の方向におけるパラメータを変化させることが、複数のオーディオソースの少なくとも1つを認定する可能性を減少させる場合に、イメージピックアップデバイスのための制御信号を作り出す際に複数のオーディオソースの少なくとも1つを認定するかどうかを決定するために少なくとも1つのパラメータを使用する。オーディオソースロケータは、ビデオフレーム中のイメージがオーディオソースに対応するかどうかを決定するため、オーディオソースのオーディオに基づく方向を、あるフレーム中のイメージの記憶されたビデオに基づく位置と相関させる。もしビデオのそのフレーム中のイメージが、オーディオソースに対応するなら、オーディオベースロケータは、認定する可能性を増大させる方向のパラメータを変化させる。もし、イメージがオーディオソースに対応しないなら、オーディオベースロケータは、認定する可能性を減少させる方向のパラメータを変化させる。このようにして、例えば、オーディオソースロケータの応答時間は、動的にモニタされて改善される。
【0019】
オーディオソースロケータは、オーディオソースのオーディオに基づく方向を、ビデオのフレーム中のイメージのビデオに基づく位置と相関させ、そのイメージがオーディオソースに対応するかどうかを決定する。もし、オーディオソースロケータが、そのイメージはそのオーディオソースに対応しないと決定すると、オーディオソースロケータは、オーディオソース及びビデオフレーム中のイメージのビデオに基づく位置を視界中に含むような、イメージピックアップデバイスの視界中の調節を引き起こす。このようにして、例えば、オーディオソースロケータは、全体のカメラの方向のエラーを防止する準備をすることができる。オーディオソースロケータは、基準点からオーディオソースまでの距離を決定することもできる。オーディオベースロケータは、オーディオ信号に基づいて基準点からオーディオソースへの距離を決定し、一方ビデオベースロケータは、オーディオソースに関するイメージに基づいて基準点からオーディオソースまでの他の距離を決定する。オーディオソースロケータは、次に、オーディオに基づく距離及びビデオに基づく距離に基づいて、最終的な距離を決定する。
【0020】
いくつかの実施形態では、ビデオベースロケータは、動いている人を表わす領域を検出すること、及び、部分的又は全体的に、動いている人のイメージの輪郭を決定することにより、ビデオに基づくイメージの位置を決定する。ビデオベースロケータは、ある方向のパラメータを変化させることがイメージの輪郭を検出する可能性を増大させ、他の方向のパラメータを変化させることが可能性を減少させる場合に、イメージの輪郭を検出する際にパラメータを使用する。ビデオベースロケータは、イメージの輪郭を検出するとき、可能性を増大又は減少させるために、パラメータを変化させる。例えば、雑音レベルの増大がビデオイメージ中の人を表わす輪郭を検出する可能性を減少させ、またビデオベースロケータが雑音レベルに基づいてパラメータを変化させる場合に、ビデオベースロケータは雑音レベルを決定する。例えば高い雑音レベルでは、ビデオベースロケータは、イメージの輪郭を検出する可能性を増大させるようにパラメータを変化させる。これらの実施形態では、オーディオソースロケータは、イメージピックアップデバイスを位置させるため、制御信号をポジショニングデバイスに供給する。制御信号は、ポジショニングデバイスがイメージピックアップデバイスをパンさせるための、オーディオ信号に基づいて検出された、オーディオに基づく方向に基づいた信号、及びイメージピックアップデバイスをチルトするための、ビデオに基づいて検出された、ビデオに基づく位置に基づいた信号を含む。
【0021】
本発明の実施形態は、これらの利点の1以上を含む。
【0022】
オーディオ及びビデオの両方に基づいた、基準点に関するオーディオソースの方向及び/又は位置を決定することは、自動カメラポインティング(pointing)システムの全体の性能を向上させる、チェックアンドバランスのシステムの用意をする。
【0023】
共通のイメージ処理ブロックの低い複雑さと大きさを変えられる(scaleable)組み合わせとは、本発明の実施形態を実施するために使用することができる。そのような実施形態は、利点としては、計算の及びメモリの要件が低く、同時に、ビデオ会議のような種々の用途のための強健な性能を提供する。
【0024】
ビデオ会議システムのような、オーディオ信号に基づいて話者の位置を決定するいくつかの視覚的なシステムでの種々のタイプのエラーは、修正することができ、また多分防止することができる。エラーのために修正されるものには、パン及びチルトの機械的な整列不良(misalignment)のエラー、距離の測定及び関連するズームのエラー、及び全体のポインティングのエラー(pointing error)を含む。防止することができるエラーには、全体のポインティングのエラーが含まれる。更に、そのような視覚的システムの応答時間を減少させることができる。
【0025】
いくつかの実施形態では、そのようなオーディオの及び視覚的なシステムで自動的にカメラの撮影を設定するためのシステム及びアルゴリズムの性能は、改善される。例えば、より良好な「部屋での撮影(room shot)」は、ビデオイメージに基づいて検出される話者でない人を含むことにより得ることができる。プレゼンテーションを行っている人のような動いている話者は、彼のイメージを追跡することにより、追跡することができる。
【0026】
また、ビデオ会議システムのいくつかの実施形態では、システムの望ましい値段及び大きさのために、例えば、チルトの情報を提供するためにマイクロホンアレイを用意することは非現実的である。そのような実施形態では、オーディオベースロケータは、オーディオソースのオーディオに基づく方向を見つけることができ、カメラポジショニングデバイスがカメラをパンするようにする。次に、ビデオベースロケータは、話者のイメージを検出することができ、カメラポジショニングデバイスがカメラをチルトするようにする。このようにして、システム中の既に利用可能なリソース(すなわちビデオ信号)は、それと違って利用できない特徴であるチルトを提供するために使用される。
【0027】
本発明の実施形態は、統合されたポータブルなビデオ会議ユニットを含む。これらのユニットでは、オーディオ信号はパンの情報を与えるために使用される一方、ビデオイメージは、チルト情報、及び多分ズーム情報を与えるために使用することができる。
【0028】
更に、オーディオベースロケータは、普通、ビデオベースロケータより計算が集中しない。そのため、オーディオに基づく検出を使用して話者の位置を決定し、オーディオに基づく検出に基づいてイメージピックアップデバイスを動かし、そしてカメラの位置及びフレーミングを修正するために、ビデオベースロケータからの結果を使用することが、より迅速である。
【0029】
オーディオベースロケータからの結果は、それら自身によっては使用されずビデオ技術と組合わせられるため、オーディオベースロケータの実施形態は、それらが、そうでないなら、そうならなくてはいけないくらいに精密である構成部品を使用して実施することができる。
【0030】
説明
図1は、典型的なビデオ会議システム10を概略的に示す。ビデオ会議システム10は、ビデオカメラ14、及び所定の幾何学的配列中でお互いから所定の距離をおいて位置するマイクロホン12A、12B、12C、12Dを含むマイクロホンのアレイ12を含む。ビデオカメラ14は、ビデオカメラ14をパン、チルト、及びズームさせることができるカメラポジショニングデバイス16上に設置される。
【0031】
簡潔に言うと、動作中、ビデオ会議システム10は人間の話者から音波を受け取り、それをオーディオ信号に変換する。ビデオ会議システムは、話者のビデオイメージもキャプチャーする。ビデオ会議システム10は、オーディオ信号及びビデオイメージを使用し、基準点、例えばカメラ14すなわちカメラポジショニングデバイス16の回転の中心に関する話者の位置を決定する。その方向に基づいて、ビデオ会議システム10は、次にカメラ14をパン、チルト、又はズームイン又はズームアウトし、話者のより良好なイメージを得ることができる。
【0032】
一般的に、カメラ14に関する話者の位置は、2つの値:ベクトルより表現することができるカメラ14に関する話者の方向、及びカメラ14からの話者の距離により特徴づけることができる。容易に明らかであるように、カメラ14に関する話者の方向は、カメラ14をパンしたりチルトしたりすることによってカメラ14を話者に向かってポインティングするために使用することができ、またカメラ14からの話者の距離はカメラ14をズームするために使用することができる。
【0033】
図2は、ビデオ会議システム10の構成部品を概略的に示す。マイクロホン12及びカメラ14はそれぞれオーディオ信号22及びビデオ信号24をオーディオ及びビデオ信号処理ユニット20に供給する。オーディオ及びビデオ信号処理ユニット20は、話者の位置を決定するためにオーディオ信号22及びビデオ信号24を分析するオーディオソースロケータ28を含む。オーディオソースロケータ28は、カメラポジショニングデバイス16及びカメラ14に、カメラ14をパン、チルト、及びズームするためのカメラ制御信号26を供給する。
【0034】
オーディオ及びビデオ信号処理ユニット20は、コーダ/デコーダ30にもオーディオ信号22及びビデオ信号24を供給する。コーダ/デコーダ30は、オーディオ及びビデオ信号を圧縮し、そして圧縮されたビデオ信号及びオーディオ信号を、遠隔通信ネットワーク42を横切って受信しているビデオ会議システム(図示せず)に信号を送信するネットワークインターフェース40に供給する。制御及びユーザインターフェース階層50により、ユーザは、オーディオ及びビデオ信号処理ユニット20、コーダ/デコーダ30、及びネットワークインターフェース40を含むビデオ会議システム10の種々の構成部品の動作と対話し、制御することができる。
【0035】
図3は、オーディオソースロケータ28の種々の機能モジュールを示す。これらのモジュールは、例えば、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)及び/又は他の形態のメモリのような適切なメモリを有するマイクロプロセッサのような、適切にプログラムされたプロセッサにより実行することができる。他には、図3中のモジュールの機能を実行するための適切なプロセッサは、プログラマブルデジタルシグナルプロセッサ、ミニコンピュータ、マイクロコントローラ、プログラマブルロジックアレイ及びアプリケーションスペシフィックインテグレイテッドサーキット(ASIC)を含む。他の実施形態では、図3中のいくつか又は全てのモジュールは、ビデオ会議システム10の部分ではないプロセッサ上で走るように実施することができる。
【0036】
ビデオ会議システム10では、ビデオ会議システム10を構成する種々の構成部品及び回路は、図1中に示された統合されたハウジング10A内に収容することができることは注意すべきである。統合されたハウジング10Aは、ビデオ会議システム10の全ての構成部品及び回路を収容することができるように設計されている。更に、統合されたハウジング10Aは、人によって容易に可搬であるような大きさにすることができる。そのような実施形態では、構成部品及び回路は、人によって運搬されることに耐えるように、また、ビデオ会議システムを新しい環境に迅速に設置して使用することができるように「プラグ・アンド・プレイ」の性能を有するようにも設計することができる。
【0037】
いくつかの他の実施形態では、マイクロホンアレイ12、カメラ14、カメラポジショニングデバイス16、及びオーディオソースロケータ28は他の構成部品から分離することができ、また自動カメラポジショニングデバイス中に含ませることができる。そのような実施形態では、ホストのビデオ会議デバイスは、ビデオ会議システム10の他の構成部品を含む。自動カメラポジショニングデバイス及びホストのビデオ会議デバイスは、次に一緒にビデオ会議システムを構成する。
【0038】
一般的な用語のビデオ会議システム10で説明してきたが、オーディオ及びビデオ信号プロセッサ20のオーディオソースロケータ28の動作を今から詳細に説明していく。オーディオベースロケータ(又はオーディオベースディテクタ)70は、オーディオ信号22を受信し、マイクロホンアレイに関する話者(すなわちオーディオソース)の位置を決定する。次に、オーディオベースロケータ70は、カメラ14をパン、チルト、及びズームすることに関する、一連のカメラポジショニング命令を生成する。これらの命令は、ビデオベースロケータ(又はビデオベースディテクタモジュール)60により実行される顔の検出及び位置分析に部分的に基づくことができる。オーディオベースロケータ70は、次に、カメラ制御モジュール80にこれらのカメラポジショニング命令を供給する。カメラ制御モジュール80が、これらのカメラポジショニング命令に従ってカメラ14を動かした後、ビデオベースロケータ60は、デジタル信号として受信し、メモリストレージユニット(図示せず)中にデジタルデータとして記憶された、ビデオフレーム24中のイメージを分析する。ビデオベースロケータ60は、そのイメージ中の人間の顔を検出し、それが検出されたビデオフレーム中での基準点に関するそれらの位置を決定する。カメラ制御モジュール80は、次に、検出されたビデオの顔を検出されたオーディオの話者と相関させ、その相関を使用してカメラのフレーミングのエラーを修正又は防止する。
【0039】
図4は、オーディオソースロケータ28の動作のフローチャートである。ビデオベースロケータ60は、処理モジュール102〜110を含み、一方、オーディオベースロケータ60が処理モジュール112〜118を含む。これらの処理モジュールのそれぞれは、以下に詳細に説明していく。簡潔に言えば、ビデオ・フェイス・ロケーション・モジュール(video face location module)102は、ビデオ信号24を分析し、単一のビデオフレーム中の顔を検出する。ビデオ・オフセット/エラー測定モジュール104は、ある所定の、静的な基準点(例えば、ビデオイメージの中心)及び/又は動的な基準点(例えば、現在検出している話者)からの、検出された顔の位置のオフセットを測定する。フェイス・ロケーション・トラッキング・モジュール(face location tracking module)106は、現在のビデオフレームから検出された顔を前のビデオフレームで検出された顔と相関させ、そのようにして一連のフレームを通して検出された顔を追跡する。この追跡により、以下に説明するように、ビデオフレーム中で動いている話者の適切な位置を得ることができる。この追跡を実行するため、フェイス・ロケーション・トラッキング・モジュール106は、それぞれの検出された顔のための追跡ファイルを作り出して維持する。
【0040】
モジュール102〜108は、ビデオフレームに基づいたビデオ座標システム(video coordinate system)に関して種々の測定を計算する。ビデオ座標システムは、カメラ14によりキャプチャーされたそれぞれのフレームに適用される。ビデオ座標システムは、水平のすなわちx−軸、及び垂直のすなわちy−軸を有する。画素又はイメージの位置を決定するとき、モジュール102〜108は、画素又はイメージのビデオフレームのx−軸及びy−軸に関する位置を決定する。カメラ制御モジュール80及びオーディオベースロケータ70は、今度は、カメラ14に関する話者の方向、及びカメラ14から話者までのレンジ(range)すなわち距離を表現する、パン、チルト、及びズーム角に基づいた話者の位置を示すオーディオ座標システム(audio coordinate system)を使用する。オーディオ座標モジュール108への変換は、フレームがカメラ14によってキャプチャーされたときのカメラ14のパン、チルト、及びズームの値を使用して、ビデオ座標システムで表現された座標測定値を、オーディオ座標システムで表現された座標測定値に変換する。逆に、オーディオベースロケータ70のビデオ座標モジュール112への変換は、フレームがカメラ14によってキャプチャーされたときのカメラ14のパン、チルト、及びズームの値をまた使用して、オーディオ座標システムで表現された座標測定値を、ビデオ座標システムで表現された座標測定値に変換する。
【0041】
フェイス・ロケーション・メモリ・モジュール110は、以下に説明していくように、モジュール102〜108中の処理の結果をメモリ中に記憶する。このロケーションの決定の結果は、通常、一組のパン、チルト、及びレンジの座標測定値である。スピーカ・バリデーション・アンド・フレーミング・モジュール(speaker validation and framing module)116は、話者の検出された位置が有効な検出であるかどうかを決定する。現在及び前の検出の結果に基づいて、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、次に、最も適切なカメラのパン、チルト、及びズーム(すなわち、最も適切なカメラの撮影又はフレーミング)を決定する。スピーカ・バリデーション・アンド・フレーミング・モジュール116は、以下に説明していくように、適当なカメラの撮影を改善するため、ビデオベースロケータ60に得られた測定値を使用することができる。オーディオ・ロケーション・メモリ118は、モジュール114〜116中の処理の結果を記憶する。
【0042】
カメラ制御モジュール80は、スピーカ・バリデーション・アンド・フレーミング・モジュール116から、適切なカメラフレーミング命令を取得する。カメラ制御モジュール80は、ビデオベースロケータ60から、ビデオ信号とオーディオ信号とに基づいて検出された話者の位置の間の、オフセット及び/又はエラー測定値も取得する。カメラ制御モジュール80は、次に、機械的な整列不良のエラーを修正するため、以下に詳細に説明していくように、ビデオベースロケータ60から取得した値を使用して、オーディオベースロケータ70から取得した望ましいカメラのフレーミングを調節する。
【0043】
ビデオベースロケータ60の種々のモジュールの動作を、今から詳細に説明していく。ビデオベースロケータ60では、ビデオ・フェイス・ロケーション・モジュール102は、カメラ14からのビデオイメージの現在及び前のフレームを分析し、現在のフレーム中の顔の位置を決定する。図5は、ビデオ・フェイス・ロケーション・モジュール102によって実行される詳細なステップのフローチャートである。簡潔に言えば、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調の色を有しており、動いた画素を表わす画素を検出することに基づいて、フレーム中の顔を含み得る領域すなわち部分を識別する。
【0044】
ビデオ・フェイス・ロケーション・モジュール102は、メモリ中に記憶されている、現在の及び前のビデオフレーム132を、最初に検索する。説明される実施形態では、顔の検出のためのビデオフレームは、毎秒3〜5フレームで、輝度(luminance, luma)のために320×240画素の解像度、及びクロミナンス(chrominance, chroma)のために160×120画素を用いて、420YUVフォーマットでキャプチャーされる。輝度値は、次に、より低い160×120の解像度にサンプリングされる。他には、輝度及びクロミナンスのために172×144の解像度を有するQCIFビデオを使用できる。他の実施形態では、他のビデオフォーマット、解像度などが使用できる。
【0045】
ビデオ・フェイス・ロケーション・モジュール102は、次に、ステップ134で、検索されたフレーム中のイメージを肌の色調の2進マップに変形するが、ここで、肌の色調の色に対応するクロミナンス値を有するそれぞれの画素に、肌の色調の2進マップ中で「1」の値が割り当てられる(以後、「肌の色調の画素」と呼ぶ)。図6は、肌の色調の2進マップを作り出すアルゴリズム600のための擬似コードである。それぞれの画素に対して(ステップ605)、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調の色のためのクロミナンスの閾値を対照として画素のクロミナンス値をテストする。これらのクロミナンス又は肌の色調の閾値は、例えば、−50<Cb<−5及び7<Cr<60に設定することができる。これらの値により、肌の色調又は照明にかかわりなく、高いパーセンテージの肌の色調の画素を検出することになる。しかし、これらの閾値により、色が肌の色調の閾値の範囲内にある顔でない物体に対応する画素を、誤って検出することにもなる。もし、テストしている画素のクロミナンス値が、肌の色調の閾値内にあれば(ステップ610)、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調マップ中のその画素に「1」の値を割り当てる(ステップ615)。もし画素のクロミナンス値が肌の色調の閾値内になければ(ステップ620)、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調マップ中のその画素に「0」の値を割り当てる(ステップ625)。
【0046】
図5に戻って参照すると、ビデオ・フェイス・ロケーション・モジュール102は、次にステップ136でフレームを分析し、肌の色調の2進マップ中の肌の色調のどの画素が、前のフレーム(以後、「モーション画素」と言う)から移動した物体に対応するかを検出する。人の顔は普通動いている。そのため、動いている物体に対応しない画素を識別することにより、ビデオ・フェイス・ロケーション・モジュール102は、高いパーセンテージの、誤って検出された肌の色調の画素を拒絶する。図7は、モーション画素を検出するアルゴリズム700のための擬似コードである。それぞれの画素(ステップ705)に対して、もしその画素の肌の色調の2進マップの値が「1」であれば(ステップ710)、ビデオ・フェイス・ロケーション・モジュール102は、その画素もモーション画素であるかどうかを決定する。それを行うために、ビデオ・フェイス・ロケーション・モジュール102は、前のフレーム中の同じ画素の輝度値を対照として、その画素の輝度値をテストする。もし輝度値の差の絶対値が、モーション閾値より小さければ(説明している実施形態では、モーション閾値は、8ビットの輝度に対して5である)、ビデオ・フェイス・ロケーション・モジュール102は、その画素は動いていない物体に対応すると決定し、その画素に対する肌の色調の2進マップ値に「0」を再び割り当てる(ステップ715〜720)。
【0047】
図5に戻って参照すると、モーション検出のステップ136の後、ビデオ・フェイス・ロケーション・モジュール102は、ステップ138で、肌の色調の検出にフィルタを使用し、雑音に起因する誤った検出を減少させる(ステップ138)。
【0048】
種々のタイプのフィルタを、雑音の影響を除去したり減少させたりするために、使用することができる。説明している実施形態では、ビデオ・フェイス・ロケーション・モジュール102は、線形二次元フィルタ、すなわち1の係数を有する5×5のボックスカーフィルタ(box car filter)を使用する。ビデオ・フェイス・ロケーション・モジュール102は、フィルタにかけている画素を取り囲む5×5の画素の四角形中の、肯定的な肌の色調及びモーションの検出の数を加えることにより、このフィルタを特定の画素に使用する。もし、その合計が所定の閾値より大きければ、その画素に対する肌の色調の2進マップの値は、「1」に設定される。そうでなければ、ビデオ・フェイス・ロケーション・モジュール102は、その画素に対する肌の色調の2進マップの値を「0」に設定する。
【0049】
ビデオ・フェイス・ロケーション・モジュール102は、次にステップ140で、肌の色調の2進イメージマップを、肌の色調の画素が隣接する部分を含み、そのため顔のイメージを含み得る領域(以後、「顔領域(face segment)」と呼ぶ)を取り囲む長方形の部分(すなわちボックス)に区分する。イメージを区分するために、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調の2進マップのそれぞれの行をスキャンし、その行中で隣接する肌の色調の画素のそれぞれの組の開始及び終了を決定するが、ここで、ある組の中のそれぞれの画素は、全体の組に対する平均したクロミナンス値に近いクロミナンス値を有する。ビデオ・フェイス・ロケーション・モジュール102がそのような組を見つけたとき、ビデオ・フェイス・ロケーション・モジュール102は、その組の位置及び平均したクロミナンス値と、現在のフレーム中の前に識別されたすべての顔領域の位置及び平均したクロミナンス値との間の差を決定する。次に、ビデオ・フェイス・ロケーション・モジュール102は、計算された差は所定の閾値内にあったし、またすべての前に識別された顔領域に対して計算された最小の差でもあった画素の組を顔領域に取り付ける。ビデオ・フェイス・ロケーション・モジュール102は、必要なら、新しい画素の組を含むように顔領域の大きさを調節する。更に、ビデオ・フェイス・ロケーション・モジュール102は、追加した新しい画素の組内の顔領域に対する平均したクロミナンス値を再計算する。ビデオ・フェイス・ロケーション・モジュール102は、このようにして、それぞれの肌の色調の画素に顔領域を割り当てる。もし、画素の組が前に検出された顔領域に一致しなければ、ビデオ・フェイス・ロケーション・モジュール102は、その画素の組を使用して新しい顔領域を作り出す。
【0050】
領域/顔分類ステップ142では、ビデオ・フェイス・ロケーション・モジュール102は、次に、検出された顔領域のすべてを調べ、顔を表わしていそうにない顔領域を拒絶する。ビデオ・フェイス・ロケーション・モジュール102は、顔領域が顔を表わしていそうかどうかを決定するために、2つの方法を使用する。第1の方法によると、ビデオ・フェイス・ロケーション・モジュール102は、顔領域の大きさが、カメラのレンジの値に与えられた、典型的な又は予め選択された標準的な頭のイメージのデフォールトの大きさに対応するかどうかを決定する。もし、顔領域の大きさが、そのレンジでのデフォールトのイメージの大きさ(又は、デフォールトのイメージの大きさの125%のような、拡大又は縮小した、そのレンジでのデフォールトのイメージの大きさ)より小さければ、ビデオ・フェイス・ロケーション・モジュール102は、顔領域が顔を表わしていそうでないと決定する。更に、もし顔領域の割合が、典型的な頭に対する範囲(例えば、高さと幅の比率が1.5)内になければ、ビデオ・フェイス・ロケーション・モジュール102は、その顔領域は顔を表わしていそうでないと決定する。
【0051】
第2の方法によると、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調の色の背景上を移動する影のために又は肌の色調の色の背景上を移動する物体のために検出された顔領域を拒絶する。これを行うために、簡潔に言えば、ビデオ・フェイス・ロケーション・モジュール102は、所定の閾値より下の、空間的な輝度の変化(variance)又は時間的な輝度の差の変化を有する顔領域を拒絶する。図8は、空間的な輝度の変化及び時間的な輝度の差の変化に基づいて顔領域を拒絶するアルゴリズム800のための擬似コードである。
【0052】
通常、肌の色調の色の静止している物体上での影の動きにより、肌の色調の色の静止している物体のための画素は、肌の色調の画素及びモーション画素として検出される。これらの顔領域では、影の動きのために、顔の画素の全ての輝度値は、通常、前のフレーム中の対応する輝度値から同じ量だけ減じられる。そのため、現在と前のフレームの間の、顔領域に対する時間的な輝度の差の変化は、比較的小さい。(顔領域の時間的な輝度の差の変化は、その顔領域中の画素のためのすべての輝度値の現在と前のフレームの間の、平均した差からの現在と前のフレームの間の画素の輝度値の間の差の変化である。)影の影響を受けていない大部分の他の動いている物体の場合は、輝度値の差は、平均した差からかなり変化し、そのため時間的な輝度の差の変化は比較的大きい。
【0053】
図8中のアルゴリズム800のステップ805〜825は、時間的な輝度の差の変化を使用し、顔領域と分類されたが、動いている影の影響を受けている静止した物体をより表わしていそうな顔領域を検出する。それぞれの顔領域のために(ステップ805)、ビデオ・フェイス・ロケーション・モジュール102は、現在のフレームと前のフレームの間のその顔領域のための輝度値の平均した差を計算する(ステップ810)。それを行うために、顔領域中のそれぞれの画素のために、ビデオ・フェイス・ロケーション・モジュール102は、前のフレームからの輝度値における差を計算する。ビデオ・フェイス・ロケーション・モジュール102は、次に、これらの差を加算し、輝度値の平均した差を得るために、その合計を顔領域の大きさによって除する。ビデオ・フェイス・ロケーション・モジュール102は、次に、それぞれの画素に対して、ステップ810で計算された輝度値における平均した差と、現在のフレームと前のフレームの間の輝度値の差との間の差の2乗を決定する。ビデオ・フェイス・ロケーション・モジュール102は、これらの2乗した差を加算し、顔領域に対する時間的な輝度の差の変化決定するために、その合計を顔領域の大きさによって除する(ステップ815)。もし、顔領域に対する時間的な輝度の差の変化が、所定の閾値より小さければ(ステップ820)、ビデオ・フェイス・ロケーション・モジュール102は、その顔領域は顔のイメージではなさそうであると決定する(ステップ825)。
【0054】
更に、上述のように、ビデオ・フェイス・ロケーション・モジュール102は、空間的な輝度の変化を使用し、見つけられた(uncovered)、肌の色調の背景を表わす顔領域を拒絶する。例えば、人が肌の色調の色のドアの前で動くとき、ビデオ・フェイス・ロケーション・モジュール102は、その人のイメージの後縁(trailing edge)を、動いている画素として識別する。同様にして、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調のテーブル上で動く手を、動いている画素として識別できる。これらの誤った顔領域を識別するために、ビデオ・フェイス・ロケーション・モジュール102は、見つけられた肌の色調の色の物体は、通常滑らかであるが、顔は複数の境界線を有しており滑らかではない、という事実を使用する。そのため、ビデオ・フェイス・ロケーション・モジュール102は、それぞれの顔領域の空間的な輝度の変化を計算し、所定の閾値より小さい変化を有する顔領域を拒絶する。顔領域に対する空間的な輝度の変化は、顔領域の大きさによって除されたその顔領域に対する平均した輝度値からの、顔領域中の全ての画素に対する輝度値の間の差の2乗の合計である。
【0055】
図8のアルゴリズム800中のステップ805及び830〜845は、検出された顔領域に対する空間的な輝度の変化を使用し、肌の色調の背景をより表わしていそうな誤った顔領域を拒絶する。それぞれの顔領域のために(ステップ805)、ビデオ・フェイス・ロケーション・モジュール102は、その顔領域に対する平均の輝度値を計算する(ステップ830)。それをするために、ビデオ・フェイス・ロケーション・モジュール102は、その顔領域中の全ての画素の輝度値を加算し、その合計を顔領域の大きさによって除する。ビデオ・フェイス・ロケーション・モジュール102は、ステップ830で計算された輝度値の平均した差からの、顔領域中のそれぞれの画素の輝度値の差の2乗の合計を次に決定する。ビデオ・フェイス・ロケーション・モジュール102は、その合計を顔領域の大きさで除し、その顔領域の空間的な輝度の変化を決定する(ステップ835)。もし、顔領域の空間的な輝度の変化が、所定の閾値より小さければ(ステップ840)、ビデオ・フェイス・ロケーション・モジュール102は、調べている顔領域は、顔のイメージではないと決定する(ステップ845)。
【0056】
この時点で、ビデオ・フェイス・ロケーション・モジュール102は、すべての残っている顔領域は顔を表わすと推定する。領域/顔分類ステップ142の後、ビデオ・フェイス・ロケーション・モジュール102は、肌の色調の2進マップを、検出された顔を表わす、多くの顔領域を有するマップ144に減少させる。
【0057】
図4に戻って参照すると、ビデオ・フェイス・ロケーション・モジュール102の動作が完了した後、ビデオ・オフセット/エラー測定モジュール104は、ビデオ座標基準点からの、カメラの視界中の検出された顔のオフセットを決定する。基準点は、固定した基準点(例えば、カメライメージ又はビデオフレームの中心)でも動的な基準点(例えば、オーディオベースロケータ70により検出された話者の位置)でも構わない。いずれの場合も、それぞれの検出された顔に対して、ビデオ・オフセット/エラー測定モジュール104は、検出された顔の中心と基準点の間のx−軸及びy−軸の差を決定することにより、オフセットを計算する。基準点がオーディオベースロケータ70により検出された話者の位置である場合、オーディオベースロケータ70は、最初に、基準点の座標をオーディオ座標システムからビデオ座標システムに変換する(ステップ112)。次にビデオ・オフセット/エラー測定モジュール104は、これらの変換された値をオフセットを計算するために使用する。
【0058】
ビデオ・オフセット/エラー測定モジュール104の後、フェイス・ロケーション・トラッキング・モジュール106が実行される。通常、フェイス・ロケーション・トラッキング・モジュール106は、現在のフレーム中で検出された顔(すなわち、現在検出された顔)を、既存の追跡ファイル中の前に検出された顔に関連づける。フェイス・ロケーション・トラッキング・モジュール106は、次に、既存の追跡ファイルを更新する。フェイス・ロケーション・トラッキング・モジュール106は、既存の追跡ファイルと関連付けられない、現在検出された顔のための新しい追跡ファイルも作り出す。フェイス・ロケーション・トラッキング・モジュール106の結果は、以下に説明していくように、ビデオ会議システム10が動いている話者を追跡するためにカメラ14を動かす場合に、カメラの撮影をフレーミングするために、普通、使用される。
【0059】
それぞれの追跡ファイルは、1つの検出された顔に対応し、その顔のためのパラメータを記憶する。記憶されたパラメータ値は、現在のビデオフレームに関連するものだけでなく、要すれば、顔が検出された前のビデオフレームに関連するものも含む。パラメータは、位置、大きさ、及び動きに関連するパラメータを含む。追跡ファイルは、顔が検出された特定のフレームに対する検出された顔と関連する、オーディオ座標のパン、チルト、及びレンジの値も記憶できる。更に、追跡ファイルは、顔が検出されたフレームの数のための値(以下、「update_count」)、及び最後に顔が検出された時からのフレームの数(以下、「noupdate_count」)を記憶できる。追跡ファイルは、追跡ファイル中に記憶された値に基づいて推定され予想された任意の位置の、正確さの確実性の程度(confidence measurement)を記憶することもできる。
【0060】
図9は、フェイス・ロケーション・トラッキング・モジュール106により実行されるステップのフローチャート900を示す。顔検出のために処理されたそれぞれのビデオフレームに対して(ステップ901)、フェイス・ロケーション・トラッキング・モジュール106は、ビデオフレームが新しいカメラの動きの開始時にキャプチャーされたかどうかを最初に決定する(ステップ902)。もしそうであれば、フェイス・ロケーション・トラッキング・モジュール106は、追跡ファイルの最初の組を初期化する(ステップ905)。追跡ファイルの最初の組は、新しい追跡ファイルの組でも、既存の追跡ファイルのすべてでも構わない。フェイス・ロケーション・トラッキング・モジュール106は、どのように追跡ファイルが使用されるかに基づいて、どの最初の追跡ファイルの組を使用すべきかを決定する。もし、ファイルの最初の組が、新しい追跡ファイルのみを含むなら、フェイス・ロケーション・トラッキング・モジュール106は、現在のフレーム中でそれぞれの検出された顔のための新しい追跡ファイルを作り出す。これらの追跡ファイルは、次に、パン、チルト、及びレンジの値又は顔のオーディオ位置、及び、ビデオ座標の大きさ(video coordinates size)、位置、オフセット、モーション、及び必要に応じ、モジュール104(図4)からの他の測定値のような、現在のフレーム中で検出された顔に関するパラメータによって占められる。フェイス・ロケーション・トラッキング・モジュール106は、顔の追跡のための新しいカメラの動きの開始時のビデオフレームを使用せず(ステップ930)、このビデオフレームのための顔の追跡処理は終了する(ステップ925)。
【0061】
もし、フェイス・ロケーション・トラッキング・モジュール106が、ビデオフレームは、新しいカメラの動きの開始時(ステップ902)にキャプチャーされたと決定すると、フェイス・ロケーション・トラッキング・モジュール106は、次に、そのビデオフレームは、カメラが動いていた間にキャプチャーされたかどうかを決定する(ステップ907)。もしカメラの動いていたら、フェイス・ロケーション・トラッキング・モジュール106は、顔の追跡処理のためにそのビデオフレームを使用せず(ステップ907、930)、このビデオフレームのための顔の追跡処理は終了する(ステップ925)。
【0062】
もし、カメラの動きが起こっていないときにビデオフレームがキャプチャーされたなら、フェイス・ロケーション・トラッキング・モジュール106は、ステップ910で、そのビデオフレームがキャプチャーされたときにカメラが固定されていたかどうか、すなわちビデオ・フェイス・ロケーションの処理に影響を与えるすべてのカメラの動きが止まっていたかどうかを決定する。これらの動きは、カメラのパン、チルト、ズーム、オートフォーカス、オートホワイトバランス、及び自動露光を含む。
フェイス・ロケーション・トラッキング・モジュール106は、サンプリングカメラ固定信号の変化が終わるまではサンプリングカメラ固定信号25(図3及び4)によってか、又はカメラの動きが始まった後にある所定の時間期間の間待つことによってかのいずれかで、カメラ14が固定されていたかどうかを決定する。
【0063】
もしビデオフレームが、カメラ14が固定されていなかったときにキャプチャーされたなら、フェイス・ロケーション・トラッキング・モジュール106は、顔位置の追跡にそのビデオフレームを使用せず(ステップ910、930)、このビデオフレームのための顔の追跡処理は終了する(ステップ925)。もし、フェイス・ロケーション・トラッキング・モジュール106が、カメラ14は固定されていたと決定すると(ステップ910)、フェイス・ロケーション・トラッキング・モジュール106は、そのビデオフレーム中の検出された顔の位置を、既存の追跡ファイルに関連づける(ステップ915)。(既存の追跡ファイルがステップ905で使用されない場合は、フェイス・ロケーション・トラッキング・モジュール106は、ステップ915及び920を実行しない。)検出された顔の位置を関連付けることは、一般的な用語で説明された、以下のステップを含む。
【0064】
− 位置、確実性(confidence)、及び検索境界の伝播及び予想:一般的な用語では、このステップは、前のフレームに関連する追跡ファイルに基づいて、前のビデオフレーム中で検出された顔の、現在のビデオフレーム中の位置の推定値を予想することを含む。このステップは、その推定値に対する確実性の値を計算することを含む。
【0065】
− 現在検出された顔及び前のフレームと関連する追跡ファイルの順序付けられた関連:一般的な用語では、このステップは、それぞれの追跡ファイルに対して、それぞれの現在検出された顔が追跡ファイルに対応する可能性を決定することを含む。フェイス・ロケーション・トラッキング・モジュール106は、次に、どの検出された顔が、可能性の最小の閾値を通過し、可能性の最も高い測定値も有するかを決定する。フェイス・ロケーション・トラッキング・モジュール106は、次に、その検出された顔を追跡ファイルに関連づける。
【0066】
− noupdate_count変数の値に基づいた古いファイルの削除。
【0067】
− 既存の追跡ファイルに関連しない現在のフレーム中の検出された顔に対する新しいファイルの創造。
【0068】
これらのステップのそれぞれを、今から詳細に説明していく。図10は、予想アルゴリズム1000のための擬似コードである。説明する実施形態では、フェイス・ロケーション・トラッキング・モジュール106は、新しい値を予想するために固定の利得フィルタを使用する。他の実施形態では、フェイス・ロケーション・トラッキング・モジュール106は、カルマンフィルタのような可変利得フィルタのようなより複雑なフィルタを使用することができる。
【0069】
【0070】
予想ステップの後、フェイス・ロケーション・トラッキング・モジュール106は、現在のビデオフレーム中の検出された顔を既存の追跡ファイルに関連づけようとする。図11は、現在のビデオフレーム中の検出された顔を既存の追跡ファイルに関連づける関連づけアルゴリズム1100のための擬似コードである。通常、フェイス・ロケーション・トラッキング・モジュール106は、それぞれの追跡ファイルを、全ての検出された顔と比較する。フェイス・ロケーション・トラッキング・モジュール106は、もし、検出された顔の位置と追跡ファイルに関連する顔の予想位置の間のx−及びy−軸に沿った距離がすべての他の検出された顔に対する差より小さいなら、検出された顔を追跡ファイルと関連づける。
【0071】
それぞれの追跡ファイルiに対して(ステップ1105)、フェイス・ロケーション・トラッキング・モジュール106は、追跡ファイルが初期化されたアクティブな追跡ファイルであるかどうかを決定する(ステップ1107)。もしその追跡ファイルが、初期化されたアクティブな追跡ファイルであれば、フェイス・ロケーション・トラッキング・モジュール106は、それぞれの検出された顔jに対し、検出された顔の位置とその追跡ファイルに対する予想された位置の間の、x−及びy−軸に沿った距離が、最大の距離の閾値より小さいかどうかを決定する(ステップ1110〜1112)。
【0072】
説明される実施形態では、最大の距離の閾値は、x−及びy−軸のそれぞれについて測定された、2つの分散(variance)に基づいた統計的な境界である:それらは、1つのフレームから次への典型的な画素の位置の変化(σ2 xx及びσ2 yy)、及び測定値中の種々のエラーのための現在のフレーム中の画素の位置の測定値の変化である(σ2 xm及びσ2 ym)。説明される実施形態では、統計的な境界は、両方の分散は、与えられたカメラのズームの設定に対して一定の値を有すると推定する。しかし、他の実施形態では、分散は前の測定値に基づいた又は装置の動作をモニタするセンサからの入力に基づいた、それぞれのフレームに対してユニークであり得る。統計的境界は、x−及びy−軸のそれぞれの分散のそれぞれの合計として計算される標準偏差の3倍である:
ここで、σ2 xxは、水平の位置の分散;σ2 yyは、垂直の位置の分散;σ2 xmは、水平の測定値の分散;σ2 ymは、垂直の測定値の分散である。
【0073】
もし、検出された顔jと追跡ファイルに対する予想値の間の距離が、最大の距離の閾値より小さければ(ステップ1112)、検出された顔jは、追跡ファイルに関連する可能性のある候補としてマークされる(ステップ1115)。
【0074】
現在のフレーム中の追跡ファイルiに関連する全ての顔の候補に対して、フェイス・ロケーション・トラッキング・モジュール106は、次に、その追跡ファイルに対する予想値に最も近い候補の顔を見つけようとし、追跡ファイルiに関連するその顔を選択する。ステップ1117では、フェイス・ロケーション・トラッキング・モジュール106は、最初に、検出された顔のいずれもが、追跡ファイルiに関連する可能性のある候補としてマークされたかどうかを決定する。もしそうであれば、そのような候補jに対して(ステップ1120)、フェイス・ロケーション・トラッキング・モジュール106は、検出された顔の中心画素と追跡ファイルi中の中心画素の間の距離(dij)を計算する(ステップ1122)。フェイス・ロケーション・トラッキング・モジュール106は、次に、これらの計算された距離(dij)の最小値を見つけ(ステップ1125)、対応する検出された顔を追跡ファイルiに関連するとしてマークする(ステップ1127)。ステップ1130で、フェイス・ロケーション・トラッキング・モジュール106は、その追跡ファイルを現在のビデオフレーム中で検出された顔に関連していたとしてマークし、またステップ1132で、変数noupdate_countの値をリセットする。フェイス・ロケーション・トラッキング・モジュール106は、次に、一致する検出された顔に関連する値、すなわち中心画素の位置(ステップ1135〜1137)及び検出された顔の寸法(ステップ1140〜1142)を、追跡ファイルiに入れる。
【0075】
もし、ステップ1110〜1115で、フェイス・ロケーション・トラッキング・モジュール106が、現在のビデオフレーム中で検出された顔の中から関連させるための適切な候補をまったく見つけられないなら、フェイス・ロケーション・トラッキング・モジュール106は、追跡ファイルiを、検出された顔に関連していたとしてマークする(ステップ1147)。フェイス・ロケーション・トラッキング・モジュール106は、次に、変数noupdate_countを増分(increment)する(ステップ1150)。
【0076】
上述のように、検出された顔を追跡ファイルに関連づけた後、フェイス・ロケーション・トラッキング・モジュール106は、所定の数より多くのフレームに対して、検出された顔に関連しなかった追跡ファイルを削除する。フェイス・ロケーション・トラッキング・モジュール106は、その追跡ファイルを初期化されていないとしてマークし、追跡ファイル中の変数をリセットすることにより、追跡ファイルを削除する。
【0077】
【0078】
図9に戻って参照すると、この時点で、フェイス・ロケーション・トラッキング・モジュール106は、追跡ファイルが現在のビデオフレーム中の検出された顔と関連づけられたかどうかに基づいて、追跡ファイル中の種々のパラメータを更新する。通常、それぞれのパラメータは、現在及び前のフレーム中のそのパラメータに対する値、そのパラメータに対する予想値、及び種々の装置の不完全さに起因するエラーの推定値を表わす利得値(gain value)に基づいて更新される。
【0079】
【0080】
【0081】
【0082】
【0083】
フェイス・ロケーション・トラッキング・モジュール106は、次に、ステップ1225〜1232で、追跡ファイルを認定(validate)する。通常、フェイス・ロケーション・トラッキング・モジュール106は、追跡ファイルは、それが認定されるまで、無効であると推定する。ステップ1225で、もし顔検出が関連する追跡ファイルが無効とマークされると、フェイス・ロケーション・トラッキング・モジュール106は、update_count変数の値を増分する(ステップ1227)。もし、update_count変数の値及び追跡ファイルの確実性変数の値が、それぞれ、有効なフレームから要求される対応する閾値より大きいなら(ステップ1230)、フェイス・ロケーション・トラッキング・モジュール106は、その追跡ファイルをそのようにマークすることによって認定する(ステップ1232)。
【0084】
【0085】
図4に戻って参照すると、フェイス・ロケーション・トラッキング・モジュール106の後、オーディオ座標モジュール108への変換(transform)は、追跡された位置の値をオーディオ座標システムに変換(convert)する。
【0086】
オーディオ座標モジュール108への変換の後、フェイス・ロケーション・メモリ・モジュール110は、検出された顔に関連づけられたファイル中で、現在のビデオフレーム中の検出された顔に関連づけられた種々のパラメータの値を記憶する。普通、フェイス・ロケーション・メモリ・モジュール110は、カメラの視界が関心のある特定の領域を含んでいないようであるとき、今後のアクセスのため、前のモジュールでの分析の結果を記憶する。どの結果が記憶されるかは、そのデータが今後どのように使用されるかに依存する。記憶されるデータは、検出された顔の位置及び大きさを含むことができる。更に、記憶されるデータは、それぞれの顔に割り当てられるユニークな数によって又は空間セクター(spatial sector)によって編成される。データは、オーディオ座標システムに変更された後の、フェイス・ロケーション・トラッキングの結果も含む。この時点で、ビデオベースロケータ60は、それの分析を終了する。
【0087】
ビデオベースロケータ60の動作を説明してきたが、今からオーディオベースロケータ70の動作を説明していく。オーディオベースロケータ70の、オーディオ・スピーカ・ロケーション・モジュール114は、マイクロホンアレイ12からのオーディオ信号に基づいて話者の位置を検出する。複数のマイクロホンからのオーディオ信号に基づいて話者の位置を決定する方法は、参考文献としてここに組込まれ、1996年6月14日に出願された、出願番号第08/663,670号の「メソッド・アンド・アパレイタス・フォー・ローカリゼーション・オブ・アコースティック・ソース(Method and apparatus for Localization of an Acoustic Source」という名称(以下、「’670出願」という)の、共通に譲渡された出願において詳細に説明されている。簡潔に言えば、’670出願の方法は、お互いに間隔を空けて配置された少なくとも2つのマイクロホンを使用する。’670出願の方法によると、普通、オーディオ・スピーカ・ロケーション・モジュール114は、特定の時間フレームの間に取得された信号が音のソースからの連続するオーディオ信号の始まりすなわち開始を表わすかどうかを決定することによってオーディオ信号を処理する。オーディオ・スピーカ・ロケーション・モジュール114は、そのデータが連続の開始を表わすとき、連続する信号を表わすオーディオ信号を受け取ったと識別する。次に、オーディオ・スピーカ・ロケーション・モジュール114は、受け取ったオーディオ信号に基づいて、ソースの位置を決定する。
【0088】
ソースからの連続するオーディオ信号の始まりすなわち開始は、周波数ごとに(frequency-by-frequency basis)検出される。以下の2つの条件を満たす取得した信号のそれらの周波数成分に関連するデータは、ソースからの連続するオーディオ信号の始まりで発生する信号を表わすとみなされる。第1に、周波数成分の大きさは、好適には、その周波数に対する背景雑音エネルギーより、少なくとも所定の量だけ大きいべきである。第2に、周波数成分の大きさは、好適には、先行する時間フレームの所定の数の間に取得された、対応する周波数成分の大きさより、少なくとも所定の量だけ大きいべきである。もし、特定の時間フレームの間に特定の周波数成分に対して、その2つの条件を満たせば、その周波数に関する開始条件が満たされるとみなされる。時間フレームの間にマイクロホンの対によって取得されたオーディオ信号に対する重なりスペクトル(cross-spectrum)は、それぞれのそのような周波数成分に関して生成され、またそれぞれのそのような周波数でのその雑音に対する重なりスペクトルは、オーディオソースからの連続する信号を表わすオーディオの受け取った信号を識別するために、減じられる。オーディオの重なりスペクトルは、所定の時間の長さの間、累積される。もし、所定の時間期間の終わりに、少なくとも特定の数の周波数に対してゼロでない値が累積されたなら、その累積された重なりスペクトルの値は、次に、相互相関値(cross-correlation value)を計算するために使用される。相互相関値は、今度は、共通のソースから、マイクロホンの対に到来する信号の間の時間遅延を決定するために使用される。これらの時間遅延は、次に、オーディオソースの位置(すなわち、カメラのような基準点からのオーディオソースの方向及び距離)を決定するために使用されるマイクロホンに関するオーディオソースの方向及び方位角を決定するために使用される。
【0089】
マイクロホンアレイ12を使用することにより、オーディオ・スピーカ・ロケーション・モジュール114は、検出されたオーディオソースに関するチルト及びパンの両方の情報を提供する。オーディオ・スピーカ・ロケーション・モジュール114は、この情報も使用し、オーディオソースへの距離(すなわち、レンジ)を決定する。
【0090】
オーディオ・スピーカ・ロケーション・モジュール114は、1つは水平のマイクロホン(すなわち、パン・マイクロホン)のため、そして1つは垂直のマイクロホン(すなわち、チルト・マイクロホン)のための、正規化した相互相関値の対も提供する。
【0091】
オーディオ・スピーカ・ロケーション・モジュール114が話者の位置を決定した後、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、検出された話者を認定すべきかどうか、及びどのようにして検出された話者のためのカメラ撮影をフレーミングすべきかを決定する。図13は、スピーカ・バリデーション・アンド・フレーミング・モジュール116により実施されるステップのフローチャート1300を示す。簡潔に言えば、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、一組の基準に基づいて、オーディオ・スピーカ・ロケーション・モジュール114(図4)からの結果が有効な話者の位置を表わすかどうかを最初に決定する。検出された話者を認定するための基準は以下の通りである:
− 同じ位置又は同じ位置の近傍からの検出が、所定の回数なされる(図13中の参照番号1318);
− オーディオの話者の位置に対するパン及びチルトの値が、カメラ14に支持されたものである(図13中の参照番号1315)。
【0092】
− 正規化された相互相関値が、対応する所定の閾値より大きい(図13中の参照番号1317)。
【0093】
− 検出されたオーディオの連続が、スピーチであったと決定された(合う13中の参照番号1318)。
【0094】
もし、検出された話者の位置が認定されると、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、一組のルールを次に使用し、適切なカメラ撮影を確認する。適切なカメラ撮影を決定するために、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、検出された顔(110参照)のファイル中に記憶されたデータを使用し、カメラ撮影のフレーミングをすることができる。次にスピーカ・バリデーション・アンド・フレーミング・モジュール116は、カメラコントロールモジュール80に、適切なパン、チルト、及びズームの命令を供給する。
【0095】
今からスピーカ・バリデーション・アンド・フレーミング・モジュール116の動作を詳細に説明していく。ステップ1305で、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、オーディオ・スピーカ・ロケーション・モジュール114が所定の数の周波数にわたってスピーチの開始を検出するための話者である、活動しているオーディオソースを、オーディオ・スピーカ・ロケーション・モジュール114が検出したかどうかを、最初に決定する。もし、活動しているオーディオソースが所定の時間期間の間検出されなかったら、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、カメラポジショニングデバイス16に、部屋の撮影を写すような命令を与える(ステップ1307)。スピーカ・バリデーション・アンド・フレーミング・モジュール116は、このステップで、以下に説明するように、メモリ中に記憶された顔検出の結果を使用して、適切なグループの撮影のフレーミングをすることができる。
【0096】
スピーカ・バリデーション・アンド・フレーミング・モジュール116は、検出された位置が、現在の検出のすぐ前に検出された位置と同じ位置に対応するかどうかを決定する。もしそうでなければ、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、前の検出と関連する一時的ファイルを削除する(ステップ1310)。もし、スピーカ・バリデーション・アンド・フレーミング・モジュール116が、活動しているオーディオソースが検出されていると決定すると、それは次に、検出された話者を、上述の基準に基づいて認定すべきかどうかを決定する(ステップ1312)。検出を認定すべきかどうかを決定するために使用される閾値(1312参照)は、以下に説明するように、検出された顔のファイル中に記憶されたビデオベースロケータ60の結果に基づいて変更することができる。もし話者の位置が有効でなければ、スピーカ・バリデーション・アンド・フレーミング・モジュール116は処理を終了する。もし話者の位置が有効であれば、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、その話者の位置を新しい一時的ファイル中に記憶させる(ステップ1322)。ステップ1325で、その一時的ファイル及び一組のフレーミングのルールに基づいて、スピーカ・バリデーション・アンド・フレーミング・モジュール116は適切なカメラの撮影を選択する。例えば、カメラ撮影は、単一の話者又は話者のグループをフレーミングすることができる。一組のルールは、例えば、もし話者が彼又は彼女が最近話した回数を根拠とした主要な話者であれば、カメラ撮影は彼又は彼女のみを含むということを示すことができる。そのルールの組は、もし2人以上の話者が最近話したら、カメラ撮影は、カメラ14の利用可能な視界に対する制限を考慮した上で、会話のすべての参加者を含むべきであると示すこともできる。更に、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、以下に説明するように、ビデオベースロケータ60の結果を適切にカメラ撮影をフレーミングするために使用することができる。この決定に基づいて、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、カメラ制御モジュール80にカメラのフレーミングの指示を与える。
【0097】
図4に戻って参照すると、検出された話者を認定した後、オーディオ・ロケーション・メモリ・モジュール118は、検出された話者が一致した既存の話者のファイルに新しい話者を加えるか、又は新しい話者のファイルを作り出すかのいずれかを行う。そのような話者のファイルは、話者の位置及び話者が話した回数を記憶することができる。更に、話者のファイルは、最も最近の話者が、順序の先頭にくるような順序で保持される。これらのファイルは、あるカメラ・フレーミング・ロジックに基づいてカメラをフレーミングするために使用することができる。
【0098】
前述のように、オーディオベースロケータ70は、最初にオーディオデータを使用して話者の位置を決定し、そしてその決定に基づいてカメラポインティング制御モジュール80にカメラをどのように動かすべきかという命令を与える。オーディオベースロケータ70は、以下に詳細に説明するように、カメラ撮影を適切にフレーミングするためにビデオベースロケータ60の結果も使用できる。カメラが動かされた後、ビデオベースロケータ60は、カメラ14からビデオイメージのフレームをキャプチャーし、ビデオイメージ中の任意の顔の位置を検出する。次にカメラポインティング制御モジュール80は、以下に詳細に説明するように、カメラをフレーミングする際のどんなエラーも修正するよう、カメラ14のチルト、パン、及びレンジを調節するために、オーディオ及びビデオの両方の検出結果を使用することができる。
【0099】
カメラ制御モジュール80及びスピーカ・バリデーション・アンド・フレーミング・モジュール116が、カメラ撮影を適切にフレーミングするためにビデオベースロケータ60及びオーディオベースロケータ70からの検出結果を使用する方法を、今から詳細に説明する。カメラ制御モジュール80が顔検出の結果し要してカメラポジショニングデバイス16におけるエラーを修正する方法を、最初に説明する。次に、スピーカ・バリデーション・アンド・フレーミング・モジュール116が、顔検出の結果を使用して、カメラポインティング命令のエラーを防止しカメラ撮影をより良好にフレーミングするようオーディオ・スピーカ・ディテクション・モジュール116の結果を補足する方法が説明される。
【0100】
いくつかの実施形態では、カメラ制御モジュール80が修正できる1つのエラーは、カメラ14とマイクロホンアレイ12の間の配列不良が原因のエラーである。通常、オーディオベースロケータ70は、マイクロホンアレイ12を使用してオーディオ基準点に関する話者の位置を決定する。この決定の正確さは、カメラポジショニングデバイス16を通したカメラ14のマイクロホン12との整列(alignment)の正確さに一部依存する。しかし、カメラ14及びマイクロホンアレイ12は、製造工程中の手違いのため、又はシステムの通常の使用の問題として、配置不良になり得る。そのため、オーディオベースロケータ70からのカメラポインティング命令により、図14に示すように、話者がフレーム上の望ましい位置(例えば、フレームの中心)からオフセットしたイメージが生じることがある。
【0101】
カメラ制御モジュール80は、ビデオベースロケータ60からの顔検出の結果を使用してそのオフセットを修正する。図15は、ビデオのオフセットを修正するカメラ制御モジュール80により実施されるステップのフローチャート1500を示す。もし顔が、キャプチャーしたビデオイメージ中で望ましい位置になければ(ステップ1505)、ビデオベースロケータ60は、カメラ撮影は話者を中心に置いていないと決定する。次にビデオベースロケータ60は、どの検出された顔がキャプチャーされたビデオイメージ中で望ましい位置の最も近くに位置しているかを決定し、この顔が検出された話者に対応すると推定する(ステップ1510)。ビデオベースロケータ60は、その最も近い顔が望ましい位置からオフセットしている量を計算する。次にビデオベースロケータ60は、ステップ1515で、前に計算されたオフセット値にアクセスし、また、例えば値を平均することによってならされたオフセット値を計算する(ステップ1515)。所定の数のオフセット値が、ならされたオフセット値を計算するために使用された後(ステップ1520)、そのならされたオフセット値は、前に記憶されたならされたオフセット値を置換するために使用され、その新しい値は、今から、カメラポジショニング命令を修正するために使用される(ステップ1525)。いくつかの実施形態では、ビデオベースロケータ60は、時々(例えば、カメラ14が動かされるごとに)、イメージがオフセットしているかどうかを確認し、ならされたオフセット値を再計算する。
【0102】
いくつかの実施形態では、ビデオベースロケータ60は、所定の数のフレームに対するオフセット値を計算し、次にお互いに値が近いオフセット値の集団(cluster)を見つけるためにそれらを比較する。ビデオベースロケータ60は、次に、オフセット値の集団に基づいて(例えば、値を平均することによって)オフセットを計算する。このようにして、ビデオベースロケータ60は、オフセット値をカメラ制御モジュール80に送る前に、他の要因から生じたオフセット値を除去する。
【0103】
いくつかの実施形態では、オーディオ・スピーカ・ディテクション・モジュール116は、種々の理由のために不正確なオーディオベースロケータからの結果により生じる全体のポインティングエラーを修正することができる。例えば、オーディオベースロケータ70は、非スピーチ音をスピーチとして検出し、そのため人間でない音響ソースと人間の話者とを混同することがある。更に、壁やテーブルのような大きい表面からの反射は、真のオーディオソースとして、オーディオベースロケータ70を混乱させることがある。これらの場合、オーディオベースロケータ70は、オーディオソースを表面(例えば、話者の前のテーブルの表面)からの反射点として検出できる。更に、もしマイクロホンアレイ12がチルトの測定を実行しているなら、1つのチルト測定マイクロホンは、音波を主にその反射点から受け取っており、一方他のマイクロホンは話者からの音波を受け取っているかもしれない。これにより、検出された話者の位置中に大きいエラーを引き起こし、カメラが反射点の下又は話者の頭上を向くようになることがある。同様の問題は、あまり頻繁にではないが、パンの次元(dimension)でも起こり得る。非スピーチソースあるいは反射のいずれの場合でも、図16に示すように、カメラ14が非スピーチ音響ソース又は反射のソースを指すという全体のカメラポインティングエラーとしてエラーは現れる。
【0104】
図17は、そのような全体のポインティングエラーを修正するため、オーディオ・スピーカ・アンド・バリデーション・モジュール116によって実行されるステップのフローチャート1700を示す。オーディオ・スピーカ・アンド・バリデーション・モジュール116は、全体のポインティングエラーが発生したかどうかを最初に決定する。それを行うために、オーディオ・スピーカ・アンド・バリデーション・モジュール116は、話者の顔のイメージがあることが期待される、ビデオフレーム中の領域1605(図16)中に、検出された顔が位置するかどうかを決定する(ステップ1705)。もし、キャプチャーされたビデオイメージの望ましい位置(すなわち領域1605)に顔が位置していなければ(ステップ1705)、ビデオベースロケータ60は、キャプチャーされたビデオイメージは中心にないと判断する。次にビデオベースロケータ60は、どの検出された顔がキャプチャーされたビデオイメージ中の望ましい位置に最も近いのかを判断し、この顔が検出された話者に対応すると推定する(ステップ1710)。ビデオベースロケータ60は、最も近い顔が望ましい位置からオフセットしている量を計算する。次にビデオベースロケータ60は、ステップ1715で、前に計算されたオフセット値にアクセスし、例えば、値を平均することによって、ならされたオフセット値を計算する(ステップ1715)。所定の数のオフセット値が、ならされたオフセット値を計算するために使用された後(ステップ1720)、どのようなカメラポインティングエラーも補償するための修正のカメラの命令を決定するために、ならされたオフセット値は使用される(ステップ1725)。次にカメラ制御モジュール80は、このオフセット値を、カメラポジショニングデバイス16に提供されるカメラの命令に変換する(ステップ1730)。
【0105】
いくつかの実施形態では、オーディオ・スピーカ・アンド・バリデーション・モジュール116は、ビデオベースロケータ60からのデータを使用し、カメラ14から話者への距離(すなわち、レンジ認定エラー)を決定する際のエラーを修正することもできる。通常、レンジは、オーディオ・スピーカ・ソース・ロケーション・システムが正確に測定することが難しい次元である。測定の正確さは、少なくとも2つの要因に依存する。第1の要因は、マイクロホンアレイ12の大きさであり、より大きいアレイはより正確な結果を生じる。第2の要因は、処理されているオーディオのスピーチの継続時間及び質であり、より長い継続時間及びより高い発声回数は、より正確な結果を生じる。レンジの値はカメラ14をズームするために使用されるため、レンジの値のエラーは、図18に示すように、カメラ撮影の画面の余裕を狭すぎたり広すぎたりすることにより、話者をフレーミングする際のエラーを引き起こす。
【0106】
図19は、レンジ認定エラー(range finding error)を修正するため、オーディオ・スピーカ・アンド・バリデーション・モジュール116により実行されるステップのフローチャート1900を示す。オーディオ・スピーカ・アンド・バリデーション・モジュール116は、最初に、どの検出された顔が、イメージ中の予想位置に最も近くに位置しているかを判断し、この顔が検出された話者に対応すると推定する(ステップ1905)。もし、最も近い検出された顔の大きさが、所定の顔の大きさの値内にあれば、オーディオ・スピーカ・アンド・バリデーション・モジュール116は、レンジは正確であると推定する(ステップ1910)。もしそうでなければ、オーディオ・スピーカ・アンド・バリデーション・モジュール116は、所定の顔の大きさの閾値内に入るように検出された顔の大きさを調節するレンジ値を計算する(ステップ1915)。オーディオ・スピーカ・アンド・バリデーション・モジュール116は、このオフセット値を、カメラ14及びカメラポジショニングデバイス16に供給される、カメラフレーミング命令に変換する(ステップ1920)。
【0107】
上述のように、スピーカ・バリデーション・アンド・フレーミング・モジュール116(図4)は、顔検出の結果を使用して、カメラ撮影を適切にフレーミングすることができる。いくつかの実施形態では、オーディオベースロケータ70のスピーカ・バリデーション・アンド・フレーミング・モジュール116は、ビデオベースロケータ60からの結果を、話者の認定処理を制御する変数を動的に変化させるために使用することができる。スピーカ・バリデーション・アンド・フレーミング・モジュール116は、2つの目標:全体のポインティングエラーを防止し、カメラ14及びビデオ会議システム10の応答時間を減少させる、を達成するために、これらの変数を変更することができる。
【0108】
図20は、全体のポインティングエラーを防止するために、スピーカ・バリデーション・アンド・フレーミング・モジュール116が実行するステップのフローチャート2000を示す。スピーカ・バリデーション・アンド・フレーミング・モジュール116は、最初に、前に検出された顔の位置が検出された話者の位置に一致するかどうかを決定する(ステップ2005)。もし、一致する検出された顔があれば、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、検出された話者は有効な話者であると決定する。しかし、もし、一致する検出された顔がなく、これがこの話者の最初の検出であれば、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、検出された話者を認定する可能性がより小さくなるように処理の感度を減少させる(ステップ2010〜2015)。それを行うために、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、3つの閾値:相互相関閾値(図13の1317)、話者の位置が認定される前の話者の位置の連続した検出の数(図13の1320)、及びスピーチ検出のための閾値(図13の1318)を増加させる。これらの閾値を増加させることにより、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、検出された顔と一致しない話者を認定する可能性を減少させる。
【0109】
もし、閾値を増加させた後、スピーカ・バリデーション・アンド・フレーミング・モジュール116がまだ話者を認定すると、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、カメラのフレーミングのルールを変更し、全体のポインティングエラーを軽減する(ステップ2020)。スピーカ・バリデーション・アンド・フレーミング・モジュール116は、多くの方法:より広い領域を含むように視界を増大させること、すぐ近くの検出された顔を含むように視界を増大させること、又はすべての検出された顔を含むグループの撮影をデフォルトにすることで、そのルールを変更することができる。
【0110】
図21は、ビデオ会議システム10の、話者を検出しカメラを向けるための応答時間を減少させる、スピーカ・バリデーション・アンド・フレーミング・モジュール116により実行されるステップのフローチャート2100を示す。もし、前に検出された顔の位置が、検出された話者の位置と一致すれば(ステップ2105)、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、オーディオベースロケータ70の感度を増大させる(ステップ2110)。そのため、話者を検出し認定する可能性は増大する。それを行うために、スピーカ・バリデーション・アンド・フレーミング・モジュール116以下の機能を実行する:相関閾値を低下させること(図13の1317)、話者の位置が認定される前に、話者の位置の必要とされる連続した検出の必要な数を低下させること(図13の1320);及び図4のオーディオ・スピーカ・ロケーション・モジュール114中のスピーチ検出閾値を低下させること(図13の1318)。これは、オーディオベースロケータ70での話者から認定された検出の数を増加させ、そのためより速い応答時間が得られる。しかし、話者の認定処理の感度を増大させることは、誤った肯定的な話者の検出の数を増加させる。オーディオの話者は検出された顔に対して既に照合されているので、誤った肯定的な検出は、簡単に除去され、またそのため、ビデオ会議システム10の性能に、あったとしても、あまり影響を与えない。更に、オーディオのレンジを見つけることの代わりに、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、レンジを見つけ、更に、オーディオ・スピーカ・ロケーション・モジュール114を実行するために通常必要な、処理時間、マイクロホンの必要数、及びマイクロホン設置の必要な正確さを減少させるために、顔の検出の結果を使用することができる。
【0111】
いくつかの実施形態では、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、ミーティングのすべての参加者の撮影をフレーミングするため、ビデオベースロケータ60からのデータを使用する。図22は、グループの撮影をフレーミングするために、スピーカ・バリデーション・アンド・フレーミング・モジュール116により実行されるステップのフローチャート2200を示す。通常、そのようなグループの撮影をフレーミングするとき、もし、スピーカ・バリデーション・アンド・フレーミング・モジュール116が、オーディオ信号に基づいて検出された話者に対する結果を使用するのみなら、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、話をした参加者をキャプチャーすることのみができる。そのため、黙っている参加者は、グループの撮影の外側に置かれる。しかし、オーディオに基づいて検出された話者を、検出された顔のファイル中に記憶されたデータで補足することによって、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、グループの撮影中の全ての参加者をキャプチャーするように、カメラをフレーミングすることができる。
【0112】
そのような、グループの撮影のためにカメラをフレーミングするため、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、一定時間参加者が話を止めたかどうかを、最初に決定する(ステップ2205)。もしそうなら、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、グループの撮影をフレーミングするため、検出された話者のファイル及び検出された顔のファイル中に記憶されたデータを使用する(ステップ2210)。いくつかの実施形態では、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、グループの撮影をフレーミングするために、検出された話者のファイルを最初に使用し、次に、グループの撮影を調節するために、検出された顔のファイル中に記憶されたデータを使用する。グループの撮影は、好適には、オーディオに基づいて最も最近に検出された話者を含む。グループの撮影は、好適には、カメラ14及びカメラポジショニングデバイス16のパン、チルト、及びズームの制限により可能なだけの数の、オーディオ信号に基づいて検出された話者、及び同じ数の、ビデオ信号に基づいて検出された顔も含む。カメラ制御モジュール80は、調節された部屋の撮影の値を、カメラポジショニングデバイス16に提供されるカメラの命令に変換する(ステップ2215)。
【0113】
いくつかの実施形態では、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、ビデオ追跡ファイルを使用して動いている話者を識別し、次に、動いている話者をより良好にキャプチャーするため、カメラ14の視界を調節する。図23A、23B、及び23Cは、カメラ14及びカメラ14の視界に関して動いている話者2300の位置の平面図を示す。図23Aでは、話者2300はカメラ14に関して静止している。カメラ14は、そのため、その話者のイメージを、比較的狭い視界2305でキャプチャーすることができる。しかし、図23Bを参照すると、話者が位置Aから位置Bに移動するにつれて、彼又は彼女は視界2305の外側で視界2310の中に動く。彼又は彼女が位置Aに戻るにつれて、話者2300は、視界2310の外側で視界2305の中に動く。話者の適切なイメージがキャプチャーされることを確実にする1つの方法は、カメラ14が比較的広い視界2315を使用することである。これは、動いている話者に追従するための絶え間ないカメラの動きを避けるという利点を有する。そのような絶え間ないカメラの動きは、特に遠隔通信ネットワーク上の伝送のために圧縮したとき、ビデオイメージが断続して見えるようにする。
【0114】
図24は、動いている話者のためにカメラ14の視界を調節するために、スピーカ・バリデーション・アンド・フレーミング・モジュール116によって実行されるステップのフローチャート2400を示す。フローチャート2400は、上記に詳述したように、ビデオに基づいて追跡が検出された話者を使用する。普通、話者が動くと、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、その話者を新しく検出された話者として識別する。もし新しい話者が検出されないなら、オーディオ・スピーカ・バリデーション・アンド・フレーミング・モジュール116は、ビデオに基づいた追跡を継続する。しかし、もし新しい話者の位置が検出されると(ステップ2405)、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、2つの連続する話者の位置が、ビデオベースロケータ60によって単一の追跡ファイルに一致したかどうかを確認する。もしそうであれば、その話者は、動いている話者であると推定される。スピーカ・バリデーション・アンド・フレーミング・モジュール116は、話者の前の位置及び現在の位置の両方を包含するようにカメラ14の視界を増加させること(すなわち、カメラ14をズーム・アウトすること)によって、動いている話者を追跡するためのカメラを設定する(ステップ2415)。2つが連続して一致している間は、カメラ14は広い視界を有し、ビデオに基づく追跡は継続する(ステップ2430)。しかし、もし連続した一致がないならば、カメラ14はリセットされ、それのもとの視界に戻る(ステップ2420)。その場合、ビデオに基づく追跡はリセットされ、新たに開始する(ステップ2425)。
【0115】
他の実施形態は、以下の請求項の範囲内にある。
【0116】
例えば、図25は、統合された、ポータブルなビデオ会議システム2500を示す。ビデオ会議システム2500は、ビデオ会議システム10と同様な方法でポータブルで統合されており、また参考文献としてここに全体が組込まれ、1997年11月5日に出願された、出願番号第08/694,324号の「インテグレイテッド・ポータブル・ビデオコンファレンシング(Integrated Portable Videoconferencing)」という名称の、共通に譲渡された米国特許出願と同様の特徴、デザイン、及び構造を持つことができる。更に、ビデオ会議システム2500は、ここで説明する範囲を除いて、ビデオ会議システム10とほぼ同様の構成部品を有する。図25では、(図1のような)前の図中のものと同じ参照番号を有する構成部品は前に説明されており、ここでは説明しない。ビデオ会議システム2500は、参考文献としてここに内容の全体が組込まれ、1996年5月30日に出願され、米国特許第5,715,319号として発行された、米国特許出願第08/657,636号に記載されたような、向きを有するマイクロホンアレイ12’も含むことは注意すべきである。
【0117】
ビデオ会議システム2500は、2つのモードの動作で動作させることができる。それの第1の動作のモードでは、ビデオ会議システム10のオーディオベースロケータ70は、上述のように、カメラをパンさせるためのカメラポジショニング命令を提供する。動作のこのモードでは、ビデオベースロケータ60は何の機能も実行しない。いくつかの実施形態では、このモード動作は、ビデオ会議システム2500の唯一の動作モードであり、ビデオベースロケータ60はビデオ会議システム2500に含まれていない。
【0118】
第2のモードでの動作では、スピーカ・バリデーション・アンド・フレーミング・モジュール116がカメラ14をチルトさせるためにビデオベースロケータ60からのデータを使用する一方、オーディオベースロケータ70は、カメラ14をパンさせるための命令を与える。チルト情報を提供するためにビデオ信号を処理することによって、ビデオ会議システム2500は、チルト情報を提供するための(図1中のマイクロホン12C及び12Dのような)マイクロホンを必要としない。チルトのための少なくとも1つのマイクロホンは、パン・マイクロホンが置かれている平面からオフセットしていなければならないため、チルト・マイクロホンの必要をなくすことによって、ビデオ会議システム2500は、限られた寸法のシステムとして実施することができ、またポータブルに設計することもできる。
【0119】
ビデオ会議システム2500では、ビデオベースロケータ60は、今から説明するビデオ・フェイス・ロケーション・モジュール102(図4)中での顔検出の他の方法を使用することができる。図4を参照すると、これらの実施形態では、ビデオ・フェイス・ロケーション・モジュール102は、輝度値のみを使用して、ほとんどの場合人間である、ビデオフレーム中で動いている物体の上側の輪郭を検出する。輪郭検出は、前に説明した顔検出技術ほど計算量が多くなく、輝度値のみを使用するため、基礎を成すシステムがかなりの処理能力を持たない場合の用途に対して特に適している。これは、統合された、ポータブルで、より安価なビデオ会議システムを設計することが可能になるという利点を有する。
【0120】
図26は、適応輪郭検出技術(adaptive contour detection technique)を使用して話者の輪郭を検出するために、ビデオ・フェイス・ロケーション・モジュール102が実行するステップのフローチャート2600を示す。ステップ2605で、新しい及び前のビデオフレームを検索した後、ビデオ・フェイス・ロケーション・モジュール102は、適応モーション検出閾値(adaptive motion detection threshold, MD_THD)を、それが最小の初期値(minimum initial value, MD_THD_MIN)を持つように設定することにより最初に初期化する。適応モーション検出閾値は、キャプチャーされたビデオフレーム中のモーション画素を検出する際に使用される。ビデオ・フェイス・ロケーション・モジュール102は、2進モーションマップ(又はマスク)を前に図7のフローチャート700に関して説明した同様の方法で生成するために、現在及び前のビデオフレームを処理し、現在のビデオフレーム中のモーション画素を検出する(ステップ2610)。しかし、ここでは輝度値だけが使用されることに注意すべきである。
【0121】
もし、2進モーションマップ中のモーション画素の合計の数が、ビデオフレーム中の画素の合計の数の所定の比率、ここでは3分の1より多ければ(ステップ2615)、ビデオ・フェイス・ロケーション・モジュール102は、検出されたモーション画素はカメラの動きによるものであると判断する。もし、2進モーションマップ中のモーション画素の合計の数が、ビデオフレーム中の画素の合計の数の所定の比率より多くなければ(ステップ2615)、ビデオ・フェイス・ロケーション・モジュール102は、モーション画素の合計の数が所定の閾値(MIN_MP_NUM)より小さいかどうかを判断する(ステップ2620)。もしそうであれば、ビデオ・フェイス・ロケーション・モジュール102は、モーション画素の数は、動いている人のイメージを有するフレームから通常期待される数より少ないと判断する。
【0122】
しかし、もしビデオ・フェイス・ロケーション・モジュール102が、モーション画素の合計の数が所定の閾値(MIN_MP_NUM)より少なくないかどうかを判断するなら、ビデオ・フェイス・ロケーション・モジュール102は、形態構造操作(morphological operation)を2進モーションマップに実行し、静止しているがモーション画素に囲まれていることが検出された画素を埋める(ステップ2625)。形態構造操作は、例えば、3×3の演算子の拡張(dilation)及び侵食(erosion)操作とすることができる。
【0123】
次にビデオ・フェイス・ロケーション・モジュール102は、2進モーションマップ中の形の輪郭を検出する(ステップ2630)。輪郭検出は、以下のようにして進行する。それぞれの列で、最上部から底部に、ビデオ・フェイス・ロケーション・モジュール102は、5×5の画素ブロックを画素の左下方又は右下方に見ることによって、それぞれの動いている画素を評価する。もし、いずれかのブロック中に6より多くの動いている画素があれば、ビデオ・フェイス・ロケーション・モジュール102は、その画素を輪郭画素として識別する。輪郭は、カメラ14をチルトさせるためのカメラの命令を提供するために使用されるため、検出された人の上部の輪郭のみが必要である。従って、ビデオ・フェイス・ロケーション・モジュール102は、列中の輪郭画素に遭遇するとすぐに、ビデオ・フェイス・ロケーション・モジュール102は、その列の分析を終了する。
【0124】
ビデオ・フェイス・ロケーション・モジュール102は、次に、雑音レベルを計算する(ステップ2635)。雑音レベルは、雑音画素の合計の数を、検出された輪郭より上の画素の合計の数で除したものとして定義される。雑音画素は、検出された輪郭より上にある、2進モーションマップ中のモーション画素、すなわち、人間の話者に対応しないと推定されるモーション画素である。もし、雑音レベルが所定の雑音閾値より小さくなければ(ステップ2640)、雑音のために検出されたモーション画素を拒絶するために、より感度の低いモーション検出がそのフレーム上で実行されるべきであると判断される。実行すべきモーション検出は、モーション画素を検出する可能性が減じられた感度のより低い感度である。それを行うために、ビデオ・フェイス・ロケーション・モジュール102は、適応モーション検出閾値を所定の値だけ増加させる(ステップ2645)。もし、適応モーション検出閾値が最大の許容雑音閾値より大きければ(ステップ2650)、ビデオ・フェイス・ロケーション・モジュール102は、雑音レベルは信頼できる輪郭が検出できるレベルより上であると判断する。
【0125】
もし、適応モーション検出閾値が、最大の許容雑音閾値より大きくなければ(ステップ2650)、ビデオ・フェイス・ロケーション・モジュール102は、適応モーション検出閾値の新しい値を使用して、2進モーションマップ中のモーション画素に、新しいモーション検出を実行する。この処理は、いくつかのモーション画素を、非モーション画素として再分類する。
【0126】
この点で、最大の許容雑音閾値に達するか(ステップ2650)、検出された雑音レベルが所定の雑音閾値より下になるか(ステップ2640)のいずれかまで、ステップ2620〜2655が反復される。
【0127】
もし、雑音レベルが所定の閾値より下にあれば(ステップ2640)、雑音レベルは、信頼できる輪郭が検出できるほど十分に低いと推定される。ビデオ・フェイス・ロケーション・モジュール102は、次に、輪郭を滑らかにするために5点メジアン・フィルタ(five point median filter)を使用し、また更に雑音のために検出されたどんなモーション画素も除去する。次に、ステップ2665で、記憶されたデータの量を減少させるために、ビデオ・フェイス・ロケーション・モジュール102は、検出された輪郭を(例えば、16のレベルに)量子化する。
【0128】
次に、スピーカ・バリデーション・アンド・フレーミング・モジュール116(図4)は、この情報を使用して適切なチルト角を決定し、カメラポジショニングデバイス16に適切な命令を与える。それを行うために、スピーカ・バリデーション・アンド・フレーミング・モジュール116は、最も高い輪郭点を選択し、キャプチャーしたビデオイメージ中の所定の位置にこの最も高い輪郭点を持ってくるためにはどのようにカメラ14をチルトさせるべきかを決定する。
【0129】
いくつかの実施形態では、ニューラルネット又はカラーヒストグラム分布に基づいた顔検出のアルゴリズム及び技術のような、顔検出の他の方法を、ビデオ・フェイス・ロケーション・モジュール102中の人の顔の位置を決定するために使用することができる。
【0130】
上述の実施形態で、ビデオ検出モジュール60の結果に基づいてカメラフレーミング命令を変更する前に、カメラポインティング制御80又はスピーカ・バリデーション・アンド・フレーミング・モジュール116は、所定の数のフレームを最初に分析する。次に、全てのこれらのフレームに対する値は、誤った修正が実行されないことを確実にするために認定される。その結果が認定された後、次にそれらは、カメラのフレーミングを変更するために使用することができる。このようにして、フレーミングの変更の正確さが増大する。
【図面の簡単な説明】
【図1】 典型的なビデオ会議システムを示す図である。
【図2】 ビデオ会議システムの構成部品の概略を示す図である。
【図3】 カメラポインティングモジュールの種々の機能モジュールを示す図である。
【図4】 カメラポインティングモジュールの動作のフローチャートである。
【図5】 ビデオ・フェイス・ロケーション・モジュール(video face location module)によって実行される詳細なステップのフローチャートである。
【図6】 肌の色調の2進マップを作り出すためのアルゴリズムのための擬似コード(pseudocode)である。
【図7】 前のビデオフレームから動いた物体に対応する現在のビデオフレーム中の画素を検出するためのアルゴリズムのための擬似コードである。
【図8】 空間的輝度の差異及び時間の輝度の差異に基づいて顔の部分を拒絶するためのアルゴリズムのための擬似コードである。
【図9】 フェイス・ロケーション・トラッキング・モジュールにより実行されるステップのフローチャートである。
【図10】 前のビデオフレーム中で検出された顔のイメージの位置を、現在のビデオ他面のために、推定するための予想アルゴリズムのための擬似コードである。
【図11】 現在のビデオフレーム中の検出された顔を現在の追跡ファイルに関連付けるための関連アルゴリズムのための擬似コードである。
【図12】 追跡ファイルを更新するためのアルゴリズムのための擬似コードである。
【図13】 スピーカ・バリデーション・アンド・フレーミング・モジュールにより実行されるステップのフローチャートである。
【図14】 カメラとマイクロホンアレイとの間の整列不良によるカメラの撮影のフレーミングのエラーを示す図である。
【図15】 カメラとマイクロホンアレイとの間の整列不良によるカメラの撮影のフレーミングのエラーを修正するカメラ制御モジュールにより実行されるステップのフローチャートである。
【図16】 全体のポインティングのエラーのためのカメラの撮影のフレーミングのエラーを示す図である。
【図17】 全体のポインティングのエラーを修正するためのカメラ制御モジュールにより実行されるステップのフローチャートである。
【図18】 距離認定エラー(range finding error)のための、カメラの撮影のフレーミングのエラーを示す図である。
【図19】 距離認定エラーを修正するための、カメラ制御モジュールにより実行されるステップのフローチャートである。
【図20】 全体のポインティングのエラーを防止するため、スピーカ・バリデーション・アンド・フレーミング・モジュールにより実行されるステップのフローチャートである。
【図21】 図1のビデオ会議システムの応答時間を減少させるため、スピーカ・バリデーション・アンド・フレーミング・モジュールにより実行されるステップのフローチャートである。
【図22】 グループの撮影をフレーミングするため、スピーカ・バリデーション・アンド・フレーミング・モジュールにより実行されるステップのフローチャートである。
【図23A】 カメラの視界に関して動いている話者の位置の平面図である。
【図23B】 カメラの視界に関して動いている話者の位置の平面図である。
【図23C】 カメラの視界に関して動いている話者の位置の平面図である。
【図24】 動いている話者のためにカメラの視界を調節するため、スピーカ・バリデーション・アンド・フレーミング・モジュールにより実行されるステップのフローチャートである。
【図25】 ビデオ会議システムの他の実施形態の図である。
【図26】 話者の輪郭を検出するため、ビデオ・フェイス・ロケーション・モジュールにより実行される詳細なステップのフローチャートである。
Claims (12)
- 一つ又は複数のオブジェクトを表わすイメージ信号を生成するイメージピックアップデバイスと、
オーディオソースからの音を表わすオーディオ信号を生成するオーディオピックアップデバイスと、
ある基準点に対する、オーディオソースのオーディオに基づいた方向を決定するために前記オーディオ信号を処理するオーディオベースロケータと、
オーディオソースの方向にあるオブジェクトのビデオに基づいた位置を識別及び決定するため、肌色のピクセルを検出するために前記イメージ信号を処理するビデオ・フェイス・ロケーション・モジュールを含むビデオベースロケータと、
前記オーディオに基づいた方向及び前記ビデオに基づいた位置に基づいてオーディオソースの方向を決定するオーディオソースロケータと、
オーディオソースの方向にある前記オブジェクトをフレーミングするために、前記イメージピックアップデバイスを制御するポインティング制御モジュールと、を有するシステムであって、
前記オーディオソースロケータは、前記オブジェクトの前記ビデオに基づいた位置の、所定の基準点からのオフセットを決定し、前記オフセットに基づいて前記オーディオに基づいた方向を変更することによって前記方向を決定し、
前記ビデオベースロケータは、前記オブジェクトの輪郭を、一部又は全部、決定することにより、前記オブジェクトのビデオに基づいた位置を識別及び決定し、
前記ビデオベースロケータは、前記オブジェクトの前記輪郭を検出する際にパラメータを使用し、前記パラメータを1つの方向に変化させることは、オブジェクトの輪郭を検出する可能性を増大させ、及び前記パラメータを他の方向に変化させることは前記可能性を減少させ、また前記ビデオベースロケータは、前記オブジェクトの前記輪郭が検出された時、前記可能性を増大又は減少させるために前記パラメータを変化させる、ことを特徴とするシステム。 - ビデオのフレームのうち前のフレームの中のイメージのビデオに基づいた位置の、所定の基準点からの前に決定されたオフセットを記憶するメモリユニットを更に有し、前記オーディオソースロケータは、前記方向を決定するために、前記記憶されたオフセットに基づいて、前記オーディオに基づいた方向を変更することを特徴とする請求項1に記載のシステム。
- 前記オーディオソースロケータは、前記オーディオに基づいた方向をビデオに基づいた位置に相関させ、前記相関の結果に基づいて、前記オーディオに基づいた方向を変更することを特徴とする請求項1に記載のシステム。
- 前記ビデオベースロケータは、雑音レベルを判断し、前記雑音レベルの増大はイメージ中の人の輪郭を検出する可能性を減少させ、ビデオベースロケータは前記雑音レベルに基づいて前記パラメータを変化させることを特徴とする請求項1に記載のシステム。
- 前記オーディオベースロケータは、前記オーディオソースの前記オーディオに基づいた方向を、前記オブジェクトの前記ビデオに基づいた位置と相関させ、前記オブジェクトが前記オーディオソースと対応するかどうかを判断し、
もし前記オーディオベースロケータが、前記オブジェクトは前記オーディオソースと対応しないと判断したなら、前記オーディオベースロケータは、前記オーディオソース及び前記オブジェクトの前記ビデオに基づいた位置が視界中に含まれるように、前記イメージピックアップデバイスの前記視界の調節を引き起こすことを特徴とする請求項1に記載のシステム。 - 前記イメージ信号はビデオイメージのフレームを表わし、
前記オーディオベースロケータは、前記オーディオ信号に基づいて、前記基準点から前記オーディオソースへのオーディオに基づいた距離を決定し、
前記ビデオベースロケータは、ビデオの前記フレームに基づいて、前記基準点から前記オーディオソースへのビデオに基づいた距離を決定し、
前記オーディオソースロケータは、前記オーディオに基づいた距離及び前記ビデオに基づいた距離に基づいて前記距離を決定することを特徴とする請求項5に記載のシステム。 - イメージピックアップデバイスで、イメージ信号を生成するステップと、
オーディオソースからの音を表わすオーディオ信号を生成するステップと、
ある基準点に対する前記オーディオソースのオーディオに基づいた方向を決定するため、前記オーディオ信号を処理するステップと、
オーディオソースの方向にあるオブジェクトのビデオに基づいた位置を識別及び決定するため、肌色のピクセルを検出するために、前記イメージ信号を処理するステップと、
オーディオソースの方向にある前記オブジェクトをフレーミングするために、前記イメージピックアップデバイスを制御するステップと、を有する方法であって、
前記イメージ信号及び前記オーディオ信号を処理することが、さらに:
前記オブジェクトの前記ビデオに基づいた位置の所定の基準点からのオフセットを決定することと、
前記オフセットに基づいて、前記オーディオに基づいた方向を変更することによって前記方向を決定すること、を含み、
前記オブジェクトのビデオに基づいた位置を識別及び決定することは、前記オブジェクトの輪郭を一部又は全部、決定することにより前記オブジェクトのビデオに基づいた位置を識別及び決定することを含み、
前記オブジェクトの前記輪郭を検出することは、パラメータを使用することを含み、前記パラメータを1つの方向に変化させることは、オブジェクトの輪郭を検出する可能性を増大させ、及び前記パラメータを他の方向に変化させることは前記可能性を減少させ、前記オブジェクトの前記輪郭が検出された時、前記可能性を増大又は減少させるために前記パラメータが変化させられる、ことを特徴とする方法。 - 前記オブジェクトをフレーミングするために、前記イメージピックアップデバイスの視界を変化させるステップを更に含む請求項7に記載の方法。
- 前記イメージ信号及びオーディオ信号を処理する前記ステップは、所定の基準点からの、オブジェクトのビデオに基づいた位置の、前に決定されたオフセットに基づいて、前記オーディオソースの方向を決定するために、前記オーディオに基づいた方向を変更するステップを更に含むことを特徴とする請求項7に記載の方法。
- 前記イメージ信号及びオーディオ信号を処理する前記ステップは、
前記オーディオソースの前記オーディオに基づいた方向を、前記オブジェクトのビデオに基づいた位置と相関させ、前記オブジェクトが前記オーディオソースに対応するかどうかを決定するステップと、
ビデオのフレーミングされた前記オブジェクトが前記オーディオソースに対応すると判断される場合のみに、前記イメージピックアップデバイスのための制御信号を作り出す際に前記オーディオに基づいた方向を使用するステップとを更に含むことを特徴とする請求項7に記載の方法。 - 前記イメージ信号及びオーディオ信号を処理する前記ステップは、
複数のオーディオソースを検出するステップと、
前記イメージピックアップデバイスのための制御信号を作り出す際に使用する前記複数のオーディオソースのうちの少なくとも1つを認定すべきかどうかを決定するためにパラメータを使用するステップであって、前記パラメータを1つの方向に変化させることは、前記複数のオーディオソースのうちの前記少なくとも1つを認定する可能性を増大させ、また前記パラメータを他の方向に変化させることは、前記可能性を減少させるステップと、
前記オーディオソースの前記オーディオに基づいた方向を、オブジェクトのビデオに基づいた位置と相関させ、前記オブジェクトが前記オーディオソースに対応するかどうかを決定するステップと、
もし前記オブジェクトが前記オーディオソースに対応するなら、前記1つの方向に前記パラメータを変化させるステップとを更に含むことを特徴とする請求項7に記載の方法。 - 前記イメージ信号はビデオイメージのフレームを表わすことを特徴とし、
前記オーディオ信号に基づいて、前記基準点から前記オーディオソースへのオーディオに基づいた距離を決定するステップと、
ビデオのフレームのうちの1つの中の前記オブジェクトのイメージに基づいて、前記基準点から前記オーディオソースへのビデオに基づいた距離を決定するステップと、
前記オーディオに基づいた距離及び前記ビデオに基づいた距離に基づいて距離を決定するステップとを更に含むことを特徴とする請求項11に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/079,840 | 1998-05-15 | ||
US09/079,840 US6593956B1 (en) | 1998-05-15 | 1998-05-15 | Locating an audio source |
PCT/US1999/010667 WO1999060788A1 (en) | 1998-05-15 | 1999-05-14 | Locating an audio source |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002516535A JP2002516535A (ja) | 2002-06-04 |
JP4450508B2 true JP4450508B2 (ja) | 2010-04-14 |
Family
ID=22153126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000550274A Expired - Fee Related JP4450508B2 (ja) | 1998-05-15 | 1999-05-14 | オーディオソースの位置決定 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6593956B1 (ja) |
EP (1) | EP1004204B1 (ja) |
JP (1) | JP4450508B2 (ja) |
AU (1) | AU6308799A (ja) |
DE (1) | DE69920138T2 (ja) |
WO (1) | WO1999060788A1 (ja) |
Families Citing this family (282)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6650761B1 (en) | 1999-05-19 | 2003-11-18 | Digimarc Corporation | Watermarked business cards and methods |
JP3541339B2 (ja) * | 1997-06-26 | 2004-07-07 | 富士通株式会社 | マイクロホンアレイ装置 |
US7117157B1 (en) * | 1999-03-26 | 2006-10-03 | Canon Kabushiki Kaisha | Processing apparatus for determining which person in a group is speaking |
JP3699608B2 (ja) * | 1999-04-01 | 2005-09-28 | 富士通株式会社 | 話者照合装置及び方法 |
GB9908545D0 (en) | 1999-04-14 | 1999-06-09 | Canon Kk | Image processing apparatus |
JP3357628B2 (ja) * | 1999-04-16 | 2002-12-16 | 池上通信機株式会社 | ビューファインダの制御装置およびテレビカメラ |
AUPQ464099A0 (en) * | 1999-12-14 | 2000-01-13 | Canon Kabushiki Kaisha | Emotive editing system |
US7028269B1 (en) * | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
JP2001292085A (ja) * | 2000-04-10 | 2001-10-19 | Mitsubishi Electric Corp | 非接触伝送装置 |
US6850265B1 (en) * | 2000-04-13 | 2005-02-01 | Koninklijke Philips Electronics N.V. | Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications |
US7002617B1 (en) * | 2000-07-20 | 2006-02-21 | Robert Samuel Smith | Coordinated audio and visual omnidirectional recording |
EP1308039A1 (en) * | 2000-08-01 | 2003-05-07 | Koninklijke Philips Electronics N.V. | Aiming a device at a sound source |
US20070273751A1 (en) * | 2000-09-05 | 2007-11-29 | Sachau John A | System and methods for mobile videoconferencing |
US7038709B1 (en) * | 2000-11-01 | 2006-05-02 | Gilbert Verghese | System and method for tracking a subject |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
US6577333B2 (en) | 2000-12-12 | 2003-06-10 | Intel Corporation | Automatic multi-camera video composition |
US6975991B2 (en) * | 2001-01-31 | 2005-12-13 | International Business Machines Corporation | Wearable display system with indicators of speakers |
US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
US8108509B2 (en) * | 2001-04-30 | 2012-01-31 | Sony Computer Entertainment America Llc | Altering network transmitted content data based upon user specified characteristics |
US6611281B2 (en) | 2001-11-13 | 2003-08-26 | Koninklijke Philips Electronics N.V. | System and method for providing an awareness of remote people in the room during a videoconference |
JP3933449B2 (ja) * | 2001-11-22 | 2007-06-20 | 株式会社東芝 | コミュニケーション支援装置 |
US7130446B2 (en) | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
DE10208465A1 (de) * | 2002-02-27 | 2003-09-18 | Bsh Bosch Siemens Hausgeraete | Elektrisches Gerät, insbesondere Dunstabzugshaube |
US6795794B2 (en) * | 2002-03-01 | 2004-09-21 | The Board Of Trustees Of The University Of Illinois | Method for determination of spatial target probability using a model of multisensory processing by the brain |
US20030202107A1 (en) * | 2002-04-30 | 2003-10-30 | Slattery E. Michael | Automated camera view control system |
US7598975B2 (en) * | 2002-06-21 | 2009-10-06 | Microsoft Corporation | Automatic face extraction for use in recorded meetings timelines |
US6940540B2 (en) * | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
US7161579B2 (en) | 2002-07-18 | 2007-01-09 | Sony Computer Entertainment Inc. | Hand-held computer interactive device |
US7623115B2 (en) | 2002-07-27 | 2009-11-24 | Sony Computer Entertainment Inc. | Method and apparatus for light input device |
US7883415B2 (en) | 2003-09-15 | 2011-02-08 | Sony Computer Entertainment Inc. | Method and apparatus for adjusting a view of a scene being displayed according to tracked head motion |
US8797260B2 (en) | 2002-07-27 | 2014-08-05 | Sony Computer Entertainment Inc. | Inertially trackable hand-held controller |
US7646372B2 (en) | 2003-09-15 | 2010-01-12 | Sony Computer Entertainment Inc. | Methods and systems for enabling direction detection when interfacing with a computer program |
US9474968B2 (en) | 2002-07-27 | 2016-10-25 | Sony Interactive Entertainment America Llc | Method and system for applying gearing effects to visual tracking |
US7760248B2 (en) | 2002-07-27 | 2010-07-20 | Sony Computer Entertainment Inc. | Selective sound source listening in conjunction with computer interactive processing |
US8570378B2 (en) | 2002-07-27 | 2013-10-29 | Sony Computer Entertainment Inc. | Method and apparatus for tracking three-dimensional movements of an object using a depth sensing camera |
US8686939B2 (en) | 2002-07-27 | 2014-04-01 | Sony Computer Entertainment Inc. | System, method, and apparatus for three-dimensional input control |
US7627139B2 (en) * | 2002-07-27 | 2009-12-01 | Sony Computer Entertainment Inc. | Computer image and audio processing of intensity and input devices for interfacing with a computer program |
US9393487B2 (en) | 2002-07-27 | 2016-07-19 | Sony Interactive Entertainment Inc. | Method for mapping movements of a hand-held controller to game commands |
US8313380B2 (en) | 2002-07-27 | 2012-11-20 | Sony Computer Entertainment America Llc | Scheme for translating movements of a hand-held controller into inputs for a system |
US9682319B2 (en) | 2002-07-31 | 2017-06-20 | Sony Interactive Entertainment Inc. | Combiner method for altering game gearing |
GB2395853A (en) | 2002-11-29 | 2004-06-02 | Sony Uk Ltd | Association of metadata derived from facial images |
EP1429314A1 (en) * | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
DE10304215A1 (de) * | 2003-01-30 | 2004-08-19 | Gesellschaft zur Förderung angewandter Informatik eV | Verfahren und Vorrichtung zur bildgebenden Darstellung von akustischen Objekten sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium |
US9177387B2 (en) | 2003-02-11 | 2015-11-03 | Sony Computer Entertainment Inc. | Method and apparatus for real time motion capture |
US8072470B2 (en) | 2003-05-29 | 2011-12-06 | Sony Computer Entertainment Inc. | System and method for providing a real-time three-dimensional interactive environment |
US7397495B2 (en) | 2003-06-20 | 2008-07-08 | Apple Inc. | Video conferencing apparatus and method |
US7559026B2 (en) * | 2003-06-20 | 2009-07-07 | Apple Inc. | Video conferencing system having focus control |
JP2005086365A (ja) * | 2003-09-05 | 2005-03-31 | Sony Corp | 通話装置、会議装置および撮像条件調整方法 |
US8228377B2 (en) * | 2003-09-12 | 2012-07-24 | Logitech Europe S.A. | Pan and tilt camera |
US10279254B2 (en) | 2005-10-26 | 2019-05-07 | Sony Interactive Entertainment Inc. | Controller having visually trackable object for interfacing with a gaming system |
US7874917B2 (en) | 2003-09-15 | 2011-01-25 | Sony Computer Entertainment Inc. | Methods and systems for enabling depth and direction detection when interfacing with a computer program |
US9573056B2 (en) | 2005-10-26 | 2017-02-21 | Sony Interactive Entertainment Inc. | Expandable control device via hardware attachment |
US8287373B2 (en) | 2008-12-05 | 2012-10-16 | Sony Computer Entertainment Inc. | Control device for communicating visual information |
US8323106B2 (en) | 2008-05-30 | 2012-12-04 | Sony Computer Entertainment America Llc | Determination of controller three-dimensional location using image analysis and ultrasonic communication |
JP4269883B2 (ja) * | 2003-10-20 | 2009-05-27 | ソニー株式会社 | マイクロホン装置、再生装置及び撮像装置 |
TWI230023B (en) * | 2003-11-20 | 2005-03-21 | Acer Inc | Sound-receiving method of microphone array associating positioning technology and system thereof |
JP4558308B2 (ja) * | 2003-12-03 | 2010-10-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
GB0330253D0 (en) * | 2003-12-31 | 2004-02-04 | Mitel Networks Corp | Self-discovery method |
US7663689B2 (en) | 2004-01-16 | 2010-02-16 | Sony Computer Entertainment Inc. | Method and apparatus for optimizing capture device settings through depth information |
US7126816B2 (en) | 2004-03-12 | 2006-10-24 | Apple Computer, Inc. | Camera latch |
US8244542B2 (en) * | 2004-07-01 | 2012-08-14 | Emc Corporation | Video surveillance |
US7623156B2 (en) * | 2004-07-16 | 2009-11-24 | Polycom, Inc. | Natural pan tilt zoom camera motion to preset camera positions |
US8547401B2 (en) | 2004-08-19 | 2013-10-01 | Sony Computer Entertainment Inc. | Portable augmented reality device and method |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US7917935B2 (en) * | 2004-10-01 | 2011-03-29 | Logitech Europe S.A. | Mechanical pan, tilt and zoom in a webcam |
US7667728B2 (en) * | 2004-10-15 | 2010-02-23 | Lifesize Communications, Inc. | Video and audio conferencing system with spatial audio |
US7688345B2 (en) * | 2004-10-15 | 2010-03-30 | Lifesize Communications, Inc. | Audio output in video conferencing and speakerphone based on call type |
US7760887B2 (en) * | 2004-10-15 | 2010-07-20 | Lifesize Communications, Inc. | Updating modeling information based on online data gathering |
US8054336B2 (en) * | 2004-10-15 | 2011-11-08 | Lifesize Communications, Inc. | High definition pan tilt zoom camera with embedded microphones and thin cable for data and power |
US20060132595A1 (en) * | 2004-10-15 | 2006-06-22 | Kenoyer Michael L | Speakerphone supporting video and audio features |
US7720232B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Speakerphone |
US8116500B2 (en) * | 2004-10-15 | 2012-02-14 | Lifesize Communications, Inc. | Microphone orientation and size in a speakerphone |
US7826624B2 (en) * | 2004-10-15 | 2010-11-02 | Lifesize Communications, Inc. | Speakerphone self calibration and beam forming |
US8237770B2 (en) | 2004-10-15 | 2012-08-07 | Lifesize Communications, Inc. | Audio based on speaker position and/or conference location |
US7473040B2 (en) * | 2004-10-15 | 2009-01-06 | Lifesize Communications, Inc. | High definition camera pan tilt mechanism |
US7717629B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Coordinated camera pan tilt mechanism |
US7903137B2 (en) * | 2004-10-15 | 2011-03-08 | Lifesize Communications, Inc. | Videoconferencing echo cancellers |
US7720236B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Updating modeling information based on offline calibration experiments |
US7970151B2 (en) * | 2004-10-15 | 2011-06-28 | Lifesize Communications, Inc. | Hybrid beamforming |
DE102004000043A1 (de) * | 2004-11-17 | 2006-05-24 | Siemens Ag | Verfahren zur selektiven Aufnahme eines Schallsignals |
JP2006197115A (ja) * | 2005-01-12 | 2006-07-27 | Fuji Photo Film Co Ltd | 撮像装置及び画像出力装置 |
JP4770178B2 (ja) * | 2005-01-17 | 2011-09-14 | ソニー株式会社 | カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法 |
US7995768B2 (en) * | 2005-01-27 | 2011-08-09 | Yamaha Corporation | Sound reinforcement system |
KR100703699B1 (ko) * | 2005-02-05 | 2007-04-05 | 삼성전자주식회사 | 다자간 화상 통신을 제공하는 장치 및 방법 |
JP4540705B2 (ja) * | 2005-02-17 | 2010-09-08 | 富士通株式会社 | 画像処理方法、画像処理システム、撮像装置、画像処理装置及びコンピュータプログラム |
ATE400474T1 (de) * | 2005-02-23 | 2008-07-15 | Harman Becker Automotive Sys | Spracherkennungssytem in einem kraftfahrzeug |
EP1705911A1 (en) * | 2005-03-24 | 2006-09-27 | Alcatel | Video conference system |
US20060245601A1 (en) * | 2005-04-27 | 2006-11-02 | Francois Michaud | Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering |
US7970150B2 (en) * | 2005-04-29 | 2011-06-28 | Lifesize Communications, Inc. | Tracking talkers using virtual broadside scan and directed beams |
US7593539B2 (en) | 2005-04-29 | 2009-09-22 | Lifesize Communications, Inc. | Microphone and speaker arrangement in speakerphone |
US7991167B2 (en) * | 2005-04-29 | 2011-08-02 | Lifesize Communications, Inc. | Forming beams with nulls directed at noise sources |
JP4441879B2 (ja) * | 2005-06-28 | 2010-03-31 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びに記録媒体 |
DE102005038717A1 (de) * | 2005-08-15 | 2007-03-01 | Micronas Gmbh | Verfahren zum Verarbeiten audio-visueller Daten und audio-visuelles Kommunikationssystem |
JP4356663B2 (ja) * | 2005-08-17 | 2009-11-04 | ソニー株式会社 | カメラ制御装置および電子会議システム |
US8467672B2 (en) * | 2005-10-17 | 2013-06-18 | Jeffrey C. Konicek | Voice recognition and gaze-tracking for a camera |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8760485B2 (en) * | 2006-03-02 | 2014-06-24 | Cisco Technology, Inc. | System and method for displaying participants in a videoconference between locations |
CN101496387B (zh) | 2006-03-06 | 2012-09-05 | 思科技术公司 | 用于移动无线网络中的接入认证的系统和方法 |
US7692680B2 (en) * | 2006-04-20 | 2010-04-06 | Cisco Technology, Inc. | System and method for providing location specific sound in a telepresence system |
US7679639B2 (en) * | 2006-04-20 | 2010-03-16 | Cisco Technology, Inc. | System and method for enhancing eye gaze in a telepresence system |
US20110014981A1 (en) * | 2006-05-08 | 2011-01-20 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
CN100442837C (zh) * | 2006-07-25 | 2008-12-10 | 华为技术有限公司 | 一种具有声音位置信息的视频通讯系统及其获取方法 |
US8781151B2 (en) | 2006-09-28 | 2014-07-15 | Sony Computer Entertainment Inc. | Object detection using video input combined with tilt angle information |
USRE48417E1 (en) | 2006-09-28 | 2021-02-02 | Sony Interactive Entertainment Inc. | Object direction using video input combined with tilt angle information |
US8310656B2 (en) | 2006-09-28 | 2012-11-13 | Sony Computer Entertainment America Llc | Mapping movements of a hand-held controller to the two-dimensional image plane of a display screen |
RS49875B (sr) * | 2006-10-04 | 2008-08-07 | Micronasnit, | Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza |
AU2007221976B2 (en) * | 2006-10-19 | 2009-12-24 | Polycom, Inc. | Ultrasonic camera tracking system and associated methods |
KR100775063B1 (ko) * | 2006-11-09 | 2007-11-08 | 삼성전자주식회사 | 이미지 센서의 랜덤 노이즈 평가 방법 및 평가 장치 |
US8085290B2 (en) * | 2006-12-06 | 2011-12-27 | Cisco Technology, Inc. | System and method for displaying a videoconference |
NO328582B1 (no) * | 2006-12-29 | 2010-03-22 | Tandberg Telecom As | Mikrofon for lydkildesporing |
TWI327230B (en) * | 2007-04-03 | 2010-07-11 | Ind Tech Res Inst | Sound source localization system and sound soure localization method |
JP4420056B2 (ja) * | 2007-04-20 | 2010-02-24 | ソニー株式会社 | 画像処理装置と画像処理方法および画像処理プログラム、並びに再生情報生成装置と再生情報生成方法及び再生情報生成プログラム |
CN100505837C (zh) * | 2007-05-10 | 2009-06-24 | 华为技术有限公司 | 一种控制图像采集装置进行目标定位的系统及方法 |
US8570373B2 (en) * | 2007-06-08 | 2013-10-29 | Cisco Technology, Inc. | Tracking an object utilizing location information associated with a wireless device |
AU2008202703B2 (en) * | 2007-06-20 | 2012-03-08 | Mcomms Design Pty Ltd | Apparatus and method for providing multimedia content |
NO327899B1 (no) * | 2007-07-13 | 2009-10-19 | Tandberg Telecom As | Fremgangsmate og system for automatisk kamerakontroll |
US20090055178A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method of controlling personalized settings in a vehicle |
JP4896838B2 (ja) * | 2007-08-31 | 2012-03-14 | カシオ計算機株式会社 | 撮像装置、画像検出装置及びプログラム |
CN101132516B (zh) * | 2007-09-28 | 2010-07-28 | 华为终端有限公司 | 一种视频通讯的方法、系统及用于视频通讯的装置 |
US8542907B2 (en) | 2007-12-17 | 2013-09-24 | Sony Computer Entertainment America Llc | Dynamic three-dimensional object mapping for user-defined control device |
US8355041B2 (en) | 2008-02-14 | 2013-01-15 | Cisco Technology, Inc. | Telepresence system for 360 degree video conferencing |
US8797377B2 (en) | 2008-02-14 | 2014-08-05 | Cisco Technology, Inc. | Method and system for videoconference configuration |
KR101335346B1 (ko) | 2008-02-27 | 2013-12-05 | 소니 컴퓨터 엔터테인먼트 유럽 리미티드 | 장면의 심도 데이터를 포착하고, 컴퓨터 액션을 적용하기 위한 방법들 |
US8368753B2 (en) | 2008-03-17 | 2013-02-05 | Sony Computer Entertainment America Llc | Controller with an integrated depth camera |
US8319819B2 (en) | 2008-03-26 | 2012-11-27 | Cisco Technology, Inc. | Virtual round-table videoconference |
US8390667B2 (en) | 2008-04-15 | 2013-03-05 | Cisco Technology, Inc. | Pop-up PIP for people not in picture |
CN102016878B (zh) * | 2008-05-08 | 2015-03-18 | 纽昂斯通讯公司 | 定位声音信号源的位置 |
US10904658B2 (en) | 2008-07-31 | 2021-01-26 | Nokia Technologies Oy | Electronic device directional audio-video capture |
US9445193B2 (en) * | 2008-07-31 | 2016-09-13 | Nokia Technologies Oy | Electronic device directional audio capture |
US8314829B2 (en) * | 2008-08-12 | 2012-11-20 | Microsoft Corporation | Satellite microphones for improved speaker detection and zoom |
US8694658B2 (en) | 2008-09-19 | 2014-04-08 | Cisco Technology, Inc. | System and method for enabling communication sessions in a network environment |
US20100085415A1 (en) | 2008-10-02 | 2010-04-08 | Polycom, Inc | Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference |
US20100123785A1 (en) * | 2008-11-17 | 2010-05-20 | Apple Inc. | Graphic Control for Directional Audio Input |
US8961313B2 (en) | 2009-05-29 | 2015-02-24 | Sony Computer Entertainment America Llc | Multi-positional three-dimensional controller |
CN101442654B (zh) * | 2008-12-26 | 2012-05-23 | 华为终端有限公司 | 视频通信中视频对象切换的方法、装置及系统 |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
JP2010206451A (ja) * | 2009-03-03 | 2010-09-16 | Panasonic Corp | カメラ付きスピーカ、信号処理装置、およびavシステム |
US8477175B2 (en) | 2009-03-09 | 2013-07-02 | Cisco Technology, Inc. | System and method for providing three dimensional imaging in a network environment |
US8659637B2 (en) | 2009-03-09 | 2014-02-25 | Cisco Technology, Inc. | System and method for providing three dimensional video conferencing in a network environment |
US8527657B2 (en) | 2009-03-20 | 2013-09-03 | Sony Computer Entertainment America Llc | Methods and systems for dynamically adjusting update rates in multi-player network gaming |
US8342963B2 (en) | 2009-04-10 | 2013-01-01 | Sony Computer Entertainment America Inc. | Methods and systems for enabling control of artificial intelligence game characters |
US8393964B2 (en) | 2009-05-08 | 2013-03-12 | Sony Computer Entertainment America Llc | Base station for position location |
US8142288B2 (en) | 2009-05-08 | 2012-03-27 | Sony Computer Entertainment America Llc | Base station movement detection and compensation |
JP5437095B2 (ja) * | 2009-05-19 | 2014-03-12 | 東芝機械株式会社 | 敷ブロックの配置方法、敷ブロック移動用工具、および、その工具を備えた工作機械 |
US8659639B2 (en) | 2009-05-29 | 2014-02-25 | Cisco Technology, Inc. | System and method for extending communications between participants in a conferencing environment |
WO2011001005A1 (en) | 2009-06-30 | 2011-01-06 | Nokia Corporation | Audio-controlled image capturing |
US9082297B2 (en) | 2009-08-11 | 2015-07-14 | Cisco Technology, Inc. | System and method for verifying parameters in an audiovisual environment |
JP5418061B2 (ja) * | 2009-08-20 | 2014-02-19 | 沖電気工業株式会社 | 遠隔コミュニケーション装置、遠隔コミュニケーション方法、および遠隔コミュニケーションシステム |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
CN102158680A (zh) * | 2010-02-11 | 2011-08-17 | 北京华旗随身数码股份有限公司 | 具有可视化功能的电话会议终端 |
US9225916B2 (en) | 2010-03-18 | 2015-12-29 | Cisco Technology, Inc. | System and method for enhancing video images in a conferencing environment |
USD626102S1 (en) | 2010-03-21 | 2010-10-26 | Cisco Tech Inc | Video unit with integrated features |
USD626103S1 (en) | 2010-03-21 | 2010-10-26 | Cisco Technology, Inc. | Video unit with integrated features |
US9955209B2 (en) * | 2010-04-14 | 2018-04-24 | Alcatel-Lucent Usa Inc. | Immersive viewer, a method of providing scenes on a display and an immersive viewing system |
US8712069B1 (en) * | 2010-04-19 | 2014-04-29 | Audience, Inc. | Selection of system parameters based on non-acoustic sensor information |
US9294716B2 (en) | 2010-04-30 | 2016-03-22 | Alcatel Lucent | Method and system for controlling an imaging system |
US9313452B2 (en) | 2010-05-17 | 2016-04-12 | Cisco Technology, Inc. | System and method for providing retracting optics in a video conferencing environment |
AU2011201881B2 (en) * | 2010-05-18 | 2015-02-12 | Polycom, Inc. | Voice tracking camera with speaker indentification |
US9723260B2 (en) | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
US8248448B2 (en) * | 2010-05-18 | 2012-08-21 | Polycom, Inc. | Automatic camera framing for videoconferencing |
US8395653B2 (en) | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US8842161B2 (en) | 2010-05-18 | 2014-09-23 | Polycom, Inc. | Videoconferencing system having adjunct camera for auto-framing and tracking |
US9772815B1 (en) | 2013-11-14 | 2017-09-26 | Knowles Electronics, Llc | Personalized operation of a mobile device using acoustic and non-acoustic information |
US8896655B2 (en) | 2010-08-31 | 2014-11-25 | Cisco Technology, Inc. | System and method for providing depth adaptive video conferencing |
US8599934B2 (en) | 2010-09-08 | 2013-12-03 | Cisco Technology, Inc. | System and method for skip coding during video conferencing in a network environment |
US8754925B2 (en) | 2010-09-30 | 2014-06-17 | Alcatel Lucent | Audio source locator and tracker, a method of directing a camera to view an audio source and a video conferencing terminal |
US9496841B2 (en) | 2010-10-21 | 2016-11-15 | Nokia Technologies Oy | Recording level adjustment using a distance to a sound source |
US8599865B2 (en) | 2010-10-26 | 2013-12-03 | Cisco Technology, Inc. | System and method for provisioning flows in a mobile network environment |
US8699457B2 (en) | 2010-11-03 | 2014-04-15 | Cisco Technology, Inc. | System and method for managing flows in a mobile network environment |
US8730297B2 (en) | 2010-11-15 | 2014-05-20 | Cisco Technology, Inc. | System and method for providing camera functions in a video environment |
US9338394B2 (en) | 2010-11-15 | 2016-05-10 | Cisco Technology, Inc. | System and method for providing enhanced audio in a video environment |
US9143725B2 (en) | 2010-11-15 | 2015-09-22 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US8902244B2 (en) | 2010-11-15 | 2014-12-02 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US8542264B2 (en) | 2010-11-18 | 2013-09-24 | Cisco Technology, Inc. | System and method for managing optics in a video environment |
US8723914B2 (en) | 2010-11-19 | 2014-05-13 | Cisco Technology, Inc. | System and method for providing enhanced video processing in a network environment |
US9111138B2 (en) | 2010-11-30 | 2015-08-18 | Cisco Technology, Inc. | System and method for gesture interface control |
USD682864S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678894S1 (en) | 2010-12-16 | 2013-03-26 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678307S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682854S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen for graphical user interface |
USD682294S1 (en) | 2010-12-16 | 2013-05-14 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682293S1 (en) | 2010-12-16 | 2013-05-14 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678308S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678320S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
US9195740B2 (en) * | 2011-01-18 | 2015-11-24 | Nokia Technologies Oy | Audio scene selection apparatus |
JP5754967B2 (ja) * | 2011-02-09 | 2015-07-29 | キヤノン株式会社 | 画像情報処理装置及びその制御方法 |
US8692862B2 (en) | 2011-02-28 | 2014-04-08 | Cisco Technology, Inc. | System and method for selection of video data in a video conference environment |
US8670019B2 (en) | 2011-04-28 | 2014-03-11 | Cisco Technology, Inc. | System and method for providing enhanced eye gaze in a video conferencing environment |
US8786631B1 (en) | 2011-04-30 | 2014-07-22 | Cisco Technology, Inc. | System and method for transferring transparency information in a video environment |
US8934026B2 (en) | 2011-05-12 | 2015-01-13 | Cisco Technology, Inc. | System and method for video coding in a dynamic environment |
JP5917270B2 (ja) * | 2011-05-27 | 2016-05-11 | キヤノン株式会社 | 音検出装置及びその制御方法、プログラム |
US9030520B2 (en) | 2011-06-20 | 2015-05-12 | Polycom, Inc. | Automatic camera selection for videoconferencing |
US9557885B2 (en) | 2011-08-09 | 2017-01-31 | Gopro, Inc. | Digital media editing |
CN103002195B (zh) * | 2011-09-09 | 2016-03-30 | 中磊电子(苏州)有限公司 | 运动检测方法及运动检测装置 |
US8947493B2 (en) | 2011-11-16 | 2015-02-03 | Cisco Technology, Inc. | System and method for alerting a participant in a video conference |
US9008487B2 (en) | 2011-12-06 | 2015-04-14 | Alcatel Lucent | Spatial bookmarking |
US8682087B2 (en) | 2011-12-19 | 2014-03-25 | Cisco Technology, Inc. | System and method for depth-guided image filtering in a video conference environment |
US9459276B2 (en) | 2012-01-06 | 2016-10-04 | Sensor Platforms, Inc. | System and method for device self-calibration |
US9767828B1 (en) * | 2012-06-27 | 2017-09-19 | Amazon Technologies, Inc. | Acoustic echo cancellation using visual cues |
US9258644B2 (en) | 2012-07-27 | 2016-02-09 | Nokia Technologies Oy | Method and apparatus for microphone beamforming |
US9726498B2 (en) | 2012-11-29 | 2017-08-08 | Sensor Platforms, Inc. | Combining monitoring sensor measurements and system signals to determine device context |
US9681154B2 (en) | 2012-12-06 | 2017-06-13 | Patent Capital Group | System and method for depth-guided filtering in a video conference environment |
US8957940B2 (en) | 2013-03-11 | 2015-02-17 | Cisco Technology, Inc. | Utilizing a smart camera system for immersive telepresence |
US9478233B2 (en) | 2013-03-14 | 2016-10-25 | Polycom, Inc. | Speech fragment detection for management of interaction in a remote conference |
US9215406B2 (en) | 2013-03-14 | 2015-12-15 | Polycom, Inc. | Immersive telepresence anywhere |
US10750132B2 (en) * | 2013-03-14 | 2020-08-18 | Pelco, Inc. | System and method for audio source localization using multiple audio sensors |
US10635383B2 (en) | 2013-04-04 | 2020-04-28 | Nokia Technologies Oy | Visual audio processing apparatus |
US9843621B2 (en) | 2013-05-17 | 2017-12-12 | Cisco Technology, Inc. | Calendaring activities based on communication processing |
US9088689B2 (en) * | 2013-06-26 | 2015-07-21 | Avaya, Inc. | Automated field of view adjustment based on screen size |
US9113036B2 (en) | 2013-07-17 | 2015-08-18 | Ebay Inc. | Methods, systems, and apparatus for providing video communications |
US9781106B1 (en) | 2013-11-20 | 2017-10-03 | Knowles Electronics, Llc | Method for modeling user possession of mobile device for user authentication framework |
US9754159B2 (en) | 2014-03-04 | 2017-09-05 | Gopro, Inc. | Automatic generation of video from spherical content using location-based metadata |
US9500739B2 (en) | 2014-03-28 | 2016-11-22 | Knowles Electronics, Llc | Estimating and tracking multiple attributes of multiple objects from multi-sensor data |
US9686605B2 (en) * | 2014-05-20 | 2017-06-20 | Cisco Technology, Inc. | Precise tracking of sound angle of arrival at a microphone array under air temperature variation |
US9685194B2 (en) | 2014-07-23 | 2017-06-20 | Gopro, Inc. | Voice-based video tagging |
US9984293B2 (en) | 2014-07-23 | 2018-05-29 | Gopro, Inc. | Video scene classification by activity |
US9769552B2 (en) | 2014-08-19 | 2017-09-19 | Apple Inc. | Method and apparatus for estimating talker distance |
US9584763B2 (en) * | 2014-11-06 | 2017-02-28 | Cisco Technology, Inc. | Automatic switching between dynamic and preset camera views in a video conference endpoint |
US10002478B2 (en) | 2014-12-12 | 2018-06-19 | Qualcomm Incorporated | Identification and authentication in a shared acoustic space |
US9734870B2 (en) | 2015-01-05 | 2017-08-15 | Gopro, Inc. | Media identifier generation for camera-captured media |
US9679605B2 (en) | 2015-01-29 | 2017-06-13 | Gopro, Inc. | Variable playback speed template for video editing application |
WO2016187235A1 (en) | 2015-05-20 | 2016-11-24 | Gopro, Inc. | Virtual lens simulation for video and photo cropping |
USD812076S1 (en) | 2015-06-14 | 2018-03-06 | Google Llc | Display screen with graphical user interface for monitoring remote video camera |
US10133443B2 (en) | 2015-06-14 | 2018-11-20 | Google Llc | Systems and methods for smart home automation using a multifunction status and entry point icon |
USD803241S1 (en) | 2015-06-14 | 2017-11-21 | Google Inc. | Display screen with animated graphical user interface for an alert screen |
US9361011B1 (en) | 2015-06-14 | 2016-06-07 | Google Inc. | Methods and systems for presenting multiple live video feeds in a user interface |
JP6646967B2 (ja) * | 2015-07-31 | 2020-02-14 | キヤノン株式会社 | 制御装置、再生システム、補正方法、及び、コンピュータプログラム |
KR102409536B1 (ko) | 2015-08-07 | 2022-06-17 | 시러스 로직 인터내셔널 세미컨덕터 리미티드 | 오디오 디바이스에서 재생 관리를 위한 사건 검출 |
US9721611B2 (en) | 2015-10-20 | 2017-08-01 | Gopro, Inc. | System and method of generating video from video clips based on moments of interest within the video clips |
US10204273B2 (en) | 2015-10-20 | 2019-02-12 | Gopro, Inc. | System and method of providing recommendations of moments of interest within video clips post capture |
US10109319B2 (en) | 2016-01-08 | 2018-10-23 | Gopro, Inc. | Digital media editing |
US10083537B1 (en) | 2016-02-04 | 2018-09-25 | Gopro, Inc. | Systems and methods for adding a moving visual element to a video |
FR3047628B1 (fr) * | 2016-02-05 | 2018-05-25 | Christophe Guedon | Procede d'aide au suivi d'une conversation pour personne malentendante |
US9633270B1 (en) * | 2016-04-05 | 2017-04-25 | Cisco Technology, Inc. | Using speaker clustering to switch between different camera views in a video conference system |
US9794632B1 (en) | 2016-04-07 | 2017-10-17 | Gopro, Inc. | Systems and methods for synchronization based on audio track changes in video editing |
US9838730B1 (en) | 2016-04-07 | 2017-12-05 | Gopro, Inc. | Systems and methods for audio track selection in video editing |
US9838731B1 (en) | 2016-04-07 | 2017-12-05 | Gopro, Inc. | Systems and methods for audio track selection in video editing with audio mixing option |
US10063987B2 (en) | 2016-05-31 | 2018-08-28 | Nureva Inc. | Method, apparatus, and computer-readable media for focussing sound signals in a shared 3D space |
US10185891B1 (en) | 2016-07-08 | 2019-01-22 | Gopro, Inc. | Systems and methods for compact convolutional neural networks |
USD882583S1 (en) | 2016-07-12 | 2020-04-28 | Google Llc | Display screen with graphical user interface |
US10263802B2 (en) | 2016-07-12 | 2019-04-16 | Google Llc | Methods and devices for establishing connections with remote cameras |
US9836853B1 (en) | 2016-09-06 | 2017-12-05 | Gopro, Inc. | Three-dimensional convolutional neural networks for video highlight detection |
US10165159B2 (en) * | 2016-10-04 | 2018-12-25 | Avaya Inc. | System and method for enhancing video conferencing experience via a moving camera |
US10386999B2 (en) | 2016-10-26 | 2019-08-20 | Google Llc | Timeline-video relationship presentation for alert events |
US11238290B2 (en) | 2016-10-26 | 2022-02-01 | Google Llc | Timeline-video relationship processing for alert events |
USD843398S1 (en) | 2016-10-26 | 2019-03-19 | Google Llc | Display screen with graphical user interface for a timeline-video relationship presentation for alert events |
US10284809B1 (en) | 2016-11-07 | 2019-05-07 | Gopro, Inc. | Systems and methods for intelligently synchronizing events in visual content with musical features in audio content |
US10262639B1 (en) | 2016-11-08 | 2019-04-16 | Gopro, Inc. | Systems and methods for detecting musical features in audio content |
CN106653041B (zh) * | 2017-01-17 | 2020-02-14 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
US10534966B1 (en) | 2017-02-02 | 2020-01-14 | Gopro, Inc. | Systems and methods for identifying activities and/or events represented in a video |
US10127943B1 (en) | 2017-03-02 | 2018-11-13 | Gopro, Inc. | Systems and methods for modifying videos based on music |
JP7337699B2 (ja) * | 2017-03-23 | 2023-09-04 | ジョイソン セイフティ システムズ アクイジション エルエルシー | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 |
US10185895B1 (en) | 2017-03-23 | 2019-01-22 | Gopro, Inc. | Systems and methods for classifying activities captured within images |
US10083718B1 (en) | 2017-03-24 | 2018-09-25 | Gopro, Inc. | Systems and methods for editing videos based on motion |
US10187690B1 (en) | 2017-04-24 | 2019-01-22 | Gopro, Inc. | Systems and methods to detect and correlate user responses to media content |
US10819921B2 (en) | 2017-05-25 | 2020-10-27 | Google Llc | Camera assembly having a single-piece cover element |
US10683962B2 (en) | 2017-05-25 | 2020-06-16 | Google Llc | Thermal management for a compact electronic device |
US10972685B2 (en) | 2017-05-25 | 2021-04-06 | Google Llc | Video camera assembly having an IR reflector |
JP2019062448A (ja) * | 2017-09-27 | 2019-04-18 | カシオ計算機株式会社 | 画像処理装置、画像処理方法及びプログラム |
US10535361B2 (en) * | 2017-10-19 | 2020-01-14 | Kardome Technology Ltd. | Speech enhancement using clustering of cues |
CN110663021B (zh) * | 2017-11-06 | 2024-02-02 | 谷歌有限责任公司 | 关注出席用户的方法和系统 |
FR3077886B1 (fr) * | 2018-02-13 | 2020-05-22 | Observatoire Regional Du Bruit En Idf | Systeme de signalement de depassement d'un seuil d'intensite sonore |
JP2019186630A (ja) | 2018-04-03 | 2019-10-24 | キヤノン株式会社 | 撮像装置及びその制御方法及びプログラム |
CN108957392A (zh) * | 2018-04-16 | 2018-12-07 | 深圳市沃特沃德股份有限公司 | 声源方向估计方法和装置 |
US10516852B2 (en) | 2018-05-16 | 2019-12-24 | Cisco Technology, Inc. | Multiple simultaneous framing alternatives using speaker tracking |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
US10735882B2 (en) | 2018-05-31 | 2020-08-04 | At&T Intellectual Property I, L.P. | Method of audio-assisted field of view prediction for spherical video streaming |
US10623657B2 (en) * | 2018-06-12 | 2020-04-14 | Cisco Technology, Inc. | Audio assisted auto exposure |
CN111213365A (zh) * | 2018-08-17 | 2020-05-29 | 深圳市大疆创新科技有限公司 | 拍摄控制方法及控制器 |
WO2020154802A1 (en) | 2019-01-29 | 2020-08-06 | Nureva Inc. | Method, apparatus and computer-readable media to create audio focus regions dissociated from the microphone system for the purpose of optimizing audio processing at precise spatial locations in a 3d space. |
CN111918018B (zh) * | 2019-05-08 | 2022-05-06 | 奥图码股份有限公司 | 视频会议系统、视频会议设备以及视频会议方法 |
US11234073B1 (en) * | 2019-07-05 | 2022-01-25 | Facebook Technologies, Llc | Selective active noise cancellation |
US10904485B1 (en) | 2020-01-27 | 2021-01-26 | Plantronics, Inc. | Context based target framing in a teleconferencing environment |
WO2021232272A1 (en) * | 2020-05-20 | 2021-11-25 | Polycom Communications Technology (Beijing) Co., Ltd. | Exposure adjustment during view changing |
US11563783B2 (en) * | 2020-08-14 | 2023-01-24 | Cisco Technology, Inc. | Distance-based framing for an online conference session |
CN114374903B (zh) * | 2020-10-16 | 2023-04-07 | 华为技术有限公司 | 拾音方法和拾音装置 |
CN112788278B (zh) * | 2020-12-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 视频流的生成方法、装置、设备及存储介质 |
US11856147B2 (en) | 2022-01-04 | 2023-12-26 | International Business Machines Corporation | Method to protect private audio communications |
WO2024125793A1 (en) * | 2022-12-15 | 2024-06-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Focusing a camera capturing video data using directional data of audio |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4264928A (en) * | 1979-11-05 | 1981-04-28 | Schober Gary W | Conference video system |
US4400724A (en) * | 1981-06-08 | 1983-08-23 | The United States Of America As Represented By The Secretary Of The Army | Virtual space teleconference system |
US4494144A (en) * | 1982-06-28 | 1985-01-15 | At&T Bell Laboratories | Reduced bandwidth video transmission |
US4975960A (en) | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
JPS647791A (en) * | 1987-06-30 | 1989-01-11 | Nec Corp | Multiscreen video conference method and device therefor |
JPH0771279B2 (ja) * | 1988-08-17 | 1995-07-31 | 富士通株式会社 | テレビ会議用画像処理装置 |
US4965819A (en) * | 1988-09-22 | 1990-10-23 | Docu-Vision, Inc. | Video conferencing system for courtroom and other applications |
US5012522A (en) | 1988-12-08 | 1991-04-30 | The United States Of America As Represented By The Secretary Of The Air Force | Autonomous face recognition machine |
US5034986A (en) | 1989-03-01 | 1991-07-23 | Siemens Aktiengesellschaft | Method for detecting and tracking moving objects in a digital image sequence having a stationary background |
US5206721A (en) * | 1990-03-08 | 1993-04-27 | Fujitsu Limited | Television conference system |
US5340309A (en) | 1990-09-06 | 1994-08-23 | Robertson James G | Apparatus and method for recording jaw motion |
GB9019538D0 (en) | 1990-09-07 | 1990-10-24 | Philips Electronic Associated | Tracking a moving object |
JPH06268894A (ja) * | 1993-03-10 | 1994-09-22 | Hitachi Ltd | 自動撮像装置 |
US5631697A (en) | 1991-11-27 | 1997-05-20 | Hitachi, Ltd. | Video camera capable of automatic target tracking |
GB9201006D0 (en) | 1992-01-17 | 1992-03-11 | Philip Electronic And Associat | Classifying faces |
EP0557007A2 (en) | 1992-02-15 | 1993-08-25 | Sony Corporation | Picture processing apparatus |
JPH05244587A (ja) * | 1992-02-26 | 1993-09-21 | Mitsubishi Electric Corp | テレビ会議用カメラ制御装置 |
JP2797830B2 (ja) | 1992-03-31 | 1998-09-17 | 日本ビクター株式会社 | ビデオカメラにおける被写体追尾方法 |
US5323470A (en) | 1992-05-08 | 1994-06-21 | Atsushi Kara | Method and apparatus for automatically tracking an object |
JP3298072B2 (ja) | 1992-07-10 | 2002-07-02 | ソニー株式会社 | ビデオカメラシステム |
JP3487436B2 (ja) | 1992-09-28 | 2004-01-19 | ソニー株式会社 | ビデオカメラシステム |
US5432864A (en) | 1992-10-05 | 1995-07-11 | Daozheng Lu | Identification card verification system |
JPH06133210A (ja) * | 1992-10-22 | 1994-05-13 | Hitachi Ltd | 自動撮影装置 |
US5742329A (en) * | 1992-10-26 | 1998-04-21 | Canon Kabushiki Kaisha | Image pickup system and communication system for use in video conference system or the like |
US5550928A (en) | 1992-12-15 | 1996-08-27 | A.C. Nielsen Company | Audience measurement system and method |
US5335011A (en) * | 1993-01-12 | 1994-08-02 | Bell Communications Research, Inc. | Sound localization system for teleconferencing using self-steering microphone arrays |
WO1994017636A1 (en) | 1993-01-29 | 1994-08-04 | Bell Communications Research, Inc. | Automatic tracking camera control system |
US5473369A (en) | 1993-02-25 | 1995-12-05 | Sony Corporation | Object tracking apparatus |
JPH0730796A (ja) | 1993-07-14 | 1995-01-31 | Sony Corp | ビデオ信号追従処理システム |
CA2119327A1 (en) * | 1993-07-19 | 1995-01-20 | David Crawford Gibbon | Method and means for detecting people in image sequences |
JPH0795598A (ja) | 1993-09-25 | 1995-04-07 | Sony Corp | 目標追尾装置 |
US5347306A (en) | 1993-12-17 | 1994-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Animated electronic meeting place |
JPH07213753A (ja) * | 1994-02-02 | 1995-08-15 | Hitachi Ltd | パーソナルロボット装置 |
JPH07264700A (ja) * | 1994-03-18 | 1995-10-13 | Hitachi Ltd | 音像定位装置 |
US5512939A (en) | 1994-04-06 | 1996-04-30 | At&T Corp. | Low bit rate audio-visual communication system having integrated perceptual speech and video coding |
US5852669A (en) * | 1994-04-06 | 1998-12-22 | Lucent Technologies Inc. | Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video |
US5550754A (en) * | 1994-05-13 | 1996-08-27 | Videoptic Research | Teleconferencing camcorder |
US5508734A (en) * | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
US5500671A (en) | 1994-10-25 | 1996-03-19 | At&T Corp. | Video conference system and method of providing parallax correction and a sense of presence |
US5497430A (en) | 1994-11-07 | 1996-03-05 | Physical Optics Corporation | Method and apparatus for image recognition using invariant feature signals |
JPH08161498A (ja) * | 1994-12-05 | 1996-06-21 | Minolta Co Ltd | 物体認識装置 |
JPH08161500A (ja) * | 1994-12-05 | 1996-06-21 | Minolta Co Ltd | 物体認識装置 |
JP2737682B2 (ja) * | 1995-02-13 | 1998-04-08 | 日本電気株式会社 | テレビ会議システム |
JPH0946670A (ja) * | 1995-07-26 | 1997-02-14 | Ricoh Co Ltd | テレビ会議装置 |
US5715325A (en) | 1995-08-30 | 1998-02-03 | Siemens Corporate Research, Inc. | Apparatus and method for detecting a face in a video image |
JPH09149391A (ja) * | 1995-11-17 | 1997-06-06 | Kyocera Corp | テレビ電話装置 |
JP3462336B2 (ja) * | 1996-03-08 | 2003-11-05 | 株式会社東芝 | 状況入力装置及び分散地点間での状況通信装置 |
JPH1051755A (ja) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | テレビ会議端末の画面表示制御装置 |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
JP2846854B2 (ja) * | 1996-07-17 | 1999-01-13 | 株式会社芙蓉ビデオエイジェンシー | カメラ自動追従方法およびその装置 |
JPH1079881A (ja) * | 1996-09-04 | 1998-03-24 | Sharp Corp | 撮像装置 |
US6343141B1 (en) | 1996-10-08 | 2002-01-29 | Lucent Technologies Inc. | Skin area detection for video image systems |
US6188777B1 (en) * | 1997-08-01 | 2001-02-13 | Interval Research Corporation | Method and apparatus for personnel detection and tracking |
US5940118A (en) * | 1997-12-22 | 1999-08-17 | Nortel Networks Corporation | System and method for steering directional microphones |
-
1998
- 1998-05-15 US US09/079,840 patent/US6593956B1/en not_active Expired - Lifetime
-
1999
- 1999-05-14 DE DE69920138T patent/DE69920138T2/de not_active Expired - Lifetime
- 1999-05-14 EP EP99925630A patent/EP1004204B1/en not_active Expired - Lifetime
- 1999-05-14 WO PCT/US1999/010667 patent/WO1999060788A1/en active IP Right Grant
- 1999-05-14 JP JP2000550274A patent/JP4450508B2/ja not_active Expired - Fee Related
- 1999-05-14 AU AU63087/99A patent/AU6308799A/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP1004204B1 (en) | 2004-09-15 |
JP2002516535A (ja) | 2002-06-04 |
EP1004204A1 (en) | 2000-05-31 |
WO1999060788A1 (en) | 1999-11-25 |
US6593956B1 (en) | 2003-07-15 |
EP1004204A4 (en) | 2000-06-28 |
DE69920138T2 (de) | 2005-02-03 |
WO1999060788A9 (en) | 2000-03-02 |
WO1999060788A8 (en) | 2000-01-13 |
AU6308799A (en) | 2001-03-05 |
DE69920138D1 (de) | 2004-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4450508B2 (ja) | オーディオソースの位置決定 | |
CN108496350B (zh) | 一种对焦处理方法及设备 | |
US6545699B2 (en) | Teleconferencing system, camera controller for a teleconferencing system, and camera control method for a teleconferencing system | |
US9392221B2 (en) | Videoconferencing endpoint having multiple voice-tracking cameras | |
US8248448B2 (en) | Automatic camera framing for videoconferencing | |
US9723260B2 (en) | Voice tracking camera with speaker identification | |
US8842161B2 (en) | Videoconferencing system having adjunct camera for auto-framing and tracking | |
CN111263106B (zh) | 一种视频会议的画面追踪方法及装置 | |
CN109492506A (zh) | 图像处理方法、装置和系统 | |
JP2002534009A (ja) | テレビ会議における参加者のプリセット位置の自動設定方法 | |
JP2008501172A (ja) | 画像比較方法 | |
US11308732B2 (en) | Face recognition method and apparatus | |
JP4669150B2 (ja) | 主被写体推定装置及び主被写体推定方法 | |
CN112015364A (zh) | 拾音灵敏度的调整方法、装置 | |
KR101664733B1 (ko) | 전 방향 고해상도 추적 녹화 장치 및 방법 | |
JPH1021408A (ja) | 画像抽出装置および方法 | |
JP2017108240A (ja) | 情報処理装置、及び情報処理方法 | |
JP2000092368A (ja) | カメラ制御装置及びコンピュータ読み取り可能な記憶媒体 | |
JP3739673B2 (ja) | ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体 | |
CN114374903A (zh) | 拾音方法和拾音装置 | |
TWI846399B (zh) | 視訊會議系統及會議畫面顯示方法 | |
US20170041640A1 (en) | Video processing method and video processing device | |
CN112860067B (zh) | 基于麦克风阵列的魔镜调整方法、系统及存储介质 | |
WO2023189079A1 (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
KR101106786B1 (ko) | 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20040817 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100112 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100126 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140205 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |