JP4219682B2 - 自動マルチカメラ映像合成 - Google Patents

自動マルチカメラ映像合成 Download PDF

Info

Publication number
JP4219682B2
JP4219682B2 JP2002550724A JP2002550724A JP4219682B2 JP 4219682 B2 JP4219682 B2 JP 4219682B2 JP 2002550724 A JP2002550724 A JP 2002550724A JP 2002550724 A JP2002550724 A JP 2002550724A JP 4219682 B2 JP4219682 B2 JP 4219682B2
Authority
JP
Japan
Prior art keywords
video
audio
source
video source
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002550724A
Other languages
English (en)
Other versions
JP2004516723A (ja
Inventor
ミネルヴァ ヨン,
ブーン−ロック ヨ,
リ−チェン タイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2004516723A publication Critical patent/JP2004516723A/ja
Application granted granted Critical
Publication of JP4219682B2 publication Critical patent/JP4219682B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Devices (AREA)
  • Studio Circuits (AREA)
  • Transforming Electric Information Into Light Information (AREA)

Description

【0001】
発明の技術分野
本発明は、一般に、マルチカメラ映像システムに関し、より詳細には、自動マルチカメラ映像合成システム及びその操作方法に関する。
【0002】
発明の背景技術
映像伝送及び記録の一般的な分野では、複数のビューポイントあるいは位置から同時に映像をキャプチャーする(取り込む)ことが普通である。一般的な一例は、スポーツの放送である。例えば、野球では、複数の視野角からその動きをキャプチャーするために、5台以上のカメラを用いている。一人以上の技術者がカメラを切り替えて、うまくいったのならば、そのゲームのその瞬間に何が起きているかを示す最高の視点から構成するテレビ信号を供給する。もう一つの例は映画である。しかしながら、映画編集は、選択された合成シーケンスにおける種々のカメラショットを用いてほとんどのシーンでイベントが記録されたずっと後になされる。
【0003】
おそらくスポーツコンテンツや映画よりも興奮しないであろうが、マルチカメラ映像データの他の多くの応用法が存在する。例えば、カメラアングルの選択は、ほとんどあらゆるテープに記録された又は放送イベントのずっと豊かな記録を提供することができる。いくつかの例を示せば、そのイベントは、ミーティング、プレゼンテーション、テレビ会議、あるいは電子教室である。
【0004】
一組のリサーチャーは、話し手の行動パターンに基づいて、テレビ会議に適用する自動カメラ切替方法を提案した。1984年11月26〜29日に開催されたIEEE世界遠距離通信会議(Proc. IEEE Global Telecommunications Conf.)におけるF. Canavesio及びG. Castagneriの「テレビ会議における行動パターンに対する自動カメラ切替のストラテジー」を参照されたい。このペーパーに記述されたシステムは、6人のビデオ会議参加者のそれぞれのために1つのマイクロホン及び1つのカメラを有する。2つの追加のカメラがすべての参加者を示す分割スクリーンオーバービュー用の入力を提供する。マイクロプロセッサは、参加者全員のうち誰が話しているかを決定し、6つの「話している(talk)/話していない(no talk)」値からなる二進数活動パターンを生成する「活動話し手識別処理」を周期的に実行する。
【0005】
多くの時間ベースの閾値がそのシステムに入力される。マイクロプロセッサは、7つのカメラビュー(6つの個人用+1つのオーバービュー用)のいずれが各二進数活動パターンに用いられるかを決定する音声切替アルゴリズムを実行する。本質的に、そのアルゴリズムは、誰が話しているか、いずれのカメラが現在選択されているか、及び、現在選択されているカメラビューが最小時間保持されていたかに基づいて、新しい評価インターバルでいずれのカメラビューを用いるかを決定する。一人以上の同時に話す話し手が検出されるか、誰も話していないならば、システムは、プリセット時間後会議オーバービューに切り替える。一般的に、一人の話し手が検出されるとき、そのシステムは、彼らが話し続け、又は小休止を取る限りは、その話し手のクローズアップビューを連続的に選択する。
【0006】
好ましい実施の形態の詳細な記述
本開示は、いくつかの同時発生の映像入力の一つを映像出力として自動選択(オートセレクト)するシステム及びその方法を含む。一般に、カメラ位置についての特殊な知識や映像ストリームから情報へのアクセスは、切替を決定するために要求されない。その代わりに、記述の実施形態は、音声入力及び映像出力選択ヒストリを用いて、映像出力を選択し得る。このアプローチは、表面上自然な種々の映像入力選択を提供するので、システム較正及び処理能力の要求を著しく緩和することができる。
【0007】
多くの映像シナリオ(特に、会話のシナリオ)では、いくつかの利用可能なカメラアングルのうち「最良(best)」のものが活動的話し手(又は他の音源)の位置に最も直接的に相関するアングルであることがここでは述べられる。記述の実施形態は、音声活動の位置に基づいて映像源(video source)を選択し、この観察を利用することができる。また、記述の実施形態は、多数の音声入力のそれぞれを少なくとも一つの映像入力に関連付ける結合マトリクス(結合行列)を用いる。特定の音声入力として、音声活動の増加は、その音声入力に関連付けられた映像入力が現在の映像出力として選択されることがより有望になることを示している。
【0008】
開示の実施形態が映像出力選択を音声活動に一部基づかせているが、好ましくは、他の要素は、選択処理に入力される。これらの他の要素における顕著な例としては、音声源選択のタイムヒストリがある。例えば、一人の人が、延長された期間、合成映像でキャプチャーされたダイアログ(対話又は会話)を支配してもよい。この延長されたインターバルに渡って一つのカメラアングルが大体「最良」であり得るけれども、「最良」の合成映像ストリームは、例えば、より広いアングルビュー、最適よりもわずかに劣る見地からの話し手、あるいは静かな参加者の光景を時々見せてもよい。タイムヒストリを用いることにより、開示の実施形態は、たとえ一つの「最良」の音声チャンネルが優位に立つことを可能にしても、カメラアングルの混合を選択することができる。あるいは、もう一つの例として、タイムヒストリは、例えば、各時間に新しいカメラアングルが選択されることを提供することによって、円滑基準(smoothness criteria)を実行するために用いられ得る。そのアングルは、いくつかの初期期間に選択された残りの増加確率を受け入れる。
【0009】
記述の実施形態は、Canavesio及びCastagneriのシステムにはないいくつかの特徴を提供する。例えば、本システムでは、音声スコアリングは、二進数処理に限定されず、複数のマイクロホンが一つのカメラに関連付けられてもよく、あるいはその逆でもよいので、カメラ/マイクロホン結合には柔軟性がある。このことは、映像切替のタイミングにランダムな一面を導入し、先行技術には欠如している(所定の音声活動パターンに基づいて)種々の可能な切替条件を導入する。また、少なくとも一つの実施形態では、各位置が他の位置よりも映像セッションの異なるビューを潜在的に受信する状態で、その映像供給は、異なる遠隔地において発生させることができる。
【0010】
おそらくさらにいっそう重要なことには、記述の実施形態は、カメラがくどい(長たらしい)話し手のクローズアップビューを示すとしても、長い間1つのカメラが連続して選択されることに強い阻害要因を供給することができる。これは、一人が会話を独占しているときでさえ、他の参加者の短いビュー及び/又はオーバービューを散在させることによって、映像出力に視覚的おもしろさを加える。
【0011】
これらの原理をさらに示すために、図1の会議室配置20を参照して第1実施形態を記述する。この配置20では、3つのマイクロホンA1、A2、A3が会議テーブルの周りに置かれている。同様に、3つのビデオカメラ(以下、単に「カメラ」ともいう)C1、C2、C3が会議テーブルの周りに配置されている。カメラC1の視野は、マイクロホンA1を含み、カメラC2の視野は、マイクロホンA2を含み、カメラC3の視野は、マイクロホンA3を含む。
【0012】
図2は、図1の配置20のようなマイクロホン/カメラ配置で用いられる映像切替システム30の構成を示す。映像オートセレクタ(映像切替装置)40は、各マイクロホンA1、A2及びA3から音声入力を受信する。映像スイッチ50は、各カメラC1、C2及びC3から映像入力を受信する。映像オートセレクタ40は、音声出力及び切替コマンドを生成する。映像スイッチ50は、切替コマンドを用いて、映像源(カメラ)C1、C2、C3の一つからの映像を映像出力に切り替える。
【0013】
図3は、映像オートセレクタ40のより詳細なブロック図を示す。図3の各ブロックを順次記述する。
【0014】
パラメータインターフェース42は、切替ロジック44に操作パラメータを供給する。好ましくは、これらのパラメータの少なくともいくつかは、個別的に又はプリセットモードのグループとして、ユーザによって調整され得る。各パラメータの意味は、その用い方の説明と関連して以下において論じられる。
【0015】
音声スコアラー45は、音声入力A1、A2及びA3を受け取る。(パラメータインターフェース42からの)イグザミネーションインターバル(examination interval)長入力パラメータは、音声スコアが計算されている時間長を決定する。切替ロジック44は、新しいイグザミネーションインターバルが始められるとき、音声スコアラー45にリセット信号を供給する。音声スコアラー45は、各音声入力A1、A2、A3用の音声スコアを形成する。それは、イグザミネーションインターバルのその音声入力における音声活動存在のレベルを表現する。そのインターバルの終わりに、音声スコアは、切替ロジック44に伝送される。
【0016】
切替ロジック44は、所定のイグザミネーションインターバルの現在の映像源としていずれの映像源が選択されるかを実際に決定する。この決定は、そのイグザミネーションインターバルの音声スコアに部分的に基づいている。また、その決定は、パラメータインターフェース42によって供給されるパラメータを用いて解釈されるように、状態メモリ46に格納された変数に基づいている。
【0017】
状態メモリ46は、少なくとも映像源選択の部分的なタイムヒストリを格納する。1つの簡単なケースでは、このヒストリは、最後に選択された映像源と、関連する映像セグメント長(最後に選択された映像源が選択されたままの時間長を表す)とから構成される。また、このヒストリは、タイプにより映像セグメントを分類してもよい。さらに、選択されていない各映像源が最後に選択されてからの時間長や最後のn映像セグメントのヒストリなどの他の項目は、そのヒストリに有用であろう。
【0018】
任意に、映像オートセレクタ40は、音声ミキサー48を含むことができる。切替ロジック44は、現在の映像選択と一致するために、音声制御を音声ミキサー48に供給することができる。あるいは、音声ミキサー48は、例えば、音声出力を形成するのと同時にすべての音声入力をミックスするために設置され得る。
【0019】
映像オートセレクタ40の一操作方法は以下のようである。システムは、映像チャンネル/音声センサ結合パラメータで指定された映像チャンネルと音声センサとを考慮する。この結合は、手動で(ユーザによって設定)されてもよく、(例えば、指向性マイクロホンが各ビデオカメラに取り付けられて)固定されてもよく、あるいは、物理的配置情報(例えば、基地のマイクロホン位置及びカメラ視野)に基づいて自動的に設定されてもよい。その結合は、1:1、すなわち、各映像入力のために1つの音声入力であってもよい。他の実施形態では、1つの音声入力が多くの映像入力に位置してもよく、その逆でもよい。図1、2及び3の第1の例では、A1はC1に位置し(マッピングし)、A2はC2に位置し、そして、A3はC3に位置する。このマッピングは、N×M行列として表現され得る。ここで、Nは音声入力数であり、Mは映像入力数である。マッピングが1:1(すなわち、N=M)のとき、2つの長さN数列が用いられ得る。ここで、A[i]は音声入力を表し、V[i]は対応する映像入力を表す。
【0020】
図5は、1つの映像源選択処理の反復ステップを含むフローチャート60である。そのシステムは、いくつかの方法で映像源選択のタイムヒストリを用いている。これらの一番目(一回目)は、決定ブロック62において各映像源選択の繰り返し(反復)の始めに発生し得る。システムが異なる映像源に切り替えるときはいつでも、そのシステムは、少なくとも最小映像セグメント長(例えば、図示の例では4秒)の間その映像源にとどまることを強要され得る。最初のインターバルの間、システムは、ブロック62及び64を繰り返しループして、最小映像セグメント長に到達するまでのカウント時間以上何もしなくてもよい。
【0021】
セグメント長が最終的に最小セグメント長に到達すると、ブロック62からブロック66に移行する。ブロック66では、音声イグザミネーションインターバルが開始する。イグザミネーションインターバルは、システムモードに依存して、いくつかの方法の1つにおける映像切替ポイントに関連することができる。リアルタイム(実時間)配置モード及び後方(例えば、記録保管(archival))配置モードの少なくとも2つのモードが可能である。リアルタイム配置モードでは、映像切替は、前の音声サンプルからなる音声イグザミネーションインターバルを用いる。例えば、tが潜在的切替ポイントであり、イグザミネーションインターバルの長さがTであるならば、切替ポイントtのイグザミネーションインターバルはt−Tに始まる。リアルタイムの制約がないので、後方配置モードは、近い将来誰が話しているかを判断するために、音声サンプルにおいて「先を見越す」ことができ、もしかすると、新しい話し手が話し始めるときにその視野にいるように、映像源を切り替えることができる。例えば、後方配置モードでは、映像切替ポイントtのイグザミネーションインターバルは、t−T/5において始め、t+4T/5まで続けることができる。従って、切替ポイントの直前に話している誰かにいくらかの重み付けをし、切替ポイント直後に話すであろう誰かにその重みの大部分を与えることができる。
【0022】
音声スコアラー45は、イグザミネーションインターバルの始めに各音声入力の音声スコアをリセットする。各音声入力がパルスコード変調サンプルストリームであるデジタルでの実行を考慮すると、サンプルはグループで考慮される。例えば、8kHzでサンプリングされた音声ストリームでは、サンプルは、50の連続的なサンプル(例えば、6.25m秒の時間サブウィンドウ)のグループで考慮され得る。
【0023】
各時間サブウィンドウと音声入力のために、最大及び最小サンプル値が決定される。これら2つのサンプル値の差が計算され、それは、(ほぼ)そのサブウィンドウの音声入力の最大ピーク間振幅を表す。
【0024】
サブウィンドウの終わりに、音声入力用に計算された差がそのサブウィンドウ用に各他の音声入力のために計算された差と比較される。最高計算差を持つ入力は、サブウィンドウを勝ち取り、1だけインクリメントされた音声スコアを持つ。1つの選択肢は、最高計算差を持つそのスコアによってすべての計算差が標準化され、その標準化差だけ各スコアをインクリメントすることである。
【0025】
その処理は、イグザミネーションインターバルにおける各サブウィンドウのために継続する。イグザミネーションインターバルの終わりに、各音声スコアは、対応する音声入力が最高の最大計算差を有するサブウィンドウ数を表す。
【0026】
この実施形態では、現在の映像セグメントが2つのタイプ、すなわち、規則的な(regular)映像セグメント及び一時的な(temporary)映像セグメントの1つとして分類され得る。規則的映像セグメントは、音声スコアの重み付けされた比較の結果として選択されるものである(以下で論じる)。一時的映像セグメントは、前の規則的セグメントが、スイッチ(切替)が起こる可能性を増加するために追加の計測が取られる長さに到達したので選択されるものである。
【0027】
ブロック68では、現在のセグメントタイプに基づいて切り替えている。セグメントタイプが一時的であると、スコアリングは、重み関数をバイパスして、ブロック72に移行する。しかし、ブロック72は、一時的セグメントのセグメントタイプを規則的に設定する。なぜならば、そのセグメントがこの反復を過ぎて継続するならば、このことは、そのセグメントがスコアの直接重み付けしていない比較において選択されることを意味するからである。
【0028】
現在の映像セグメントが既に規則的セグメントであると、そのセグメントの音声スコアは、ブロック70において重み付けされる。音声スコアに割り当てられた重みは、そのセグメントの長さの関数である。
【0029】
図4は、1つの可能な重み関数を示す。新しいセグメントの始めに、その映像源は、すべての他の映像源と同じく重み付けされる。しかしながら、セグメント長が増加し続けるにつれて、現在の映像源の重みは、段階的に減少する。それにより、いくつかの他の映像源が代わりに選択される可能性を増加する。
【0030】
なめらかな重み関数を用いることができるけれども、図4の階段状(ステップ状)の関数は、その重みがセグメント長に基づくルックアップ演算から決定されることを可能にする。整数nが計算される。ここで、Tは現在のセグメント長であり、TPは好ましい映像セグメント長であり、Cは図4のx軸のスケールに調整する定数である:
n=min([C*T/T],8)
整数nは、0〜8で示される数列Wから重みを選択するために用いられる。ここで、
W={1.0,1.0,0.9,0.85,0.8,0.5,0.375,0.2,0.1}
である。
【0031】
上記W値を含む一構成例では、T=9及びC=5である。現在のセグメントに割り当てられた重みは、好ましいセグメント長(9秒)に到達するまでゆっくりと低下し、数列要素0〜4にステップする。セグメントが9秒の長さに到達すると、その関連する音声スコアは、重みW[5]=0.5を受け取る。これは、最初の9秒間に選択されないときもう一つの映像源が選択されるであろう可能性を極めて増加する。
【0032】
さらに、ブロック74は、現在の映像源が延長された期間継続したときもう一つの映像源が選択される可能性を増加することができる。ブロック74では、現在のセグメント長は、好ましいセグメント長の複数倍(ここでは、3倍に設定)と比較される。この例では、セグメント長が好ましいセグメント長の3倍を越えると、ブロック76に移行する。ブロック76では、現在の映像源のスコアは、0.5の追加の重みを課される。また、「would-beタイプ(WBT)」は一時的に設定される。would-beタイプは、この反復中に一つが選択されるならば新しいセグメントに割り当てられるセグメントタイプである。従って、WBT=一時的は、現在のセグメントが、いくつかの他の映像源が介入するインセンティブ(誘因)を引き起こす延長されたセグメント長に到達した後、新しい映像源が選択されることを示す。なお、ブロック76への枝が取られないならば、ブロック78への枝は、あらゆる新しい映像源がブロック76のペナルティの助けなく選択されたことを示すために、WBT=規則的に設定する。
【0033】
ブロック80は、現在のイグザミネーションインターバルのために重み付けされた音声スコアを比較する。例えば、示された数列v[i]に格納された重み付けされたスコアで、ブロック80は、最大スコアの指数iを決定する。そして、ブロック82は、最大スコアの指数を現在の映像スコアの指数と比較する。その指数が等しいならば、最後に選択された映像源が再び選択され、現在のセグメントが継続する。この場合、ブロック84は、現在のセグメント長をインクリメントする。
【0034】
最大スコアの指数が現在の映像源の指数と一致しないと、新しい映像源で新しいセグメントが始まる。ブロック86は、現在の指数を最大スコアの指数に設定し、セグメント長を0にリセットし、WBTと同じセグメントタイプに設定する。ブロック84及び86はともに、次の反復を始めるためにブロック62にループバックする(最初に戻る)。
【0035】
音声及び映像源の多くの他の構成が本発明の実施形態で処理され得る。例えば、図6は、3つの主要カメラ(C1、C2及びC3)と4つのマイクロホンを用いる配置90を示す。カメラC1は2つのマイクA1−L及びA1−Rと結び付けられる。すなわち、両方のマイクはカメラC1の視野内にある。この結合はいくつかの方法で処理され得る。
【0036】
複数の音声入力を1つの映像源と結合する1つの方法は、各音声源を別々に考慮し、対応する映像源の生スコアとしてその映像源の最高値を取ることである。これは、映像源に対応する音声源のベクトルの無限大ノルム(infinity-norm)を取ることに対応する。また、1−ノルム(2つのスコアの平均)や2−ノルム(2つのスコアの二乗平均平方根)などの他のノルムが用いられてもよい。
【0037】
複数のカメラを複数の音声入力と結合するもう一つの方法は、結合行列を指定するというものである。このことは、多数の音声センサが1つの映像源に関連付けられるのを可能にするのみならず、多数の映像源が1つの音声源に関連付けられるのを可能にする。例えば、図6では、第4のカメラC4も示している。カメラC4は、会議テーブル全体のワイドアングルビューを示す。1つの可能な結合行列としては以下のものがある:
【表1】
Figure 0004219682
【0038】
この行列で、カメラC4のワイドアングルビューは、各音声入力のスコアの一部を受け取り、一人が延長された期間話しているときシステムが時折ワイドアングルビューを選択するのが見込まれる。また、音声センサA3及びカメラC2のための小さい重み付けも示される。カメラC2は、音声センサA3の周りの領域の近い側面ビューを示し、このことは、音声センサA3近くの話し手が延長された期間話すとき時折選択されるために、代わりのビューになることを可能にする。
【0039】
前述の実施形態は1つの会議室における多数のカメラ配置を示したが、本発明の実施形態における映像自動選択(オートセレクション)は、この適用に限定されない。例えば、図7は、通信ネットワーク96(例えば、回路切替ネットワーク、パケット切替ネットワーク、あるいはその2つの組み合わせ)を介して処理される実施形態92を示す。
【0040】
図7は、3つの「会議ポイント」100、200及び300を示す。これらのポイントは、3方向ビデオ会議を示すことができるが、セキュリティー、賭博、電子教室などの他の適用にも適している。各会議ポイントは、少なくとも一台のカメラ(例えば、C1)と、音声センサ(例えば、A1)と、ディスプレイ(例えば、D1)とを含む。これらすべては、コーダー(例えば、102)によって接続されている。各コーダー102、202、302は、ネットワーク96を介して映像オートセレクタ94と通信する。
【0041】
一処理方法では、コーダー102は、カメラC1からの映像及び音声センサA1からの音声をエンコード(符号化)し、符号化された映像及び音声ストリームを映像オートセレクタ94に送信する。コーダー202及び302は、それらの映像及び音声ストリームを同様に処理する。各コーダーは、公知の映像及び/又は音声符号化/圧縮/パケット化アルゴリズムに応じて処理することができる。そして、映像オートセレクタ94は、いずれの映像ストリームを各会議ポイントに供給するかを選択するために、音声ストリーム(及び選択タイムヒストリ)を用いることができる。この関数は、各会議ポイントが他の会議ポイントが受けるよりも異なる映像源を随時受信してもよい点を除き、上述の一部屋の例のように処理可能である。映像オートセレクタ94内部では、切替ロジックの別の例が、各端点で一致させることができ、各例は、その端点の選択タイムヒストリを保持する。切り替えられた映像ストリームは、目的の端点に到達する。そこでは、各コーダーがそれらを復号し、据え付けのディスプレイにそれらを表示する。音声は、映像オートセレクタ94により混合され、又は切り替えられ得る。あるいは、各端点は、各他の端点からの音声ストリームを受信することができる。
【0042】
演算(処理)はいくつかの方法に拡張され得る。オートセレクタが映像ストリームの実際の処理を行わないと、映像ストリームがオートセレクタを通過する必要がなくてもよい。その代わりに、映像オートセレクタ94は、出力映像ストリームを供給するとき(及びいずれの他の端点に供給するか)について端点に信号を送り、その映像ストリームは、ネットワーク96を介して端点から端点に直接送ることができる。選択されていない映像源用の帯域幅を減少することは、この拡張の1つの利点である。また、映像オートセレクタ94は、必要に応じて架橋又は変換機能を提供してもよく、会議の共通の接続ポイントとしての役割を果たすことができる。
【0043】
図7の一般的な図は、いろいろな方法で変更され得る。オートセレクタは、端点の一つに物理的に配置されてもよい。いくつかの端点が音声のみ又は受信のみでもよい。また、1つの端点が多数の音声及び/又は映像センサを有していてもよい。この場合、端点のコーダーは、多数のストリームを符号化できるか、(上述の一部屋の例のような)追加のオートセレクタがその端点の1つの出力ストリームを選択するために用いられ得る。
【0044】
記述の実施形態は、特に、プログラム可能なデジタル処理システム、例えば、オートセレクションタスク専用の専門的なデジタル信号プロセッサ、又はオートセレクションタスクを実行するようにプログラムされた汎用コンピュータで実行するのに適している。例えば、汎用コンピュータでは、音声入力は、そのコンピュータに接続された1枚以上のサウンドカードに供給され得る。サウンドカードは、音声信号をデジタル化し、デジタル音声信号をコンピュータのCPU(Central Processing Unit)及び付属のメモリに供給する。そのコンピュータは、デジタル音声信号を検索し、音声スコアを計算し、前述に従って周期的な映像切替決定をするソフトウェア処理を実行するよう構成される(その代わりに、音声スコアリング又はその一部がサウンドカード上で実行され得る)。そのソフトウェア処理は、例えば、映像切替を実行する別の処理又は装置、ビデオカード、あるいはもう一つのコンピュータへのネットワーク信号として、映像切替信号を生成する。
【0045】
プログラムされたコンピュータ実施形態に応じて、一面では、本発明は、実行されると、1つ以上のプロセッサに映像源をオートセレクト(自動選択)する方法に従って処理させるコンピュータ命令(計算機命令)を含むコンピュータに読み取り可能な媒体を備える装置を含む。例えば、上述のコンピュータの例では、ソフトウェア処理は、磁気又は光メディア上に、半導体メモリに、あるいはネットワークを介してアクセス可能な遠隔地に格納され得る。
【0046】
特定の計算方法が音声スコアリング及び映像源選択のために含まれたけれども、これらは単に例示しただけである。当業者は、この開示内容を読むことで、多くの代替物が開示の実施形態と同様の機能を発揮するために工夫され得ることを認識するであろう。例えば、現在の映像源を下方に重み付けする代わりに、選択されていない映像源がそのまま(選択されないまま)にならないように上方に重み付けされ得る。最小セグメント長は、一時的なセグメントのために規則的なセグメントと異なってもよく、及び/又は異なる重み関数が用いられ得る。また、ある映像源がT秒毎に少なくとも一度選択されなければならないというルールのような他のルールが組み合わせられ得る。さらに、各話し手を短く、多数の主要な話し手を含むやりとりより、1人の主要な話し手を含むやりとりの異なる重み関数又はイグザミネーションインターバルのような異なるルールが、より複雑なシナリオのために考案され得る。
【0047】
また、音声スコアリングは、システムからシステムへ顕著に変更することができる。スコアリングの開示された方法は、落下物や咳のような大きな瞬間的な騒音を除くことにおいてうまく働く傾向があるが、音声認識及び話し手認識を含むより精巧なスコアリング方法が同様に使用され得る。また、音声スコアリングへの入力も単純化され得る。すなわち、アナログ又はパルスコード変調音声ストリームを受信するオートセレクタの代わりに、他の何かを受信することができる。その他の何かは、自らの音声活動検出を実行する端点からの周期的な音声活動検出(VAD)信号であり得る。また、その他の何かは、例えば、サブバンドコード化音声信号であり得る。後者の場合には、音声スコアラーは、音声を評点するためにPCMストリームを再生することなく、スコアリングを実行するサブバンドにおけるエネルギー分配を検査(調査)してもよい。
【0048】
当業者は、ここに教示される概念が多くの他の有利な方法で特定の適用に調整され得ることを認識するであろう。特に、当業者は、例示の実施形態がこの開示内容を読むことにおいて明らかになる多くの代替的実行の単なる1つであることを認識するであろう。また、音声ストリームは、映像ストリームに埋め込まれ得る。一実施形態の他の構成要素と同様に、音声スコアラーは、デジタルである必要はない。映像ストリームは、従来のアナログビデオカメラと結び付けられる必要はない。例えば、映像ストリームは、ビデオカメラのデジタル出力信号、デジタル圧縮映像信号、記録された映像信号、コンピュータによって生成された映像信号などであり得る。そのような比較的重要でない改良(変更)は、本発明に包含され、添付の特許請求の範囲内に属するように意図される。
【0049】
前述の実施形態は例示的である。この明細書では、いくつかの位置における「ある」、「一つの」、「もう一つの」。又は「いくつかの」実施形態を参照しているけれども、このことは、それぞれのそのような参照が同一の実施形態に対するものであること、あるいはその特徴が一つの実施形態だけに適用することを必ずしも意味しない。
【図面の簡単な説明】
本発明は、添付図面を参照してその開示を読むことにより最も理解されるであろう。
【図1】 本発明の一実施形態における典型的なカメラ/マイクロホン配置を示す。
【図2】 本発明の一実施形態における自動マルチカメラ映像合成システムのためのハイレベルなブロック図を示す。
【図3】 本発明の一実施形態における映像オートセレクタのブロック図を示す。
【図4】 本発明の一実施形態で有用な音声スコア重み付けステップのためのプロットを示す。
【図5】 本発明の一実施形態における映像源自動選択のためのフローチャートである。
【図6】 本発明の一実施形態のカメラ/マイクロホン配置を示す。
【図7】 本発明の一実施形態における映像オートセレクタを用いたネットワーク型のビデオ会議構成を示す。

Claims (22)

  1. 自動映像切替システムであって、
    それぞれが少なくとも1つの対応する映像源に関連付けられた複数の音声入力と、
    前記複数の音声入力の各音声入力の音声スコアを計算することができるようになっており、所定の音声入力に対する音声スコアがイグザミネーションインターバルに当該所定の音声入力で受信された音声信号に対応するようになっている音声スコアラーと、
    映像源選択の少なくとも部分的なタイムヒストリを格納する状態メモリと、
    所定のイグザミネーションインターバルに対して現在の映像源を選択する切替ロジックと、を有し
    前記切換ロジックによる選択は、前記所定のイグザミネーションインターバルにおける複数の映像源のそれぞれと関連付けられた複数の音声スコアに対する重み付けされた比較に基づいて行われ、この重み付けは前記映像源選択の部分的なタイムヒストリに基づいてなされることを特徴とする自動映像切替システム。
  2. 前記システムは、前記切替ロジックが前記所定のイグザミネーションインターバルの終わりに概ね対応する映像ストリームにおけるあるポイントで現在の映像源を選択するリアルタイムモードで作動する能力を有する請求項1に記載のシステム。
  3. 前記システムは、前記切替ロジックが映像ストリームにおける所定の一時的映像切替ポイントで現在の映像源を選択する後方配置モードで作動する能力を有しており、当該後方配置モードでは、前記選択は、前記一時的映像切替ポイント後の前記映像ストリームにおけるあるポイントに対応する音声入力を含むイグザミネーションインターバルに基づいて行われるようになっている請求項1に記載のシステム。
  4. 前記音声入力に対応する映像源からの映像信号を受け入れるとともに、前記切替ロジックの現在の映像源選択に応じてそれらの映像源の一つを映像出力に切り替える映像切替装置を更に備える請求項1に記載のシステム。
  5. 前記各映像源は、アナログビデオカメラ出力信号と、ビデオカメラデジタル出力信号と、デジタル圧縮映像信号と、記録された映像信号と、コンピュータにより生成された映像信号とを含む映像源のグループから選択される請求項1に記載のシステム。
  6. 前記システムは、遠隔地から前記音声入力の一つを受信するための少なくとも一つのネットワーク接続を備える請求項1に記載のシステム。
  7. 前記切替ロジックは、いくつかの遠隔地のそれぞれの異なる現在の映像源を選択する能力を有する請求項1に記載のシステム。
  8. 多数の利用可能な映像源から1つの映像源を自動的に選択する方法であって、
    少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップと、
    イグザミネーションインターバルに渡って、各音声源から受信される音声信号を評価し、それによって前記イグザミネーションインターバルにおける各音声源に対する音声スコアを形成するステップであって、該音声スコアは前記イグザミネーションインターバルにおける各音声源の音声活動のレベルを表現ようにうなっているステップと、
    映像源選択の少なくとも部分的なタイムヒストリを保存するステップと、
    前記イグザミネーションインターバルにおける前記各映像源に関連付けられた複数の音声スコアに対して重み付けされた比較を実行するステップであって、該重み付けは、前記映像源選択の部分的なタイムヒストリに基づいているステップと、
    前記重み付けされた比較に基づいて現在の映像源を選択するステップと、
    を有することを特徴とする前記方法。
  9. 複数の音声スコアが所定の一つの映像源に関連付けられている場合には、当該映像源に関連付けられた複数の音声スコアのうち最大のものを前記イグザミネーションインターバルにおける重み付けされた比較用のスコアとして選択する請求項8に記載の方法。
  10. 複数の音声スコアが所定の一つの映像源に関連付けられている場合には、それらの音声スコアのノルムを用いて当該映像源に関連付けられた前記複数の音声スコアを結合させる請求項8に記載の方法。
  11. 前記少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップは、音声源と映像源の各組み合わせの重みを示す行列としてそれらの関連付けを表現するステップを含み、前記重み付けされた比較を実行するステップは、各映像源に対し、前記行列において対応する重みにより前記音声スコアを重み付けすることによって結合スコアを生成するステップを含む請求項8に記載の方法。
  12. 前記重み付けされた比較を実行するステップは、重み関数に従って最後に選択された現在の映像源に関連付けられた音声スコアを重み付けするステップを含み、前記重み関数は、前記最後に選択された現在の映像源が選択されていた時間の長さに応じて変化するようになっている請求項8に記載の方法。
  13. 前記最後に選択された現在の映像源は、延長された期間選択されたままであり、前記映像源が選択されたままでいる可能性を減少するために、該映像源に関連付けられた音声スコアをわずかな重みだけ更に重み付けする請求項8に記載の方法。
  14. 前記音声スコアを形成するステップは、前記イグザミネーションインターバルを多数の一時的なサブウィンドウに分割するステップを含むとともに、各サブウィンドウに対し、
    そのサブウィンドウ中の各音声信号における変数を決定するステップと、
    そのサブウィンドウの最大変数を有する音声源の音声スコアをインクリメントするステップとを含む請求項8に記載の方法。
  15. 前記方法は、前記音声源の一つ及び対応する映像源が前記現在の映像源が選択された位置から離れた遠隔位置にあるとき、通信ネットワークを介して前記音声信号を受信するステップと、その映像源が現在の映像源として選択されたとき前記遠隔位置に映像を送信する旨を通知するステップと、を更に有する請求項8に記載の方法。
  16. 前記現在の映像源の選択は、イグザミネーションインターバルの概ね終わりにリアルタイムで発生する請求項8に記載の方法。
  17. 前記現在の映像源の選択を前記イグザミネーションインターバルの終わりより前の時点に対応する前記映像ストリームのあるポイントに関連させる請求項8に記載の方法。
  18. コンピュータ上で実行されるとき、多数の利用可能な映像源から一つの映像源を自動的に選択する方法を当該コンピュータに実行させるコンピュータ命令を含むコンピュータプログラムであって、前記方法は、
    少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップと、
    イグザミネーションインターバルに渡って、各音声源から受信される音声信号を評価し、それによって、前記イグザミネーションインターバルにおける当該音声源の音声活動のレベルを表現する各音声源に対する音声スコアを形成するステップと、
    映像源選択の少なくとも部分的なタイムヒストリを保存するステップと、
    前記イグザミネーションインターバルにおける前記多数の映像源のそれぞれに関連付けられた複数の音声スコアに対して重み付けされた比較を実行するステップであって、該重み付けは、前記映像源選択の部分的なタイムヒストリに基づく、実行ステップと、
    前記重み付けされた比較に基づいて現在の映像源を選択するステップと、
    を有することを特徴とする前記コンピュータプログラム
  19. 前記少なくとも一つの音声源を前記多数の映像源のそれぞれに関連付けるステップは、音声源と映像源の各組み合わせの重みを示す行列としてそれらの関連付けを表現するステップを含み、前記重み付けされた比較を実行するステップは、各映像源に対し、前記行列における対応する重みにより前記音声スコアを重み付けすることによって結合スコアを生成するステップを含む請求項18に記載のコンピュータプログラム
  20. 前記重み付けされた比較を実行するステップは、重み関数に従って最後に選択された現在の映像源に関連付けられた音声スコアを重み付けするステップを含み、前記重み関数は、前記最後に選択された現在の映像源が選択されていた時間の長さに応じて変化するようになっている請求項18に記載のコンピュータプログラム
  21. 前記音声スコアを形成するステップは、前記イグザミネーションインターバルを多数の一時的なサブウィンドウに分割するステップを含むとともに、各サブウィンドウのために、
    そのサブウィンドウ中の各音声信号における変数を決定するステップと、
    そのサブウィンドウの最大変数を有する音声源の音声スコアをインクリメントするステップとを含む請求項18に記載のコンピュータプログラム
  22. 前記方法は、前記音声源の一つ及び対応する映像源が前記現在の映像源が選択された位置から離れた遠隔位置にあるとき、通信ネットワークを介して前記音声信号を受信するステップと、その映像源が現在の映像源として選択されたとき前記遠隔位置に映像を送信する旨を通知するステップと、を更に有する請求項18に記載のコンピュータプログラム
JP2002550724A 2000-12-12 2001-11-09 自動マルチカメラ映像合成 Expired - Fee Related JP4219682B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/735,716 US6577333B2 (en) 2000-12-12 2000-12-12 Automatic multi-camera video composition
PCT/US2001/049900 WO2002049356A2 (en) 2000-12-12 2001-11-09 Automatic multi-camera video composition

Publications (2)

Publication Number Publication Date
JP2004516723A JP2004516723A (ja) 2004-06-03
JP4219682B2 true JP4219682B2 (ja) 2009-02-04

Family

ID=24956888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002550724A Expired - Fee Related JP4219682B2 (ja) 2000-12-12 2001-11-09 自動マルチカメラ映像合成

Country Status (9)

Country Link
US (1) US6577333B2 (ja)
EP (1) EP1352521B1 (ja)
JP (1) JP4219682B2 (ja)
KR (1) KR100511226B1 (ja)
CN (2) CN1248502C (ja)
AU (1) AU2002235244A1 (ja)
BR (1) BR0116089A (ja)
HK (1) HK1043493A2 (ja)
WO (1) WO2002049356A2 (ja)

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6885989B2 (en) * 2001-04-02 2005-04-26 International Business Machines Corporation Method and system for collaborative speech recognition for small-area network
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network
WO2003015407A1 (en) * 2001-08-07 2003-02-20 Polycom, Inc. System and method for high resolution videoconferencing
US7668907B1 (en) * 2001-08-16 2010-02-23 Microsoft Corporation Method and system for selectively viewing participants of a multimedia network conference
US6812956B2 (en) * 2001-12-21 2004-11-02 Applied Minds, Inc. Method and apparatus for selection of signals in a teleconference
US7023965B2 (en) * 2002-07-17 2006-04-04 Avaya Technology Corp. Apparatus and method for displaying a name of a speaker on a telecommunication conference call
US7349008B2 (en) * 2002-11-30 2008-03-25 Microsoft Corporation Automated camera management system and method for capturing presentations using videography rules
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
GB2404297B (en) * 2003-07-24 2007-12-05 Hewlett Packard Development Co Editing multiple camera outputs
US7499531B2 (en) * 2003-09-05 2009-03-03 Emc Corporation Method and system for information lifecycle management
US7457396B2 (en) * 2003-09-05 2008-11-25 Emc Corporation Automated call management
US8103873B2 (en) 2003-09-05 2012-01-24 Emc Corporation Method and system for processing auditory communications
US8209185B2 (en) * 2003-09-05 2012-06-26 Emc Corporation Interface for management of auditory communications
US7092002B2 (en) * 2003-09-19 2006-08-15 Applied Minds, Inc. Systems and method for enhancing teleconferencing collaboration
US8229904B2 (en) * 2004-07-01 2012-07-24 Emc Corporation Storage pools for information management
US8180742B2 (en) 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
US9268780B2 (en) * 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US8244542B2 (en) 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US8180743B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Information management
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US20060004818A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Efficient information management
US7444287B2 (en) * 2004-07-01 2008-10-28 Emc Corporation Efficient monitoring system and method
US7707037B2 (en) * 2004-07-01 2010-04-27 Emc Corporation Archiving of surveillance data
US8456506B2 (en) 2004-08-03 2013-06-04 Applied Minds, Llc Systems and methods for enhancing teleconferencing collaboration
US8626514B2 (en) * 2004-08-31 2014-01-07 Emc Corporation Interface for management of multiple auditory communications
US20060212148A1 (en) * 2005-03-18 2006-09-21 Critech Enterprises Inc. Systems and methods for the evaluation of artistic performances
US7664246B2 (en) * 2006-01-13 2010-02-16 Microsoft Corporation Sorting speakers in a network-enabled conference
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的系统和方法
JP4371133B2 (ja) * 2006-09-12 2009-11-25 ソニー株式会社 映像切替装置及びその入力設定方法
US8208024B2 (en) * 2007-11-30 2012-06-26 Target Brands, Inc. Communication and surveillance system
CN101470533B (zh) * 2007-12-26 2011-02-16 宏正自动科技股份有限公司 多计算机切换系统及视频切换系统
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
JP5288827B2 (ja) * 2008-02-22 2013-09-11 キヤノン株式会社 表示処理装置及びその制御方法並びに表示処理システム、プログラム
US10229389B2 (en) * 2008-02-25 2019-03-12 International Business Machines Corporation System and method for managing community assets
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8316089B2 (en) * 2008-05-06 2012-11-20 Microsoft Corporation Techniques to manage media content for a multimedia conference event
US8284231B2 (en) * 2008-06-25 2012-10-09 Google Inc. Video selector
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
US8358328B2 (en) * 2008-11-20 2013-01-22 Cisco Technology, Inc. Multiple video camera processing for teleconferencing
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
GB0907870D0 (en) 2009-05-07 2009-06-24 Univ Catholique Louvain Systems and methods for the autonomous production of videos from multi-sensored data
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
EP2352312B1 (en) * 2009-12-03 2013-07-31 Oticon A/S A method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US9723260B2 (en) 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
US8395653B2 (en) 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
US8842161B2 (en) 2010-05-18 2014-09-23 Polycom, Inc. Videoconferencing system having adjunct camera for auto-framing and tracking
US8248448B2 (en) 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US9459754B2 (en) 2010-10-28 2016-10-04 Edupresent, Llc Interactive oral presentation display system
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
US8856212B1 (en) 2011-02-08 2014-10-07 Google Inc. Web-based configurable pipeline for media processing
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8681866B1 (en) 2011-04-28 2014-03-25 Google Inc. Method and apparatus for encoding video by downsampling frame resolution
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US9106787B1 (en) 2011-05-09 2015-08-11 Google Inc. Apparatus and method for media transmission bandwidth control using bandwidth estimation
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US8823765B2 (en) * 2011-09-30 2014-09-02 Verizon Patent And Licensing Inc. Method and apparatus for device peer resource pooling
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US8805158B2 (en) * 2012-02-08 2014-08-12 Nokia Corporation Video viewing angle selection
US9185429B1 (en) 2012-04-30 2015-11-10 Google Inc. Video encoding and decoding using un-equal error protection
CN102857732B (zh) * 2012-05-25 2015-12-09 华为技术有限公司 一种多画面视讯会议中的画面控制方法、设备及系统
US9083844B2 (en) * 2012-06-01 2015-07-14 Nintendo Co., Ltd. Computer-readable medium, information processing apparatus, information processing system and information processing method
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
US9129640B2 (en) * 2012-12-12 2015-09-08 Crowdflik, Inc. Collaborative digital video platform that enables synchronized capture, curation and editing of multiple user-generated videos
US9172740B1 (en) 2013-01-15 2015-10-27 Google Inc. Adjustable buffer remote access
US9311692B1 (en) 2013-01-25 2016-04-12 Google Inc. Scalable buffer remote access
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
US8957940B2 (en) 2013-03-11 2015-02-17 Cisco Technology, Inc. Utilizing a smart camera system for immersive telepresence
CN103237178B (zh) * 2013-03-26 2017-06-16 小米科技有限责任公司 切换视频画面的方法、装置和设备
US10373470B2 (en) 2013-04-29 2019-08-06 Intelliview Technologies, Inc. Object detection
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
CN103391403B (zh) * 2013-08-23 2017-08-25 北京奇艺世纪科技有限公司 一种实现多镜头视频拍摄的实时编辑方法及装置
US9418703B2 (en) 2013-10-09 2016-08-16 Mindset Systems Incorporated Method of and system for automatic compilation of crowdsourced digital media productions
EP3100464B1 (en) 2014-01-29 2020-11-18 Koninklijke KPN N.V. Establishing a streaming presentation of an event
US11831692B2 (en) 2014-02-06 2023-11-28 Bongo Learn, Inc. Asynchronous video communication integration system
US10191647B2 (en) 2014-02-06 2019-01-29 Edupresent Llc Collaborative group video production system
CN104935866B (zh) * 2014-03-19 2018-07-20 华为技术有限公司 实现视频会议的方法、合成设备和系统
CA2847707C (en) 2014-03-28 2021-03-30 Intelliview Technologies Inc. Leak detection
US10943357B2 (en) 2014-08-19 2021-03-09 Intelliview Technologies Inc. Video based indoor leak detection
CN107003600A (zh) 2014-09-15 2017-08-01 德米特里·戈里洛夫斯基 包括观察大场景的多个数字照相机的系统
CN104301780A (zh) * 2014-09-26 2015-01-21 四川长虹电器股份有限公司 智能电视上频繁切换视频播放的方法
EP3207682B1 (en) 2014-10-14 2019-07-31 Koninklijke KPN N.V. Managing concurrent streaming of media streams
US9693137B1 (en) 2014-11-17 2017-06-27 Audiohand Inc. Method for creating a customizable synchronized audio recording using audio signals from mobile recording devices
US10950140B2 (en) 2017-06-22 2021-03-16 Visyn Inc. Video practice systems and methods
WO2016112194A1 (en) * 2015-01-07 2016-07-14 Visyn Inc. System and method for visual-based training
US9819902B2 (en) 2015-03-19 2017-11-14 Microsoft Technology Licensing, Llc Proximate resource pooling in video/audio telecommunications
CN104954730B (zh) * 2015-05-29 2019-01-18 华为技术有限公司 一种播放视频的方法及装置
WO2017030985A1 (en) 2015-08-14 2017-02-23 Pcms Holdings, Inc. System and method for augmented reality multi-view telepresence
US10291845B2 (en) 2015-08-17 2019-05-14 Nokia Technologies Oy Method, apparatus, and computer program product for personalized depth of field omnidirectional video
US9930270B2 (en) 2015-10-15 2018-03-27 Microsoft Technology Licensing, Llc Methods and apparatuses for controlling video content displayed to a viewer
US9888174B2 (en) 2015-10-15 2018-02-06 Microsoft Technology Licensing, Llc Omnidirectional camera with movement detection
US10277858B2 (en) * 2015-10-29 2019-04-30 Microsoft Technology Licensing, Llc Tracking object of interest in an omnidirectional video
US10762712B2 (en) 2016-04-01 2020-09-01 Pcms Holdings, Inc. Apparatus and method for supporting interactive augmented reality functionalities
US10726270B2 (en) 2016-10-21 2020-07-28 Xinova, LLC Selecting media from mass social monitoring devices
JP2018170678A (ja) * 2017-03-30 2018-11-01 株式会社ライブ・アース ライブ映像処理システム、ライブ映像処理方法及びプログラム
WO2018226508A1 (en) 2017-06-09 2018-12-13 Pcms Holdings, Inc. Spatially faithful telepresence supporting varying geometries and moving users
US10891665B2 (en) 2018-04-16 2021-01-12 Edupresent Llc Reduced bias submission review system
CN110536097A (zh) * 2018-05-25 2019-12-03 中兴通讯股份有限公司 一种视频控制方法、视频会议终端和多点控制单元mcu
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN110248151B (zh) * 2018-11-20 2023-03-17 浙江大华技术股份有限公司 一种音视频合成的方法和设备
IT201900021399A1 (it) * 2019-11-18 2021-05-18 Telecom Italia Spa Metodo e sistema per lo stitching video
US20230343369A1 (en) * 2022-04-25 2023-10-26 AutoPod LLC Post-capture multi-camera editor from audio waveforms and camera layout
CN116668626B (zh) * 2023-08-02 2023-10-20 北京市应急指挥保障中心 一种多路视频预监方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69222479T2 (de) 1991-07-15 1998-04-09 Hitachi Ltd Telekonferenzendstellengerät
JPH0715711A (ja) 1993-06-21 1995-01-17 Canon Inc 発言者自動撮影装置
CA2148631C (en) * 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
US5508734A (en) 1994-07-27 1996-04-16 International Business Machines Corporation Method and apparatus for hemispheric imaging which emphasizes peripheral content
WO1996007177A1 (en) 1994-08-31 1996-03-07 Picturetel Corporation Apparatus and method for detecting speech in the presence of other sounds
FR2761562B1 (fr) * 1997-03-27 2004-08-27 France Telecom Systeme de visioconference
US6593956B1 (en) 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
JP2000270304A (ja) * 1999-03-17 2000-09-29 Nec Corp 多地点テレビ会議システム

Also Published As

Publication number Publication date
CN1248502C (zh) 2006-03-29
EP1352521A2 (en) 2003-10-15
WO2002049356A2 (en) 2002-06-20
HK1043493A2 (en) 2002-08-30
KR20040011443A (ko) 2004-02-05
AU2002235244A1 (en) 2002-06-24
WO2002049356A3 (en) 2002-11-28
US6577333B2 (en) 2003-06-10
BR0116089A (pt) 2003-12-23
KR100511226B1 (ko) 2005-08-30
US20020105598A1 (en) 2002-08-08
CN100474919C (zh) 2009-04-01
CN1479998A (zh) 2004-03-03
EP1352521B1 (en) 2013-10-16
CN1728815A (zh) 2006-02-01
JP2004516723A (ja) 2004-06-03

Similar Documents

Publication Publication Date Title
JP4219682B2 (ja) 自動マルチカメラ映像合成
JP6075884B2 (ja) 画像を捕捉する方法及び装置
US7113201B1 (en) Image processing apparatus
US8487956B2 (en) Communication terminal, system and display method to adaptively update a displayed image
US10264210B2 (en) Video processing apparatus, method, and system
CN103155548A (zh) 对用户接口进行控制来自动对焦地显示呼叫参与者
CN105376515B (zh) 用于视频通讯的通讯信息的呈现方法、装置及系统
TWI280481B (en) A device for dialog control and a method of communication between a user and an electric apparatus
US20080298796A1 (en) Camera configurable for autonomous operation
KR20020062325A (ko) 텔레비전 상에 디스플레이되는 가상 생물
JP4638183B2 (ja) 複数のカメラ出力の編集装置及びその編集方法
JP2005094713A (ja) データ表示システム、データ表示方法、プログラムおよび記録媒体
JPH05122689A (ja) テレビ会議システム
JP5151970B2 (ja) 通信端末装置、通信制御方法、通信制御プログラム
JP2003528548A (ja) ハンドフリー家庭用映像製作カムコーダ
CN115734007B (zh) 视频剪辑方法、装置、介质及视频处理系统
US20030160871A1 (en) Automatically switched camera system with indicator for notifying the next subject of the camera system
JP2005295431A (ja) 番組生成システム、コマンド生成装置、及び番組生成プログラム
EP0837588A2 (en) Teleconferencing system
Strubbe et al. UI for a videoconference camera
JP2006221253A (ja) 画像処理装置および画像処理プログラム
US20090167874A1 (en) Audio visual tracking with established environmental regions
JP2003125391A (ja) 画面切替出力制御装置及びその方法と、画面切替出力制御プログラム及びそのプログラムの記録媒体
JP2006064973A (ja) 制御システム
JP2666317B2 (ja) 多地点間映像会議システムの映像画面切替え方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060922

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061214

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees